راهنمای کامل هوش مصنوعی جمینای: از معرفی مدلها تا کاربردهای موبایلی
دربارهی هوش مصنوعی جمینای قصد داریم در این مطلب به معرفی کامل این ابزار بپردازیم. همچنین به اکثر سوالاتی که تا به امروز درباره این هوش مصنوعی در ذهنتان شکل گرفته تلاش میکنیم در این مقاله پاسخ دهیم.
گوگل در تلاش است تا با جمینای مجموعهای از مدلها، برنامهها و سرویسهای مولد هوش مصنوعی، یک موج جدید ایجاد کند. اما در حالی که به نظر می رسد Gemini از چند جنبه امیدوارکننده است، اما در برخی جنبهها همچنان ضعف دارد. برای فهمیدن دربارهی تمام نکات مهم پیرامون این هوش مصنوعی، این راهنمای مفید را گردآوری کردهایم که با انتشار مدلها، ویژگیها و اخبار جدید در مورد برنامههای آیندهی شرکت Google برای Gemini، آن را به احتمال زیاد در آینده بهروزرسانی خواهیم کرد.
جمینای چیست؟
هوش مصنوعی جمینای، نسل بعدی مدل GenAI به حساب میآید که مدتها وعده داده شده بود و توسط آزمایشگاههای تحقیقاتی هوش مصنوعی گوگل DeepMind و Google Research توسعه یافته است. این هوش مصنوعی در سه مدل موجود است:
- جمینای اولترا: مدل پرچمدار جمینای
- جمینای پرو: یک مدل جمینای سبک یا Light
- جمینای نانو: مدل «مقطر» کوچکتر که روی دستگاههای تلفن همراه مانند گوشی پیکسل ۸ پرو اجرا میشود.
همه مدلهای جمینای طوری آموزش داده شدهاند که «بهطور بومی چندوجهی» باشند؛ به عبارت دیگر، قادر به کار و استفاده بیشتر از کلمات هستند. آنها روی انواع صدا، تصاویر و ویدئوها، مجموعه بزرگی از پایگاه های کد و متن به زبانهای مختلف از قبل آموزش دیده و به خوبی تنظیم شده بودند. این امر جمینای را از مدل هایی مانند LaMDA خود گوگل که منحصراً روی دادههای متنی آموزش داده شده، متمایز می کند. LaMDA نمیتواند چیزی غیر از متن را بفهمد یا تولید کند (مثلاً مقالهها، پیشنویسهای ایمیل)، اما در مدلهای جمینای اینطور نیست.
تفاوت بین برنامههای جمینای و مدلهای جمینای چیست؟
گوگل، بار دیگر ثابت کرد که فاقد مهارت در برندسازی است؛ چرا که این شرکت از همان ابتدا مشخص نکرد که جمینای از برنامههای جمینای در وب و موبایل (بارد سابق) جدا و متمایز محسوب میشود. برنامههای جمینای صرفاً رابطی هستند که از طریق آن میتوان به برخی از مدلهای جمینای دسترسی داشت. به زبان سادهتر، شما باید آن را به عنوان یک کلاینت برای GenAI Google در نظر بگیرید.
اتفاقا برنامهها و مدلهای جمینای نیز به طور کامل مستقل از Imagen 2 محسوب میشوند؛ یک مدل متن به تصویر گوگل که در برخی از ابزارها و محیطهای توسعهدهنده این شرکت در دسترس است. نگران نباشید! شما تنها کسی نیستید که در این مورد گیج شدهاید!
هوش مصنوعی جمینای چه کاری میتواند انجام دهد؟
از آنجایی که مدلهای جمینای چندوجهی هستند، در تئوری میتوانند طیف وسیعی از وظایف چندوجهی را انجام دهند، از رونویسی گفتار گرفته تا زیرنویس کردن تصاویر و ویدیوها تا تولید آثار هنری. تعداد کمی از این قابلیتها هنوز به مرحله محصول رسیدهاند (در ادامه در مورد آن توضیح خواهیم داد)، اما گوگل همه آنها را – و بیشتر – در مقطعی در آیندهای نه چندان دور وعده میدهد. البته، پذیرفتن حرف این شرکت کمی سخت است! گوگل با عرضه اولیه Bard چندان مورد توجه قرار نگرفت و اخیر با ویدئویی که ظاهرا تواناییهای جمینای را نشان میدهد، در تلاش است تا مجدد به کانون توجه در این زمینهی به خصوص برگردد.
با این حال، با فرض این موضوع که گوگل کم و بیش در ادعاهای خود صادق است، در اینجا آنچه که سطوح مختلف جمینای میتوانند پس از رسیدن به پتانسیل کامل خود انجام دهند، آمده است:
جمینای اولترا (Gemini Ultra)
گوگل میگوید که جمینای اولترا – به لطف چندوجهی بودن آن – میتواند برای کمک به مواردی مانند تکالیف فیزیک، حل مسائل گام به گام در یک کاربرگ و اشاره به اشتباهات احتمالی در پاسخهای از قبل پر شده استفاده شود. این شرکت توضیح میدهد که جمینای اولترا همچنین میتواند برای کارهایی مانند شناسایی مقالات علمی مرتبط با یک مشکل خاص – استخراج اطلاعات از آن مقالات و بهروز رسانی نمودار، از ایجاد فرمولهای لازم برای ایجاد مجدد نمودار با دادههای جدیدتر استفاده شود.
همانطور که قبلا اشاره شد، جمینای اولترا از نظر فنی از تولید تصویر پشتیبانی میکند اما این قابلیت هنوز به نسخه تولید شده این مدل راه پیدا نکرده است. شاید به این دلیل که مکانیسم و فرایند، به مراتب پیچیدهتر از نحوه تولید تصاویر برنامههایی مانند ChatGPT محسوب میشود. جمینای بهجای درخواستهای خوراک به یک تولیدکننده تصویر (مانند DALL-E 3، در مورد ChatGPT)، تصاویر را به صورت «بومی» و بدون مرحلهای میانجی خروجی میدهد.
جمینای اولترا بهعنوان یک API از طریق Vertex AI، پلتفرم توسعهدهنده هوش مصنوعی کاملاً مدیریتشده گوگل، و AI Studio، ابزار مبتنی بر وب گوگل برای توسعهدهندگان برنامهها و پلتفرمها در دسترس است. همچنین برنامههای جمینای را تقویت میکند؛ اما نه رایگان! دسترسی به جمینای اولترا از طریق چیزی که گوگل آن را Gemini Advanced مینامد، مستلزم اشتراک در Google One AI Premium Plan با قیمت ۲۰ دلار در ماه است. طرح AI Premium همچنین جمینای را به حساب گستردهتر Google Workspace شما متصل میکند؛ ایمیلهای مختلف در Gmail، اسناد در Docs، ارائهها در Sheets و ضبطهای Google Meet. برای مثال، به منظور خلاصه کردن ایمیلها یا گرفتن یادداشتهای مختلف در طول تماس ویدیویی، جمینای به شدت مفید خواهد بود.
جمینای پرو (Gemini Pro)
گوگل بیان کرده که Gemini Pro در تواناییهای استدلال، برنامهریزی و درک خود نسبت به LaMDA بهبود یافته است. یک مطالعه مستقل توسط محققان Carnegie Mellon و BerriAI نشان داد که جمینای پرو در واقع بهتر از GPT-3.5 OpenAI در مدیریت زنجیره استدلال طولانیتر و پیچیدهتر محسوب میشود اما این مطالعه همچنین نشان داد که مانند تمام مدلهای زبان بزرگ، جمینای پرو به ویژه با مسائل ریاضی که شامل چندین رقم است، مبارزه میکند و کاربران نمونههای زیادی از استدلال و اشتباهات بد را پیدا کردهاند.
با این حال، پیشرفتهای وعده داده شده گوگل و اولین مورد به شکل Gemini 1.5 Pro ارائه شد. Gemini 1.5 Pro (در حال حاضر در پیش نمایش) که به عنوان جایگزینی طراحی شده، در بسیاری از زمینهها در مقایسه با نسخه قبلی خود بهبود یافته است، که شاید مهمترین آن در میزان دادههایی باشد که میتواند پردازش کند. Gemini 1.5 Pro میتواند (در پیشنمایش خصوصی محدود) حدود هفتصد هزار کلمه یا ۳۰ هزار خط کد را دریافت کند (۳۵ برابر مقداری که Gemini 1.0 Pro میتواند تحمل کند) و به متن محدود نمی شود. Gemini 1.5 Pro میتواند تا ۱۱ ساعت صدا یا یک ساعت ویدیو را به زبانهای مختلف، هرچند آهسته، تجزیه و تحلیل کند (به عنوان مثال، جستجوی صحنهای در یک ویدیوی یک ساعته ۳۰ ثانیه تا یک دقیقه پردازش طول میکشد).
Gemini Pro همچنین از طریق API در Vertex AI برای پذیرش متن به عنوان ورودی و تولید متن به عنوان خروجی در دسترس است. Gemini Pro Vision همچنین میتواند متن و تصاویر – از جمله عکسها و ویدیوها – را پردازش کند و متن را مطابق با مدل OpenAI GPT-4 با مدل Vision تولید کند.
در Vertex AI، توسعهدهندگان میتوانند هوش مصنوعی جمینای پرو را در زمینههای خاص سفارشی کنند و از موارد با استفاده از فرآیند تنظیم دقیق یا «زمینسازی» استفاده کنند. جمینای پرو همچنین میتواند به APIهای خارجی و شخص ثالث برای انجام اقدامات خاص متصل شود. در استودیوی هوش مصنوعی، جریانهای کاری برای ایجاد اعلانهای چت ساختاریافته با استفاده از جمینای پرو وجود دارد. توسعه دهندگان به هر دو نقطه پایانی Gemini Pro و Gemini Pro Vision دسترسی دارند و میتوانند دمای مدل را برای کنترل محدوده خلاقانه خروجی تنظیم کنند و مثالهایی را برای ارائه دستورالعملهای لحن و سبک ارائه دهند. همچنین توسعهدهندگان قادر هستند تنظیمات ایمنی را هم تعیین کنند.
جمینای نانو (Gemini Nano)
جمینای نانو نسخه بسیار کوچکتری از مدلهای جمینای پرو و اولترا محسوب میشود و به اندازه کافی کارآمد است که بهجای ارسال کار به سرور در جایی، به طور مستقیم روی برخی از تلفنها اجرا شود. تاکنون دو ویژگی در پیکسل ۸ پرو دارد: خلاصه در ضبط و پاسخ هوشمند در Gboard.
برنامه Recorder که به کاربران اجازه میدهد دکمهای را برای ضبط و رونویسی صدا فشار دهند، شامل خلاصهای از مکالمات، مصاحبهها، ارائهها و سایر قطعههای ضبطشده توسط جمینای است. کاربران حتی اگر سیگنال یا اتصال Wi-Fi در دسترس نداشته باشند، این خلاصهها را دریافت میکنند – و با اشاره به حریم خصوصی، هیچ دادهای از تلفن آنها خارج نمیشود.
جمینای نانو همچنین در Gboard، برنامه صفحه کلید Google، به عنوان پیش نمایش توسعه دهنده است. این برنامه در آنجا، قابلیتی به نام Smart Reply را تقویت میکند که به شما کمک میکند تا چیز بعدی را که میخواهید هنگام مکالمه در یک برنامه پیامرسانی بگویید، پیشنهاد دهید. گوگل میگوید این ویژگی در ابتدا فقط با واتساپ کار میکند، اما در سال ۲۰۲۴ به اپلیکیشنهای بیشتری خواهد آمد.
آیا Gemini بهتر از GPT-4 OpenAI است؟
گوگل چندین بار برتری هوش مصنوعی جمینای را در معیارهای خود تبلیغ کرده و همچنین ادعا کرده که جمینای اولترا در ۳۰ معیار از ۳۲ معیار آکادمیک پرکاربرد مورد استفاده در تحقیق و توسعه مدلهای زبانی بزرگ، از نتایج پیشرفته فعلی فراتر رفته است. این شرکت میگوید که جمینای پرو، در عین حال، در کارهایی مانند خلاصه کردن محتوا، طوفان فکری و نگارش متن از GPT-3.5 توانایی بیشتری دارد.
با تمام این تفاسیر با کنار گذاشتن این سوال که آیا معیارها واقعاً مدل بهتری را نشان میدهند، امتیازاتی که گوگل به آن اشاره میکند به نظر میرسد تا حدی بهتر از مدلهای متناظر OpenAI است. و – همانطور که قبلاً ذکر شد – برخی برداشتهای اولیه عالی نبودند؛ چرا که کاربران و دانشگاهیان اشاره میکنند که جمینای پرو تمایل دارد حقایق اساسی را اشتباه بگیرد، با ترجمهها مبارزه میکند و پیشنهادهای کدنویسی ضعیفی را ارائه میدهد.
قیمت Gemini چقدر خواهد بود؟
جمینای پرو برای استفاده در برنامههای جمینای و در حال حاضر، AI Studio و Vertex AI رایگان محسوب میشود. با این حال، هنگامی که جمینای پرو از پیشنمایش در Vertex خارج میشود، قیمت این مدل ۰.۰۰۲۵ دلار برای هر کاراکتر خواهد بود در حالی که هزینه خروجی ۰.۰۰۰۰۵دلار برای هر کاراکتر خواهد بود. مشتریان Vertex به ازای هر ۱۰۰۰ کاراکتر (حدود ۱۴۰ تا ۲۵۰ کلمه) و در مورد مدلهایی مانند Gemini Pro Vision، به ازای هر تصویر ۰.۰۰۲۵ دلار پرداخت می کنند.
فرض کنید یک مقاله ۵۰۰ کلمهای شامل ۲۰۰۰ کاراکتر است. خلاصه کردن آن مقاله با جمینای پرو ۵ دلار هزینه دارد. در همین حال، تولید مقالهای با طول مشابه ۰.۱ دلار هزینه دارد. قیمت اولترا هنوز اعلام نشده است.
کجا می توانید Gemini را امتحان کنید؟
باید به این سوال در قالب دو بخش توضیح داد:
جمینای پرو
ساده ترین مکان برای تجربه جمینای پرو در برنامه های جمینای است. دو مدل پرو و اولترا به پرس و جوها به زبانهای مختلفی پاسخ میدهند. جمینای پرو و اولترا نیز به صورت پیش نمایش در Vertex AI از طریق API قابل دسترسی هستند. API در حال حاضر برای استفاده در برخی محدودههای مشخص رایگان بوده و از مناطق خاصی از جمله اروپا و همچنین ویژگیهایی مانند عملکرد چت و فیلتر کردن پشتیبانی میکند.
در جای دیگر، جمینای پرو و اولترا را میتوانید در AI Studio پیدا کنید. با استفاده از این سرویس، توسعهدهندگان میتوانند درخواستها و چتباتهای مبتنی بر جمینای را تکرار کنند و سپس کلیدهای API را برای استفاده از آنها در برنامههای خود دریافت کنند – یا کد را به یک IDE با ویژگیهای کاملتر صادر کنند.
Duet AI for Developers، مجموعه ابزارهای کمکی مبتنی بر هوش مصنوعی گوگل برای تکمیل و تولید کد، اکنون از مدلهای جمینای استفاده میکند و گوگل مدلهای جمینای را به ابزارهای توسعهدهنده خود برای پلتفرم توسعهدهندگان موبایل Chrome و Firebase آورده است.
جمینای نانو
هوش مصنوعی جمینای نانو روی گوشی پیکسل ۸ پرو وجود دارد و در آینده برای دستگاههای دیگر نیز عرضه خواهد شد. توسعهدهندگانی که علاقهمند به گنجاندن این مدل در برنامههای اندرویدی خود هستند، میتوانند برای یک نگاه کوتاه ثبتنام کنند.
آیا Gemini به آیفون میآید؟
ممکن است! طبق گزارشها، اپل و گوگل در حال مذاکره برای استفاده از جمینای برای تعدادی از ویژگیها هستند که در آپدیت iOS در اواخر سال جاری گنجانده میشوند. هیچ چیز قطعی نیست؛ چرا که طبق گزارشها، اپل نیز در حال مذاکره با OpenAI بوده و روی توسعه قابلیتهای GenAI خود کار میکند.
نحوه فعالسازی Gemini روی گوشی اندروید
برای شروع استفاده از برنامه جمینای، باید آن را از گوگل پلی دانلود کنید. اگر برنامه را جستجو کردهاید اما آن را ندیدید، هنوز در منطقه شما در دسترس نیست، اما باید به زودی ارائه شود.
اگر نمیتوانید برنامه را نصب کنید، همیشه میتوانید به وب سایت Gemini بروید و برنامه را در آنجا تست کنید. اما، اگر بتوانید برنامه را نصب کنید، متوجه خواهید شد که جمینای همچنان برای کارهای خاصی به دستیار گوگل نیاز دارد.
برای استفاده از جمینای در اندروید، به تلفنی با حداقل ۴ گیگابایت رم و دارای سیستم عامل اندروید ۱۲ و بالاتر نیاز دارید. همچنین باید برنامه Google را به روز داشته باشید. اگر این کار را نکنید، جمینای به شما یادآوری میکند که آن را به روز کنید. برنامه جمینای با استفاده از حساب گوگل مدیریت شده توسط حساب Google Workspace for Education برای خردسالان یا Family Link در دسترس نخواهد بود.
هنگامی که جمینای را انتخاب کردید، در واقع دستیار گوگل شما را بر عهده خواهد گرفت. دفعه بعد که بگویید Hey Google یا از روش ترجیحی خود برای فعال کردن آن استفاده کنید، جمینای خواهد بود که به شما سلام میکند. برای شروع استفاده از جمینای باید مراحل زیر را انجام دهید:
۱. برنامه Google Gemini را باز کنید.
۲. روی Get Started ضربه بزنید.
۳. پس از خواندن نحوه کمک Google Gemini، روی More ضربه بزنید.
۴. در صفحه زیر، موافقم را انتخاب کنید.
۵. روی جایی که میگوید تایپ، صحبت یا اشتراکگذاری عکس ضربه بزنید.
با اپلیکیشن جمینای چه کاری میتوانید انجام دهید؟
شما میتوانید سوالاتی مانند ساعت یک کشور خاص یا آب و هوای هفته را بپرسید. به طور کلی برنامه میتواند بیشتر کارهایی را که قبلا با Google Assistant انجام دادهاید را به راحتی انجام دهد. با این حال، میتوانید ویژگیهای Assistant را در جمینای فعال/غیرفعال و مدیریت کنید.
۱. روی تصویر کوچک نمایه خود در گوشه بالا ضربه بزنید.
۲. روی تنظیمات ضربه بزنید.
۳. روی ویژگیهای دستیار گوگل در جمینای ضربه بزنید.
۴. اگر ویژگی قبلاً روشن نشده، آن را روشن کنید. همچنین میتوانید ویژگیهای فردی را در این منو مدیریت کنید.
با این حال، جمینای به تنهایی بسیار مفید بوده و کارهای زیادی را میتوانید انجام دهید، مانند جستجوی آن چه در صفحه شما است یا فراخوانی جستجو با استفاده از عکسهای گالری خود. برای جستجو با تصاویر، روی نماد دوربین ضربه بزنید تا تصویری از تلفن خود آپلود کرده تا اطلاعات بیشتری را دریافت کنید. من از عکس حیوان خانگی خود استفاده کردم و جمینای این اطلاعات را به من داد.
دکمه پخش و مکث را در سمت راست بالای متن میبینید تا جمینای بتواند متن را برای شما بخواند؛ گزینهای عالی برای زمانی که چشمان شما خیلی خسته است. جمینای نمیتواند با تجزیه و تحلیل، مکان هر عکس را به درستی شناسایی کند. برای تعیین این موضوع که عکس کجا گرفته شده است، از شما اطلاعات بیشتری را طلب میکند.
همچنین می توانید بپرسید که در یک شهر خاص باید از چه مکانهایی دیدن کنید. اما متوجه خواهید شد که در برخی موارد، تصاویر را به شما نشان می هد و در برخی دیگر، اینطور نیست.
گوگل جمینای میتواند یک برنامه تمیز کردن هفت روزه ایجاد کند، کدنویسی کند، تایمر تنظیم کند و تماس یا نامههای پوششی را هم برقرار کند. اگر تمایلی به خواندن یک تکه متن بزرگ ندارید، آن را در جمینای کپی و جایگذاری کنید و خلاصه کوتاهتری را دریافت کنید. همچنین پیشنهادهایی را که میتوانید از آنها استفاده کنید در بالای صفحه اصلی مشاهده خواهید کرد. همچنین این گزینه وجود دارد که از یک شی عکس بگیرید و آن را اضافه کنید که میپرسد چیست.
این هوش مصنوعی هیجان انگیز نه تنها متن را نیز ترجمه میکند، بلکه منبع متن را نیز به شما میگوید. برای مثال، اگر از کتابی به زبان دیگری عکس بگیرید، آن را به زبان دلخواه شما ترجمه میکند و به شما میگوید که متن از کجا گرفته شده است. جمینای میتواند دلیل هم داشته باشد. به عنوان مثال، اگر از یک بطری شیشهای عکس بگیرید و از آن بپرسید که شکسته میشود، به شما میگوید که شکستن بطری به عوامل مختلفی بستگی دارد، مانند نوع شیشه، ارتفاعی که از آن رها شده و سطحی که از آن شیشه را رها میکنید.
برای استفاده از جمینای نیازی به داشتن بهترین تلفن اندرویدی ندارید؛ چرا که این گوشی روی مدلهای دارای اندروید ۱۲ کار میکند. هنگام استفاده از جمینای مراقب باشید چون که میتواند اطلاعات اشتباه ایجاد کند. اگر با Gemini Advanced کار کنید، به ویژگیهای بیشتری دسترسی خواهید داشت تا به شما در انجام کارهای پیچیدهتر کمک کند. با این حال دقت کنید که دو ماه اول Gemini Advanced رایگان بوده و در ماه بعد از آن باید ۲۰ دلار به طور ماهانه پرداخت کنید.
همچنین شایان ذکر است که وقتی جمینای فعال است، نماد برنامه Assistant به نماد Gemini تغییر شکل میدهد و به نظر میرسد که شما دو نسخه از یک برنامه را دارید.
برخی از کارها نیز وجود دارد که هوش مصنوعی جمینای نمیتواند با دستیار انجام دهد، از جمله روالها، تعامل با برنامههای رسانه، تنظیم یادآورها و حالت مترجم. با این حال، گوگل گفته که ویژگیهای دستیار بیشتری در آینده به جمینای میآیند.
منبع: techcrunch
ترجمه: دیجیکالا