در دنیای پرشتاب فناوری، گوگل با معرفی هوش مصنوعی چندوجهی خود، به نام جمینای (Google Gemini)، تحول جدیدی را رقم زدهاست. این فناوری در لغت فارسی به اشتباه با نامهایی “جمنی” و همچنین “جمینی” نیز مصطلح هستند. گوگل جمینای که پیشتر با نام گوگل بارد (Google Bard) شناخته میشد، گامی بلند در مسیر توسعه چتباتهای هوشمند است که قادر به شبیهسازی مکالمات انسانی با دقت نسبتاً بالایی است. این فناوری نهتنها در تکمیل جستجوهای گوگل موثر است، بلکه در وبسایتها، پلتفرمهای پیامرسان و برنامههای کاربردی نیز جای خود را پیدا کرده و توانایی پاسخگویی به سوالات کاربران را با زبان طبیعی و بدون واسطه به نمایش میگذارد.Gemini با بهرهگیری از پردازش زبان طبیعی (NLP) و یادگیری ماشین، به مجموعهای از مدل های زبانی بزرگ (LLM) تبدیل شدهاست که نه تنها زبان و متن، بلکه صدا، تصویر و حتی ویدیو را نیز درک میکند. این مدل هوش مصنوعی چندوجهی که توسط واحد تجاری DeepMind شرکت آلفابت ساخته شدهاست، اخیراً معرفی شد و به سرعت جایگاه خود را بهعنوان یکی از پیشرفتهترین مدل LLM گوگل تثبیت کرد. جمینای با قابلیتهای خود در درک و پردازش زبان، استدلال چندوجهی و تجزیه و تحلیل تصاویر، نویدبخش آیندهای روشن در هوش مصنوعی است..
یکی از ویژگیهای برجسته جمینای، توانایی آن در تحلیل و فهم انواع مختلف دادهها است. این مدل میتواند تصاویری مانند نمودارها و شکلها را بدون نیاز به ابزارهای خارجی در حد قابل قبولی تحلیل کند و همچنین از قابلیتهای چندزبانه گستردهای برخوردار است که امکان ترجمه و عملکرد در زبانهای مختلف را فراهم میکند. با بهرهگیری از تکنیکهای شبکه عصبی و معماری ترانسفورمر، Gemini قادر به پردازش توالیهای طولانی از دادهها بوده و به کاربران تجربهای روان و دقیق ارائه میدهد هر چند که به گفتهی برخی کاربران این مدل ها در مقایسه با دیگر مدل های شرکتهایی از جمله OpenAI و Anthropic عملکرد ضعیفتری دارند.
گوگل جمینای با هدف کاهش سوگیری و محتوای سمی (هر چند کم)، تحت آزمایشهای ایمنی گستردهای قرار گرفته و به گونهای طراحی شدهاست که در انواع کاربردها و محیطها عملکرد بهتری را داشته باشد. از کسب و کارها گرفته تا کاربران عادی، همه میتوانند از این فناوری پیشرفته بهرهمند شوند و تجربهای نوین از تعامل با هوش مصنوعی داشته باشند. در این مقاله، به بررسی جامع ویژگیها، کاربردها و مزایای Gemini خواهیم پرداخت و نشان خواهیم داد که چگونه این ابزار میتواند زندگی ما را دگرگون کند.
فهرست مطالب
- گوگل جمینای (Google Gemini) چیست؟ (قبلا بارد نامیده میشد)
- گوگل جمینای چگونه کار می کند؟
- گوگل بارد (که اکنون با نام گوگل جمینای شناخته میشود) چه زمانی برای اولین بار منتشر شد؟
- چرا گوگل نام Bard را به Gemini تغییر داد و این چه زمانی اتفاق افتاد؟
- گوگل جمینای برای چه کسانی قابل استفاده است؟
- آیا Gemini رایگان است؟
- گوگل جمینای برای چه کارهایی قابل استفاده است؟ موارد استفاده و کاربردها
- Google Gemini چه محدودیتهایی دارد؟
- در مورد جمینای چه نگرانیهایی وجود دارد؟
- آیا تولید تصویر در Gemini در دسترس است؟
- Gemini در مقابل ChatGPT، GPT-4 و GPT-4o
- گوگل جمینای در مقابل ChatGPT
- جایگزینهای گوگل Gemini
- تاریخچه و آینده جمینای
- بهروزرسانیهای اخیر Google Gemini
گوگل جمینای (Google Gemini) چیست؟ (قبلا بارد نامیده میشد)
گوگل جمینای (Google Gemini) که قبلا با نام گوگل بارد (Google Bard) شناخته می شد، یک ابزار چت بات هوش مصنوعی (AI) میباشد که توسط گوگل برای شبیه سازی مکالمات انسانی با استفاده از پردازش زبان طبیعی (NLP) و یادگیری ماشین طراحی شدهاست. جمینای علاوه بر تکمیل جستجوی گوگل ، میتواند در وبسایتها، پلتفرمهای پیامرسان یا برنامههای کاربردی ادغام شود تا به سوالات کاربران به طور واقعگرایانه و با زبان طبیعی پاسخ ارائه دهد.

گوگل Gemini مجموعهای از مدل های زبانی بزرگ (LLM) هوش مصنوعی چندوجهی (Multimodal AI) است که قابلیتهایی در درک زبان، صدا، کد و ویدیو دارد.
نسخه Gemini 1.0 در تاریخ 15 آذر 1402 معرفی شد و توسط واحد تجاری DeepMind شرکت آلفابت، که بر روی تحقیق و توسعه هوش مصنوعی پیشرفته تمرکز دارد، ساخته شد. سرگئی برین (Sergey Brin)، یکی از بنیانگذاران گوگل ، در کنار سایر کارکنان گوگل ، در توسعه مدل های LLM جمینای نقش داشتهاست.
در زمان انتشار، Gemini پیشرفتهترین مجموعه مدل های LLM در گوگل بود که پیش از تغییر نام بارد، آن را پشتیبانی میکرد و جایگزین مدل زبان Pathways (Palm 2) این شرکت شد. همانطور که در مورد Palm 2 وجود داشت، جمینای برای ارائه قابلیتهای هوش مصنوعی مولد در چندین فناوری گوگل ادغام شده بود.
جمینای قابلیتهای پردازش زبان طبیعی (NLP) را یکپارچه میکند که امکان درک و پردازش زبان را فراهم میکند. Gemini همچنین برای درک پرسشهای ورودی و همچنین دادهها استفاده میشود. این مدل قادر به درک و تشخیص تصاویر است و به آن امکان میدهد تصاویر پیچیده مانند نمودارها و شکلها را بدون نیاز به تشخیص اپتیکی کاراکتر (OCR) خارجی تجزیه و تحلیل کند. همچنین دارای قابلیتهای چندزبانه گستردهای برای ترجمه و عملکرد در زبانهای مختلف میباشد.
پرامپت نویسی : چگونه هوش مصنوعی را به بردهی خود تبدیل کنیم!
برخلاف مدل های هوش مصنوعی قبلی گوگل ، جمینای بهطور ذاتی چندوجهی است، به این معنی که روی مجموعه دادههایی که چندین نوع داده را در بر میگیرد، آموزش دیدهاست. به عنوان یک مدل چندوجهی، Gemini امکان استدلال چندوجهی را فراهم میکند. این بدان معناست که جمینای میتواند در توالی انواع دادههای ورودی مختلف، از جمله صدا، تصاویر و متن، استدلال کند. برای مثال، Gemini میتواند یادداشتهای دستنویس، نمودارها و دیاگرامها را برای حل مسائل پیچیده درک کند. معماری جمینای از دریافت مستقیم متن، تصاویر، شکل موج صدا و فریمهای ویدیویی به عنوان توالیهای درهم آمیخته پشتیبانی میکند.
گوگل جمینای چگونه کار می کند؟
Gemini با آموزش اولیه روی حجم عظیمی از داده کار می کند. پس از آموزش، این مدل از چندین تکنیک شبکه عصبی برای درک محتوا، پاسخ به سوالات، تولید متن و خروجی استفاده می کند.
به طور خاص، مدل های LLM جمینای از معماری شبکه عصبی مبتنی بر مدل ترانسفورمر استفاده میکنند. معماری جمینای برای پردازش توالیهای طولانی زمینه در انواع مختلف دادهها، از جمله متن، صدا و تصویر، تقویت شدهاست. DeepMind گوگل از مکانیزمهای توجه (Attention) کارآمد در کدگشای ترانسفورماتور برای کمک به مدل ها در پردازش محتواهای طولانی در سراسر حالتهای مختلف استفاده میکند.
مدل های Gemini روی مجموعه دادههای چندوجهی و چندزبانه متنوعی از متن، تصاویر، صدا و ویدیو با DeepMind گوگل با استفاده از فیلترینگ پیشرفته داده برای بهینهسازی آموزش، آموزش داده شدهاند. همانطور که مدل های مختلف جمینای برای پشتیبانی از سرویسهای خاص گوگل مستقر میشوند، فرآیندی از تنظیم دقیق هدفمند وجود دارد که میتواند برای بهینهسازی بیشتر یک مدل برای یک مورد استفاده بکار رود. در طول مراحل آموزش و استنتاج، جمینای از استفاده از آخرین تراشههای واحد پردازش تنسور (TPU) گوگل ، TPU v5، بهره میبرد که شتابدهندههای هوش مصنوعی سفارشی بهینهسازیشدهای برای آموزش و استقرار مدل های بزرگ هستند.
یکی از چالشهای کلیدی برای مدل های LLM، خطر سوگیری و محتوای بالقوهی سمی است. طبق گفته گوگل ، جمینای تحت آزمایشهای ایمنی گسترده و کاهش خطرات مانند سوگیری و سمیت قرار گرفتهاست تا به ارائه درجهای از ایمنی LLM کمک کند. برای اطمینان بیشتر از اینکه Gemini به درستی کار میکند، مدل ها در برابر معیارهای علمی در حوزههای زبان، تصویر، صدا، ویدیو و کد مورد آزمایش قرار گرفتند. گوگل به عموم مردم اطمینان دادهاست که به لیستی از اصول هوش مصنوعی پایبند است.
در زمان راهاندازی در 15 آذر 1402، اعلام شد که جمینای از مجموعهای از مدل های مختلف با اندازههای متفاوت تشکیل شدهاست که هر کدام برای مجموعه خاصی از موارد استفاده و محیطهای استقرار طراحی شدهاند. مدل Ultra پیشرفتهترین مدلیست که برای کارهای بسیار پیچیده طراحی شدهاست.
- عملکرد: مدل Pro برای ارائه بهترین عملکرد ممکن در طیف گسترده ای از وظایف، از جمله تولید متن، ترجمه زبان، نوشتن انواع مختلف محتوای خلاقانه و پاسخ به سوالات شما به روشی آموزنده، طراحی شدهاست. این مدل از معماری و فناوریهای پیشرفتهای بهره میبرد که به آن امکان میدهد پردازشهای پیچیده را با سرعت و کارآمد بالا انجام دهد.
- استقرار در مقیاس: مدل Pro به گونهای طراحی شدهاست که به راحتی در طیف وسیعی از برنامهها و خدمات، از جمله برنامههای وب، برنامههای تلفن همراه و محصولات داخلی شرکت، مستقر شود. این مدل میتواند حجم بالایی از درخواستها را به طور همزمان بدون افت عملکرد پردازش کند.
از 22 آذر 1402، گوگل دسترسی به جمینای پرو (Gemini Pro) را در Google Cloud Vertex AI و Google AI Studio فعال کرد. برای کد، از نسخهای از Gemini پرو برای قدرت بخشیدن به فناوری کدگذاری هوش مصنوعی مولد Google AlphaCode 2 استفاده میشود.
مدل Nano برای موارد استفاده دستگاهی هدف قرار گرفتهاست. برخلاف مدل های Pro و Ultra که برای استقرار در سرورهای قدرتمند طراحی شدهاند، مدل Nano به گونهای بهینهسازی شدهاست که با منابع محاسباتی محدود دستگاههای تلفن همراه کار کند. این امر به لطف چندین عامل، از جمله اندازه کوچکتر مدل، نیازهای پردازشی کمتر و غیره محقق شدهاست. دو نسخه مختلف از جمینای نانو وجود دارد: نانو-1 یک مدل 1.8 میلیارد پارامتری میباشد، در حالی که نانو-2 یک مدل 3.25 میلیارد پارامتری است. از جمله مواردی که نانو در آن تعبیه شدهاست، گوشی هوشمند Google Pixel 8 Pro است.
گوگل بارد (که اکنون با نام گوگل جمینای شناخته میشود) چه زمانی برای اولین بار منتشر شد؟
گوگل برای اولین بار در تاریخ 17 بهمن 1401 از Bard، چت بات مبتنی بر هوش مصنوعی خود، با تاریخ انتشار نامشخص رونمایی کرد. Google در تاریخ 1 فروردین 1402 با دعوت کاربران به لیست انتظار، دسترسی به بارد را باز کرد. در نهایت در ۱۰ اردیبهشت 1402، گوگل لیست انتظار را حذف کرد و بارد را در بیش از ۱۸۰ کشور و منطقه در دسترس قرار داد. تقریباً یک سال پس از اعلام اولیه، نام Bard به Gemini تغییر یافت.
بسیاری بر این باور بودند که گوگل تحت موفقیتهای خارقالعادهی و پوشش مثبت رسانهای چتبات ChatGPT، بارد را زودتر از موعد عرضه کردهاست. برای مثال، در یک نمایش زنده توسط گوگل و مدیرعامل الفابت، ساندار پیچای (Sundar Pichai)، بارد به یک سؤال پرسیده شده، پاسخ اشتباهی داد.
در این دمو، کاربری از بارد پرسید: “چه اکتشافات جدیدی از تلسکوپ فضایی جیمز وب را می توانم به فرزند ۹ سالهام بگویم؟” در پاسخ بارد، به این موضوع اشاره شد که این تلسکوپ “اولین عکسهای یک سیاره در خارج از منظومه شمسی ما را ثبت کردهاست.” اخترشناسان به سرعت در رسانههای اجتماعی به اشتباهِ بارد اشاره کردند؛ زیرا اولین تصویر از یک سیاره فراخورشیدی در سال ۲۰۰۴ توسط یک رصدخانه زمینی گرفته شده بود. روز بعد، گوگل ۱۰۰ میلیارد دلار از ارزش بازار خود را به دلیل این اشتباه شرم آور از دست داد.
چرا گوگل نام Bard را به Gemini تغییر داد و این چه زمانی اتفاق افتاد؟
در تاریخ 19 بهمن 1402 نام بارد به جمینای تغییر پیدا کرد. در واقع، جمینای همان LLM (مدل زبان بزرگ) پشتیبان Bard بود. برخی بر این باورند که تغییر نام این پلتفرم به جمینای، شاید برای دور کردن توجه از لقب بارد و انتقاداتی که این چتبات در زمان انتشار اولیه با آن مواجه شد، انجام شدهاست. همچنین این تغییر باعث سادهسازی تلاشهای هوش مصنوعی گوگل و تمرکز بر موفقیت LLM جمینای شد.
تغییر نام از نظر بازاریابی نیز منطقی بود، زیرا گوگل قصد دارد خدمات هوش مصنوعی خود را گسترش دهد. این تغییر، روشی برای گوگل است تا آگاهی از مدل های LLM پیشرفتهی خود را در شرایطی که روند همهگیری (دموکراتیزه شدن) و پیشرفت هوش مصنوعی همچنان با سرعت در حال وقوع است، افزایش دهد.
گوگل جمینای برای چه کسانی قابل استفاده است؟
دسترسی به Gemini در سراسر جهان به طور گسترده وجود دارد. در زمان نگارش این مقاله، Gemini Pro در بیش از ۲۳۰ کشور و منطقه در دسترس میباشد، در حالی که Gemini Advanced در بیش از ۱۵۰ کشور قابل استفاده است. با این حال، محدودیتهای سنی برای رعایت قوانین و مقرراتی که برای نظارت بر هوش مصنوعی وجود دارد، اعمال شدهاست.
کاربران برای استفاده از جمینای باید حداقل ۱۸ سال سن و یک حساب کاربری شخصی گوگل داشته باشند. با این حال، محدودیتهای سنی برای وباپلیکیشن جمینای متفاوت است. کاربران در اروپا باید 18 سال یا بالاتر داشته باشند. در سایر کشورهایی که این پلتفرم در دسترس میباشد، حداقل سن ۱۳ سال است، مگر اینکه قوانین محلی چیز دیگری را مشخص کرده باشند. همچنین، کاربران زیر ۱۸ سال فقط میتوانند از وباپلیکیشن جمینای استفاده کنند.
آیا Gemini رایگان است؟
زمانی که بارد در دسترس قرار گرفت، گوگل هیچ نشانهای مبنی بر پولی بودن آن ارائه نکرد. گوگل سابقهای در قبال دریافت هزینه از کاربران برای سرویسها ندارد، به جز استفاده سازمانی از Google Cloud. تصور بر این بود که چتبات در موتور جستجوی اصلی گوگل ادغام میشود و بنابراین استفاده از آن رایگان خواهد بود.
پس از تغییر نام Bard به Gemini در تاریخ 19 بهمن 1402، گوگل علاوه بر وباپلیکیشن رایگان، یک ردیف پولی نیز معرفی کرد. در حال حاضر، استفاده از نسخههای Pro و Nano با ثبتنام رایگان انجام میشود. با این حال، کاربران تنها از طریق گزینه Gemini Advanced به مبلغ ماهیانه ۲۰ دلار میتوانند به نسخه Ultra دسترسی پیدا کنند. کاربران از طریق اشتراک Google One AI Premium برای ثبتنام در Gemini Advanced اقدام میکنند که شامل ویژگیهای Google Workspace و ۲ ترابایت فضای ذخیرهسازی نیز میشود.
گوگل جمینای برای چه کارهایی قابل استفاده است؟ موارد استفاده و کاربردها
مدل های گوگل جمینای به روشهای مختلفی از جمله درک متن، تصویر، صدا و ویدیو مورد استفاده قرار میگیرند. ماهیت چندوجهی Gemini همچنین این امکان را میدهد که این انواع مختلف ورودی برای تولید خروجی ترکیب شوند.
موارد استفاده
کسب و کارها میتوانند از Gemini برای انجام کارهای مختلفی از جمله موارد زیر استفاده کنند:
- خلاصه سازی متن: مدل های جمینای میتوانند محتواها را از انواع مختلفی از دادهها خلاصه کنند.
- تولید متن: جمینای میتواند بر اساس پرامپتهای کاربر، متن تولید کند. این متن همچنین میتواند توسط یک رابط چت بات پرسش و پاسخ هدایت شود.
- ترجمه متن: مدل های جمینای قابلیتهای چندزبانهی گستردهای دارند و امکان ترجمه و درک بیش از ۱۰۰ زبان را فراهم میکنند. لازم به ذکر است که این مدل ها از زبان فارسی نیز پشتیبانی میکنند.
- درک تصویر: Gemini میتواند تصاویر پیچیده مانند شکلها، جداول و نمودارها را بدون نیاز به ابزارهای OCR خارجی تجزیه و تحلیل کند. این قابلیت برای شرح تصویر و قابلیتهای پرسش و پاسخ تصویری قابل استفادهاست.
- پردازش صدا: جمینای از تشخیص گفتار به متن در بیش از ۱۰۰ زبان و همچنین ترجمه صوتی پشتیبانی میکند.
- درک ویدیو: Gemini میتواند فریمهای کلیپ ویدیویی را پردازش و درک کند تا به سؤالات پاسخ دهد و توضیحات مرتبطی را ایجاد کند.
- استدلال چندوجهی: یکی از نقاط قوت اصلی جمینای استفاده از استدلال هوش مصنوعی چندوجهی است، که در آن انواع مختلف دادهها میتوانند برای یک درخواست و پرامپت ترکیب شوند تا خروجی تولید کنند.
- تحلیل و تولید کد: Gemini میتواند کد را در زبانهای برنامهنویسی محبوبی مانند پایتون، جاوا، ++C و Go درک، توضیح و تولید کند.
کاربردها
گوگل ، جمینای را به عنوان یک مدل پایه برای ادغام گسترده در سراسر خدمات مختلف گوگل توسعه دادهاست. همچنین این ابزار برای توسعه دهندگان به منظور استفاده در ساخت برنامههای کاربردی خود در دسترس است. برخی از برنامههایی که از Gemini استفاده میکنند عبارتند از:
- AlphaCode 2: ابزار تولید کد AlphaCode 2 که برای واحد تجاری دیپ مایندِ (DeepMind) گوگل است، از یک نسخه سفارشیشده از Gemini Pro استفاده میکند.
- گوگل پیکسل: گوشی هوشمند Pixel 8 Pro ساخت گوگل ، اولین دستگاهی است که برای اجرای Gemini Nano طراحی شدهاست. جمینی ویژگیهای جدیدی را در برنامههای موجود گوگل فعال میکند، مانند خلاصهسازی در برنامه ضبط صدا و پاسخ هوشمند در صفحه کلید Gboard برای برنامههای پیامرسان.
- اندروید ۱۴: گوشی هوشمند Pixel 8 Pro اولین گوشی هوشمند اندرویدی است که از مزایای Gemini بهرهمند میشود. توسعهدهندگان اندروید میتوانند از طریق قابلیت سیستم AICore با Gemini Nano کار کنند.
- Vertex AI: سرویس Vertex AI گوگل کلاود (Google Cloud)، که مدل های پایهای را در اختیار توسعهدهندگان برای ساخت برنامههای کاربردی قرار میدهد، همچنین دسترسی به Gemini Pro را فراهم میکند.
- Google AI Studio: توسعهدهندگان میتوانند با استفاده از ابزار مبتنی بر وب Google AI Studio، نمونه اولیه و برنامههای کاربردی با Gemini بسازند.
- جستجو: گوگل در حال آزمایش استفاده از جمینای در “تجربهی جستجوی مولد” (Search Generative Experience) خود برای کاهش تأخیر و بهبود کیفیت است.
Google Gemini چه محدودیتهایی دارد؟
چند محدودیت ممکن است باعث تردید کاربران در استفاده از این سرویس شود. این موارد عبارتند از:
- دادههای آموزشی: مانند همه چتباتهای هوش مصنوعی ، جمینای باید یاد بگیرد که پاسخهای صحیحی ارائه دهد. برای انجام این کار، مدل ها باید با اطلاعات صحیحی آموزش داده شوند که نادرست یا گمراهکننده نباشند. با این حال، آنها همچنین باید قادر به شناسایی اطلاعات نادرست یا گمراهکننده در صورت مواجهه با آنها باشند که جمینای در مقایسه با دیگر ابزارهای هوش مصنوعی از عملکرد نسبتاً ضعیفی در این زمینه برخوردار است. با توجه به سابقهی گوگل در همراهی با جریان بیداری (woke)، به نظر میرسد دادههای گوگل نیز دارای سوگیریهای مختلف و گمراه کننده باشند.
- سوگیری و آسیب بالقوه: آموزش هوش مصنوعی یک فرآیند بیپایان و همراه با محاسبات فشردهاست؛ زیرا همیشه اطلاعات جدیدی برای یادگیری وجود دارد. گوگل ادعا کردهاست که در تمام مدل های Gemini ، رویههای توسعهی مسئولانهای را دنبال کردهاست، از جمله ارزیابی گسترده برای کمک به محدود کردن خطر سوگیری و آسیب بالقوه. اما مطابق با ادعای کاربران این چتبات، جمینای سوگیریهای بسیاری از خود نشان دادهاست که با توجه به سابقهی گوگل در این زمینه دور از انتظار هم نیست. نمایش تصاویری از مردان و زنان آسیایی یا سیاه پوست، زمانی که از Gemini خواستهشد تا تصویری از پدران بنیانگذار آمریکا طراحی کند، نشان دهندهی این سوگیریِ جمینای است.
- اصالت و خلاقیت: در مورد اینکه محتوای تولید شده توسط جمینای چقدر میتواند اصیل و خلاق باشد، محدودیتهایی وجود دارد. این مورد، به ویژه در مورد نسخه رایگان صدق میکند، که در پردازش درخواستهای پیچیده با مراحل و ظرایف متعدد و تولید خروجی مناسب با مشکل مواجه بودهاست. نسخه رایگان مبتنی بر Gemini Pro LLM است که از نظر قابلیت محدودتر است؛ نسخههای پولی این پلتفرم دسترسی به ویژگیهای پیشرفتهتری را ارائه میدهند.
به طور کلی، انتظار میرفت هوش مصنوعی Gemini شرکت Google بسیار پیشرفتهتر از سایر شرکتهای توسعهدهنده هوش مصنوعی باشد، زیرا Google سابقهای طولانی در ارائه خدمات به میلیونها کاربر دارد و به همین خاطر این شرکت دادههای بسیار زیادی از انواع موضوعات در اختیار دارد.
با این حال، مطابق بازخوردهای کاربران، مدل های هوش مصنوعی Gemini رضایت چندانی جلب نکردهاند و همچنین شرکتهای پیشرو در زمینهی هوش مصنوعی از جمله OpenAI و Anthropic، با وجود سابقه فعالیت کمتر نسبت به Google، توانستهاند با دادههای محدودتر، مدل های هوش مصنوعی خارقالعادهتری را ارائه دهند. این موارد نشاندهنده توان نه چندان قوی شرکت Google در توسعه هوش مصنوعی در مقایسه با مدل هایی مانند GPT و Claude است.
در مورد جمینای چه نگرانیهایی وجود دارد؟
یکی از نگرانیها در مورد جمینای ، پتانسیل آن برای ارائه اطلاعات مغرضانه یا نادرست به کاربران است. هر گونه جانبداری ذاتی در دادههای آموزشی تغذیه شده به Gemini میتواند منجر به تردید کاربران شود. برای مثال، همانطور که در مورد تمام نرمافزارهای پیشرفته هوش مصنوعی وجود دارد، دادههای آموزشی که گروههای خاصی را از یک جمعیت معین حذف میکنند، منجر به نتایج نامتعادل خواهند شد.
تمایل جمینای به “ایجاد توهم” (hallucinations) و دیگر ابداعات و انتقال آنها به کاربران به عنوان اطلاعاتی صادقانه نیز دلیلی برای نگرانی است. این یکی از بزرگترین خطرات پاسخهای ChatGPT از زمان آغاز بکار آن بودهاست، همانطور که در مورد سایر ابزارهای پیشرفته هوش مصنوعی نیز وجود دارد. علاوه بر این، از آنجایی که Gemini همیشه زمینه و محتوا را درک نمیکند، پاسخهای آن ممکناست همیشه با درخواستها و سؤالاتی که کاربران ارائه میدهند مرتبط نباشد.
جمینای به چه زبانهایی در دسترس است؟
جمینای از بیش از ۴۵ زبان پشتیبانی میکند. این مدل میتواند ورودیهای متنی را با دقتی تقریباً شبیه انسان به زبانهای مختلف ترجمه کند. گوگل قصد دارد قابلیتهای درک زبان جمینای را گسترش دهد و آن را در همه جا در دسترس قرار دهد. با این حال، عوامل مهمی برای در نظر گرفتن وجود دارد، مانند ممنوعیتهایی که بر محتوای تولید شده توسط LLM اعمال میشود یا تلاشهای نظارتی در حال انجام در کشورهای مختلف که میتوانند استفاده از جمینای را در آینده محدود یا ممنوع کنند.
علاوه بر ترجمه، جمینای قابلیتهای دیگری را نیز در زبانهای مختلف ارائه میدهد. برای مثال، این مدل قادر به استدلال ریاضی و خلاصه سازی به چندین زبان است. همچنین میتواند برای تصویری به زبانهای مختلف توضیحاتی را (caption) تولید کند.
آیا تولید تصویر در Gemini در دسترس است؟
در زمان انتشار جمینای ، گوگل از توانایی آن برای تولید تصاویر به همان شیوهای که ابزارهای دیگر هوش مصنوعی مولد مانند دال-ای (Dall-E)، میدجورنی (Midjourney) و استیبل دیفیوژن (Stable Diffusion) انجام میدهند، تعریف کرد. جمینای در حال حاضر از مدل تبدیل متن به تصویر Imagen 2 گوگل استفاده میکند که به این ابزار قابلیتهای تولید تصویر میدهد.
با این حال، در اوایل اسفند 1402، ویژگی تولید تصویر Gemini پس از آنکه مشخص شد تصاویر تولید شده حاوی نادرستیهای واقعی هستند، متوقف شد تا مورد بازبینی قرار گیرد. گوگل قصد دارد این ویژگی را بهبود بخشد تا جمینای بتواند در درازمدت همچنان چندحالته باقی بماند. قابلیت تولید تصویر، در زمان انتشار مقاله در دسترس نیست.

پیش از آنکه گوگل دسترسی به ویژگی ایجاد تصویر را متوقف کند، خروجیهای Gemini بسته به ورودیهای کاربر، از ساده تا پیچیده متغیر بود. کاربران میتوانستند دستورالعملهای توصیفی برای ایجاد تصاویر خاص ارائه دهند. یک فرآیند گام به گام ساده برای کاربر لازم بود تا یک پرامپت را وارد کند، تصویری را که جمینای تولید کرده مشاهده کند، آن را ویرایش کند و برای استفاده بعدی ذخیره نماید.
Gemini در مقابل ChatGPT، GPT-4 و GPT-4o
گوگل جمینای یک رقیب (نه چندان قدرتمند) برای مدل های GPT-3، GPT-4 و GPT-4o از OpenAI محسوب میشود. جدول زیر برخی از ویژگیهای کلیدی Google Gemini و محصولات OpenAI را مقایسه میکند.
GPT-4o | GPT-4 | ChatGPT | Gemini | |
توسعه دهنده | شرکت OpenAI | شرکت OpenAI | شرکت OpenAI | واحد تجاری شرکت دیپ مایند گوگل |
رابط چت بات | وبسایت و اپلیکیشن (فعلا فقط برای سیستم عامل macOS در دسترس است.) | وبسایت و اپلیکیشن | وبسایت و اپلیکیشن | اپلیکیشن و وبسایت جمینای (Gemini) که قبلا بارد (Bard) نام داشت. |
روشهای ادراک | چند وجهی | چند وجهی | تک وجهی؛ فقط بر روی مدل زبانی ساخته شدهاست. | چند وجهی؛ مدل بر روی متن، تصاویر، صدا و ویدیو آموزش یافتهاست. |
متغیرهای مدل | GPT-4o | GPT-4 GPT-4 Turbo | GPT-3.5 Turbo | Ultra, Pro, Nano and Flash |
طول پنجره کانالی | 128,000 tokens | 128,000 tokens | 16,000 tokens | 1,000,000 tokens |

با توجه به اینکه طول پنجره کانالی (context window) Gemini 1.5 pro، بسیار بیشتر از آخرین مدل GPT-4o شرکت OpenAI است، انتظار میرود که خروجی گرفته شده از Gemini بسیار بهتر از خروجی گرفته شده از GPT-4o باشد. اما مطابق با نتایج یک مطالعه آماری که از کاربران هر دو مدل گرفته شده، GPT-4o و حتی GPT-4 میزان رضایت بسیار بیشتری در میان کاربران از خود داشتهاست و حتی در گزارش برخی منابع به این موضوع نیز اشاره شدهاست که Gemini در بیشتر اوقات پس از نوشتن چندین پرامپت، انسجام محتوایی خود را از دست داده و حتی در اکثر اوقات جوابهایی بی ربط به موضوع را تولید میکند؛ در حالی که این مورد در رابطه با مدل های شرکت OpenAI کمتر گزارش شدهاست.

گوگل جمینای در مقابل ChatGPT
هم Gemini و هم ChatGPT چتباتهای هوش مصنوعی هستند که برای تعامل با افراد از طریق پردازش زبان طبیعی (NLP) و یادگیری ماشین طراحی شدهاند. هر دو از یک مدل زبان بزرگ (LLM) برای تولید و ایجاد متن محاورهای استفاده میکنند.
ChatGPT از هوش مصنوعی مولد برای ایجاد محتوای اصلی استفاده میکند. برای مثال، کاربران میتوانند از آن بخواهند که رسالهای در مورد مزایای هوش مصنوعی بنویسند. جمینای نیز از هوش مصنوعی مولد استفاده میکند. هر دو این مدل ها برای طبیعیتر و مفیدتر کردن جستجو و همچنین ترکیب اطلاعات جدید در پاسخهایشان طراحی شدهاند.
در دی ماه 1402، مایکروسافت قراردادی به ارزش ۱۰ میلیارد دلار با OpenAI امضا کرد تا ChatGPT را مجوزدهی و در موتور جستجوی Bing خود ادغام کند تا نتایج جستجوی گفتگومحورتر، مشابه Google Gemini ارائه دهد. این اقدام، درهای ورود دیگر موتورهای جستجوی به مجوزدهی ChatGPT را باز کرد، در حالی که Gemini تنها از گوگل پشتیبانی میکند.
معرفی ابزار کوپایلت شرکت مایکروسافت (Microsoft copilot)
شباهت دیگر بین این دو چتبات، پتانسیل آنها برای تولید محتوای “سرقت ادبی” و توانایی کنترل این موضوع است. نه جمینای و نه ChatGPT دارای ویژگیهای داخلی تشخیص سرقت ادبی نیستند که کاربران بتوانند بر اساس آن اصالت خروجیها را تأیید کنند. با این حال، ابزارهای جداگانهای برای تشخیص سرقت ادبی در محتوای تولید شده توسط هوش مصنوعی وجود دارد، بنابراین کاربران گزینههای دیگری هم در اختیار دارند. جمینای قادر است به دیگر محتواها در پاسخهای خود استناد کند و به منابع آنها لینک دهد. قابلیت “بررسی مجدد” جمینای، آدرسهای اینترنتی منابع اطلاعاتی را که برای تولید محتوا بر اساس یک پرامپت از آنها استفاده میکند، ارائه میدهد.
جایگزینهای گوگل Gemini
جمینای از خلأ پدیدار نشدهاست. ریشههای آن در چتباتهای هوش مصنوعی پیشین نهفتهاست که سابقهای طولانی در ارائه کاراییهای محدود داشتهاند. در حالی که شرکتهای نوپای متعددی در حال توسعه فناوریهای مشابه چتبات هستند، هیچکدام به اندازه GPT مورد توجه و اقبال قرار نگرفتهاند.
نمونههایی از رقبای چتبات جمینای که متن یا کد تولید میکنند، همانطور که توسط آدری چی-رید (Audrey Chee-Read)، تحلیلگر ارشد در فارستر ریسرچ (Forrester Research) و همچنین توسط سایر کارشناسان صنعت ذکر شده، شامل موارد زیر است:
چتسونیک (Chatsonic)
با شعار “جایگزین ChatGPT با ابرقدرتها!”، Chatsonic یک چتبات هوش مصنوعی است که توسط گوگل سرچ (Google Search) با یک تولیدکننده متن مبتنی بر هوش مصنوعی به نام Writesonic پشتیبانی میشود که به کاربران امکان میدهد بصورت بلادرنگ در مورد موضوعات بحث کنند و متن یا تصویر ایجاد کنند.
کلاود (Claude)
کلاودِ شرکت Anthropic یک چتبات مبتنی بر هوش مصنوعی است که نام آن برگرفته از مدل LLM زیربنایی آن است. این چتبات تحت آزمایشهای دقیق قرار گرفتهاست تا اطمینان حاصل شود که با استانداردهای هوش مصنوعی اخلاقی مطابقت دارد و خروجی توهینآمیز یا نادرست از نظر واقعیت تولید نمیکند. که در بسیاری از مواقع، عملکرد بهتری از Gemini نیز از خود نشان دادهاست. برای آشنایی بیشتر و همچنین نحوهی استفاده از این مدل زبانی پیشرفته، میتوانید مقالهی منتظر شده از هامیا ژورنال با عنوان “معرفی چتبات قدرتمند Claude و شرکت مادر آن Anthropic” را مطالعه فرمایید.

کپی.ایآی (Copy.ai)
Copy.ai در اصل برای کمک به تیمهای فروش و بازاریابی ساخته شدهاست. این ابزار متنهای اصلی مانند پستهای رسانههای اجتماعی، وبلاگها، ایمیلها و سایر انواع محتوا را تولید میکند و همچنین وظایف گردش کار را خودکار میکند.
گیتهاب کوپایلوت (GitHub Copilot)
گیتهاب کوپایلوت به طور خاص بر روی تولید کد برای توسعهدهندگان تمرکز دارد. هدف این ابزار سادهسازی کارهای خستهکننده و تکراری مرتبط با توسعه نرمافزار میباشد که در تولید نرمافزارهای مدرن دخیل هستند. در حالی که این ابزار برای تولید متن در نظر گرفته نشدهاست، اما به عنوان جایگزینی بسیار مناسب برای ChatGPT یا جمینای برای تولید کد عمل میکند.
ژاسپر چت (Jasper Chat)
ژاسپر چت از شرکت Jasper.ai یک ابزار هوش مصنوعی مکالمهای (گفتگو محور) است که بر تولید متن تمرکز دارد. این ابزار برای شرکتهایی طراحی شده که به دنبال ایجاد محتوای مرتبط با برند و مکالمه با مشتریان هستند. این ابزار به تولیدکنندگان محتوا امکان میدهد کلمات کلیدی بهینهسازی موتور جستجو (SEO) و لحن صدا را در درخواستها و پرامپتهای خود مشخص کنند.
مایکروسافت بینگ (Microsoft Bing)
مایکروسافت و مشارکت آن با OpenAI دقیقاً همان چیزی را ارائه میدهد که گوگل با جمینای انجام میدهد: جستجوی مبتنی بر هوش مصنوعی که پرسوجوهای زبان طبیعی را تشخیص میدهد و پاسخهایی با زبان طبیعی میدهد. وقتی کاربر، سوالی را جستجو میکند، نتایج استاندارد جستجوی بینگ و پاسخ تولید شده توسط GPT-4 را دریافت میکند و همچنین امکان تعامل با هوش مصنوعی در مورد پاسخ آن را دارد.
اسپینبات (SpinBot)
این ابزار هوش مصنوعی مولد در تولید متن اصلی، بازنویسی محتوا و اجتناب از سرقت ادبی تخصص دارد. این ابزار، وظایف ساده دیگری را برای کمک به متخصصان در تکالیف نوشتاری، مانند تصحیح متن، انجام میدهد.
یوچت (YouChat)
یوچت، چتبات هوش مصنوعی موتور جستجوی You.com مستقر در آلمان است. این مدل به سؤالات پاسخ میدهد و منابع پاسخهای خود را ارائه میدهد تا کاربران بتوانند منابع را بررسی کنند و صحت پاسخهای آن را تأیید کنند.
تاریخچه و آینده جمینای
جمینای، که در ابتدا با نام بارد (Bard) شناخته میشد، در اصل برای جستجو طراحی شده بود. هدف آن فراهم کردن امکان پرس و جو با زبان طبیعی به جای کلیدواژه برای جستجو بود. هوش مصنوعی آن بر اساس پرسشها و پاسخهای گفتگوی طبیعی آموزش دیده بود. بارد به جای اینکه لیستی از پاسخها ارائه دهد، زمینهای را برای پاسخها فراهم میکرد. بارد برای کمک به سؤالات بعدی طراحی شده بود؛ چیزی که در جستجو جدید بود. همچنین دارای یک عملکرد “به اشتراک گذاری گفتگو” و یک عملکرد “بررسی مجدد” بود که به کاربران در بررسی صحت نتایج تولید شده کمک میکرد.
بارد همچنین با چندین برنامه و سرویس Google از جمله YouTube، Maps، Hotels، Flights، Gmail، Docs و Drive ادغام شد و به کاربران امکان میداد ابزار هوش مصنوعی را روی محتوای شخصی خود اعمال کنند.
اولین نسخه بارد از نسخه سبکتر لامدا (Lamda) استفاده میکرد که به توان محاسباتی کمتری برای مقیاسبندی برای کاربران همزمان نیاز داشت. ادغام مدل زبان Palm 2 به بارد این امکان را داد تا در پاسخ به پرسشهای کاربران بصریتر عمل کند. بارد همچنین Google Lens را نیز در خود جای داد و به کاربران امکان آپلود تصاویر علاوه بر درخواستهای نوشتاری را داد. ادغام بعدی مدل زبانی جمینای، استدلال، برنامهریزی و درک پیشرفتهتری را برای بارد به ارمغان آورد.
سپس، به عنوان بخشی از راهاندازی اولیه جمینای در 15 آذر 1402، گوگل مسیر آینده نسل بعدی LLMهای خود را ارائه کرد. در حالی که گوگل در آن روز جمینای اولترا، پرو و نانو را معرفی کرد، اما اولترا را همزمان با پرو و نانو در دسترس قرار نداد. در ابتدا، اولترا تنها برای مشتریان منتخب، توسعهدهندگان، شرکا و کارشناسان در دسترس بود؛ عرضه کامل آن در بهمن ماه 1402 انجام شد.
آینده جمینای همچنین در مورد گسترش و ادغام گستردهتر در سرتاسر محصولات گوگل میباشد. Gemini در نهایت برای بهبود تجربه وب برای کاربران در مرورگر گوگل کروم ادغام خواهد شد. گوگل همچنین متعهد شدهاست که جمینای را در پلتفرم Google Ads ادغام کند تا روشهای جدیدی را برای تبلیغکنندگان جهت برقراری ارتباط و تعامل با کاربران ارائه دهد. دستیار هوش مصنوعی دوئِت (Duet AI) نیز در آینده از مزایای جمینای بهرهمند خواهد شد.
در 26 بهمن 1402، گوگل از آزمایش اولیه Gemini 1.5 خبر داد. این نسخه برای طیف وسیعی از کارها بهینهسازی شدهاست که در آنها عملکردی مشابه با Gemini 1.0 اولترا دارد، اما با یک ویژگی آزمایشی اضافی بر درک متن طولانی تمرکز دارد. طبق گفته گوگل ، آزمایشهای اولیه نشان میدهد که Gemini 1.5 Pro در حدود ۸۷ درصد از معیارهای گوگل که برای توسعه LLMها تعیین شدهاست، عملکرد بهتری نسبت به ۱.۰ پرو دارد. آزمایشهای مداوم تا زمان اعلام عرضه کامل ۱.۵ پرو ادامه داشت و دارد و در 13 اردیبهشت 1403، نسخهی Gemini 1.5 pro برای عموم منتشر شد.
بهروزرسانیهای اخیر Google Gemini
در ماه اردیبهشت 1403، گوگل در کنفرانس Google I/O پیشرفتهای بیشتر در مورد Gemini 1.5 Pro را اعلام کرد. ارتقاءها شامل بهبود عملکرد در ویژگیهای ترجمه، کدگذاری و استدلال میباشد. Gemini 1.5 Pro ارتقا یافته همچنین درک تصویر و ویدیو را بهبود بخشیدهاست، از جمله توانایی پردازش مستقیم ورودیهای صوتی با استفاده از درک صوتی. پنجره کانالی مدل به ۱ میلیون توکن افزایش یافتهاست که به آن امکان میدهد اطلاعات بسیار بیشتری را هنگام پاسخ به درخواستها به خاطر بسپارد.
همچنین در ماه اردیبهشت، Gemini 1.5 Flash، یک مدل کوچکتر با میانگین تأخیر زیر یک ثانیه برای اولین توکن و پنجره کانالی ۱ میلیون توکن منتشر شد.
علاوه بر ارتقاءهای مدل اصلی، گوگل در ماه اردیبهشت ویژگیهای جدیدی را به API جمینای معرفی کرد، از جمله موارد زیر:
- استخراج فریم ویدیو (Video frame extraction): کاربران میتوانند برای تولید محتوا، یک ویدیو آپلود کنند.
- تماس عملکرد موازی (Parallel function calling): کاربران میتوانند به طور همزمان بیش از یک تماس برقرار کنند.
این شرکت در ماه خرداد قابلیت کَش کردن متن را اضافه کرد تا اطمینان حاصل کند که کاربران فقط یک بار بخشهایی از یک پرامپت را به مدل ارسال کنند.
پیشنمایشهایی از هر دو مدل Gemini 1.5 Pro و Gemini 1.5 Flashدر بیش از ۲۰۰ کشور در دسترس است. این مدل ها از خرداد ماه 1403 به طور کلی در دسترس هستند.
اگر محتوای ما برایتان جذاب بود و چیزی از آن آموختید، لطفاً لحظهای وقت بگذارید و این چند خط را بخوانید:
ما گروهی کوچک و مستقل از دوستداران علم و فناوری هستیم که تنها با حمایتهای شما میتوانیم به راه خود ادامه دهیم. اگر محتوای ما را مفید یافتید و مایلید از ما حمایت کنید، سادهترین و مستقیمترین راه، کمک مالی از طریق لینک دونیت در پایین صفحه است.
اما اگر به هر دلیلی امکان حمایت مالی ندارید، همراهی شما به شکلهای دیگر هم برای ما ارزشمند است. با معرفی ما به دوستانتان، لایک، کامنت یا هر نوع تعامل دیگر، میتوانید در این مسیر کنار ما باشید و یاریمان کنید. ❤️