هوش مصنوعی

معرفی جمینای (Gemini) هوش مصنوعی شرکت Google

در دنیای پرشتاب فناوری، گوگل با معرفی هوش مصنوعی چندوجهی خود، به نام جمینای (Google Gemini)، تحول جدیدی را رقم زده‌است. این فناوری در لغت فارسی به اشتباه با نام‌هایی “جمنی” و همچنین “جمینی” نیز مصطلح هستند. گوگل جمینای که پیش‌تر با نام گوگل بارد (Google Bard) شناخته می‌شد، گامی بلند در مسیر توسعه چت‌بات‌های هوشمند است که قادر به شبیه‌سازی مکالمات انسانی با دقت نسبتاً بالایی است. این فناوری نه‌تنها در تکمیل جستجوهای گوگل موثر است، بلکه در وب‌سایت‌ها، پلتفرم‌های پیام‌رسان و برنامه‌های کاربردی نیز جای خود را پیدا کرده و توانایی پاسخگویی به سوالات کاربران را با زبان طبیعی و بدون واسطه به نمایش می‌گذارد.Gemini با بهره‌گیری از پردازش زبان طبیعی (NLP) و یادگیری ماشین، به مجموعه‌ای از مدل های زبانی بزرگ (LLM) تبدیل شده‌است که نه تنها زبان و متن، بلکه صدا، تصویر و حتی ویدیو را نیز درک می‌کند. این مدل هوش مصنوعی چندوجهی که توسط واحد تجاری DeepMind شرکت آلفابت ساخته شده‌است، اخیراً معرفی شد و به سرعت جایگاه خود را به‌عنوان یکی از پیشرفته‌ترین مدل LLM گوگل تثبیت کرد. جمینای با قابلیت‌های خود در درک و پردازش زبان، استدلال چندوجهی و تجزیه و تحلیل تصاویر، نویدبخش آینده‌ای روشن در هوش مصنوعی است..

یکی از ویژگی‌های برجسته جمینای، توانایی آن در تحلیل و فهم انواع مختلف داده‌ها است. این مدل می‌تواند تصاویری مانند نمودارها و شکل‌ها را بدون نیاز به ابزارهای خارجی در حد قابل قبولی تحلیل کند و همچنین از قابلیت‌های چندزبانه گسترده‌ای برخوردار است که امکان ترجمه و عملکرد در زبان‌های مختلف را فراهم می‌کند. با بهره‌گیری از تکنیک‌های شبکه عصبی و معماری ترانسفورمر، Gemini قادر به پردازش توالی‌های طولانی از داده‌ها بوده و به کاربران تجربه‌ای روان و دقیق ارائه می‌دهد هر چند که به گفته‌ی برخی کاربران این مدل ها در مقایسه با دیگر مدل های شرکت‌هایی از جمله OpenAI و Anthropic عملکرد ضعیف‌تری دارند.

گوگل جمینای با هدف کاهش سوگیری و محتوای سمی (هر چند کم)، تحت آزمایش‌های ایمنی گسترده‌ای قرار گرفته و به گونه‌ای طراحی شده‌است که در انواع کاربردها و محیط‌ها عملکرد بهتری را داشته باشد. از کسب و کارها گرفته تا کاربران عادی، همه می‌توانند از این فناوری پیشرفته بهره‌مند شوند و تجربه‌ای نوین از تعامل با هوش مصنوعی داشته باشند. در این مقاله، به بررسی جامع ویژگی‌ها، کاربردها و مزایای Gemini خواهیم پرداخت و نشان خواهیم داد که چگونه این ابزار می‌تواند زندگی ما را دگرگون کند.

گوگل جمینای (Google Gemini) چیست؟ (قبلا بارد نامیده می‌شد)

گوگل جمینای (Google Gemini) که قبلا با نام گوگل بارد (Google Bard) شناخته می شد، یک ابزار چت بات هوش مصنوعی (AI) می‌باشد که توسط گوگل برای شبیه سازی مکالمات انسانی با استفاده از پردازش زبان طبیعی (NLP) و یادگیری ماشین طراحی شده‌است. جمینای علاوه بر تکمیل جستجوی گوگل ، می‌تواند در وب‌سایت‌ها، پلتفرم‌های پیام‌رسان یا برنامه‌های کاربردی ادغام شود تا به سوالات کاربران به طور واقع‌گرایانه و با زبان طبیعی پاسخ ارائه دهد.

گوگل جمینای قبلا بارد (Bard) نام داشت
گوگل جمینای قبلا بارد (Bard) نام داشت.

گوگل Gemini مجموعه‌ای از مدل های زبانی بزرگ (LLM) هوش مصنوعی چندوجهی (Multimodal AI) است که قابلیت‌هایی در درک زبان، صدا، کد و ویدیو دارد.

نسخه Gemini 1.0 در تاریخ 15 آذر 1402 معرفی شد و توسط واحد تجاری DeepMind شرکت آلفابت، که بر روی تحقیق و توسعه هوش مصنوعی پیشرفته تمرکز دارد، ساخته شد. سرگئی برین (Sergey Brin)، یکی از بنیانگذاران گوگل ، در کنار سایر کارکنان گوگل ، در توسعه مدل های LLM جمینای نقش داشته‌است.

در زمان انتشار، Gemini پیشرفته‌ترین مجموعه مدل های LLM در گوگل بود که پیش از تغییر نام بارد، آن را پشتیبانی می‌کرد و جایگزین مدل زبان Pathways (Palm 2) این شرکت شد. همانطور که در مورد Palm 2 وجود داشت، جمینای برای ارائه قابلیت‌های هوش مصنوعی مولد در چندین فناوری گوگل ادغام شده بود.

جمینای قابلیت‌های پردازش زبان طبیعی (NLP) را یکپارچه می‌کند که امکان درک و پردازش زبان را فراهم می‌کند. Gemini همچنین برای درک پرسش‌های ورودی و همچنین داده‌ها استفاده می‌شود. این مدل قادر به درک و تشخیص تصاویر است و به آن امکان می‌دهد تصاویر پیچیده مانند نمودارها و شکل‌ها را بدون نیاز به تشخیص اپتیکی کاراکتر (OCR) خارجی تجزیه و تحلیل کند. همچنین دارای قابلیت‌های چندزبانه گسترده‌ای برای ترجمه و عملکرد در زبان‌های مختلف می‌باشد.

پرامپت نویسی : چگونه هوش مصنوعی را به برده‌ی خود تبدیل کنیم!

برخلاف مدل های هوش مصنوعی قبلی گوگل ، جمینای به‌طور ذاتی چندوجهی است، به این معنی که روی مجموعه داده‌هایی که چندین نوع داده را در بر می‌گیرد، آموزش دیده‌است. به عنوان یک مدل چندوجهی، Gemini امکان استدلال چندوجهی را فراهم می‌کند. این بدان معناست که جمینای می‌تواند در توالی انواع داده‌های ورودی مختلف، از جمله صدا، تصاویر و متن، استدلال کند. برای مثال، Gemini می‌تواند یادداشت‌های دست‌نویس، نمودارها و دیاگرام‌ها را برای حل مسائل پیچیده درک کند. معماری جمینای از دریافت مستقیم متن، تصاویر، شکل موج صدا و فریم‌های ویدیویی به عنوان توالی‌های درهم آمیخته پشتیبانی می‌کند.

گوگل جمینای چگونه کار می کند؟

Gemini با آموزش اولیه روی حجم عظیمی از داده کار می کند. پس از آموزش، این مدل از چندین تکنیک شبکه عصبی برای درک محتوا، پاسخ به سوالات، تولید متن و خروجی استفاده می کند.

به طور خاص، مدل های LLM جمینای از معماری شبکه عصبی مبتنی بر مدل ترانسفورمر استفاده می‌کنند. معماری جمینای برای پردازش توالی‌های طولانی زمینه در انواع مختلف داده‌ها، از جمله متن، صدا و تصویر، تقویت شده‌است. DeepMind گوگل از مکانیزم‌های توجه (Attention) کارآمد در کدگشای ترانسفورماتور برای کمک به مدل ها در پردازش محتواهای طولانی در سراسر حالت‌های مختلف استفاده می‌کند.

مدل های Gemini روی مجموعه داده‌های چندوجهی و چندزبانه متنوعی از متن، تصاویر، صدا و ویدیو با DeepMind گوگل با استفاده از فیلترینگ پیشرفته داده برای بهینه‌سازی آموزش، آموزش داده شده‌اند. همانطور که مدل های مختلف جمینای برای پشتیبانی از سرویس‌های خاص گوگل مستقر می‌شوند، فرآیندی از تنظیم دقیق هدفمند وجود دارد که می‌تواند برای بهینه‌سازی بیشتر یک مدل برای یک مورد استفاده بکار رود. در طول مراحل آموزش و استنتاج، جمینای از استفاده از آخرین تراشه‌های واحد پردازش تنسور (TPU) گوگل ، TPU v5، بهره می‌برد که شتاب‌دهنده‌های هوش مصنوعی سفارشی بهینه‌سازی‌شده‌ای برای آموزش و استقرار مدل های بزرگ هستند.

مزایا و معایب هوش مصنوعی

یکی از چالش‌های کلیدی برای مدل های LLM، خطر سوگیری و محتوای بالقوه‌ی سمی است. طبق گفته گوگل ، جمینای تحت آزمایش‌های ایمنی گسترده و کاهش خطرات مانند سوگیری و سمیت قرار گرفته‌است تا به ارائه درجه‌ای از ایمنی LLM کمک کند. برای اطمینان بیشتر از اینکه Gemini به درستی کار می‌کند، مدل ها در برابر معیارهای علمی در حوزه‌های زبان، تصویر، صدا، ویدیو و کد مورد آزمایش قرار گرفتند. گوگل به عموم مردم اطمینان داده‌است که به لیستی از اصول هوش مصنوعی پایبند است.

در زمان راه‌اندازی در 15 آذر 1402، اعلام شد که جمینای از مجموعه‌ای از مدل های مختلف با اندازه‌های متفاوت تشکیل شده‌است که هر کدام برای مجموعه خاصی از موارد استفاده و محیط‌های استقرار طراحی شده‌اند. مدل Ultra پیشرفته‌ترین مدلیست که برای کارهای بسیار پیچیده طراحی شده‌است.

  1. عملکرد: مدل Pro برای ارائه بهترین عملکرد ممکن در طیف گسترده ای از وظایف، از جمله تولید متن، ترجمه زبان، نوشتن انواع مختلف محتوای خلاقانه و پاسخ به سوالات شما به روشی آموزنده، طراحی شده‌است. این مدل از معماری و فناوری‌های پیشرفته‌ای بهره می‌برد که به آن امکان می‌دهد پردازش‌های پیچیده را با سرعت و کارآمد بالا انجام دهد.
  2. استقرار در مقیاس: مدل Pro به گونه‌ای طراحی شده‌است که به راحتی در طیف وسیعی از برنامه‌ها و خدمات، از جمله برنامه‌های وب، برنامه‌های تلفن همراه و محصولات داخلی شرکت، مستقر شود. این مدل می‌تواند حجم بالایی از درخواست‌ها را به طور همزمان بدون افت عملکرد پردازش کند.

از 22 آذر 1402، گوگل دسترسی به جمینای پرو (Gemini Pro) را در Google Cloud Vertex AI و Google AI Studio فعال کرد. برای کد، از نسخه‌ای از Gemini پرو برای قدرت بخشیدن به فناوری کدگذاری هوش مصنوعی مولد Google AlphaCode 2 استفاده می‌شود.

مدل Nano برای موارد استفاده دستگاهی هدف قرار گرفته‌است. برخلاف مدل های Pro و Ultra که برای استقرار در سرورهای قدرتمند طراحی شده‌اند، مدل Nano به گونه‌ای بهینه‌سازی شده‌است که با منابع محاسباتی محدود دستگاه‌های تلفن همراه کار کند. این امر به لطف چندین عامل، از جمله اندازه کوچکتر مدل، نیازهای پردازشی کمتر و غیره محقق شده‌است. دو نسخه مختلف از جمینای نانو وجود دارد: نانو-1 یک مدل 1.8 میلیارد پارامتری می‌باشد، در حالی که نانو-2 یک مدل 3.25 میلیارد پارامتری است. از جمله مواردی که نانو در آن تعبیه شده‌است، گوشی هوشمند Google Pixel 8 Pro است.

گوگل بارد (که اکنون با نام گوگل جمینای شناخته می‌شود) چه زمانی برای اولین بار منتشر شد؟

گوگل برای اولین بار در تاریخ 17 بهمن 1401 از Bard، چت بات مبتنی بر هوش مصنوعی خود، با تاریخ انتشار نامشخص رونمایی کرد. Google در تاریخ 1 فروردین 1402 با دعوت کاربران به لیست انتظار، دسترسی به بارد را باز کرد. در نهایت در ۱۰ اردیبهشت 1402، گوگل لیست انتظار را حذف کرد و بارد را در بیش از ۱۸۰ کشور و منطقه در دسترس قرار داد. تقریباً یک سال پس از اعلام اولیه، نام Bard به Gemini تغییر یافت.

بسیاری بر این باور بودند که گوگل تحت موفقیت‌های خارق‌العاده‌ی و پوشش مثبت رسانه‌ای چت‌بات ChatGPT، بارد را زودتر از موعد عرضه کرده‌است. برای مثال، در یک نمایش زنده توسط گوگل و مدیرعامل الفابت، ساندار پیچای (Sundar Pichai)، بارد به یک سؤال پرسیده شده، پاسخ اشتباهی داد.

در این دمو، کاربری از بارد پرسید: “چه اکتشافات جدیدی از تلسکوپ فضایی جیمز وب را می توانم به فرزند ۹ ساله‌ام بگویم؟” در پاسخ بارد، به این موضوع اشاره شد که این تلسکوپ “اولین عکس‌های یک سیاره در خارج از منظومه شمسی ما را ثبت کرده‌است.” اخترشناسان به سرعت در رسانه‌های اجتماعی به اشتباهِ بارد اشاره کردند؛ زیرا اولین تصویر از یک سیاره فراخورشیدی در سال ۲۰۰۴ توسط یک رصدخانه زمینی گرفته شده بود. روز بعد، گوگل ۱۰۰ میلیارد دلار از ارزش بازار خود را به دلیل این اشتباه شرم آور از دست داد.

چرا گوگل نام Bard را به Gemini تغییر داد و این چه زمانی اتفاق افتاد؟

در تاریخ 19 بهمن 1402 نام بارد به جمینای تغییر پیدا کرد. در واقع، جمینای همان LLM (مدل زبان بزرگ) پشتیبان Bard بود. برخی بر این باورند که تغییر نام این پلتفرم به جمینای، شاید برای دور کردن توجه از لقب بارد و انتقاداتی که این چت‌بات در زمان انتشار اولیه با آن مواجه شد، انجام شده‌است. همچنین این تغییر باعث ساده‌سازی تلاش‌های هوش مصنوعی گوگل و تمرکز بر موفقیت LLM جمینای شد.

تغییر نام از نظر بازاریابی نیز منطقی بود، زیرا گوگل قصد دارد خدمات هوش مصنوعی خود را گسترش دهد. این تغییر، روشی برای گوگل است تا آگاهی از مدل های LLM پیشرفته‌ی خود را در شرایطی که روند همه‌گیری (دموکراتیزه‌ شدن) و پیشرفت هوش مصنوعی همچنان با سرعت در حال وقوع است، افزایش دهد.

گوگل جمینای برای چه کسانی قابل استفاده است؟

دسترسی به Gemini در سراسر جهان به طور گسترده وجود دارد. در زمان نگارش این مقاله، Gemini Pro در بیش از ۲۳۰ کشور و منطقه در دسترس می‌باشد، در حالی که Gemini Advanced در بیش از ۱۵۰ کشور قابل استفاده است. با این حال، محدودیت‌های سنی برای رعایت قوانین و مقرراتی که برای نظارت بر هوش مصنوعی وجود دارد، اعمال شده‌است.

کاربران برای استفاده از جمینای باید حداقل ۱۸ سال سن و یک حساب کاربری شخصی گوگل داشته باشند. با این حال، محدودیت‌های سنی برای وب‌اپلیکیشن جمینای متفاوت است. کاربران در اروپا باید 18 سال یا بالاتر داشته باشند. در سایر کشورهایی که این پلتفرم در دسترس می‌باشد، حداقل سن ۱۳ سال است، مگر اینکه قوانین محلی چیز دیگری را مشخص کرده باشند. همچنین، کاربران زیر ۱۸ سال فقط می‌توانند از وب‌اپلیکیشن جمینای استفاده کنند.

آیا Gemini رایگان است؟

زمانی که بارد در دسترس قرار گرفت، گوگل هیچ نشانه‌ای مبنی بر پولی بودن آن ارائه نکرد. گوگل سابقه‌ای در قبال دریافت هزینه از کاربران برای سرویس‌ها ندارد، به جز استفاده سازمانی از Google Cloud. تصور بر این بود که چت‌بات در موتور جستجوی اصلی گوگل ادغام می‌شود و بنابراین استفاده از آن رایگان خواهد بود.

پس از تغییر نام Bard به Gemini در تاریخ 19 بهمن 1402، گوگل علاوه بر وب‌اپلیکیشن رایگان، یک ردیف پولی نیز معرفی کرد. در حال حاضر، استفاده از نسخه‌های Pro و Nano با ثبت‌نام رایگان انجام می‌شود. با این حال، کاربران تنها از طریق گزینه Gemini Advanced به مبلغ ماهیانه ۲۰ دلار می‌توانند به نسخه Ultra دسترسی پیدا کنند. کاربران از طریق اشتراک Google One AI Premium برای ثبت‌نام در Gemini Advanced اقدام می‌کنند که شامل ویژگی‌های Google Workspace و ۲ ترابایت فضای ذخیره‌سازی نیز می‌شود.

گوگل جمینای برای چه کارهایی قابل استفاده است؟ موارد استفاده و کاربردها

مدل های گوگل جمینای به روش‌های مختلفی از جمله درک متن، تصویر، صدا و ویدیو مورد استفاده قرار می‌گیرند. ماهیت چندوجهی Gemini همچنین این امکان را می‌دهد که این انواع مختلف ورودی برای تولید خروجی ترکیب شوند.

موارد استفاده

کسب و کارها می‌توانند از Gemini برای انجام کارهای مختلفی از جمله موارد زیر استفاده کنند:

  • خلاصه سازی متن: مدل های جمینای می‌توانند محتواها را از انواع مختلفی از داده‌ها خلاصه کنند.
  • تولید متن: جمینای می‌تواند بر اساس پرامپت‌های کاربر، متن تولید کند. این متن همچنین می‌تواند توسط یک رابط چت بات پرسش و پاسخ هدایت شود.
  • ترجمه متن: مدل های جمینای قابلیت‌های چندزبانه‌ی گسترده‌ای دارند و امکان ترجمه و درک بیش از ۱۰۰ زبان را فراهم می‌کنند. لازم به ذکر است که این مدل ها از زبان فارسی نیز پشتیبانی می‌کنند.
  • درک تصویر: Gemini می‌تواند تصاویر پیچیده مانند شکل‌ها، جداول و نمودارها را بدون نیاز به ابزارهای OCR خارجی تجزیه و تحلیل کند. این قابلیت برای شرح تصویر و قابلیت‌های پرسش و پاسخ تصویری قابل استفاده‌است.
  • پردازش صدا: جمینای از تشخیص گفتار به متن در بیش از ۱۰۰ زبان و همچنین ترجمه صوتی پشتیبانی می‌کند.
  • درک ویدیو: Gemini می‌تواند فریم‌های کلیپ ویدیویی را پردازش و درک کند تا به سؤالات پاسخ دهد و توضیحات مرتبطی را ایجاد کند.
  • استدلال چندوجهی: یکی از نقاط قوت اصلی جمینای استفاده از استدلال هوش مصنوعی چندوجهی است، که در آن انواع مختلف داده‌ها می‌توانند برای یک درخواست و پرامپت ترکیب شوند تا خروجی تولید کنند.
  • تحلیل و تولید کد: Gemini می‌تواند کد را در زبان‌های برنامه‌نویسی محبوبی مانند پایتون، جاوا، ++C و Go درک، توضیح و تولید کند.

کاربردها

گوگل ، جمینای را به عنوان یک مدل پایه برای ادغام گسترده در سراسر خدمات مختلف گوگل توسعه داده‌است. همچنین این ابزار برای توسعه دهندگان به منظور استفاده در ساخت برنامه‌های کاربردی خود در دسترس است. برخی از برنامه‌هایی که از Gemini استفاده می‌کنند عبارتند از:

  • AlphaCode 2: ابزار تولید کد AlphaCode 2 که برای واحد تجاری دیپ مایندِ (DeepMind) گوگل است، از یک نسخه سفارشی‌شده از Gemini Pro استفاده می‌کند.
  • گوگل پیکسل: گوشی هوشمند Pixel 8 Pro ساخت گوگل ، اولین دستگاهی است که برای اجرای Gemini Nano طراحی شده‌است. جمینی ویژگی‌های جدیدی را در برنامه‌های موجود گوگل فعال می‌کند، مانند خلاصه‌سازی در برنامه ضبط صدا و پاسخ هوشمند در صفحه کلید Gboard برای برنامه‌های پیام‌رسان.
  • اندروید ۱۴: گوشی هوشمند Pixel 8 Pro اولین گوشی هوشمند اندرویدی است که از مزایای Gemini بهره‌مند می‌شود. توسعه‌دهندگان اندروید می‌توانند از طریق قابلیت سیستم AICore با Gemini Nano کار کنند.
  • Vertex AI: سرویس Vertex AI گوگل کلاود (Google Cloud)، که مدل های پایه‌ای را در اختیار توسعه‌دهندگان برای ساخت برنامه‌های کاربردی قرار می‌دهد، همچنین دسترسی به Gemini Pro را فراهم می‌کند.
  • Google AI Studio: توسعه‌دهندگان می‌توانند با استفاده از ابزار مبتنی بر وب Google AI Studio، نمونه اولیه و برنامه‌های کاربردی با Gemini بسازند.
  • جستجو: گوگل در حال آزمایش استفاده از جمینای در “تجربه‌ی جستجوی مولد” (Search Generative Experience) خود برای کاهش تأخیر و بهبود کیفیت است.

Google Gemini چه محدودیت‌هایی دارد؟

چند محدودیت ممکن است باعث تردید کاربران در استفاده از این سرویس شود. این موارد عبارتند از:

  • داده‌های آموزشی: مانند همه چت‌بات‌های هوش مصنوعی ، جمینای باید یاد بگیرد که پاسخ‌های صحیحی ارائه دهد. برای انجام این کار، مدل ها باید با اطلاعات صحیحی آموزش داده شوند که نادرست یا گمراه‌کننده نباشند. با این حال، آنها همچنین باید قادر به شناسایی اطلاعات نادرست یا گمراه‌کننده در صورت مواجهه با آن‌ها باشند که جمینای در مقایسه با دیگر ابزارهای هوش مصنوعی از عملکرد نسبتاً ضعیفی در این زمینه برخوردار است. با توجه به سابقه‌ی گوگل در همراهی با جریان بیداری (woke)، به نظر می‌رسد داده‌های گوگل نیز دارای سوگیری‌های مختلف و گمراه کننده باشند.
  • سوگیری و آسیب بالقوه: آموزش هوش مصنوعی یک فرآیند بی‌پایان و همراه با محاسبات فشرده‌است؛ زیرا همیشه اطلاعات جدیدی برای یادگیری وجود دارد. گوگل ادعا کرده‌است که در تمام مدل های Gemini ، رویه‌های توسعه‌ی مسئولانه‌ای را دنبال کرده‌است، از جمله ارزیابی گسترده برای کمک به محدود کردن خطر سوگیری و آسیب بالقوه. اما مطابق با ادعای کاربران این چت‌بات، جمینای سوگیری‌های بسیاری از خود نشان داده‌است که با توجه به سابقه‌ی گوگل در این زمینه دور از انتظار هم نیست. نمایش تصاویری از مردان و زنان آسیایی یا سیاه پوست، زمانی که از Gemini خواسته‌شد تا تصویری از پدران بنیان‌گذار آمریکا طراحی کند، نشان دهنده‌ی این سوگیریِ جمینای است.
  • اصالت و خلاقیت: در مورد اینکه محتوای تولید شده توسط جمینای چقدر می‌تواند اصیل و خلاق باشد، محدودیت‌هایی وجود دارد. این مورد، به ویژه در مورد نسخه رایگان صدق می‌کند، که در پردازش درخواست‌های پیچیده با مراحل و ظرایف متعدد و تولید خروجی مناسب با مشکل مواجه بوده‌است. نسخه رایگان مبتنی بر Gemini Pro LLM است که از نظر قابلیت محدودتر است؛ نسخه‌های پولی این پلتفرم دسترسی به ویژگی‌های پیشرفته‌تری را ارائه می‌دهند.

به طور کلی، انتظار می‌رفت هوش مصنوعی Gemini شرکت Google بسیار پیشرفته‌تر از سایر شرکت‌های توسعه‌دهنده هوش مصنوعی باشد، زیرا Google سابقه‌ای طولانی در ارائه خدمات به میلیون‌ها کاربر دارد و به همین خاطر این شرکت داده‌های بسیار زیادی از انواع موضوعات در اختیار دارد.

با این حال، مطابق بازخوردهای کاربران، مدل های هوش مصنوعی Gemini رضایت چندانی جلب نکرده‌اند و همچنین شرکت‌های پیشرو در زمینه‌ی هوش مصنوعی از جمله OpenAI و Anthropic، با وجود سابقه فعالیت کمتر نسبت به Google، توانسته‌اند با داده‌های محدودتر، مدل های هوش مصنوعی خارق‌العاده‌تری را ارائه دهند. این موارد نشان‌دهنده توان نه چندان قوی شرکت Google در توسعه هوش مصنوعی در مقایسه با مدل هایی مانند GPT و Claude است.

در مورد جمینای چه نگرانی‌هایی وجود دارد؟

یکی از نگرانی‌ها در مورد جمینای ، پتانسیل آن برای ارائه اطلاعات مغرضانه یا نادرست به کاربران است. هر گونه جانبداری ذاتی در داده‌های آموزشی تغذیه شده به Gemini می‌تواند منجر به تردید کاربران شود. برای مثال، همانطور که در مورد تمام نرم‌افزارهای پیشرفته هوش مصنوعی وجود دارد، داده‌های آموزشی که گروه‌های خاصی را از یک جمعیت معین حذف می‌کنند، منجر به نتایج نامتعادل خواهند شد.

تمایل جمینای به “ایجاد توهم” (hallucinations) و دیگر ابداعات و انتقال آن‌ها به کاربران به عنوان اطلاعاتی صادقانه نیز دلیلی برای نگرانی است. این یکی از بزرگترین خطرات پاسخ‌های ChatGPT از زمان آغاز بکار آن بوده‌است، همانطور که در مورد سایر ابزارهای پیشرفته هوش مصنوعی نیز وجود دارد. علاوه بر این، از آنجایی که Gemini همیشه زمینه و محتوا را درک نمی‌کند، پاسخ‌های آن ممکن‌است همیشه با درخواست‌ها و سؤالاتی که کاربران ارائه می‌دهند مرتبط نباشد.

جمینای به چه زبان‌هایی در دسترس است؟

جمینای از بیش از ۴۵ زبان پشتیبانی می‌کند. این مدل می‌تواند ورودی‌های متنی را با دقتی تقریباً شبیه انسان به زبان‌های مختلف ترجمه کند. گوگل قصد دارد قابلیت‌های درک زبان جمینای را گسترش دهد و آن را در همه جا در دسترس قرار دهد. با این حال، عوامل مهمی برای در نظر گرفتن وجود دارد، مانند ممنوعیت‌هایی که بر محتوای تولید شده توسط LLM اعمال می‌شود یا تلاش‌های نظارتی در حال انجام در کشورهای مختلف که می‌توانند استفاده از جمینای را در آینده محدود یا ممنوع کنند.

علاوه بر ترجمه، جمینای قابلیت‌های دیگری را نیز در زبان‌های مختلف ارائه می‌دهد. برای مثال، این مدل قادر به استدلال ریاضی و خلاصه سازی به چندین زبان است. همچنین می‌تواند برای تصویری به زبان‌های مختلف توضیحاتی را (caption) تولید کند.

آیا تولید تصویر در Gemini در دسترس است؟

در زمان انتشار جمینای ، گوگل از توانایی آن برای تولید تصاویر به همان شیوه‌ای که ابزارهای دیگر هوش مصنوعی مولد مانند دال-ای (Dall-E)، میدجورنی (Midjourney) و استیبل دیفیوژن (Stable Diffusion) انجام می‌دهند، تعریف کرد. جمینای در حال حاضر از مدل تبدیل متن به تصویر Imagen 2 گوگل استفاده می‌کند که به این ابزار قابلیت‌های تولید تصویر می‌دهد.

با این حال، در اوایل اسفند 1402، ویژگی تولید تصویر Gemini پس از آنکه مشخص شد تصاویر تولید شده حاوی نادرستی‌های واقعی هستند، متوقف شد تا مورد بازبینی قرار گیرد. گوگل قصد دارد این ویژگی را بهبود بخشد تا جمینای بتواند در درازمدت همچنان چندحالته باقی بماند. قابلیت تولید تصویر، در زمان انتشار مقاله در دسترس نیست.

تصویری از پدران بنیانگذار آمریکا که توسط Gemini ایجاد شده است.
تصویری از پدران بنیانگذار آمریکا که توسط Gemini ایجاد شده است.

پیش از آنکه گوگل دسترسی به ویژگی ایجاد تصویر را متوقف کند، خروجی‌های Gemini بسته به ورودی‌های کاربر، از ساده تا پیچیده متغیر بود. کاربران می‌توانستند دستورالعمل‌های توصیفی برای ایجاد تصاویر خاص ارائه دهند. یک فرآیند گام به گام ساده برای کاربر لازم بود تا یک پرامپت را وارد کند، تصویری را که جمینای تولید کرده مشاهده کند، آن را ویرایش کند و برای استفاده بعدی ذخیره نماید.

Gemini در مقابل ChatGPT، GPT-4 و GPT-4o

گوگل جمینای یک رقیب (نه چندان قدرتمند) برای مدل های GPT-3، GPT-4 و GPT-4o از OpenAI محسوب می‌شود. جدول زیر برخی از ویژگی‌های کلیدی Google Gemini و محصولات OpenAI را مقایسه می‌کند.

GPT-4oGPT-4ChatGPTGemini
توسعه دهندهشرکت OpenAIشرکت OpenAIشرکت OpenAIواحد تجاری شرکت دیپ مایند گوگل
رابط چت باتوبسایت و اپلیکیشن (فعلا فقط برای سیستم عامل macOS در دسترس است.)وبسایت و اپلیکیشنوبسایت و اپلیکیشناپلیکیشن و وبسایت جمینای (Gemini) که قبلا بارد (Bard) نام داشت.
روش‌های ادراکچند وجهیچند وجهیتک وجهی؛ فقط بر روی مدل زبانی ساخته شده‌است.چند وجهی؛ مدل بر روی متن، تصاویر، صدا و ویدیو آموزش یافته‌است.
متغیرهای مدلGPT-4oGPT-4 GPT-4 TurboGPT-3.5 TurboUltra, Pro, Nano and Flash
طول پنجره کانالی128,000 tokens128,000 tokens16,000 tokens1,000,000 tokens
مقایسه ویژگی‌های کلیدی گوگل جمینای و محصولات OpenAI

با توجه به اینکه طول پنجره کانالی (context window) Gemini 1.5 pro، بسیار بیشتر از آخرین مدل GPT-4o شرکت OpenAI است، انتظار می‌رود که خروجی گرفته شده از Gemini بسیار بهتر از خروجی گرفته شده از GPT-4o باشد. اما مطابق با نتایج یک مطالعه آماری که از کاربران هر دو مدل گرفته شده، GPT-4o و حتی GPT-4 میزان رضایت بسیار بیشتری در میان کاربران از خود داشته‌است و حتی در گزارش برخی منابع به این موضوع نیز اشاره شده‌است که Gemini در بیشتر اوقات پس از نوشتن چندین پرامپت، انسجام محتوایی خود را از دست داده و حتی در اکثر اوقات جواب‌هایی بی ربط به موضوع را تولید می‌کند؛ در حالی که این مورد در رابطه با مدل های شرکت OpenAI کمتر گزارش شده‌است.

گوگل جمینای در مقابل ChatGPT

هم Gemini و هم ChatGPT چت‌بات‌های هوش مصنوعی هستند که برای تعامل با افراد از طریق پردازش زبان طبیعی (NLP) و یادگیری ماشین طراحی شده‌اند. هر دو از یک مدل زبان بزرگ (LLM) برای تولید و ایجاد متن محاوره‌ای استفاده می‌کنند.

ChatGPT از هوش مصنوعی مولد برای ایجاد محتوای اصلی استفاده می‌کند. برای مثال، کاربران می‌توانند از آن بخواهند که رساله‌ای در مورد مزایای هوش مصنوعی بنویسند. جمینای نیز از هوش مصنوعی مولد استفاده می‌کند. هر دو این مدل ها برای طبیعی‌تر و مفیدتر کردن جستجو و همچنین ترکیب اطلاعات جدید در پاسخ‌هایشان طراحی شده‌اند.

در دی ماه 1402، مایکروسافت قراردادی به ارزش ۱۰ میلیارد دلار با OpenAI امضا کرد تا ChatGPT را مجوزدهی و در موتور جستجوی Bing خود ادغام کند تا نتایج جستجوی گفتگومحورتر، مشابه Google Gemini ارائه دهد. این اقدام، درهای ورود دیگر موتورهای جستجوی به مجوزدهی ChatGPT را باز کرد، در حالی که Gemini تنها از گوگل پشتیبانی می‌کند.

معرفی ابزار کوپایلت شرکت مایکروسافت (Microsoft copilot)

شباهت دیگر بین این دو چت‌بات، پتانسیل آنها برای تولید محتوای “سرقت ادبی” و توانایی کنترل این موضوع است. نه جمینای و نه ChatGPT دارای ویژگی‌های داخلی تشخیص سرقت ادبی نیستند که کاربران بتوانند بر اساس آن اصالت خروجی‌ها را تأیید کنند. با این حال، ابزارهای جداگانه‌ای برای تشخیص سرقت ادبی در محتوای تولید شده توسط هوش مصنوعی وجود دارد، بنابراین کاربران گزینه‌های دیگری هم در اختیار دارند. جمینای قادر است به دیگر محتواها در پاسخ‌های خود استناد کند و به منابع آنها لینک دهد. قابلیت “بررسی مجدد” جمینای، آدرس‌های اینترنتی منابع اطلاعاتی را که برای تولید محتوا بر اساس یک پرامپت از آن‌ها استفاده می‌کند، ارائه می‌دهد.

جایگزین‌های گوگل Gemini

جمینای از خلأ پدیدار نشده‌است. ریشه‌های آن در چت‌بات‌های هوش مصنوعی پیشین نهفته‌است که سابقه‌ای طولانی در ارائه کارایی‌های محدود داشته‌اند. در حالی که شرکت‌های نوپای متعددی در حال توسعه فناوری‌های مشابه چت‌بات هستند، هیچ‌کدام به اندازه GPT مورد توجه و اقبال قرار نگرفته‌اند.

نمونه‌هایی از رقبای چت‌بات جمینای که متن یا کد تولید می‌کنند، همانطور که توسط آدری چی-رید (Audrey Chee-Read)، تحلیلگر ارشد در فارستر ریسرچ (Forrester Research) و همچنین توسط سایر کارشناسان صنعت ذکر شده، شامل موارد زیر است:

چت‌سونیک (Chatsonic)

با شعار “جایگزین ChatGPT با ابرقدرت‌ها!”، Chatsonic یک چت‌بات هوش مصنوعی است که توسط گوگل سرچ (Google Search) با یک تولیدکننده متن مبتنی بر هوش مصنوعی به نام Writesonic پشتیبانی می‌شود که به کاربران امکان می‌دهد بصورت بلادرنگ در مورد موضوعات بحث کنند و متن یا تصویر ایجاد کنند.

کلاود (Claude)

کلاودِ شرکت Anthropic یک چت‌بات مبتنی بر هوش مصنوعی است که نام آن برگرفته از مدل LLM زیربنایی آن است. این چت‌بات تحت آزمایش‌های دقیق قرار گرفته‌است تا اطمینان حاصل شود که با استانداردهای هوش مصنوعی اخلاقی مطابقت دارد و خروجی توهین‌آمیز یا نادرست از نظر واقعیت تولید نمی‌کند. که در بسیاری از مواقع، عملکرد بهتری از Gemini نیز از خود نشان داده‌است. برای آشنایی بیشتر و همچنین نحوه‌ی استفاده از این مدل زبانی پیشرفته، می‌توانید مقاله‌ی منتظر شده از هامیا ژورنال با عنوان “معرفی چت‌بات قدرتمند Claude و شرکت مادر آن Anthropic” را مطالعه فرمایید.

مدل هوش مصنوعی Claude که توسط شرکت Anthropic منتشر شده است.
مدل هوش مصنوعی Claude که توسط شرکت Anthropic منتشر شده است.

کپی.ای‌آی (Copy.ai)

Copy.ai در اصل برای کمک به تیم‌های فروش و بازاریابی ساخته شده‌است. این ابزار متن‌های اصلی مانند پست‌های رسانه‌های اجتماعی، وبلاگ‌ها، ایمیل‌ها و سایر انواع محتوا را تولید می‌کند و همچنین وظایف گردش کار را خودکار می‌کند.

گیت‌هاب کوپایلوت (GitHub Copilot)

گیت‌هاب کوپایلوت به طور خاص بر روی تولید کد برای توسعه‌دهندگان تمرکز دارد. هدف این ابزار ساده‌سازی کارهای خسته‌کننده و تکراری مرتبط با توسعه نرم‌افزار می‌باشد که در تولید نرم‌افزارهای مدرن دخیل هستند. در حالی که این ابزار برای تولید متن در نظر گرفته نشده‌است، اما به عنوان جایگزینی بسیار مناسب برای ChatGPT یا جمینای برای تولید کد عمل می‌کند.

ژاسپر چت (Jasper Chat)

ژاسپر چت از شرکت Jasper.ai یک ابزار هوش مصنوعی مکالمه‌ای (گفتگو محور) است که بر تولید متن تمرکز دارد. این ابزار برای شرکت‌هایی طراحی شده که به دنبال ایجاد محتوای مرتبط با برند و مکالمه با مشتریان هستند. این ابزار به تولیدکنندگان محتوا امکان می‌دهد کلمات کلیدی بهینه‌سازی موتور جستجو (SEO) و لحن صدا را در درخواست‌ها و پرامپت‌های خود مشخص کنند.

مایکروسافت بینگ (Microsoft Bing)

مایکروسافت و مشارکت آن با OpenAI دقیقاً همان چیزی را ارائه می‌دهد که گوگل با جمینای انجام می‌دهد: جستجوی مبتنی بر هوش مصنوعی که پرس‌وجوهای زبان طبیعی را تشخیص می‌دهد و پاسخ‌هایی با زبان طبیعی می‌دهد. وقتی کاربر، سوالی را جستجو می‌کند، نتایج استاندارد جستجوی بینگ و پاسخ تولید شده توسط GPT-4 را دریافت می‌کند و همچنین امکان تعامل با هوش مصنوعی در مورد پاسخ آن را دارد.

اسپین‌بات (SpinBot)

این ابزار هوش مصنوعی مولد در تولید متن اصلی، بازنویسی محتوا و اجتناب از سرقت ادبی تخصص دارد. این ابزار، وظایف ساده دیگری را برای کمک به متخصصان در تکالیف نوشتاری، مانند تصحیح متن، انجام می‌دهد.

یوچت (YouChat)

یوچت، چت‌بات هوش مصنوعی موتور جستجوی You.com مستقر در آلمان است. این مدل به سؤالات پاسخ می‌دهد و منابع پاسخ‌های خود را ارائه می‌دهد تا کاربران بتوانند منابع را بررسی کنند و صحت پاسخ‌های آن را تأیید کنند.

تاریخچه و آینده جمینای

جمینای، که در ابتدا با نام بارد (Bard) شناخته می‌شد، در اصل برای جستجو طراحی شده بود. هدف آن فراهم کردن امکان پرس و جو با زبان طبیعی به جای کلیدواژه برای جستجو بود. هوش مصنوعی آن بر اساس پرسش‌ها و پاسخ‌های گفتگوی طبیعی آموزش دیده بود. بارد به جای اینکه لیستی از پاسخ‌ها ارائه دهد، زمینه‌ای را برای پاسخ‌ها فراهم می‌کرد. بارد برای کمک به سؤالات بعدی طراحی شده بود؛ چیزی که در جستجو جدید بود. همچنین دارای یک عملکرد “به اشتراک گذاری گفتگو” و یک عملکرد “بررسی مجدد” بود که به کاربران در بررسی صحت نتایج تولید شده کمک می‌کرد.

بارد همچنین با چندین برنامه و سرویس Google از جمله YouTube، Maps، Hotels، Flights، Gmail، Docs و Drive ادغام شد و به کاربران امکان می‌داد ابزار هوش مصنوعی را روی محتوای شخصی خود اعمال کنند.

اولین نسخه بارد از نسخه سبک‌تر لامدا (Lamda) استفاده می‌کرد که به توان محاسباتی کمتری برای مقیاس‌بندی برای کاربران همزمان نیاز داشت. ادغام مدل زبان Palm 2 به بارد این امکان را داد تا در پاسخ به پرسش‌های کاربران بصری‌تر عمل کند. بارد همچنین Google Lens را نیز در خود جای داد و به کاربران امکان آپلود تصاویر علاوه بر درخواست‌های نوشتاری را داد. ادغام بعدی مدل زبانی جمینای، استدلال، برنامه‌ریزی و درک پیشرفته‌تری را برای بارد به ارمغان آورد.

سپس، به عنوان بخشی از راه‌اندازی اولیه جمینای در 15 آذر 1402، گوگل مسیر آینده نسل بعدی LLM‌های خود را ارائه کرد. در حالی که گوگل در آن روز جمینای اولترا، پرو و نانو را معرفی کرد، اما اولترا را همزمان با پرو و نانو در دسترس قرار نداد. در ابتدا، اولترا تنها برای مشتریان منتخب، توسعه‌دهندگان، شرکا و کارشناسان در دسترس بود؛ عرضه کامل آن در بهمن ماه 1402 انجام شد.

آینده جمینای همچنین در مورد گسترش و ادغام گسترده‌تر در سرتاسر محصولات گوگل می‌باشد. Gemini در نهایت برای بهبود تجربه وب برای کاربران در مرورگر گوگل کروم ادغام خواهد شد. گوگل همچنین متعهد شده‌است که جمینای را در پلتفرم Google Ads ادغام کند تا روش‌های جدیدی را برای تبلیغ‌کنندگان جهت برقراری ارتباط و تعامل با کاربران ارائه دهد. دستیار هوش مصنوعی دوئِت (Duet AI) نیز در آینده از مزایای جمینای بهره‌مند خواهد شد.

در 26 بهمن 1402، گوگل از آزمایش اولیه Gemini 1.5 خبر داد. این نسخه برای طیف وسیعی از کارها بهینه‌سازی شده‌است که در آنها عملکردی مشابه با Gemini 1.0 اولترا دارد، اما با یک ویژگی آزمایشی اضافی بر درک متن طولانی تمرکز دارد. طبق گفته گوگل ، آزمایش‌های اولیه نشان می‌دهد که Gemini 1.5 Pro در حدود ۸۷ درصد از معیارهای گوگل که برای توسعه LLMها تعیین شده‌است، عملکرد بهتری نسبت به ۱.۰ پرو دارد. آزمایش‌های مداوم تا زمان اعلام عرضه کامل ۱.۵ پرو ادامه داشت و دارد و در 13 اردیبهشت 1403، نسخه‌ی Gemini 1.5 pro برای عموم منتشر شد.

به‌روزرسانی‌های اخیر Google Gemini

در ماه اردیبهشت 1403، گوگل در کنفرانس Google I/O پیشرفت‌های بیشتر در مورد Gemini 1.5 Pro را اعلام کرد. ارتقاءها شامل بهبود عملکرد در ویژگی‌های ترجمه، کدگذاری و استدلال می‌باشد. Gemini 1.5 Pro ارتقا یافته همچنین درک تصویر و ویدیو را بهبود بخشیده‌است، از جمله توانایی پردازش مستقیم ورودی‌های صوتی با استفاده از درک صوتی. پنجره کانالی مدل به ۱ میلیون توکن افزایش یافته‌است که به آن امکان می‌دهد اطلاعات بسیار بیشتری را هنگام پاسخ به درخواست‌ها به خاطر بسپارد.

همچنین در ماه اردیبهشت، Gemini 1.5 Flash، یک مدل کوچک‌تر با میانگین تأخیر زیر یک ثانیه برای اولین توکن و پنجره کانالی ۱ میلیون توکن منتشر شد.

علاوه بر ارتقاءهای مدل اصلی، گوگل در ماه اردیبهشت ویژگی‌های جدیدی را به API جمینای معرفی کرد، از جمله موارد زیر:

  • استخراج فریم ویدیو (Video frame extraction): کاربران می‌توانند برای تولید محتوا، یک ویدیو آپلود کنند.
  • تماس عملکرد موازی (Parallel function calling): کاربران می‌توانند به طور همزمان بیش از یک تماس برقرار کنند.

این شرکت در ماه خرداد قابلیت کَش کردن متن را اضافه کرد تا اطمینان حاصل کند که کاربران فقط یک بار بخش‌هایی از یک پرامپت را به مدل ارسال کنند.

پیش‌نمایش‌هایی از هر دو مدل Gemini 1.5 Pro و Gemini 1.5 Flashدر بیش از ۲۰۰ کشور در دسترس است. این مدل ها از خرداد ماه 1403 به طور کلی در دسترس هستند.

امتیاز دهید!
0 / 0

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا