کمپانی OpenAI، خالق چتبات ChatGPT، در رویداد معرفی محصول جدید خود، دکور سادهای را بکار گرفت که شامل سه دست مبل، یک میز و تعدادی صندلی برای تماشاگران دعوت شده و یا کارکنان شرکت بود. تجهیزات مورد استفاده برای این ارائه محدود به یک گوشی تلفن همراه، یک لپتاپ و یک مانیتور میشد. با وجود این سادگی، این رویداد، بستر معرفی یک محصول میلیارد دلاری هوش مصنوعی بود که مجدداً توجهات جهانی را به سوی این شرکت برتر در زمینه هوش مصنوعی جلب نمود.
معرفی ChatGPT | انقلابی بزرگ در هوش مصنوعی
معرفی GPT-4o
در رویداد زنده بهار 2024، انقلابی در عرصه هوش مصنوعی و همچنین ChatGPT رخ داد. GPT-4o، نسل جدیدی از سیستمهای پردازش گفتار طبیعی معرفی گردید که ویژگیهای پیشرفتهای را که پیش از این تنها برای کاربران حرفهای و پولی در دسترس بود، اکنون به صورت رایگان در اختیار عموم قرار میدهد. این پیشرفت چشمگیر، زمینه را برای تعامل لحظهای و واقعی هوش مصنوعی با جهان پیرامون فراهم میآورد. رباتها اکنون قادرند از طریق دیدن، شنیدن، خواندن و گفتار، ارتباطی کاملاً تعاملی با محیط اطراف خود برقرار نمایند. این دستاورد، افقهای جدیدی را برای آینده هوش مصنوعی ترسیم میکند و نوید ساخت دنیایی نوین را میدهد.
شرکت OpenAI با معرفی GPT-4o، گامی بلند در مسیر تحقق دنیایی برداشت که پیش از این تنها در آثار سینمایی همچون فیلم “Her” به تصویر کشیده شدهبود. این دستاورد نه تنها رنگ واقعیت بخود گرفته، بلکه حتی فراتر از آن پیش میرود. زمانبندی انتشار GPT-4o نیز از اهمیت ویژهای برخوردار بود؛ زیرا دقیقاً یک روز قبل از رویداد بزرگ گوگل صورت گرفت که در آن، این غول فناوری قصد داشت ویژگیها، محصولات و فناوریهای نوینش را معرفی نماید. این استراتژی از سوی OpenAI که همواره یک یا دو روز پیش از رویدادهای گوگل، محصولی سرنوشتساز و پرسروصدا را عرضه میکند، گویی برای خنثیسازی تأثیرگذاری گوگل طراحی شده است.
روشهای نوین جستجو در گوگل – مروری بر ابتکارات گوگل در جستجوی تصویری و متنی
یکی دیگر از نکات جالب توجه در مورد GPT-4o، ظهور مرموز یک سیستم گفتگوی هوشمند تحت عنوان GPT2 در برخی پلتفرمها، پیش از رونمایی GPT-4o بود. این سیستم که به صورت ناگهانی در دسترس برخی از استفاده کنندگان قرار گرفت، قابلیت های بسیار پیشرفتهای از خود نشان میداد؛ تا جایی که کارشناسان آن را در سطح GPT-4 ارزیابی میکردند. هویت و منشأ این مدل هوشمند در هالهای از ابهام قرار داشت و هیچ مرجع رسمی مسئولیت آن را بر عهده نمیگرفت. اکنون با معرفی GPT-4o، مشخص شده که آنچه به عنوان GPT2 ظاهر گشتهبود، در واقع نسخهای از این محصول جدید بوده که شرکت OpenAI به منظور آزمایش و جلب توجه کاربران، آن را به صورت پنهان و گهگاهی در اختیار عموم قرار میداد.
نحوهی استفاده از GPT-4o
پس از ایجاد حساب کاربری در سایت OpenAI، مشابه روش ثبت نام و باز کردن حساب برای استفاده از ChatGPT، میتوانید از این فناوری جدید و پیشرفته بهره ببرید. کاربرانی که اشتراک تهیه کردهاند در صفحه اصلی ChatGPT، همانند گذشته قادرند پرامپتها و درخواستهای خود را وارد کنند و سپس تعیین نمایند که پاسخ مورد نظر را از GPT-4o میخواهند یا ChatGPT (GPT-3.5) یا GPT-4.

اگر شما از آن دست کاربرانی هستید که از نسخهی رایگان استفاده میکنید، ممکن است این مورد آنگونه که باید نشان داده نشود. در این صورت شما میتوانید پرامپت خود را بنویسید و برای ChatGPT ارسال کنید و سپس تعیین کنید که جواب آماده شده برای شما را GPT-4o تهیه کند یا ChatGPT (GPT3.5). برای مثال در تصویر زیر از ChatGPT خواسته شده تا دو مورد از بهترین روشهای یادگیری زبان انگلیسی را پیشنهاد دهد. همانطور که مشاهده میکنید به طور پیش فرض با GPT-4o نوشته شده است که میتوانید به ChatGPT (GPT3.5) تغییر دهید و در این صورت جواب متفاوتی را دریافت خواهید کرد (پیشفرض جوابهای تهیه شده، با GPT-4o میباشد، مگر اینکه شما خودتان به ChatGPT (GPT3.5) تغییر دهید).
پرامپت نویسی : چگونه هوش مصنوعی را به بردهی خود تبدیل کنیم!

اگر شما از نسخهی رایگان ChatGPT استفاده میکنید، باید بدانید که گرفتن خروجی توسط GPT-4o با محدودیت همراه است و اگر تعداد مشخصی از خروجی را توسط این فناوری جدید دریافت کنید، GPT-4o برای شما غیر فعال شده و باید ساعاتی را منتظر بمانید تا دوباره بتوانید خروجیهای متناسب با پرامپتهای خود را دریافت کنید. البته ChatGPT (GPT3.5) برای کاربرانی که اشتراک تهیه نکردهاند، محدودیتی ندارد و هر زمان که میخواهند میتوانند به صورت نامحدود استفادهکنند.
امکان استفاده از تمام قابلیتها و امکانات GPT-4o، اعم از ارسال فایل (عکس، فیلم، صدا، فایل و غیره)، استفادهی نامحدود، وصل کردن به Google Drive و Microsoft OneDrive و تمام موارد دیگری که در ادامهی مقاله برای شما همراهان هامیا ژورنال آماده کردهایم، در تاریخ انتشار مقالهی حاضر فقط با آیپیهای کشور ایالات متحده آمریکا مقدور میباشد.
امکانات GPT-4o
اکنون به معرفی و بررسی تک تک امکانات و قابلیتهای جذاب و انقلابی GPT-4o میپردازیم تا با این دنیای جدید هوش مصنوعی کاملاً آشنا شویم:
رویداد معرفی GPT-4o توسط خانم میرا موراتی، مدیر ارشد فناوری (CTO) شرکت OpenAI، به صورت زنده و بدون پیشضبط برگزار شد. این امر نشان از اطمینان بالای OpenAI به عملکرد این محصول داشت. GPT-4o از لحاظ تواناییهای هوش مصنوعی و پردازش گفتار طبیعی، در سطح GPT-4 قرار دارد و همان کارایی را ارائه میدهد. تفاوت اصلی GPT-4o با GPT-4 این است که GPT-4o برای استفادهی عموم کاربران به صورت رایگان در دسترس قرار گرفته است. در حالی که برای دسترسی به GPT-4، کاربر ملزم به پرداخت هزینه اشتراک ماهانه 24 دلار (عضویت پلاس) بود. هر دو گروه استفادهکنندگان رایگان و پولی (پلاس) میتوانند از قابلیت های GPT-4o بهرهمند شوند، اما اعضای پولی از امکانات و سرعت پردازش بیشتری برخوردار خواهند بود.
در همان اول کار، خانم موراتی خبر خوشی را داد و آن هم رایگان شدن دسترسی به بخشهای پولی هوش مصنوعی ChatGPT بود. بخشهایی همچون:
1. دسترسی رایگان به بخشهای پولی ChatGPT که پیش از این تنها برای مشترکین پرداختکننده قابل استفادهبود، از جمله:
– GPT Store برای ساخت مدلهای GPT شخصی
– Vision برای تشخیص و پردازش تصاویر
– Browser برای دسترسی و جستجو در اینترنت
– Memory برای ذخیره و به خاطرسپاری اطلاعات
– Advanced Data Analysis (Code Interpreter) برای کدنویسی و تحلیل دادهها

2. دسترسی رایگان به API های ChatGPT-4o برای استفاده در برنامههای کاربردی با سرعت دو برابر نسخه قبلی، هزینه 50٪ کمتر برای استفاده تجاری و ظرفیت 5 برابر بیشتر نسبت به GPT-4 Turbo.

3. امکان آپلود تصاویر و استفاده از قابلیتهای پردازش تصویر در Playground آنلاین.
4. ارائه قابلیت های برتر نسبت به ChatGPT-4 Turbo.
5. امید به معرفی امکانات جدیدتر و جذابتر برای کاربران نسخه پولی در آینده.
6. رضایت و خوشحالی کاربرانِ نسخه رایگان از دسترسی گسترده به امکانات پیشرفته هوش مصنوعی
این ویژگیهای جدید GPT-4o، دستاوردی انقلابی در زمینه دموکراتیزه کردن هوش مصنوعی برای عموم استفاده کنندگان محسوب میشود و افقهای جدیدی را در این حوزه میگشاید.
بخش بعدی، نمایش زنده و عملی قابلیتهای جدید GPT-4o است که نقطه اوج این رویداد محسوب میشود. برخی از نکات کلیدی این دمو عبارتند از:
1. نمایش توانایی برقراری ارتباط طبیعی و روان GPT-4o از طریق گفتگو با آن و نشان دادن پاسخهای سریع و بهموقع.
2. امکان حرف زدن همزمان و پریدن در حرفهای GPT-4o بدون نیاز به انتظار برای پایان جمله، که نشاندهنده ارتباط شفاف و بدون وقفه است.
3. ارائه قابلیت های چندحسی (Multimodal) پیشرفته در GPT-4o برای پردازش همزمان انواع دادهها مانند تصویر، صوت، نوشتار و عکس و ارائه پاسخ یکپارچه.
4. امکان استفاده از دوربین برای گرفتن عکس و پرسیدن سوال درباره آن به صورت صوتی و دریافت پاسخ صوتی با لحن طبیعی.
5. ارتقای کیفیت لحن و طبیعیگویی در گفتار GPT-4o.
این دمو زنده، فرصتی برای درک عملی توانمندیهای جدید GPT-4o در زمینههای مختلف ارتباطی، پردازش چندرسانهای و واکنشپذیری طبیعی فراهم میآورد و به کاربران این امکان را میدهد تا شاهد قدرت واقعی این سیستم هوش مصنوعی پیشرفته باشند.
درک احساسات توسط GPT-4o
در مکالمه اول، مجریان دموی زنده در معرفی GPT-4o با ارائه یک سناریوی واقعی، توانایی GPT-4o در درک و واکنش مناسب به احساسات انسانی را به چالش کشیدند. آنها از GPT-4o خواستند تا در موقعیت یک سخنرانی که با استرس همراه است، به آنها کمک کند تا آرامش خود را حفظ کنند. GPT-4o با درک عمیق این موقعیت احساسی، شروع به ارائه راهنماییهای مناسب و انسانی نمود. نکته جالب توجه، توانایی این ابزار هوش مصنوعی در برقراری گفتگوی طبیعی، درک احساسات مختلف از جمله استرس و شادی و حتی تشخیص جزئیاتی همچون الگوی تنفس متأثر از استرس بود. GPT-4o با لحنی متناسب با حالت احساسی کاربر، به وی هشدار داد که برای کاهش استرس باید تنفس آرامتری داشته باشد.
توانایی GPT-4o در تغییر لحن صدا
در ادامه همان مکالمه اول، GPT-4o تواناییهای جدید و جالب توجهی را به نمایش گذاشت. این سیستم هوشمند نشان داد که میتواند به راحتی و همانند یک گفتگوی انسانی طبیعی، کنترل ذهن خود را برای انتقال به موضوع بعدی مکالمه حفظ کند. علاوه بر این، GPT-4o قابلیت تغییر سبک و لحن صدا را نیز دارد. زمانی که میرا موراتی از آن خواست تا به شیوه رباتیک سخن بگوید، این سیستم هوش مصنوعی به سرعت لحنش را تغییر داد. این ویژگی تنوع صدا میتواند در ساخت اپلیکیشنهای مختلف بسیار کاربردی باشد؛ مانند برنامههای دوستیابی با شخصیتهای مجازیِ دارای صداهای متفاوت، یا اپلیکیشنهای مدیتیشن که میتوانند با لحنها و حسهای گوناگون با کاربران ارتباط برقرار کنند.
قابلیت GPT-4o در حل مسائل ریاضی
در ادامه این معرفی ، GPT-4o توانایی خود را در حل مسائل ریاضی نیز به نمایش گذاشت. هرچند مسأله ارائه شده ساده بود، اما هدف اصلی این بخش، نشان دادن درک عمیق GPT-4o از محیط پیرامون و توانایی آن در کمک به کاربران در حین مطالعه یا انجام تحقیقات بود. با این قابلیت، GPT-4o میتواند به عنوان یک همراه و راهنمای کارآمد برای دانشجویان و محققان در فرآیند یادگیری عمل کند و با درک موقعیت و ارائه راهنماییهای مناسب، آنها را در مسیر موفقیت یاری رساند. این ویژگی میتواند تجربه یادگیری را غنیتر و لذتبخشتر کند و دسترسی آسانتر به اطلاعات و پاسخهای دقیق را فراهم آورد.
معرفی نرم افزار کامپیوتری GPT-4o
یکی دیگر از ویژگیهای جذاب و انقلابی GPT-4o، معرفی نرمافزار کامپیوتری آن است که در حال حاضر برای سیستمعامل macOS منتشر شده و انتظار میرود تا پایان سال 2024 نسخه ویندوز نیز عرضه گردد. این برنامه نه تنها قابلیت گفتگوی متنی را ارائه میکند، بلکه به کاربران، امکان تعامل مستقیم با محیط کامپیوتر را نیز میدهد. پس از نصب ChatGPT بر روی رایانه، استفادهکنندگان میتوانند در مورد فعالیتهایشان از آن سوال بپرسند، اطلاعات یا صفحه نمایش خود را با آن به اشتراک بگذارند و درباره رویدادهای کامپیوتری از آن راهنمایی دریافت کنند. به عنوان مثال، در این نمایش، کاربر، بخشی از کد برنامهنویسی نوشته شده را کپی کرد و از ChatGPT خواست تا در این زمینه به او کمک کند. با توانایی دسترسی به حافظه دستگاه، ChatGPT میتواند تحلیلهای مربوطه را ارائه دهد. در این مورد خاص، ChatGPT توضیحات و پیشنهادهایی در ارتباط با کد ارائه شده ارائه نمود.
قابلیت جدید و جالب توجه دیگری که در این نمایش از GPT-4o ارائه شد، امکان اشتراکگذاری صفحه نمایش با آن از طریق دکمه Share Screen بود. در این حالت، کاربر میتواند محتوای نمایشگر خود را با GPT-4o به اشتراک بگذارد، دقیقاً مانند یک دستیار که در کنار شما نشسته و همان چیزی را که شما در صفحه نمایش میبینید، مشاهده میکند.
این ویژگی، امکانات گستردهای را فراهم میآورد. به عنوان مثال، در نمایش ارائه شده، یک نمودار در صفحه نمایش وجود داشت. کاربر میتواند از GPT-4o درباره این نمودار سوال بپرسد و آن را تحلیل کند، به اینترنت متصل شود و اطلاعات تکمیلی مرتبط را جستجو نماید و همچنین مشاورهها و راهنماییهای لازم را ارائه دهد. در این مورد خاص، کاربر سعی داشت سوالاتی را مطرح کند که پاسخ آنها از اطلاعات موجود در نمودار قابل استخراج بود.
ترجمهی همزمان و بلادرنگ با GPT-4o
در بخش پایانی این نمایش، GPT-4o قابلیت ترجمه همزمان را به نمایش گذاشت. در این بخش، خانم موراتی برخی از توییتهای توییتر (X) را در همان لحظه که توسط بینندگان برنامه زنده خواستهبود تا به GPT-4o بگویند، گفت و به صورت زنده به نمایش گذاشت. در توییت اول، یکی از تماشاگران سوال کردهبود که آیا این مدل میتواند ترجمهی بلادرنگ داشته باشد؟ یکی از قابلیتهای جالب توجه، امکان ترجمه همزمان یک گفتگوی دوطرفهبود. به عنوان مثال، فرض شد که دوستِ کاربر، ایتالیایی است و آنها نیاز به ترجمه متقابل گفتگوهای خود دارند. GPT-4o توانست هر آنچه را که کاربر میگفت، برای دوست ایتالیایی ترجمه کند و همچنین صحبتهای دوستش را برای کاربر ترجمه نماید. این قابلیت با کیفیت بسیار خوب و طبیعی انجام شد، به گونهای که گفتگو، رباتیک یا غیر واقعی به نظر نمیرسید. GPT-4o توانست لحن و احساسات طبیعی گفتگو را به خوبی حفظ کند و یک تجربه روان و انسانی را برای کاربران فراهم آورد.
تشخیص حالات چهره با GPT-4o
در بخش پایانی این معرفی، GPT-4o با موفقیت یکی دیگر از قابلیت های چندرسانهای خود را به نمایش گذاشت. در این مثال، یک توییت حاوی یک تصویر سلفی را خواند و از GPT-4o خواسته شد تا احساسات و حالات چهره شخص در تصویر را تشخیص و توضیح دهد. GPT-4o توانست این کار را با کیفیت بسیار بالایی انجام دهد.
علیرغم عدم معرفی یک محصول کاملا جدید و انقلابی، این بهروزرسانیها و ارتقاءها گامهای مهمی در مسیر آینده هوش مصنوعی چندرسانهای محسوب میشوند. آنها پایهای را برای رباتهایی فراهم میکنند که میتوانند ببینند، بشنوند، سخن بگویند و با کیفیت فوقالعادهای عمل کنند.
نمونههای بیشتری از عملکرد چشمگیر هوش مصنوعی GPT-4o در صفحه اینترنتی OpenAI موجود است. این دستاوردها نشان میدهند که هر چند گامهای بزرگی در آینده نزدیک برداشته نشده، اما پیشرفتهای مداوم در حال شکلگیری دنیایی جدید از هوش مصنوعی هستند که در آن تعامل انسان و ماشین به سطحی کاملاً طبیعی و روان ارتقا مییابد.