هوش مصنوعی

معرفی GPT-4o : نقطه عطف انسان و ChatGPT

کمپانی OpenAI، خالق چت‌بات ChatGPT، در رویداد معرفی محصول جدید خود، دکور ساده‌ای را بکار گرفت که شامل سه دست مبل، یک میز و تعدادی صندلی برای تماشاگران دعوت شده و یا کارکنان شرکت بود. تجهیزات مورد استفاده برای این ارائه محدود به یک گوشی تلفن همراه، یک لپ‌تاپ و یک مانیتور می‌شد. با وجود این سادگی، این رویداد، بستر معرفی یک محصول میلیارد دلاری هوش مصنوعی بود که مجدداً توجهات جهانی را به سوی این شرکت برتر در زمینه هوش مصنوعی جلب نمود.

معرفی ChatGPT | انقلابی بزرگ در هوش مصنوعی

معرفی GPT-4o

در رویداد زنده بهار 2024، انقلابی در عرصه هوش مصنوعی و همچنین ChatGPT رخ داد. GPT-4o، نسل جدیدی از سیستم‌های پردازش گفتار طبیعی معرفی گردید که ویژگی‌های پیشرفته‌ای را که پیش از این تنها برای کاربران حرفه‌ای و پولی در دسترس بود، اکنون به صورت رایگان در اختیار عموم قرار می‌دهد. این پیشرفت چشمگیر، زمینه را برای تعامل لحظه‌ای و واقعی هوش مصنوعی با جهان پیرامون فراهم می‌آورد. ربات‌ها اکنون قادرند از طریق دیدن، شنیدن، خواندن و گفتار، ارتباطی کاملاً تعاملی با محیط اطراف خود برقرار نمایند. این دستاورد، افق‌های جدیدی را برای آینده هوش مصنوعی ترسیم می‌کند و نوید ساخت دنیایی نوین را می‌دهد.

شرکت OpenAI با معرفی GPT-4o، گامی بلند در مسیر تحقق دنیایی برداشت که پیش از این تنها در آثار سینمایی همچون فیلم “Her” به تصویر کشیده شده‌بود. این دستاورد نه تنها رنگ واقعیت بخود گرفته، بلکه حتی فراتر از آن پیش می‌رود. زمان‌بندی انتشار GPT-4o نیز از اهمیت ویژه‌ای برخوردار بود؛ زیرا دقیقاً یک روز قبل از رویداد بزرگ گوگل صورت گرفت که در آن، این غول فناوری قصد داشت ویژگی‌ها، محصولات و فناوری‌های نوینش را معرفی نماید. این استراتژی از سوی OpenAI که همواره یک یا دو روز پیش از رویدادهای گوگل، محصولی سرنوشت‌ساز و پرسروصدا را عرضه می‌کند، گویی برای خنثی‌سازی تأثیرگذاری گوگل طراحی شده است.

روش‌های نوین جستجو در گوگل – مروری بر ابتکارات گوگل در جستجوی تصویری و متنی

یکی دیگر از نکات جالب توجه در مورد GPT-4o، ظهور مرموز یک سیستم گفتگوی هوشمند تحت عنوان GPT2 در برخی پلتفرم‌ها، پیش از رونمایی GPT-4o بود. این سیستم که به صورت ناگهانی در دسترس برخی از استفاده کنندگان قرار گرفت، قابلیت های بسیار پیشرفته‌ای از خود نشان می‌داد؛ تا جایی که کارشناسان آن را در سطح GPT-4 ارزیابی می‌کردند. هویت و منشأ این مدل هوشمند در هاله‌ای از ابهام قرار داشت و هیچ مرجع رسمی مسئولیت آن را بر عهده نمی‌گرفت. اکنون با معرفی GPT-4o، مشخص شده که آنچه به عنوان GPT2 ظاهر گشته‌بود، در واقع نسخه‌ای از این محصول جدید بوده که شرکت OpenAI به منظور آزمایش و جلب توجه کاربران، آن را به صورت پنهان و گهگاهی در اختیار عموم قرار می‌داد.

نحوه‌ی استفاده از GPT-4o

پس از ایجاد حساب کاربری در سایت OpenAI، مشابه روش ثبت نام و باز کردن حساب برای استفاده از ChatGPT، می‌توانید از این فناوری جدید و پیشرفته بهره ببرید. کاربرانی که اشتراک تهیه کرده‌‌اند در صفحه اصلی ChatGPT، همانند گذشته قادرند پرامپت‌ها و درخواست‌های خود را وارد کنند و سپس تعیین نمایند که پاسخ مورد نظر را از GPT-4o می‌خواهند یا ChatGPT (GPT-3.5) یا GPT-4.

نمایی از تعیین نحوه‌ی پاسخ‌دهی ChatGPT با مدل‌های مختلف برای کاربرانی که اشتراک ماهانه تهیه کرده‌اند.
نمایی از تعیین نحوه‌ی پاسخ‌دهی ChatGPT با مدل‌های مختلف برای کاربرانی که اشتراک ماهانه تهیه کرده‌اند.

اگر شما از آن دست کاربرانی هستید که از نسخه‌ی رایگان استفاده می‌کنید، ممکن است این مورد آنگونه که باید نشان داده نشود. در این صورت شما می‌توانید پرامپت خود را بنویسید و برای ChatGPT ارسال کنید و سپس تعیین کنید که جواب آماده شده برای شما را GPT-4o تهیه کند یا ChatGPT (GPT3.5). برای مثال در تصویر زیر از ChatGPT خواسته شده تا دو مورد از بهترین روش‌های یادگیری زبان انگلیسی را پیشنهاد دهد. همانطور که مشاهده می‌کنید به طور پیش فرض با GPT-4o نوشته شده است که می‌توانید به ChatGPT (GPT3.5) تغییر دهید و در این صورت جواب متفاوتی را دریافت خواهید کرد (پیش‌فرض جواب‌های تهیه شده، با GPT-4o می‌باشد، مگر اینکه شما خودتان به ChatGPT (GPT3.5) تغییر دهید).

پرامپت نویسی : چگونه هوش مصنوعی را به برده‌ی خود تبدیل کنیم!

نحوه‌ی تغییر روش پاسخ‌دهی به پرامپت توسط ChatGPT
نحوه‌ی تغییر روش پاسخ‌دهی به پرامپت توسط ChatGPT

اگر شما از نسخه‌ی رایگان ChatGPT استفاده می‌کنید، باید بدانید که گرفتن خروجی توسط GPT-4o با محدودیت همراه است و اگر تعداد مشخصی از خروجی را توسط این فناوری جدید دریافت کنید، GPT-4o برای شما غیر فعال شده و باید ساعاتی را منتظر بمانید تا دوباره بتوانید خروجی‌های متناسب با پرامپت‌های خود را دریافت کنید. البته ChatGPT (GPT3.5) برای کاربرانی که اشتراک تهیه نکرده‌اند، محدودیتی ندارد و هر زمان که می‌خواهند می‌توانند به صورت نامحدود استفاده‌کنند.

امکان استفاده از تمام قابلیت‌ها و امکانات GPT-4o، اعم از ارسال فایل (عکس، فیلم، صدا، فایل و غیره)، استفاده‌ی نامحدود، وصل کردن به Google Drive و Microsoft OneDrive و تمام موارد دیگری که در ادامه‌ی مقاله برای شما همراهان هامیا ژورنال آماده کرده‌ایم، در تاریخ انتشار مقاله‌ی حاضر فقط با آی‌پی‌های کشور ایالات متحده آمریکا مقدور می‌باشد.

امکانات GPT-4o

اکنون به معرفی و بررسی تک تک امکانات و قابلیت‌های جذاب و انقلابی GPT-4o می‌پردازیم تا با این دنیای جدید هوش مصنوعی کاملاً آشنا شویم:

رویداد معرفی GPT-4o توسط خانم میرا موراتی، مدیر ارشد فناوری (CTO) شرکت OpenAI، به صورت زنده و بدون پیش‌ضبط برگزار شد. این امر نشان از اطمینان بالای OpenAI به عملکرد این محصول داشت. GPT-4o از لحاظ توانایی‌های هوش مصنوعی و پردازش گفتار طبیعی، در سطح GPT-4 قرار دارد و همان کارایی را ارائه می‌دهد. تفاوت اصلی GPT-4o با GPT-4 این است که GPT-4o برای استفاده‌ی عموم کاربران به صورت رایگان در دسترس قرار گرفته است. در حالی که برای دسترسی به GPT-4، کاربر ملزم به پرداخت هزینه اشتراک ماهانه 24 دلار (عضویت پلاس) بود. هر دو گروه استفاده‌کنندگان رایگان و پولی (پلاس) می‌توانند از قابلیت های GPT-4o بهره‌مند شوند، اما اعضای پولی از امکانات و سرعت پردازش بیشتری برخوردار خواهند بود.

در همان اول کار، خانم موراتی خبر خوشی را داد و آن هم رایگان شدن دسترسی به بخش‌های پولی هوش مصنوعی ChatGPT بود. بخش‌هایی همچون:

1. دسترسی رایگان به بخش‌های پولی ChatGPT که پیش از این تنها برای مشترکین پرداخت‌کننده قابل استفاده‌بود، از جمله:

– GPT Store برای ساخت مدل‌های GPT شخصی

– Vision برای تشخیص و پردازش تصاویر

– Browser برای دسترسی و جستجو در اینترنت

– Memory برای ذخیره و به خاطرسپاری اطلاعات

– Advanced Data Analysis (Code Interpreter) برای کدنویسی و تحلیل داده‌ها

قابلیت‌های مختلف GPT-4o
قابلیت‌های مختلف GPT-4o

2. دسترسی رایگان به API های ChatGPT-4o برای استفاده در برنامه‌های کاربردی با سرعت دو برابر نسخه قبلی، هزینه 50٪ کمتر برای استفاده تجاری و ظرفیت 5 برابر بیشتر نسبت به GPT-4 Turbo.

GPT-4o API
GPT-4o API

3. امکان آپلود تصاویر و استفاده از قابلیت‌های پردازش تصویر در Playground آنلاین.

4. ارائه قابلیت های برتر نسبت به ChatGPT-4 Turbo.

5. امید به معرفی امکانات جدیدتر و جذاب‌تر برای کاربران نسخه پولی در آینده.

6. رضایت و خوشحالی کاربرانِ نسخه رایگان از دسترسی گسترده به امکانات پیشرفته هوش مصنوعی

این ویژگی‌های جدید GPT-4o، دستاوردی انقلابی در زمینه دموکراتیزه کردن هوش مصنوعی برای عموم استفاده کنندگان محسوب می‌شود و افق‌های جدیدی را در این حوزه می‌گشاید.

بخش بعدی، نمایش زنده و عملی قابلیت‌های جدید GPT-4o است که نقطه اوج این رویداد محسوب می‌شود. برخی از نکات کلیدی این دمو عبارتند از:

1. نمایش توانایی برقراری ارتباط طبیعی و روان GPT-4o از طریق گفتگو با آن و نشان دادن پاسخ‌های سریع و به‌موقع.

2. امکان حرف زدن همزمان و پریدن در حرف‌های GPT-4o بدون نیاز به انتظار برای پایان جمله، که نشان‌دهنده ارتباط شفاف و بدون وقفه است.

3. ارائه قابلیت های چندحسی (Multimodal) پیشرفته در GPT-4o برای پردازش همزمان انواع داده‌ها مانند تصویر، صوت، نوشتار و عکس و ارائه پاسخ یکپارچه.

4. امکان استفاده از دوربین برای گرفتن عکس و پرسیدن سوال درباره آن به صورت صوتی و دریافت پاسخ صوتی با لحن طبیعی.

5. ارتقای کیفیت لحن و طبیعی‌گویی در گفتار GPT-4o.

این دمو زنده، فرصتی برای درک عملی توانمندی‌های جدید GPT-4o در زمینه‌های مختلف ارتباطی، پردازش چندرسانه‌ای و واکنش‌پذیری طبیعی فراهم می‌آورد و به کاربران این امکان را می‌دهد تا شاهد قدرت واقعی این سیستم هوش مصنوعی پیشرفته باشند.

درک احساسات توسط GPT-4o

در مکالمه اول، مجریان دموی زنده در معرفی GPT-4o با ارائه یک سناریوی واقعی، توانایی GPT-4o در درک و واکنش مناسب به احساسات انسانی را به چالش کشیدند. آنها از GPT-4o خواستند تا در موقعیت یک سخنرانی که با استرس همراه است، به آنها کمک کند تا آرامش خود را حفظ کنند. GPT-4o با درک عمیق این موقعیت احساسی، شروع به ارائه راهنمایی‌های مناسب و انسانی نمود. نکته جالب توجه، توانایی این ابزار هوش مصنوعی در برقراری گفتگوی طبیعی، درک احساسات مختلف از جمله استرس و شادی و حتی تشخیص جزئیاتی همچون الگوی تنفس متأثر از استرس بود. GPT-4o با لحنی متناسب با حالت احساسی کاربر، به وی هشدار داد که برای کاهش استرس باید تنفس آرام‌تری داشته باشد.

توانایی GPT-4o در تغییر لحن صدا

در ادامه همان مکالمه اول، GPT-4o توانایی‌های جدید و جالب توجهی را به نمایش گذاشت. این سیستم هوشمند نشان داد که می‌تواند به راحتی و همانند یک گفتگوی انسانی طبیعی، کنترل ذهن خود را برای انتقال به موضوع بعدی مکالمه حفظ کند. علاوه بر این، GPT-4o قابلیت تغییر سبک و لحن صدا را نیز دارد. زمانی که میرا موراتی از آن خواست تا به شیوه رباتیک سخن بگوید، این سیستم هوش مصنوعی به سرعت لحنش را تغییر داد. این ویژگی تنوع صدا می‌تواند در ساخت اپلیکیشن‌های مختلف بسیار کاربردی باشد؛ مانند برنامه‌های دوستیابی با شخصیت‌های مجازیِ دارای صداهای متفاوت، یا اپلیکیشن‌های مدیتیشن که می‌توانند با لحن‌ها و حس‌های گوناگون با کاربران ارتباط برقرار کنند.

قابلیت GPT-4o در حل مسائل ریاضی

در ادامه این معرفی ، GPT-4o توانایی خود را در حل مسائل ریاضی نیز به نمایش گذاشت. هرچند مسأله ارائه شده ساده بود، اما هدف اصلی این بخش، نشان دادن درک عمیق GPT-4o از محیط پیرامون و توانایی آن در کمک به کاربران در حین مطالعه یا انجام تحقیقات بود. با این قابلیت، GPT-4o می‌تواند به عنوان یک همراه و راهنمای کارآمد برای دانشجویان و محققان در فرآیند یادگیری عمل کند و با درک موقعیت و ارائه راهنمایی‌های مناسب، آنها را در مسیر موفقیت یاری رساند. این ویژگی می‌تواند تجربه یادگیری را غنی‌تر و لذت‌بخش‌تر کند و دسترسی آسان‌تر به اطلاعات و پاسخ‌های دقیق را فراهم آورد.

معرفی نرم افزار کامپیوتری GPT-4o

یکی دیگر از ویژگی‌های جذاب و انقلابی GPT-4o، معرفی نرم‌افزار کامپیوتری آن است که در حال حاضر برای سیستم‌عامل macOS منتشر شده و انتظار می‌رود تا پایان سال 2024 نسخه ویندوز نیز عرضه گردد. این برنامه نه تنها قابلیت گفتگوی متنی را ارائه می‌کند، بلکه به کاربران، امکان تعامل مستقیم با محیط کامپیوتر را نیز می‌دهد. پس از نصب ChatGPT بر روی رایانه، استفاده‌کنندگان می‌توانند در مورد فعالیت‌هایشان از آن سوال بپرسند، اطلاعات یا صفحه نمایش خود را با آن به اشتراک بگذارند و درباره رویدادهای کامپیوتری از آن راهنمایی دریافت کنند. به عنوان مثال، در این نمایش، کاربر، بخشی از کد برنامه‌نویسی نوشته شده را کپی کرد و از ChatGPT خواست تا در این زمینه به او کمک کند. با توانایی دسترسی به حافظه دستگاه، ChatGPT می‌تواند تحلیل‌های مربوطه را ارائه دهد. در این مورد خاص، ChatGPT توضیحات و پیشنهادهایی در ارتباط با کد ارائه شده ارائه نمود.

قابلیت جدید و جالب توجه دیگری که در این نمایش از GPT-4o ارائه شد، امکان اشتراک‌گذاری صفحه نمایش با آن از طریق دکمه Share Screen بود. در این حالت، کاربر می‌تواند محتوای نمایشگر خود را با GPT-4o به اشتراک بگذارد، دقیقاً مانند یک دستیار که در کنار شما نشسته و همان چیزی را که شما در صفحه نمایش می‌بینید، مشاهده می‌کند.

این ویژگی، امکانات گسترده‌ای را فراهم می‌آورد. به عنوان مثال، در نمایش ارائه شده، یک نمودار در صفحه نمایش وجود داشت. کاربر می‌تواند از GPT-4o درباره این نمودار سوال بپرسد و آن را تحلیل کند، به اینترنت متصل شود و اطلاعات تکمیلی مرتبط را جستجو نماید و همچنین مشاوره‌ها و راهنمایی‌های لازم را ارائه دهد. در این مورد خاص، کاربر سعی داشت سوالاتی را مطرح کند که پاسخ آنها از اطلاعات موجود در نمودار قابل استخراج بود.

ترجمه‌ی همزمان و بلادرنگ با GPT-4o

در بخش پایانی این نمایش، GPT-4o قابلیت ترجمه همزمان را به نمایش گذاشت. در این بخش، خانم موراتی برخی از توییت‌های توییتر (X) را در همان لحظه که توسط بینندگان برنامه زنده خواسته‌بود تا به GPT-4o بگویند، گفت و به صورت زنده به نمایش گذاشت. در توییت اول، یکی از تماشاگران سوال کرده‌بود که آیا این مدل می‌تواند ترجمه‌ی بلادرنگ داشته باشد؟ یکی از قابلیت‌های جالب توجه، امکان ترجمه همزمان یک گفتگوی دوطرفه‌بود. به عنوان مثال، فرض شد که دوستِ کاربر، ایتالیایی است و آنها نیاز به ترجمه متقابل گفتگوهای خود دارند. GPT-4o توانست هر آنچه را که کاربر می‌گفت، برای دوست ایتالیایی ترجمه کند و همچنین صحبت‌های دوستش را برای کاربر ترجمه نماید. این قابلیت با کیفیت بسیار خوب و طبیعی انجام شد، به گونه‌ای که گفتگو، رباتیک یا غیر واقعی به نظر نمی‌رسید. GPT-4o توانست لحن و احساسات طبیعی گفتگو را به خوبی حفظ کند و یک تجربه روان و انسانی را برای کاربران فراهم آورد.

تشخیص حالات چهره با GPT-4o

در بخش پایانی این معرفی، GPT-4o با موفقیت یکی دیگر از قابلیت های چندرسانه‌ای خود را به نمایش گذاشت. در این مثال، یک توییت حاوی یک تصویر سلفی را خواند و از GPT-4o خواسته شد تا احساسات و حالات چهره شخص در تصویر را تشخیص و توضیح دهد. GPT-4o توانست این کار را با کیفیت بسیار بالایی انجام دهد.

علی‌رغم عدم معرفی یک محصول کاملا جدید و انقلابی، این به‌روزرسانی‌ها و ارتقاءها گام‌های مهمی در مسیر آینده هوش مصنوعی چندرسانه‌ای محسوب می‌شوند. آنها پایه‌ای را برای ربات‌هایی فراهم می‌کنند که می‌توانند ببینند، بشنوند، سخن بگویند و با کیفیت فوق‌العاده‌ای عمل کنند.

نمونه‌های بیشتری از عملکرد چشمگیر هوش مصنوعی GPT-4o در صفحه اینترنتی OpenAI موجود است. این دستاوردها نشان می‌دهند که هر چند گام‌های بزرگی در آینده نزدیک برداشته نشده، اما پیشرفت‌های مداوم در حال شکل‌گیری دنیایی جدید از هوش مصنوعی هستند که در آن تعامل انسان و ماشین به سطحی کاملاً طبیعی و روان ارتقا می‌یابد.

امتیاز دهید!
5 / 5

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا