تحلیل تصویر، درکی فراتر از تشخیص اشکال و رنگهاست؛ نیازمند تفسیر، استنتاج و گاه حتی درک نیت پنهان در پس یک نما. هوش مصنوعی سالها در پی رسیدن به چنین سطحی از توانایی بوده است، اما اکنون با پیشرفت مدلهای زبانی مانند ChatGPT در نسخههای جدید o3 و o4-mini، این چشمانداز بیش از هر زمان دیگری به واقعیت نزدیک شده است. آنچه روزگاری تنها در حیطهی تخیل علمی میگنجید، اکنون به قابلیتی قابل استفاده در دست کاربران بدل شده است: از خواندن دستنوشتهها و حل مسائل ریاضی تا تحلیل اسکرینشاتها و تشخیص اشکالات نرمافزاری، همگی در دل یک مدل زبانیِ چندوجهی ممکن شدهاند.
در این مقاله، نگاهی خواهیم انداخت به تواناییهای تازهی ChatGPT در پردازش و درک محتوای بصری و اینکه چگونه این قابلیتها، نه تنها کاربردهای هوش مصنوعی را گستردهتر میکنند، بلکه آغازگر عصری تازه در ارتباط انسان و ماشیناند. خواه یک توسعهدهندهی نرمافزار باشید، یا دانشجویی درگیر مسائل پیچیدهی ریاضی، یا حتی صرفاً کنجکاو در زمینه فناوری، آنچه در ادامه میخوانید میتواند نگاه شما را به هوش مصنوعی و آیندهی آن دگرگون سازد.
شرکت OpenAI با معرفی نسخههای پیشرفتهی مدلهای زبانی خود، از جمله مدلهای o3 و o4-mini، گامی مهم در ارتقای قابلیتهای هوش مصنوعی برداشته است. این مدلهای نوین اکنون توانایی درک و پردازش دادههای بصری را در سطحی قابل مقایسه با ادراک انسان دارا میباشند. اساس عملکرد این قابلیت، تحلیل و تفسیر محتوای تصویری با بهرهگیری از چارچوبهای منطقی مشابه فرآیندهای شناختی انسانی است.
این نسل جدید از مدلهای هوش مصنوعی، قادر به شناسایی و تحلیل دقیق انواع مختلفی از تصاویر ارائهشده توسط کاربران هستند. این تصاویر میتوانند شامل عکسهای معمولی، نمودارهای علمی یا فنی، و یا حتی نماهای ضبطشده از محیطهای نرمافزاری (اسکرینشات) باشند. گسترهی این قابلیت به ChatGPT اجازه میدهد تا جزئیات بصری موجود در این تصاویر را به دقت مورد بررسی قرار داده و بر مبنای آن، تحلیلهای عمیق و کاربردی ارائه دهد. به عنوان نمونههایی از کاربردهای عملی این ویژگی میتوان به توانایی سیستم در خواندن و تفسیر متون دستنوشته، حل مسائل ریاضی که صورت آنها به صورت بصری ارائه شده است و تشخیص خطاهای احتمالی در واسطهای کاربری نرمافزارها اشاره نمود.
فرآیند تحلیل در این مدلها به گونهای طراحی شده است که اطلاعات بصری به صورت یکپارچه و هماهنگ با سایر دادهها مورد پردازش قرار میگیرند. به منظور تسهیل درک عمیقتر و کاملتر محتوای موجود در تصاویر، امکان انجام عملیات پیشپردازشی بر روی آنها، نظیر چرخش یا تغییر مقیاس، فراهم گردیده است. این رویکرد جامع در تحلیل، دقت و صحت پاسخهای ارائه شده توسط مدل را به میزان قابل توجهی افزایش میدهد و تضمینکننده کارایی آن حتی در مواجهه با تصاویر پیچیده یا حاوی اطلاعات مبهم و چالشبرانگیز خواهد بود.
در وضعیت کنونی، قابلیتهای پیشرفتهی مرتبط با پردازش و تحلیل بصری که در این مقاله شرح داده شدند، به طور انحصاری برای کاربرانی که دارای اشتراکهای ویژهی ChatGPT، شامل سطوح Plus، Pro و Team هستند، قابل دسترسی میباشند. با این حال، برنامهریزیهای لازم به منظور توسعهی دامنهی دسترسی به این امکانات نوآورانه و فراهم نمودن آنها برای تعداد بیشتری از کاربران در آیندهی نزدیک در حال اجراست.
سخن پایانی
با پیشروی مداوم هوش مصنوعی بهسوی الگوبرداری از فرآیندهای شناختی انسانی، توانایی درک و تحلیل محتوای بصری بدون تردید نقطهی عطفی در مسیر تکامل آن به شمار میرود. آنگونه که در این مقاله بررسی شد، نسل جدید مدلهای زبانی ChatGPT، بهویژه نسخههای o3 و o4-mini، با ورود به حوزهی بینایی ماشین، تحولی بنیادین در کارایی و کاربردپذیری ابزارهای هوش مصنوعی پدید آوردهاند. از تشخیص دقیق تصاویر و نمودارها تا خواندن دستنوشتهها و حل مسائل بصری پیچیده، مرزهای سنتی تعامل انسان و ماشین بار دیگر بازتعریف شدهاند.
با آنکه این قابلیتها در حال حاضر در انحصار کاربران سطوح Plus، Pro و Team قرار دارند، اما چشمانداز دسترسی عمومی به این فناوریها، نوید آیندهای میدهد که در آن هوش مصنوعی نه جایگزین، بلکه تسهیلگر آزادی و توانمندی انسان خواهد بود. در جهانی که مرز میان متن و تصویر در حال کمرنگ شدن است، ChatGPT با چشمانی تازه به آن مینگرد؛ و این، نه صرفاً پیشرفتی فنی، بلکه جهشی مفهومی در درک فناوری از جهان پیرامون ماست.
پرسشهای متداول
ورودیهای تصویری امکان آپلود عکسهای ثابت برای تحلیل بصری در مدل GPT-4 را فراهم میکنند و ChatGPT میتواند محتوا و متون داخل تصویر را شناسایی و تفسیر کند.
ابتدا مدل را روی GPT-4 قرار دهید و سپس با کلیک روی آیکون + در بخش ورودی، تصویر را آپلود کنید.
این ویژگی برای کاربران Plus و Enterprise و مدل GPT-4 فعال است.
فرمتهای PNG (.png)، JPEG (.jpg/.jpeg) و غیرمتحرک GIF (.gif) تا سقف ۲۰ مگابایت پشتیبانی میشوند.
حداکثر تعداد به سایز فایل و متن همراه بستگی دارد؛ در صورت بروز مشکل، تعداد یا حجم تصاویر را کاهش دهید.
خیر؛ در حال حاضر تنها تصاویر ثابت پشتیبانی میشوند و ویدیوها قابل تحلیل نیستند .
گرچه دقت کلی بالا است، مدل ممکن است توصیف نادرست ارائه دهد یا شمارش اشیاء را تقریباً انجام دهد.
– نشانهگذاری (markup) نواحی مهم با ابزارهای ویرایش قبل از آپلود
– افزایش وضوح متنهای داخل تصویر و عدم بریدن جزئیات
– کاهش شلوغی پسزمینه و برش نواحی غیرضروری
برای کاربران Enterprise محتوا برای آموزش مدل ثبت نمیشود و برای سایر پلنها مشابه متد استاندارد OpenAI مورد استفاده قرار میگیرد.
بله؛ در دموی Reuters، ChatGPT با استفاده از قابلیت بینایی خود، یک معادله دستنویس را تحلیل و حل کرد.
این ویژگی همراه با عرضهی GPT-4o در ۱۳ مه ۲۰۲۴ توسط OpenAI معرفی گردید.
اگر محتوای ما برایتان جذاب بود و چیزی از آن آموختید، لطفاً لحظهای وقت بگذارید و این چند خط را بخوانید:
ما گروهی کوچک و مستقل از دوستداران علم و فناوری هستیم که تنها با حمایتهای شما میتوانیم به راه خود ادامه دهیم. اگر محتوای ما را مفید یافتید و مایلید از ما حمایت کنید، سادهترین و مستقیمترین راه، کمک مالی از طریق لینک دونیت در پایین صفحه است.
اما اگر به هر دلیلی امکان حمایت مالی ندارید، همراهی شما به شکلهای دیگر هم برای ما ارزشمند است. با معرفی ما به دوستانتان، لایک، کامنت یا هر نوع تعامل دیگر، میتوانید در این مسیر کنار ما باشید و یاریمان کنید. ❤️