با شکوفایی فناوریهای نوین و تجدید نظر در مفاهیم ارتباط بصری، امروز شاهد ظهور فناوریای هستیم که مرزهای میان کلام و تصویر را به شیوهای خارقالعاده از نو تعریف میکند. تولید عکس با چت جی پی تی، حاصل تلفیق خلاقیت هوش مصنوعی و دقت علمی، نه تنها توانایی خلق تصاویری زیبا و کاربردی را دارا است، بلکه با پیروی از دستورالعملهای دقیق و بهرهگیری از دانش گسترده، به یک ابزار بیبدیل برای انتقال مفاهیم و ارائه تحلیلهای بصری تبدیل شدهاست.
این فناوری نوین، که توسط OpenAI به بهترین نحو طراحی و پیادهسازی شده، توانستهاست زبان بصری را به شیوهای بینظیر به خدمت خلاقیت انسان بگیرد. در ادامه این مقاله، به بررسی جامع ویژگیهای منحصر به فرد مدل GPT 4o، نقش آن در تحول دنیای طراحی و تولید محتوا و اهمیت آن در ارتقای تجربه کاربری خواهیم پرداخت؛ به گونهای که از دیدگاه کاربری، جذابیت و کاربرد عملی آن به بهترین شکل به نمایش گذاشته شود.
فهرست مطالب
قابلیت تصویر سازی OpenAI
شرکت OpenAI، که همواره در خط مقدم نوآوریهای هوش مصنوعی قرار داشتهاست، مدتهاست بر این باور بوده که قابلیت تولید تصویر باید به عنوان یک ویژگی اساسی در مدلهای زبانی پیشرفته آن گنجانده شود. در راستای این دیدگاه، OpenAI آخرین و پیشرفتهترین مدل تولید تصویر خود را در دل مدل زبانی GPT-4o جای دادهاست. این اقدام منجر به خلق قابلیت تولید تصویر با چت جی پی تی شدهاست که نه تنها تصاویر بصری چشمنوازی تولید میکند، بلکه از نظر کاربردی نیز بسیار حائز اهمیت است و میتواند در زمینههای مختلف مورد استفاده قرار گیرد.
- عکس وایت برد
- کلمات معنادار
- داستان مصور دنبالهدار
- آزمایش علمی
تصویری عریض از یک تخته وایتبرد شیشهای در اتاقی مشرف به پل خلیج که با تلفن همراه گرفته شدهاست ایجاد کن. میدان دید، تصویر زنی را نشان میدهد که در حال نوشتن در سمت راست وایت برد بوده و یک تیشرت با لوگوی بزرگ OpenAI به تن دارد. دستخط متن نوشته شده در وایت برد، طبیعی و کمی نامرتب به نظر میرسد و همچنین بازتاب عکاس مشاهده میشود.
متن داخل وایت برد شامل موارد زیر است:
(سمت چپ وایت برد)
Transfer between Modalities
Suppose we directly model
p(text, pixels, sound) [equation]with one big autoregressive transformer
Pros
image generation augmented with vast world knowledge
next-level text rendering
native in-context learning
unified post-training stack
Cons
varying bit-rate across modalities
compute not adaptive
(سمت راست وایت برد)
Fixes
model compressed representations
compose autoregressive prior with a powerful decoder
در قسمت پایین سمت راست وایت برد، یک زن در حال نوشتن دیاگرام زیر است:
tokens -> [transformer] -> [diffusion] -> pixels

حالا نمای سلفی عکاس را رسم کن، در حالی که زن رو به دوربین برگشته و دستان خود را با عکاس به هم میکوبند.

تصویری از کلماتی که پشت آنها مغنایسی است و بر روی در یخچالی در خانه چسبانده شدهاند ایجاد کن:
سطر اول: “A picture”
سطر دوم: “is worth”
سطر سوم: “,a thousand words”
سطر چهارم: “but sometimes”
فاصلهای نسبتا بزرگ بین سطر چهارم و پنجم
سطر پنجم: “in the right place”
سطر ششم: “can elevate”
سطر هفتم: “its meaning
مردی که کلمهی “a few” را در دست راست و کلمهی “words” را در دست چپ نگه داشته است.

تصویری از یک عکس چهار قسمتی با مقداری حاشیه در اطراف آن ایجاد کن:
یک حلزون کوچک پشت پیشخوان یک نمایشگاه اتومبیل پر زرق و برق است. فروشنده برای اینکه او را ببیند خیلی روی میز خم شده است.
نمای نزدیک از حلزون که خیلی جدی به نظر میرسد. او میگوید:
I want your fastest sports car… and I want you to paint big letter ‘S’s on the doors, the hood and the roof
فروشنده سرش را میخاراند و میگوید:
?Um… we can do that, but why the S’s
کات ناگهانی به یک ماشین قرمز رنگ که با سرعت در بزرگراه حرکت میکند. ماشین اسپرت با حرفهای بزرگ ‘S’ پوشیده شده است. مردم روی پیادهرو اشاره میکنند و خنده کنان میگویند:
!WOW! LOOK AT THAT S‑CAR GO

یک تصویر اینفوگرافیک تولید کن که آزمایش منشور نیوتن را با جزئیات فراوان توضیح میدهد.

حالا یک نمای دید اول شخص از شخصی که این نمودار را در دفترچه یادداشت خود، روی یک میز گرد کافه در پارک میدان واشنگتن میکشد ایجاد کن.

حالا همان صحنه را نشان بده که در آن جوانی به نام آیزاک نیوتن با یک منشور روی میز نشسته و در حال نمایش دادن آزمایش است، بدون اینکه دفترچه یادداشت دیده شود.

تولید تصویر در چت جی پی تی
از ابتدای تاریخ مدون بشر و با ظهور اولین نقاشیها بر دیوارههای غارها تا پیدایش اینفوگرافیکهای مدرن در عصر حاضر، انسانها همواره از تصاویر بصری به عنوان ابزاری قدرتمند برای انتقال مفاهیم، اقناع مخاطبان و تحلیل دادهها بهره بردهاند. اهمیت تصاویر تنها به جنبه تزئینی آنها محدود نبودهاست، بلکه نقش اساسی در برقراری ارتباطات ایفا کردهاند. در حالی که مدلهای مولد تصویر کنونی قادر به خلق صحنههای بدیع و خیرهکننده هستند، اغلب در تولید تصاویر کاربردی که افراد برای به اشتراک گذاشتن اطلاعات و ایجاد دانش از آنها استفاده میکنند، با چالشهایی روبرو میشوند. برای مثال، طراحی لوگوها یا ایجاد نمودارهای اطلاعاتی که بتوانند معنای دقیقی را منتقل کنند، مستلزم درک و استفاده صحیح از نمادهایی میباشد که در زبان و تجربه مشترک مخاطبان ریشه دارند.
قابلیت تولید عکس با GPT 4o از ویژگیهای برجستهای برخوردار میباشد که آن را در زمینههای مختلف متمایز میسازد. این مدل در رندر دقیق متون، پیروی کامل از دستورالعملهای ارائه شده و بهرهگیری از دانش درونی و زمینه گفتگوی موجود در مدل GPT 4o، عملکردی بینظیر ارائه میدهد. این قابلیتها شامل توانایی تبدیل تصاویر آپلود شده یا استفاده از آنها به عنوان منبع الهام بصری نیز میشود. چنین ویژگیهایی فرآیند خلق دقیقاً همان تصویری را که در ذهن کاربر وجود دارد، تسهیل میکند و به افراد کمک میکند تا از طریق تصاویر به شیوهای مؤثرتر با دیگران ارتباط برقرار کنند. بدین ترتیب، تولید تصویر با GPT 4o به ابزاری کاربردی با دقت و قدرت بالا تبدیل میگردد که میتواند در طیف وسیعی از کاربردها مورد استفاده قرار گیرد.
قابلیتهای بهبود یافته
مدلهای هوش مصنوعی شرکت OpenAI با استفاده از مجموعه دادههای عظیمی از تصاویر و متون آنلاین آموزش داده شدهاند. این فرآیند آموزشی نه تنها به مدل آموختهاست که چگونه تصاویر با زبان ارتباط برقرار میکنند، بلکه نحوه ارتباط تصاویر با یکدیگر را نیز فرا گرفتهاست. مدل نهایی، که با استفاده از تکنیکهای پیشرفته پسآموزشی تهاجمی (aggressive post-training) تقویت شدهاست، از یک روانی بصری قابل توجه برخوردار بوده و قادر به تولید تصاویری میباشد که علاوه بر زیبایی، کاربردی، سازگار با زمینه و آگاه به متنِ ارائه شده هستند.
رندر متن
اگرچه گفته میشود که یک تصویر به اندازه هزاران کلمه ارزش دارد، اما در برخی موارد، درج چند کلمه دقیق در مکان مناسب میتواند به طور چشمگیری معنا و مفهوم یک تصویر را ارتقا بخشد. توانایی مدل GPT 4o در ترکیب نمادهای نوشتاری دقیق با عناصر بصری، این امکان را فراهم میآورد تا تولید تصویر به ابزاری قدرتمند برای ارتباطات بصری تبدیل شود و پیامها به شکلی واضح و مؤثر به مخاطب منتقل گردند.
- تابلوهای خیابان
- منو
- دعوت نامه
یک تصویر فوتورئالیستی از دو جادوگر در دهه 20 زندگیشان (یکی با موهای بالیاژ خاکستری، دیگری با موهای بلند و موجدار خرمایی) که در حال خواندن یک تابلوی خیابان هستند، ایجاد کن.
متن:
یک خیابان شهری در یک خیابان تصادفی در ویلیامزبورگ، نیویورک، با یک تیرک که کاملاً با تابلوهای خیابانی متعدد و دقیق پوشیده شدهاست (مانند ساعات رفت و روب خیابان، نیاز به مجوز پارکینگ، طبقهبندی وسایل نقلیه، قوانین بکسل)، شامل چند تابلوی غیرمعمول در وسط:
(آنها را طوری بازنویسی کنید که تابلوهای خیابانی معقول به نظر برسند) “Broom Parking for Witches Not Permitted in Zone C” and “Magic Carpet Loading and Unloading Only (15-Minute Limit)” and “Reindeer Parking by Permit Only (Dec 24–25)\n Violators will be placed on Naughty List.” تیر چراغ در سمت راست خیابان قرار دارد. تابلوها تکراری نباشند. تابلوها باید واقعی به نظر برسند.
شخصیتها:
یک جادوگر یک جارو در دست دارد و دیگری یک فرش پرنده لوله شده. آنها در پیش زمینه هستند، پشتشان کمی به سمت دوربین است و سرشان کمی کج شده در حالی که تابلوها را با دقت بررسی میکنند.
ترکیببندی (از پسزمینه به پیشزمینه):
خیابانها + ماشینهای پارک شده + ساختمانها -> تابلوی خیابان -> جادوگران. شخصیتها باید نزدیکترین افراد به دوربینی باشند که عکس میگیرد.

من در شهر مارین، رستورانی با مفهوم سنتی به نام “HAEIN” افتتاح میکنم. تمرکز رستوران بر روی غذاهای کرهای پخته شده با مواد ارگانیک و تازهی مزرعهای است، با منو چرخشی بر اساس فصل. من میخواهم تو یک تصویر طراحی کنی – یک منو شامل موارد زیر – با سبک سنتی/ روستیک، در حالی که دارای ظاهری لوکس و براق باشد. همچنین تصاویر هر ظرف را با سبکی ظریف و شبیه پیتر خرگوشه نیز بگنجان. مطمئن شو که تمام متن به درستی ارائه شده باشد، همراه با پس زمینهای سفید.
(قسمت بالا)
Doenjang Jjigae (Fermented Soybean Stew) – $18 House-made doenjang with local mushrooms, tofu, and seasonal vegetables served with rice.
Galbi Jjim (Braised Short Ribs) – $34 Slow-braised local grass-fed beef ribs with pear and black garlic glaze, seasonal root vegetables, and jujube.
Grilled Seasonal Fish – Market Price ($22-$30) Whole or fillet of local, sustainable fish grilled over charcoal, served with perilla leaf ssam and house-made sauces.
Bibimbap – $19 Heirloom rice with a rotating selection of farm-fresh vegetables, house-fermented gochujang, and pasture-raised egg.
Bossam (Heritage Pork Wraps) – $28 Slow-cooked pork belly with napa cabbage wraps, oyster kimchi, perilla, and seasonal condiments.
(قسمت پایین)
Dessert & Drinks Seasonal Makgeolli (Rice Wine) – $12/glass
Rotating flavors based on seasonal fruits and flowers (persimmon, citrus, elderflower, etc.).
Hoddeok (Korean Sweet Pancake) – $9 Pan-fried cinnamon-stuffed pancake with black sesame ice cream.

عکسی از یک دعوتنامه عروسی بر روی یک میز چوبی با سلیقه ایجاد کن. کارتی ضخیم، با بافت نازک و برجستگیهای زیبا، با تزئینات ظریف که به طور انتزاعی زوج را به شکلی هنرمندانه در طرحها ادغام کرده است. از نمادنگاری استفاده کن، اما به صورت کم و به سبکی مینیمالیستی. حروفچینی نیز بینقص باشد.
“You are cordially invited
to the long-awaited union of
Image
and
Text
After years of flirting and collaboration
they are finally becoming One
Together at last, in GPT‑4o
—they now speak the same language
where a whisper becomes a masterpiece
and a prompt becomes a picture
Please join us in celebrating
this magical multimodal matrimony
where imagination knows no bounds
Date: March 25, 2025
Location: chatgpt.com
Dress Code: Pixels or Prose
,With love
OpenAI

تولید تعاملی
یکی از ویژگیهای منحصربهفرد تولید عکس با چت جی پی تی، ادغام ذاتی قابلیت تولید تصویر در ساختار آن است. این امر به کاربران اجازه میدهد تا از طریق مکالمات طبیعی و تعاملی، تصاویر تولید شده را اصلاح و بهبود بخشند. مدل GPT 4o قادر است با در نظر گرفتن تصاویر و متن موجود در زمینه گفتگو، تغییرات مورد نظر را اعمال کند و در طول این فرآیند، ثبات و یکپارچگی بصری را حفظ نماید. به عنوان مثال، اگر شما در حال طراحی یک شخصیت برای بازی ویدیویی هستید، ظاهر این شخصیت در طول مراحل مختلف طراحی و با اعمال تغییرات و آزمایشهای متعدد از سوی شما، به صورت هماهنگ و بدون تناقض باقی خواهد ماند.
- بازی ویدیویی
- شعر ملموس
- استیکر

به این گربه یک کلاه کارآگاهی و عینک تکچشمی بده.

این عکس را به یک بازی ویدیویی A سه گانه تبدیل کن که با یک موتور بازی 4K ساخته شده باشد و یک رابط کاربری به عنوان پوشش از یک بازی نقشآفرینی معمایی اضافه کن، به طوری که یک نوار سلامتی و یک مینیمپ در بالا و همچنین طلسمها در پایین با آیکونوگرافی و طراحی بصری یکپارچه دیده شوند.

عکس تولید شده را به یک تصویر منظره با نسبت تصویر 16:9 بهروز کن، طلسمهای بیشتری در رابط کاربری اضافه کن و تصویر را از حالت زوم خارج کن تا گربه را از نمای سوم شخص ببینیم که در محلهی منهتن استیمپانکی قدم میزند، با ایجاد کنتراست و نورپردازی زیبا مانند بهترین بازیهای A سه گانه، با رنگهای سرد.

رابط کاربری را زمانی ایجاد کن که بازیکن منو را باز میکند و ما پروفایل شخصیت گربه را با تجهیزاتش و یک صفحه دیگر که ماموریتهای فعال را نشان میدهد، میبینیم (و باید با دنیای جهانسازی که در تصویر توصیف میکنیم، همخوانی داشته باشد).

شعر تصویری روی کارت لوکس با بافت پوست تخم مرغی ایجاد کن.
متن:
At OpenAI, we have long believed image generation should be a primary capability of our language models. That’s why we’ve built our most advanced image generator yet into GPT‑4o. The result – image generation that is not only beautiful, but useful.
From the first cave paintings to modern infographics, humans have used visual imagery to communicate, persuade, and analyze – not just to decorate. Today’s generative models can conjure breathtaking vistas and surreal scenarios, but still struggle with the workhorse imagery that underlies how most visual data is used to share and create information. From logos to diagrams, images can convey precise meaning when augmented with symbols that refer to shared language and experience.
With this new capability, ChatGPT advances image generation towards being a practical tool with precision and power.

این کارت را در اتاق یک طراح به طوری که کارت نزدیک به دوربین باشد نشان بده.

میتونی برای من یک استیکر راکون مینیمالیست بامزه درست کنی که داره توت فرنگی میخوره؟ از یه حاشیه سفید ضخیم و پسزمینه شفاف استفاده کن.

یک سبک مینیمالیستی متفاوت و یک راکون خاکستری امتحان کن.

یه جای گازگرفتگی به توت فرنگی و یکم هم لکهی قرمز دور دهنش اضافه کن.

پیروی از دستورالعملها
قابلیت تولید تصویر در مدل GPT 4o از دقت بالایی در پیروی از دستورالعملهای ارائه شده برخوردار است و میتواند جزئیات مورد نظر کاربر را به طور کامل در تصویر نهایی اعمال کند. در حالی که بسیاری از دیگر سیستمهای تولید تصویر در مدیریت تعداد محدودی از اشیاء (معمولاً بین 5 تا 8 شیء) با مشکل مواجه میشوند، مدل GPT 4o قادر است تا 10 الی 20 شیء مختلف را به طور همزمان مدیریت نماید. علاوه بر این، ارتباط قویتر بین اشیاء و ویژگیها و روابط آنها، امکان کنترل دقیقتری بر فرآیند تولید تصویر را برای کاربر فراهم میکند.
- اشیاء سازمان یافته
- شهر خالی
- لیوان شراب
- فیل نامرئی
- معادله ریاضی
یک تصویر مربعی حاوی یک شبکه 4 ردیف در 4 ستون که شامل 16 شیء بر روی پس زمینه سفید است. از چپ به راست، بالا به پایین حرکت کن. در پایین لیست آمدهاست:
- یک ستاره آبی
- مثلث قرمز
- مربع سبز
- دایره صورتی
- ساعت شنی نارنجی
- علامت بینهایت بنفش
- پاپیون خالدار سیاه و سفید
- عدد “42” با طرح تای دای
- یک گربه نارنجی که کلاه بیسبال مشکی پوشیدهاست
- یک نقشه با یک صندوق گنج
- یک جفت چشم عروسکی متحرک
- یک ایموجی لایک
- یک قیچی
- یک زرافه آبی و سفید
- کلمه “OpenAI” که به صورت شکسته نوشته شدهاست
- یک صاعقه رنگین کمانی

میدان تایمز در شهر نیویورک در بعد از ظهر، بدون هیچ فردی، وسیله نقلیه یا بیلبوردهای روشن.

تقاطع شیبویا بدون هیچ فردی، وسیله نقلیه یا بیلبوردهای روشن.

یک جام شراب به من نشان بده که فقط کوچکترین قطره شراب قرمز در آن باشد.

من به شواهدی نیاز دارم که یک فیل نامرئی در حال حاضر حضور دارد. در نظر بگیر که یک فیل چیست و در محیط چه کاری انجام میدهد، سپس آن را به من نشان بده، شاید در وسط یک فرآیند؛ اما خود فیل به هیچ وجه نشان داده نشود.

یک تخته سفید که روی آن معادلات زیر نوشته شده است:
E = mc^2
sqrt(9) = 3
(-b +/- sqrt(b^2 – 4ac)) / 2a

یادگیری درون متنی
مدل GPT 4o این قابلیت را دارد که تصاویر بارگذاری شده توسط کاربر را تحلیل کرده و از آنها الگوبرداری کند. این مدل میتواند جزئیات موجود در این تصاویر را به طور یکپارچه در زمینه تولید تصویر خود ادغام نماید و از این اطلاعات برای تولید تصاویر جدید و مرتبط استفاده کند. این ویژگی امکان ایجاد تصاویری را فراهم میآورد که به طور خاص با نیازها و خواستههای کاربر مطابقت دارند.
- وسیله نقلیه چرخدار مثلثی
- اره برقی
- زن
- ساختمان
یک طرح از یک دوچرخه با چرخهای مثلثی بکش.
روی چرخ جلویی و چرخ عقبی اسمشان را بنویس و پایین تصویر بنویس (با حروف بزرگ):
TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI

حالا تصویری که ساختی را در یک عکس که در شهر نیویورک گرفته شده قرار بده.

یک تصویر فوتورئالیستی از یک اره برقی ایجاد کن.

یک تبلیغ برای این اره زنجیری برقی، از مادربزرگی که در میز شام شکرگزاری در حال تکه تکه کردن بوقلمون است ایجاد کن. یک شعار تبلیغاتی نیز اضافه کن.


این صحنه را به یک عکسی که با دوربین DSLR گرفته شده باشد تبدیل کن.


شماتیک بالا را به یک تصویر طبیعی تبدیل کن.

دانش جهانی
ادغام قابلیت تولید عکس به صورت بومی با GPT 4o، این امکان را برای آن فراهم میسازد تا دانش خود را به طور همزمان بین متن و تصاویر پیوند دهد. این امر منجر به ایجاد مدلی میشود که نه تنها از نظر بصری قدرتمند است، بلکه از سطح هوشمندی و کارایی بالاتری نیز برخوردار میباشد، زیرا میتواند درک عمیقتری از ارتباط بین مفاهیم متنی و بصری داشته باشد.
- تصویر ایجاد شده توسط کد
- دستور العمل های کوکتل
- اینفوگرافیک آب و هوا
- راهنمای نهنگ
- دستورالعمل ماچا
<!DOCTYPE html> <html lang="en"> <head> <meta charset="UTF-8" /> <title>OpenAI Banner</title> <style> body { margin: 0; overflow: hidden; } canvas { display: block; } </style> </head> <body> <script type="module"> import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js'; import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js'; import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js'; import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js'; const scene = new THREE.Scene(); const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000); const renderer = new THREE.WebGLRenderer({ antialias: true }); renderer.setSize(window.innerWidth, window.innerHeight); document.body.appendChild(renderer.domElement); // Lighting const light = new THREE.AmbientLight(0xffffff, 1); scene.add(light); const dirLight = new THREE.DirectionalLight(0xffffff, 1); dirLight.position.set(0, 5, 10); scene.add(dirLight); // Camera position camera.position.z = 20; // Controls const controls = new OrbitControls(camera, renderer.domElement); // Banner background const bannerGeometry = new THREE.PlaneGeometry(20, 10); const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a }); const banner = new THREE.Mesh(bannerGeometry, bannerMaterial); scene.add(banner); // OpenAI Logo texture (placeholder) const loader = new THREE.TextureLoader(); loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => { const logoGeometry = new THREE.PlaneGeometry(4, 4); const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true }); const logo = new THREE.Mesh(logoGeometry, logoMaterial); logo.position.set(-5, 0, 0.1); // Slightly in front of the banner scene.add(logo); }); // Load font and add text const fontLoader = new FontLoader(); fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => { const textGeometry = new TextGeometry("I am 4-o", { font: font, size: 1, height: 0.2, curveSegments: 12, bevelEnabled: true, bevelThickness: 0.02, bevelSize: 0.02, bevelOffset: 0, bevelSegments: 5 }); textGeometry.center(); const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc }); const textMesh = new THREE.Mesh(textGeometry, textMaterial); textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo scene.add(textMesh); }); // Resize handler window.addEventListener('resize', () => { camera.aspect = window.innerWidth / window.innerHeight; camera.updateProjectionMatrix(); renderer.setSize(window.innerWidth, window.innerHeight); }); // Render loop function animate() { requestAnimationFrame(animate); controls.update(); renderer.render(scene, camera); } animate(); </script> </body> </html>
عکسی که مرتبط با کدهای بالا است را برایم بساز.

یک نمودار فوتورئالیستی با کیفیت حرفهای از پرفروشترین کوکتلهای بار من با دستور العملهای نوشته شده روی هر نوشیدنی برای من درست کن. دستور العملها را روی کارتهای دستنویس جلوی هر نوشیدنی قرار بده. کارتها قهوهای، متن مشکی و پس زمینه نیز سفید است. عنوان عکس، متن زیر است:
4most popular cocktails

یک اینفوگرافیک تصویری درست کن که توضیح دهد چرا سان فرانسیسکو اینقدر مه آلود است.

یک پوستر آموزشی از انواع مختلف نهنگها به سبک آبرنگ درخشان درست کن. پس زمینه را کاملاً سفید کن.

یک ریسوگراف بسیار رنگارنگ درباره نحوه درست کردن ماچا درست کن (چای سبز پودر شده).

فوتو رئالیسم و سبک
مدل GPT 4o با استفاده از مجموعه دادههای گستردهای از تصاویر آموزش دیدهاست که تنوع قابل توجهی در سبکهای هنری و بصری را شامل میشوند. این آموزش جامع به مدل این امکان را میدهد تا تصاویر را با کیفیتی بسیار قانعکننده و در سبکهای گوناگون ایجاد نماید و یا تصاویر موجود را به سبکهای دیگر تبدیل کند. به عبارت دیگر، مدل قادر است با درک ویژگیهای بصری سبکهای مختلف، از فوتورئالیسم دقیق گرفته تا سبکهای هنری انتزاعی، تصاویری را تولید نماید که به طور مؤثری تقلید کننده آن سبکها باشند.

محدودیتها
شایان ذکر است که مدل تولید تصویر با GPT 4o، با وجود پیشرفتهای چشمگیر، هنوز فاقد نقص نیست. در حال حاضر، شرکت OpenAI از برخی محدودیتهای موجود در این مدل آگاه بوده و متعهد است که پس از عرضه اولیه آن، از طریق اعمال بهبودهای مستمر در مدل، به رفع این کاستیها بپردازد. این رویکرد تکاملی به این شرکت امکان میدهد تا با جمعآوری بازخورد کاربران و انجام تحقیقات بیشتر، عملکرد و قابلیتهای این فناوری را به مرور زمان ارتقا دهد.
- محدودیت برش
- محدودیت توهم زایی
- محدودیت اجزای بیش از حد به هم چسبیده شده
- محدودیت نمودارسازی دقیق
- محدودیت رندر متن چند زبانه
- محدودیت دقت در ویرایش
- محدودیت اطلاعات متراکم با متن کوچک
شرکت OpenAI اعلام کردهاست که تولید تصویر با GPT 4o بعضی وقتها عکسهای بلندتر، مثلاً پوسترها را خیلی زیاد برش میدهد، مخصوصاً قسمت تحتانی عکسها.

مثل بقیه مدلهای متنی شرکت OpenAI، تولید عکس هم میتواند توام با اطلاعات نادرست باشد، مخصوصاً وقتی که دستورات اولیه خیلی واضح نباشند.

وقتی میخواهید عکسهایی درست کنید که به اطلاعات قبلیاش نیاز دارند، مدل مولد تصویری، ممکن است نتواند بیشتر از ۱۰ تا ۲۰ مفهوم مختلف را همزمان درست نشان دهد، مثلاً یک جدول تناوبی کامل.


این مدل، بعضی اوقات در نشان دادن زبانهایی که حروفشان مثل زبان انگلیسی نیست، مشکل دارد و ممکن است حروف اشتباه یا حتی حروف خیالی نشان دهد، مخصوصاً وقتی که آن زبان پیچیده باشد.

شرکت OpenAI اذعان کرده است که کاربران وقتی میخواهند قسمتهای خاصی از یک عکسی که ساخته شده را در مدل تولید عکس با چت جی پی تی تغییر دهند، مثلاً یک غلط املایی را درست کنند، همیشه خوب کار نمیکند و ممکن است جاهای دیگر عکس را هم به شکلی که نخواستهاند تغییر دهد یا حتی اشتباهات بیشتری اضافه کند. این شرکت الان دارد کار میکند تا بتواند این مدل را در ویرایش عکسها دقیقتر کند.
شرکت OpenAI متوجه شده است که این مدل وقتی کاربران عکس میگذارند و میخواهند چهرهها را عوض کنند، نمیتواند تغییرات را خوب و به طور یکسان انجام دهد، ولی انتظار میرود این مشکل تا تاریخ 31 مارس 2025 درست شود.

مدل تولید تصویر با چت جی پی تی معمولاً نمیتواند جزئیات را در اندازههای خیلی کوچک خوب نشان دهد.

امنیت
مطابق با اصول راهنمای توسعه مدلهای هوش مصنوعی در OpenAI، هدف این شرکت ایجاد تعادل بین حداکثرسازی آزادی خلاقانه برای کاربردهای ارزشمند نظیر توسعه بازیهای رایانهای، پژوهشهای تاریخی و آموزش و در عین حال حفظ استانداردهای ایمنی قوی میباشد. در این راستا، جلوگیری از پردازش درخواستهایی که این استانداردها را نقض میکنند، از اهمیت بسزایی برخوردار است. در ادامه، ارزیابیهایی از حوزههای خطر بالقوه ارائه شدهاست که در آنها شرکت OpenAI تلاش میکند ضمن فعالسازی تولید محتوای ایمن و با کاربرد بالا، از طیف وسیعتری از بیان خلاقانه برای کاربران پشتیبانی نماید.
ردیابی منشأ با استفاده از C2PA و جستجوی داخلی قابل بازگشت
به منظور افزایش شفافیت و قابلیت ردیابی، تمامی تصاویری که توسط مدل GPT 4o تولید میشوند، با فراداده C2PA (ائتلاف برای منشأ و اصالت محتوا) ارائه میگردند. این فراداده، تصویر را به عنوان خروجی مدل GPT 4o شناسایی میکند. علاوه بر این، شرکت OpenAI یک ابزار جستجوی داخلی توسعه دادهاست که از ویژگیهای فنی تصاویر تولید شده استفاده میکند تا به تأیید اصالت و منشأ محتوا (اینکه آیا تصویر از مدل GPT 4o تولید شدهاست یا خیر) کمک نماید.
جلوگیری از محتوای نامناسب
OpenAI همچنان به طور فعال درخواستهای مربوط به تولید تصاویری که ممکناست سیاستهای محتوایی شرکت را نقض کنند، از جمله محتوای مرتبط با سوء استفاده جنسی از کودکان و دیپفیکهای جنسی، را مسدود خواهد کرد. در مواردی که تصاویر افراد واقعی در متن درخواست وجود داشته باشد، محدودیتهای بیشتری در مورد نوع تصاویری که میتوان تولید کرد، اعمال میشود. به ویژه، محافظتهای قوی در برابر تولید تصاویر برهنه و خشونتآمیز گرافیکی در نظر گرفته شدهاست. همانند سایر محصولات و فناوریهای OpenAI، ایمنی یک فرآیند مستمر و یک حوزه سرمایهگذاری دائمی میباشد. با کسب اطلاعات بیشتر در مورد نحوه استفاده واقعی از این مدل در محیطهای مختلف، این شرکت سیاستهای خود را بر اساس آن تنظیم و بهروزرسانی خواهد کرد.
بهرهگیری از استدلال برای ارتقای ایمنی
مشابه رویکرد سنجیده OpenAI در زمینه همسویی مدلهای زبانی، این شرکت یک مدل زبانی بزرگ استدلالگر را آموزش دادهاست که به طور مستقیم بر اساس مشخصات ایمنی قابل تفسیر و نوشته شده توسط متخصصان عمل میکند. OpenAI از این مدل زبانی بزرگ استدلالگر در طول فرآیند توسعه استفاده کرده تا به شناسایی و رفع ابهامات موجود در سیاستهای خود کمک کند. این اقدام، همراه با پیشرفتهای چندوجهی و تکنیکهای ایمنی موجود که پیشتر برای مدلهای ChatGPT و Sora توسعه دادهاست، به OpenAI این امکان را میدهد تا هم متن ورودی و هم تصاویر خروجی را در برابر سیاستهای ایمنی خود ارزیابی و تعدیل نماید.
دسترسی
قابلیت تولید تصویر مدل GPT-4o از تاریخ 25 مارس 2025 به عنوان مولد تصویر پیشفرض در پلتفرم ChatGPT برای کاربران با اشتراکهای Plus ، Pro، Team و همچنین کاربران رایگان در دسترس قرار گرفتهاست. دسترسی به این قابلیت برای کاربران سازمانی (Enterprise) و آموزشی (Edu) نیز در آینده نزدیک فراهم خواهد شد. علاوه بر این، این فناوری در پلتفرم Sora نیز برای استفاده موجود است. برای کاربرانی که همچنان تمایل به استفاده از مدل DALL-E دارند، امکان دسترسی به آن از طریق یک GPT اختصاصی DALL-E همچنان فراهم میباشد.
توسعهدهندگان نرمافزار نیز به زودی قادر خواهند بود از طریق رابط برنامهنویسی کاربردی (API) با مدل GPT 4o تصاویر مورد نظر خود را تولید نمایند. فرآیند ارائه دسترسی به این قابلیت به تدریج و در طی چند هفته آتی آغاز خواهد شد.
ایجاد و سفارشیسازی تصاویر با استفاده از مدل GPT-4o به سادگی برقراری یک مکالمه است. کاربران میتوانند به سادگی آنچه را که نیاز دارند، از جمله هرگونه مشخصات فنی نظیر نسبت تصویر، رنگهای دقیق با استفاده از کدهای هگزادسیمال یا پسزمینه شفاف را در قالب دستورات متنی توصیف نمایند. از آنجایی که این مدل قادر به تولید تصاویر با دقت و جزئیات بیشتری است، فرآیند رندر کردن تصاویر ممکناست زمان بیشتری را به خود اختصاص دهد و اغلب تا حدود یک دقیقه به طول انجامد.
جمع بندی
توسعه مدلهای هوش مصنوعی نظیر GPT-4o نشاندهندهی تحولی بنیادین در عرصهی تولید تصویر و پردازش چندوجهی است. این فناوری، که در همتنیدگی هوشمندانهای میان متن و تصویر قرار دارد، توانسته است افقهای جدیدی را در دنیای خلاقیت و نوآوری بگشاید. از تولید تصاویر واقعگرایانه تا امکان کنترل دقیق بر جزئیات خروجی، این مدل نهتنها ابزاری قدرتمند برای هنرمندان و طراحان به شمار میرود، بلکه در حوزههای تحقیقاتی، آموزشی و حتی صنعتی نیز به کار گرفته خواهد شد.
GPT-4o تنها یک گام رو به جلو در مسیر پیشرفت هوش مصنوعی نیست؛ بلکه نقطهی عطفی در مسیر تعامل بین انسان و ماشین است که خلاقیت را از قید و بندهای سنتی آزاد میکند. با در نظر گرفتن دقت، ایمنی و قابلیتهای منحصربهفرد این مدل، میتوان آیندهای را تصور کرد که در آن مرز میان تخیل و واقعیت، بیش از پیش محو شده و ابزارهای دیجیتال، به یاری ذهن خلاق انسان، جهان را با نگاهی نو ترسیم کنند.
سوالات متداول
GPT-4o مدل پیشرفته OpenAI است که توانایی تولید تصاویر دقیق و کاربردی را از طریق ترکیب هوشمندانه متن و تصویر به نمایش میگذارد. این مدل با بهرهگیری از دادههای گسترده و تکنیکهای پسآموزشی، عملکردی بینظیر در رندر جزئیات و پیروی از دستورالعملهای کاربر ارائه میدهد.
این فناوری با تحلیل متون و تصاویر ورودی و به کارگیری دانش درونی، تصاویر را مطابق با خواستههای کاربر و با دقت بالا تولید میکند. قابلیتهای تعامل بصری و یادگیری درون متنی به آن اجازه میدهد تا تصویری همراستا با نیازهای مختلف ایجاد کند.
از طراحی لوگو و نمودارهای اطلاعاتی گرفته تا تولید محتوای بصری برای مقالات و پروژههای تحقیقاتی، GPT-4o ابزاری قدرتمند در زمینههای آموزشی، صنعتی و هنری محسوب میشود.
بله، GPT-4o با دقت بالا تمام جزئیات و خواستههای کاربر را در خروجی نهایی اعمال کرده و تصاویر را به گونهای تولید میکند که با نیازهای دقیق و متنوع سازگار باشد.
OpenAI با رعایت استانداردهای ایمنی و استفاده از سیستمهای نظارتی پیشرفته، از تولید محتوای نامناسب جلوگیری میکند و امنیت کاربران را در تمامی مراحل فرآیند تضمین مینماید.
کاربران میتوانند از طریق پلتفرمهای ChatGPT و Sora به این فناوری دسترسی یابند و همچنین توسعهدهندگان از طریق API به قابلیتهای تولید تصویر GPT-4o متصل شوند.
با وجود توانمندیهای چشمگیر، GPT-4o همچنان محدودیتهایی مانند زمان پردازش طولانیتر در رندر تصاویر و برخی کاستیهای اولیه دارد که OpenAI با جمعآوری بازخوردها و بهروزرسانیهای مستمر در حال رفع آنها میباشد.
اگر محتوای ما برایتان جذاب بود و چیزی از آن آموختید، لطفاً لحظهای وقت بگذارید و این چند خط را بخوانید:
ما گروهی کوچک و مستقل از دوستداران علم و فناوری هستیم که تنها با حمایتهای شما میتوانیم به راه خود ادامه دهیم. اگر محتوای ما را مفید یافتید و مایلید از ما حمایت کنید، سادهترین و مستقیمترین راه، کمک مالی از طریق لینک دونیت در پایین صفحه است.
اما اگر به هر دلیلی امکان حمایت مالی ندارید، همراهی شما به شکلهای دیگر هم برای ما ارزشمند است. با معرفی ما به دوستانتان، لایک، کامنت یا هر نوع تعامل دیگر، میتوانید در این مسیر کنار ما باشید و یاریمان کنید. ❤️
مقاله خیلی خوبی بود. شدیدا مفید ممنون