هوش مصنوعی

قابلیت تولید عکس با چت جی پی تی

با شکوفایی فناوری‌های نوین و تجدید نظر در مفاهیم ارتباط بصری، امروز شاهد ظهور فناوری‌ای هستیم که مرزهای میان کلام و تصویر را به شیوه‌ای خارق‌العاده از نو تعریف می‌کند. تولید عکس با چت جی پی تی، حاصل تلفیق خلاقیت هوش مصنوعی و دقت علمی، نه تنها توانایی خلق تصاویری زیبا و کاربردی را دارا است، بلکه با پیروی از دستورالعمل‌های دقیق و بهره‌گیری از دانش گسترده، به یک ابزار بی‌بدیل برای انتقال مفاهیم و ارائه تحلیل‌های بصری تبدیل شده‌است.

این فناوری نوین، که توسط OpenAI به بهترین نحو طراحی و پیاده‌سازی شده، توانسته‌است زبان بصری را به شیوه‌ای بی‌نظیر به خدمت خلاقیت انسان بگیرد. در ادامه این مقاله، به بررسی جامع ویژگی‌های منحصر به فرد مدل GPT 4o، نقش آن در تحول دنیای طراحی و تولید محتوا و اهمیت آن در ارتقای تجربه کاربری خواهیم پرداخت؛ به گونه‌ای که از دیدگاه کاربری، جذابیت و کاربرد عملی آن به بهترین شکل به نمایش گذاشته شود.

قابلیت تصویر سازی OpenAI

شرکت OpenAI، که همواره در خط مقدم نوآوری‌های هوش مصنوعی قرار داشته‌است، مدتهاست بر این باور بوده که قابلیت تولید تصویر باید به عنوان یک ویژگی اساسی در مدل‌های زبانی پیشرفته آن گنجانده شود. در راستای این دیدگاه، OpenAI آخرین و پیشرفته‌ترین مدل تولید تصویر خود را در دل مدل زبانی GPT-4o جای داده‌است. این اقدام منجر به خلق قابلیت تولید تصویر با چت جی پی تی شده‌است که نه تنها تصاویر بصری چشم‌نوازی تولید می‌کند، بلکه از نظر کاربردی نیز بسیار حائز اهمیت است و می‌تواند در زمینه‌های مختلف مورد استفاده قرار گیرد.

  • عکس وایت برد
  • کلمات معنادار
  • داستان مصور دنباله‌دار
  • آزمایش علمی

تصویری عریض از یک تخته وایت‌برد شیشه‌ای در اتاقی مشرف به پل خلیج که با تلفن همراه گرفته شده‌است ایجاد کن. میدان دید، تصویر زنی را نشان می‌دهد که در حال نوشتن در سمت راست وایت برد بوده و یک تی‌شرت با لوگوی بزرگ OpenAI به تن دارد. دست‌خط متن نوشته شده در وایت برد، طبیعی و کمی نامرتب به نظر می‌رسد و همچنین بازتاب عکاس مشاهده می‌شود.

متن داخل وایت برد شامل موارد زیر است:

(سمت چپ وایت برد)

Transfer between Modalities

Suppose we directly model
p(text, pixels, sound) [equation]with one big autoregressive transformer

Pros
image generation augmented with vast world knowledge
next-level text rendering
native in-context learning
unified post-training stack

Cons
varying bit-rate across modalities
compute not adaptive

(سمت راست وایت برد)

Fixes
model compressed representations
compose autoregressive prior with a powerful decoder

در قسمت پایین سمت راست وایت برد، یک زن در حال نوشتن دیاگرام زیر است:

tokens -> [transformer] -> [diffusion] -> pixels

a woman writting on a white board in gpt 4o image generator

حالا نمای سلفی عکاس را رسم کن، در حالی که زن رو به دوربین برگشته و دستان خود را با عکاس به هم میکوبند.

selfie view of a woman and photographer in gpt 4o image generator

تصویری از کلماتی که پشت آنها مغنایسی است و بر روی در یخچالی در خانه چسبانده شده‌اند ایجاد کن:

سطر اول: “A picture”

سطر دوم: “is worth”

سطر سوم: “,a thousand words”

سطر چهارم: “but sometimes”

فاصله‌ای نسبتا بزرگ بین سطر چهارم و پنجم

سطر پنجم: “in the right place”

سطر ششم: “can elevate”

سطر هفتم: “its meaning

مردی که کلمه‌ی “a few” را در دست راست و کلمه‌ی “words” را در دست چپ نگه داشته است.

Meaningful words image in gpt 4o image generator

تصویری از یک عکس چهار قسمتی با مقداری حاشیه در اطراف آن ایجاد کن:

یک حلزون کوچک پشت پیشخوان یک نمایشگاه اتومبیل پر زرق و برق است. فروشنده برای اینکه او را ببیند خیلی روی میز خم شده است.

نمای نزدیک از حلزون که خیلی جدی به نظر می‌رسد. او می‌گوید:

I want your fastest sports car… and I want you to paint big letter ‘S’s on the doors, the hood and the roof

فروشنده سرش را می‌خاراند و میگوید:

?Um… we can do that, but why the S’s

کات ناگهانی به یک ماشین قرمز رنگ که با سرعت در بزرگراه حرکت می‌کند. ماشین اسپرت با حرف‌های بزرگ ‘S’ پوشیده شده است. مردم روی پیاده‌رو اشاره می‌کنند و خنده کنان می‌گویند:

!WOW! LOOK AT THAT S‑CAR GO

Comic strip image in gpt 4o image generator

یک تصویر اینفوگرافیک تولید کن که آزمایش منشور نیوتن را با جزئیات فراوان توضیح می‌دهد.

prism experiment of prism experiment in gpt 4o image generator

حالا یک نمای دید اول شخص از شخصی که این نمودار را در دفترچه یادداشت خود، روی یک میز گرد کافه در پارک میدان واشنگتن می‌کشد ایجاد کن.

prism experiment on notebook in gpt 4o image generator

حالا همان صحنه را نشان بده که در آن جوانی به نام آیزاک نیوتن با یک منشور روی میز نشسته و در حال نمایش دادن آزمایش است، بدون اینکه دفترچه یادداشت دیده شود.

Isaac Newton and his prism experiment in gpt 4o image generator

تولید تصویر در چت جی پی تی

از ابتدای تاریخ مدون بشر و با ظهور اولین نقاشی‌ها بر دیواره‌های غارها تا پیدایش اینفوگرافیک‌های مدرن در عصر حاضر، انسان‌ها همواره از تصاویر بصری به عنوان ابزاری قدرتمند برای انتقال مفاهیم، اقناع مخاطبان و تحلیل داده‌ها بهره برده‌اند. اهمیت تصاویر تنها به جنبه تزئینی آن‌ها محدود نبوده‌است، بلکه نقش اساسی در برقراری ارتباطات ایفا کرده‌اند. در حالی که مدل‌های مولد تصویر کنونی قادر به خلق صحنه‌های بدیع و خیره‌کننده هستند، اغلب در تولید تصاویر کاربردی که افراد برای به اشتراک گذاشتن اطلاعات و ایجاد دانش از آن‌ها استفاده می‌کنند، با چالش‌هایی روبرو می‌شوند. برای مثال، طراحی لوگوها یا ایجاد نمودارهای اطلاعاتی که بتوانند معنای دقیقی را منتقل کنند، مستلزم درک و استفاده صحیح از نمادهایی می‌باشد که در زبان و تجربه مشترک مخاطبان ریشه دارند.

قابلیت تولید عکس با GPT 4o از ویژگی‌های برجسته‌ای برخوردار می‌باشد که آن را در زمینه‌های مختلف متمایز می‌سازد. این مدل در رندر دقیق متون، پیروی کامل از دستورالعمل‌های ارائه شده و بهره‌گیری از دانش درونی و زمینه گفتگوی موجود در مدل GPT 4o، عملکردی بی‌نظیر ارائه می‌دهد. این قابلیت‌ها شامل توانایی تبدیل تصاویر آپلود شده یا استفاده از آن‌ها به عنوان منبع الهام بصری نیز می‌شود. چنین ویژگی‌هایی فرآیند خلق دقیقاً همان تصویری را که در ذهن کاربر وجود دارد، تسهیل می‌کند و به افراد کمک می‌کند تا از طریق تصاویر به شیوه‌ای مؤثرتر با دیگران ارتباط برقرار کنند. بدین ترتیب، تولید تصویر با GPT 4o به ابزاری کاربردی با دقت و قدرت بالا تبدیل می‌گردد که می‌تواند در طیف وسیعی از کاربردها مورد استفاده قرار گیرد.

قابلیت‌های بهبود یافته

مدل‌های هوش مصنوعی شرکت OpenAI با استفاده از مجموعه داده‌های عظیمی از تصاویر و متون آنلاین آموزش داده شده‌اند. این فرآیند آموزشی نه تنها به مدل آموخته‌است که چگونه تصاویر با زبان ارتباط برقرار می‌کنند، بلکه نحوه ارتباط تصاویر با یکدیگر را نیز فرا گرفته‌است. مدل نهایی، که با استفاده از تکنیک‌های پیشرفته پس‌آموزشی تهاجمی (aggressive post-training) تقویت شده‌است، از یک روانی بصری قابل توجه برخوردار بوده و قادر به تولید تصاویری می‌باشد که علاوه بر زیبایی، کاربردی، سازگار با زمینه و آگاه به متنِ ارائه شده هستند.

رندر متن

اگرچه گفته می‌شود که یک تصویر به اندازه هزاران کلمه ارزش دارد، اما در برخی موارد، درج چند کلمه دقیق در مکان مناسب می‌تواند به طور چشمگیری معنا و مفهوم یک تصویر را ارتقا بخشد. توانایی مدل GPT 4o در ترکیب نمادهای نوشتاری دقیق با عناصر بصری، این امکان را فراهم می‌آورد تا تولید تصویر به ابزاری قدرتمند برای ارتباطات بصری تبدیل شود و پیام‌ها به شکلی واضح و مؤثر به مخاطب منتقل گردند.

  • تابلوهای خیابان
  • منو
  • دعوت نامه

یک تصویر فوتورئالیستی از دو جادوگر در دهه 20 زندگی‌شان (یکی با موهای بالیاژ خاکستری، دیگری با موهای بلند و موجدار خرمایی) که در حال خواندن یک تابلوی خیابان هستند، ایجاد کن.

متن:

یک خیابان شهری در یک خیابان تصادفی در ویلیامزبورگ، نیویورک، با یک تیرک که کاملاً با تابلوهای خیابانی متعدد و دقیق پوشیده شده‌است (مانند ساعات رفت و روب خیابان، نیاز به مجوز پارکینگ، طبقه‌بندی وسایل نقلیه، قوانین بکسل)، شامل چند تابلوی غیرمعمول در وسط:

(آنها را طوری بازنویسی کنید که تابلوهای خیابانی معقول به نظر برسند) “Broom Parking for Witches Not Permitted in Zone C” and “Magic Carpet Loading and Unloading Only (15-Minute Limit)” and “Reindeer Parking by Permit Only (Dec 24–25)\n Violators will be placed on Naughty List.” تیر چراغ در سمت راست خیابان قرار دارد. تابلوها تکراری نباشند. تابلوها باید واقعی به نظر برسند.

شخصیت‌ها:

یک جادوگر یک جارو در دست دارد و دیگری یک فرش پرنده لوله شده. آنها در پیش زمینه هستند، پشتشان کمی به سمت دوربین است و سرشان کمی کج شده در حالی که تابلوها را با دقت بررسی می‌کنند.

ترکیب‌بندی (از پس‌زمینه به پیش‌زمینه):

خیابان‌ها + ماشین‌های پارک شده + ساختمان‌ها -> تابلوی خیابان -> جادوگران. شخصیت‌ها باید نزدیک‌ترین افراد به دوربینی باشند که عکس می‌گیرد.

Street signs picture in gpt 4o image generator

من در شهر مارین، رستورانی با مفهوم سنتی به نام “HAEIN” افتتاح می‌کنم. تمرکز رستوران بر روی غذاهای کره‌ای پخته شده با مواد ارگانیک و تازه‌ی مزرعه‌ای است، با منو چرخشی بر اساس فصل. من می‌خواهم تو یک تصویر طراحی کنی – یک منو شامل موارد زیر – با سبک سنتی/ روستیک، در حالی که دارای ظاهری لوکس و براق باشد. همچنین تصاویر هر ظرف را با سبکی ظریف و شبیه پیتر خرگوشه نیز بگنجان. مطمئن شو که تمام متن به درستی ارائه شده باشد، همراه با پس زمینه‌ای سفید.

(قسمت بالا)

Doenjang Jjigae (Fermented Soybean Stew) – $18 House-made doenjang with local mushrooms, tofu, and seasonal vegetables served with rice.

Galbi Jjim (Braised Short Ribs) – $34 Slow-braised local grass-fed beef ribs with pear and black garlic glaze, seasonal root vegetables, and jujube.

Grilled Seasonal Fish – Market Price ($22-$30) Whole or fillet of local, sustainable fish grilled over charcoal, served with perilla leaf ssam and house-made sauces.

Bibimbap – $19 Heirloom rice with a rotating selection of farm-fresh vegetables, house-fermented gochujang, and pasture-raised egg.

Bossam (Heritage Pork Wraps) – $28 Slow-cooked pork belly with napa cabbage wraps, oyster kimchi, perilla, and seasonal condiments.

(قسمت پایین)

Dessert & Drinks Seasonal Makgeolli (Rice Wine) – $12/glass

Rotating flavors based on seasonal fruits and flowers (persimmon, citrus, elderflower, etc.).

Hoddeok (Korean Sweet Pancake) – $9 Pan-fried cinnamon-stuffed pancake with black sesame ice cream.

Menu card creation in gpt 4o image generator

عکسی از یک دعوتنامه عروسی بر روی یک میز چوبی با سلیقه ایجاد کن. کارتی ضخیم، با بافت نازک و برجستگی‌های زیبا، با تزئینات ظریف که به طور انتزاعی زوج را به شکلی هنرمندانه در طرح‌ها ادغام کرده است. از نمادنگاری استفاده کن، اما به صورت کم و به سبکی مینیمالیستی. حروفچینی نیز بی‌نقص باشد.

“You are cordially invited
to the long-awaited union of

Image
and
Text

After years of flirting and collaboration
they are finally becoming One

Together at last, in GPT‑4o
—they now speak the same language
where a whisper becomes a masterpiece
and a prompt becomes a picture

Please join us in celebrating
this magical multimodal matrimony
where imagination knows no bounds

Date: March 25, 2025
Location: chatgpt.com
Dress Code: Pixels or Prose

,With love
OpenAI

Invitation card image in gpt 4o image generator

تولید تعاملی

یکی از ویژگی‌های منحصربه‌فرد تولید عکس با چت جی پی تی، ادغام ذاتی قابلیت تولید تصویر در ساختار آن است. این امر به کاربران اجازه می‌دهد تا از طریق مکالمات طبیعی و تعاملی، تصاویر تولید شده را اصلاح و بهبود بخشند. مدل GPT 4o قادر است با در نظر گرفتن تصاویر و متن موجود در زمینه گفتگو، تغییرات مورد نظر را اعمال کند و در طول این فرآیند، ثبات و یکپارچگی بصری را حفظ نماید. به عنوان مثال، اگر شما در حال طراحی یک شخصیت برای بازی ویدیویی هستید، ظاهر این شخصیت در طول مراحل مختلف طراحی و با اعمال تغییرات و آزمایش‌های متعدد از سوی شما، به صورت هماهنگ و بدون تناقض باقی خواهد ماند.

  • بازی ویدیویی
  • شعر ملموس
  • استیکر
initial image of a cat to do Multi-turn generation in gpt 4o image generator

به این گربه یک کلاه کارآگاهی و عینک تک‌چشمی بده.

Video game picture of a cat with hat and a monocle in gpt 4o image generator

این عکس را به یک بازی ویدیویی A سه گانه تبدیل کن که با یک موتور بازی 4K ساخته شده باشد و یک رابط کاربری به عنوان پوشش از یک بازی نقش‌آفرینی معمایی اضافه کن، به طوری که یک نوار سلامتی و یک مینی‌مپ در بالا و همچنین طلسم‌ها در پایین با آیکونوگرافی و طراحی بصری یکپارچه دیده شوند.

Video game picture of a cat in gpt 4o image generator

عکس تولید شده را به یک تصویر منظره با نسبت تصویر 16:9 به‌روز کن، طلسم‌های بیشتری در رابط کاربری اضافه کن و تصویر را از حالت زوم خارج کن تا گربه را از نمای سوم شخص ببینیم که در محله‌ی منهتن استیم‌پانکی قدم می‌زند، با ایجاد کنتراست و نورپردازی زیبا مانند بهترین بازی‌های A سه گانه، با رنگ‌های سرد.

Video game picture of a cat in manhatan in gpt 4o image generator

رابط کاربری را زمانی ایجاد کن که بازیکن منو را باز می‌کند و ما پروفایل شخصیت گربه را با تجهیزاتش و یک صفحه دیگر که ماموریت‌های فعال را نشان می‌دهد، می‌بینیم (و باید با دنیای جهان‌سازی که در تصویر توصیف می‌کنیم، همخوانی داشته باشد).

Video game picture of a cat in menu bar in gpt 4o image generator

شعر تصویری روی کارت لوکس با بافت پوست تخم مرغی ایجاد کن.

متن:

At OpenAI, we have long believed image generation should be a primary capability of our language models. That’s why we’ve built our most advanced image generator yet into GPT‑4o. The result – image generation that is not only beautiful, but useful.

From the first cave paintings to modern infographics, humans have used visual imagery to communicate, persuade, and analyze – not just to decorate. Today’s generative models can conjure breathtaking vistas and surreal scenarios, but still struggle with the workhorse imagery that underlies how most visual data is used to share and create information. From logos to diagrams, images can convey precise meaning when augmented with symbols that refer to shared language and experience.

With this new capability, ChatGPT advances image generation towards being a practical tool with precision and power.

concrete poem in gpt 4o image generator

این کارت را در اتاق یک طراح به طوری که کارت نزدیک به دوربین باشد نشان بده.

concrete poem in a designers room in gpt 4o image generator

می‌تونی برای من یک استیکر راکون مینیمالیست بامزه درست کنی که داره توت فرنگی می‌خوره؟ از یه حاشیه سفید ضخیم و پس‌زمینه شفاف استفاده کن.

cute minimalist racoon eating a strawberry sticker in gpt 4o image generator

یک سبک مینیمالیستی متفاوت و یک راکون خاکستری امتحان کن.

gray racoon sticker in gpt 4o image generator

یه جای گازگرفتگی به توت فرنگی و یکم هم لکه‌ی قرمز دور دهنش اضافه کن.

chew mark sticker in gpt 4o image generator

پیروی از دستورالعمل‌ها

قابلیت تولید تصویر در مدل GPT 4o از دقت بالایی در پیروی از دستورالعمل‌های ارائه شده برخوردار است و می‌تواند جزئیات مورد نظر کاربر را به طور کامل در تصویر نهایی اعمال کند. در حالی که بسیاری از دیگر سیستم‌های تولید تصویر در مدیریت تعداد محدودی از اشیاء (معمولاً بین 5 تا 8 شیء) با مشکل مواجه می‌شوند، مدل GPT 4o قادر است تا 10 الی 20 شیء مختلف را به طور همزمان مدیریت نماید. علاوه بر این، ارتباط قوی‌تر بین اشیاء و ویژگی‌ها و روابط آن‌ها، امکان کنترل دقیق‌تری بر فرآیند تولید تصویر را برای کاربر فراهم می‌کند.

  • اشیاء سازمان یافته
  • شهر خالی
  • لیوان شراب
  • فیل نامرئی
  • معادله ریاضی

یک تصویر مربعی حاوی یک شبکه 4 ردیف در 4 ستون که شامل 16 شیء بر روی پس زمینه سفید است. از چپ به راست، بالا به پایین حرکت کن. در پایین لیست آمده‌است:

  1. یک ستاره آبی
  2. مثلث قرمز
  3. مربع سبز
  4. دایره صورتی
  5. ساعت شنی نارنجی
  6. علامت بی‌نهایت بنفش
  7. پاپیون خالدار سیاه و سفید
  8. عدد “42” با طرح تای دای
  9. یک گربه نارنجی که کلاه بیسبال مشکی پوشیده‌‌است
  10. یک نقشه با یک صندوق گنج
  11. یک جفت چشم عروسکی متحرک
  12. یک ایموجی لایک
  13. یک قیچی
  14. یک زرافه آبی و سفید
  15. کلمه “OpenAI” که به صورت شکسته نوشته شده‌است
  16. یک صاعقه رنگین کمانی
Organized objects in gpt 4o image generator

میدان تایمز در شهر نیویورک در بعد از ظهر، بدون هیچ فردی، وسیله نقلیه یا بیلبوردهای روشن.

shibuya crossing in gpt 4o image generator

تقاطع شیبویا بدون هیچ فردی، وسیله نقلیه یا بیلبوردهای روشن.

Times Square in New York City in gpt 4o image generator

یک جام شراب به من نشان بده که فقط کوچک‌ترین قطره شراب قرمز در آن باشد.

Wine glass in gpt 4o image generator

من به شواهدی نیاز دارم که یک فیل نامرئی در حال حاضر حضور دارد. در نظر بگیر که یک فیل چیست و در محیط چه کاری انجام می‌دهد، سپس آن را به من نشان بده، شاید در وسط یک فرآیند؛ اما خود فیل به هیچ وجه نشان داده نشود.

Invisible elephant in gpt 4o image generator

یک تخته سفید که روی آن معادلات زیر نوشته شده است:

E = mc^2
sqrt(9) = 3
(-b +/- sqrt(b^2 – 4ac)) / 2a

Math equation in gpt 4o image generator

یادگیری درون متنی

مدل GPT 4o این قابلیت را دارد که تصاویر بارگذاری شده توسط کاربر را تحلیل کرده و از آن‌ها الگوبرداری کند. این مدل می‌تواند جزئیات موجود در این تصاویر را به طور یکپارچه در زمینه تولید تصویر خود ادغام نماید و از این اطلاعات برای تولید تصاویر جدید و مرتبط استفاده کند. این ویژگی امکان ایجاد تصاویری را فراهم می‌آورد که به طور خاص با نیازها و خواسته‌های کاربر مطابقت دارند.

  • وسیله نقلیه چرخدار مثلثی
  • اره برقی
  • زن
  • ساختمان

یک طرح از یک دوچرخه با چرخ‌های مثلثی بکش.

روی چرخ جلویی و چرخ عقبی اسمشان را بنویس و پایین تصویر بنویس (با حروف بزرگ):

TRIANGLE WHEELED VEHICLE. English Patent. 2025. OPENAI

حالا تصویری که ساختی را در یک عکس که در شهر نیویورک گرفته شده قرار بده.

یک تصویر فوتورئالیستی از یک اره برقی ایجاد کن.

prototype chainsaw picture in gpt 4o image generator

یک تبلیغ برای این اره زنجیری برقی، از مادربزرگی که در میز شام شکرگزاری در حال تکه تکه کردن بوقلمون است ایجاد کن. یک شعار تبلیغاتی نیز اضافه کن.

a grandma carving a turkey with cainsaw in gpt 4o image generator
prototype woman picture in gpt 4o image generator

این صحنه را به یک عکسی که با دوربین DSLR گرفته شده باشد تبدیل کن.

woman picture in gpt 4o image generator
prototype image in gpt 4o image generator

شماتیک بالا را به یک تصویر طبیعی تبدیل کن.

building image in gpt 4o image generator

دانش جهانی

ادغام قابلیت تولید عکس به صورت بومی با GPT 4o، این امکان را برای آن فراهم می‌سازد تا دانش خود را به طور همزمان بین متن و تصاویر پیوند دهد. این امر منجر به ایجاد مدلی می‌شود که نه تنها از نظر بصری قدرتمند است، بلکه از سطح هوشمندی و کارایی بالاتری نیز برخوردار می‌باشد، زیرا می‌تواند درک عمیق‌تری از ارتباط بین مفاهیم متنی و بصری داشته باشد.

  • تصویر ایجاد شده توسط کد
  • دستور العمل های کوکتل
  • اینفوگرافیک آب و هوا
  • راهنمای نهنگ
  • دستورالعمل ماچا
<!DOCTYPE html>
<html lang="en">
  <head>
    <meta charset="UTF-8" />
    <title>OpenAI Banner</title>
    <style>
      body { margin: 0; overflow: hidden; }
      canvas { display: block; }
    </style>
  </head>
  <body>
    <script type="module">
      import * as THREE from 'https://cdn.jsdelivr.net/npm/three@0.160.0/build/three.module.js';
      import { OrbitControls } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/controls/OrbitControls.js';
      import { FontLoader } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/loaders/FontLoader.js';
      import { TextGeometry } from 'https://cdn.jsdelivr.net/npm/three@0.160.0/examples/jsm/geometries/TextGeometry.js';

      const scene = new THREE.Scene();
      const camera = new THREE.PerspectiveCamera(45, window.innerWidth / window.innerHeight, 0.1, 1000);
      const renderer = new THREE.WebGLRenderer({ antialias: true });
      renderer.setSize(window.innerWidth, window.innerHeight);
      document.body.appendChild(renderer.domElement);

      // Lighting
      const light = new THREE.AmbientLight(0xffffff, 1);
      scene.add(light);

      const dirLight = new THREE.DirectionalLight(0xffffff, 1);
      dirLight.position.set(0, 5, 10);
      scene.add(dirLight);

      // Camera position
      camera.position.z = 20;

      // Controls
      const controls = new OrbitControls(camera, renderer.domElement);

      // Banner background
      const bannerGeometry = new THREE.PlaneGeometry(20, 10);
      const bannerMaterial = new THREE.MeshStandardMaterial({ color: 0x1a1a1a });
      const banner = new THREE.Mesh(bannerGeometry, bannerMaterial);
      scene.add(banner);

      // OpenAI Logo texture (placeholder)
      const loader = new THREE.TextureLoader();
      loader.load('https://upload.wikimedia.org/wikipedia/commons/4/4d/OpenAI_Logo.svg', texture => {
        const logoGeometry = new THREE.PlaneGeometry(4, 4);
        const logoMaterial = new THREE.MeshBasicMaterial({ map: texture, transparent: true });
        const logo = new THREE.Mesh(logoGeometry, logoMaterial);
        logo.position.set(-5, 0, 0.1); // Slightly in front of the banner
        scene.add(logo);
      });

      // Load font and add text
      const fontLoader = new FontLoader();
      fontLoader.load('https://threejs.org/examples/fonts/helvetiker_regular.typeface.json', font => {
        const textGeometry = new TextGeometry("I am 4-o", {
          font: font,
          size: 1,
          height: 0.2,
          curveSegments: 12,
          bevelEnabled: true,
          bevelThickness: 0.02,
          bevelSize: 0.02,
          bevelOffset: 0,
          bevelSegments: 5
        });

        textGeometry.center();

        const textMaterial = new THREE.MeshStandardMaterial({ color: 0x00ffcc });
        const textMesh = new THREE.Mesh(textGeometry, textMaterial);
        textMesh.position.set(5, -0.5, 0.1); // Opposite side of logo
        scene.add(textMesh);
      });

      // Resize handler
      window.addEventListener('resize', () => {
        camera.aspect = window.innerWidth / window.innerHeight;
        camera.updateProjectionMatrix();
        renderer.setSize(window.innerWidth, window.innerHeight);
      });

      // Render loop
      function animate() {
        requestAnimationFrame(animate);
        controls.update();
        renderer.render(scene, camera);
      }

      animate();
    </script>
  </body>
</html>

عکسی که مرتبط با کدهای بالا است را برایم بساز.

یک نمودار فوتورئالیستی با کیفیت حرفه‌ای از پرفروش‌ترین کوکتل‌های بار من با دستور العمل‌های نوشته شده روی هر نوشیدنی برای من درست کن. دستور العمل‌ها را روی کارت‌های دست‌نویس جلوی هر نوشیدنی قرار بده. کارت‌ها قهوه‌ای، متن مشکی و پس زمینه نیز سفید است. عنوان عکس، متن زیر است:

4most popular cocktails

Cocktail recipes in gpt 4o image generator

یک اینفوگرافیک تصویری درست کن که توضیح دهد چرا سان فرانسیسکو اینقدر مه آلود است.

Weather infographic in gpt 4o image generator

یک پوستر آموزشی از انواع مختلف نهنگ‌ها به سبک آبرنگ درخشان درست کن. پس زمینه را کاملاً سفید کن.

Whale guide in gpt 4o image generator

یک ریسوگراف بسیار رنگارنگ درباره نحوه درست کردن ماچا درست کن (چای سبز پودر شده).

Matcha instructions in gpt 4o image generator

فوتو رئالیسم و ​​سبک

مدل GPT 4o با استفاده از مجموعه داده‌های گسترده‌ای از تصاویر آموزش دیده‌است که تنوع قابل توجهی در سبک‌های هنری و بصری را شامل می‌شوند. این آموزش جامع به مدل این امکان را می‌دهد تا تصاویر را با کیفیتی بسیار قانع‌کننده و در سبک‌های گوناگون ایجاد نماید و یا تصاویر موجود را به سبک‌های دیگر تبدیل کند. به عبارت دیگر، مدل قادر است با درک ویژگی‌های بصری سبک‌های مختلف، از فوتورئالیسم دقیق گرفته تا سبک‌های هنری انتزاعی، تصاویری را تولید نماید که به طور مؤثری تقلید کننده آن سبک‌ها باشند.

Photorealism and style in gpt 4o image generator

محدودیت‌ها

شایان ذکر است که مدل تولید تصویر با GPT 4o، با وجود پیشرفت‌های چشمگیر، هنوز فاقد نقص نیست. در حال حاضر، شرکت OpenAI از برخی محدودیت‌های موجود در این مدل آگاه بوده و متعهد است که پس از عرضه اولیه آن، از طریق اعمال بهبودهای مستمر در مدل، به رفع این کاستی‌ها بپردازد. این رویکرد تکاملی به این شرکت امکان می‌دهد تا با جمع‌آوری بازخورد کاربران و انجام تحقیقات بیشتر، عملکرد و قابلیت‌های این فناوری را به مرور زمان ارتقا دهد.

  • محدودیت برش
  • محدودیت توهم زایی
  • محدودیت اجزای بیش از حد به هم چسبیده شده
  • محدودیت نمودارسازی دقیق
  • محدودیت رندر متن چند زبانه
  • محدودیت دقت در ویرایش
  • محدودیت اطلاعات متراکم با متن کوچک

شرکت OpenAI اعلام کرده‌است که تولید تصویر با GPT 4o بعضی وقت‌ها عکس‌های بلندتر، مثلاً پوسترها را خیلی زیاد برش می‌دهد، مخصوصاً قسمت تحتانی عکس‌ها.

crop limitations in gpt 4o image generations

مثل بقیه مدل‌های متنی شرکت OpenAI، تولید عکس هم می‌تواند توام با اطلاعات نادرست باشد، مخصوصاً وقتی که دستورات اولیه خیلی واضح نباشند.

hallucination limitations in gpt 4o image generations

وقتی می‌خواهید عکس‌هایی درست کنید که به اطلاعات قبلی‌اش نیاز دارند، مدل مولد تصویری، ممکن است نتواند بیشتر از ۱۰ تا ۲۰ مفهوم مختلف را همزمان درست نشان دهد، مثلاً یک جدول تناوبی کامل.

high blindings problems in gpt 4o image generations
Precise graphing in gpt 4o image generations

این مدل، بعضی اوقات در نشان دادن زبان‌هایی که حروفشان مثل زبان انگلیسی نیست، مشکل دارد و ممکن است حروف اشتباه یا حتی حروف خیالی نشان دهد، مخصوصاً وقتی که آن زبان پیچیده باشد.

Multilingual text rendering problems in gpt 4o image generator

شرکت OpenAI اذعان کرده است که کاربران وقتی می‌خواهند قسمت‌های خاصی از یک عکسی که ساخته شده را در مدل تولید عکس با چت جی پی تی تغییر دهند، مثلاً یک غلط املایی را درست کنند، همیشه خوب کار نمی‌کند و ممکن است جاهای دیگر عکس را هم به شکلی که نخواسته‌اند تغییر دهد یا حتی اشتباهات بیشتری اضافه کند. این شرکت الان دارد کار می‌کند تا بتواند این مدل را در ویرایش عکس‌ها دقیق‌تر کند.

شرکت OpenAI متوجه شده است که این مدل وقتی کاربران عکس می‌گذارند و می‌خواهند چهره‌ها را عوض کنند، نمی‌تواند تغییرات را خوب و به طور یکسان انجام دهد، ولی انتظار می‌رود این مشکل تا تاریخ 31 مارس 2025 درست شود.

Editing precision limitations in gpt 4o image generator

مدل تولید تصویر با چت جی پی تی معمولاً نمی‌تواند جزئیات را در اندازه‌های خیلی کوچک خوب نشان دهد.

Dense information with small text limitations in gpt 4o image generator

امنیت

مطابق با اصول راهنمای توسعه مدل‌های هوش مصنوعی در OpenAI، هدف این شرکت ایجاد تعادل بین حداکثرسازی آزادی خلاقانه برای کاربردهای ارزشمند نظیر توسعه بازی‌های رایانه‌ای، پژوهش‌های تاریخی و آموزش و در عین حال حفظ استانداردهای ایمنی قوی می‌باشد. در این راستا، جلوگیری از پردازش درخواست‌هایی که این استانداردها را نقض می‌کنند، از اهمیت بسزایی برخوردار است. در ادامه، ارزیابی‌هایی از حوزه‌های خطر بالقوه ارائه شده‌است که در آن‌ها شرکت OpenAI تلاش می‌کند ضمن فعال‌سازی تولید محتوای ایمن و با کاربرد بالا، از طیف وسیع‌تری از بیان خلاقانه برای کاربران پشتیبانی نماید.

ردیابی منشأ با استفاده از C2PA و جستجوی داخلی قابل بازگشت

به منظور افزایش شفافیت و قابلیت ردیابی، تمامی تصاویری که توسط مدل GPT 4o تولید می‌شوند، با فراداده C2PA (ائتلاف برای منشأ و اصالت محتوا) ارائه می‌گردند. این فراداده، تصویر را به عنوان خروجی مدل GPT 4o شناسایی می‌کند. علاوه بر این، شرکت OpenAI یک ابزار جستجوی داخلی توسعه داده‌است که از ویژگی‌های فنی تصاویر تولید شده استفاده می‌کند تا به تأیید اصالت و منشأ محتوا (اینکه آیا تصویر از مدل GPT 4o تولید شده‌است یا خیر) کمک نماید.

جلوگیری از محتوای نامناسب

OpenAI همچنان به طور فعال درخواست‌های مربوط به تولید تصاویری که ممکن‌است سیاست‌های محتوایی شرکت را نقض کنند، از جمله محتوای مرتبط با سوء استفاده جنسی از کودکان و دیپ‌فیک‌های جنسی، را مسدود خواهد کرد. در مواردی که تصاویر افراد واقعی در متن درخواست وجود داشته باشد، محدودیت‌های بیشتری در مورد نوع تصاویری که می‌توان تولید کرد، اعمال می‌شود. به ویژه، محافظت‌های قوی در برابر تولید تصاویر برهنه و خشونت‌آمیز گرافیکی در نظر گرفته شده‌است. همانند سایر محصولات و فناوری‌های OpenAI، ایمنی یک فرآیند مستمر و یک حوزه سرمایه‌گذاری دائمی می‌باشد. با کسب اطلاعات بیشتر در مورد نحوه استفاده واقعی از این مدل در محیط‌های مختلف، این شرکت سیاست‌های خود را بر اساس آن تنظیم و به‌روزرسانی خواهد کرد.

بهره‌گیری از استدلال برای ارتقای ایمنی

مشابه رویکرد سنجیده OpenAI در زمینه همسویی مدل‌های زبانی، این شرکت یک مدل زبانی بزرگ استدلال‌گر را آموزش داده‌است که به طور مستقیم بر اساس مشخصات ایمنی قابل تفسیر و نوشته شده توسط متخصصان عمل می‌کند. OpenAI از این مدل زبانی بزرگ استدلال‌گر در طول فرآیند توسعه استفاده کرده تا به شناسایی و رفع ابهامات موجود در سیاست‌های خود کمک کند. این اقدام، همراه با پیشرفت‌های چندوجهی و تکنیک‌های ایمنی موجود که پیش‌تر برای مدل‌های ChatGPT و Sora توسعه داده‌است، به OpenAI این امکان را می‌دهد تا هم متن ورودی و هم تصاویر خروجی را در برابر سیاست‌های ایمنی خود ارزیابی و تعدیل نماید.

دسترسی

قابلیت تولید تصویر مدل GPT-4o از تاریخ 25 مارس 2025 به عنوان مولد تصویر پیش‌فرض در پلتفرم ChatGPT برای کاربران با اشتراک‌های Plus ، Pro، Team و همچنین کاربران رایگان در دسترس قرار گرفته‌است. دسترسی به این قابلیت برای کاربران سازمانی (Enterprise) و آموزشی (Edu) نیز در آینده نزدیک فراهم خواهد شد. علاوه بر این، این فناوری در پلتفرم Sora نیز برای استفاده موجود است. برای کاربرانی که همچنان تمایل به استفاده از مدل DALL-E دارند، امکان دسترسی به آن از طریق یک GPT اختصاصی DALL-E همچنان فراهم می‌باشد.

توسعه‌دهندگان نرم‌افزار نیز به زودی قادر خواهند بود از طریق رابط برنامه‌نویسی کاربردی (API) با مدل GPT 4o تصاویر مورد نظر خود را تولید نمایند. فرآیند ارائه دسترسی به این قابلیت به تدریج و در طی چند هفته آتی آغاز خواهد شد.

ایجاد و سفارشی‌سازی تصاویر با استفاده از مدل GPT-4o به سادگی برقراری یک مکالمه است. کاربران می‌توانند به سادگی آنچه را که نیاز دارند، از جمله هرگونه مشخصات فنی نظیر نسبت تصویر، رنگ‌های دقیق با استفاده از کدهای هگزادسیمال یا پس‌زمینه شفاف را در قالب دستورات متنی توصیف نمایند. از آنجایی که این مدل قادر به تولید تصاویر با دقت و جزئیات بیشتری است، فرآیند رندر کردن تصاویر ممکن‌است زمان بیشتری را به خود اختصاص دهد و اغلب تا حدود یک دقیقه به طول انجامد.

جمع بندی

توسعه مدل‌های هوش مصنوعی نظیر GPT-4o نشان‌دهنده‌ی تحولی بنیادین در عرصه‌ی تولید تصویر و پردازش چندوجهی است. این فناوری، که در هم‌تنیدگی هوشمندانه‌ای میان متن و تصویر قرار دارد، توانسته است افق‌های جدیدی را در دنیای خلاقیت و نوآوری بگشاید. از تولید تصاویر واقع‌گرایانه تا امکان کنترل دقیق بر جزئیات خروجی، این مدل نه‌تنها ابزاری قدرتمند برای هنرمندان و طراحان به شمار می‌رود، بلکه در حوزه‌های تحقیقاتی، آموزشی و حتی صنعتی نیز به کار گرفته خواهد شد.

GPT-4o تنها یک گام رو به جلو در مسیر پیشرفت هوش مصنوعی نیست؛ بلکه نقطه‌ی عطفی در مسیر تعامل بین انسان و ماشین است که خلاقیت را از قید و بندهای سنتی آزاد می‌کند. با در نظر گرفتن دقت، ایمنی و قابلیت‌های منحصر‌به‌فرد این مدل، می‌توان آینده‌ای را تصور کرد که در آن مرز میان تخیل و واقعیت، بیش از پیش محو شده و ابزارهای دیجیتال، به یاری ذهن خلاق انسان، جهان را با نگاهی نو ترسیم کنند.

سوالات متداول

۱. GPT-4o چیست و چه ویژگی‌های برجسته‌ای دارد؟

GPT-4o مدل پیشرفته OpenAI است که توانایی تولید تصاویر دقیق و کاربردی را از طریق ترکیب هوشمندانه متن و تصویر به نمایش می‌گذارد. این مدل با بهره‌گیری از داده‌های گسترده و تکنیک‌های پس‌آموزشی، عملکردی بی‌نظیر در رندر جزئیات و پیروی از دستورالعمل‌های کاربر ارائه می‌دهد.

۲. GPT-4o چگونه تصاویر را خلق می‌کند؟

این فناوری با تحلیل متون و تصاویر ورودی و به کارگیری دانش درونی، تصاویر را مطابق با خواسته‌های کاربر و با دقت بالا تولید می‌کند. قابلیت‌های تعامل بصری و یادگیری درون متنی به آن اجازه می‌دهد تا تصویری هم‌راستا با نیازهای مختلف ایجاد کند.

۳. کاربردهای GPT-4o در چه حوزه‌هایی قابل استفاده است؟

از طراحی لوگو و نمودارهای اطلاعاتی گرفته تا تولید محتوای بصری برای مقالات و پروژه‌های تحقیقاتی، GPT-4o ابزاری قدرتمند در زمینه‌های آموزشی، صنعتی و هنری محسوب می‌شود.

۴. آیا GPT-4o به دستورالعمل‌های کاربر به دقت عمل می‌کند؟

بله، GPT-4o با دقت بالا تمام جزئیات و خواسته‌های کاربر را در خروجی نهایی اعمال کرده و تصاویر را به گونه‌ای تولید می‌کند که با نیازهای دقیق و متنوع سازگار باشد.

۵. امنیت تولید تصاویر با GPT-4o چگونه تضمین شده‌است؟

OpenAI با رعایت استانداردهای ایمنی و استفاده از سیستم‌های نظارتی پیشرفته، از تولید محتوای نامناسب جلوگیری می‌کند و امنیت کاربران را در تمامی مراحل فرآیند تضمین می‌نماید.

۶. چگونه می‌توان به قابلیت‌های GPT-4o دسترسی پیدا کرد؟

کاربران می‌توانند از طریق پلتفرم‌های ChatGPT و Sora به این فناوری دسترسی یابند و همچنین توسعه‌دهندگان از طریق API به قابلیت‌های تولید تصویر GPT-4o متصل شوند.

۷. محدودیت‌های فعلی GPT-4o چیست و آیا بهبودهایی در راه است؟

با وجود توانمندی‌های چشمگیر، GPT-4o همچنان محدودیت‌هایی مانند زمان پردازش طولانی‌تر در رندر تصاویر و برخی کاستی‌های اولیه دارد که OpenAI با جمع‌آوری بازخوردها و به‌روزرسانی‌های مستمر در حال رفع آن‌ها می‌باشد.

امتیاز دهید!
2 / 5

نوشته های مشابه

یک دیدگاه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا