در عصر دیجیتال امروز، هوش مصنوعی با گامهای بلند در حال پیشرفت است و مدلهای زبانی بزرگ (LLM) در خط مقدم این انقلاب قرار دارند. از ChatGPT که دنیا را شگفتزده کرد تا Claude که با هوش مصنوعی قانونمند خود توجهها را جلب نموده، این فناوریها در حال تغییر شکل ارتباطات، خلاقیت و حل مسائل هستند. اما آیا تا به حال فکر کردهاید که این غولهای هوشمند از کجا آمدهاند؟ از ELIZA، اولین چتبات ساده در دهه 1960، تا GPT-4o با قابلیتهای شگفتانگیزش، سفری طولانی و پرماجرا طی شدهاست. در این مقاله، شما را به سفری هیجانانگیز در تاریخچه و حال حاضر LLMها میبریم. از پیشگامان اولیه گرفته تا آخرین دستاوردهای شرکتهای بزرگ فناوری، هر آنچه باید درباره این موتورهای محرک هوش مصنوعی مدرن بدانید، اینجا خواهید یافت. با هامیا ژورنال همراه شوید تا دنیای شگفتانگیز مدلهای زبانی بزرگ را کشف کنیم!
با توجه به پیشرفت سریع مدلهای زبانی بزرگ، داشتن دانش پرامپتنویسی و مهندسی پرامپت به یک مهارت ضروری تبدیل شده است. این مهارتها ارتباط تنگاتنگی با LLMها دارند و میتوانند تفاوت چشمگیری در کیفیت و دقت خروجیهای این مدلها ایجاد کنند. برای درک عمیقتر این ارتباط و بهرهبرداری مؤثرتر از مدلهای زبانی بزرگ، توصیه میشود ابتدا مقالهی قبلی هامیا ژورنال با عنوان “پرامپت نویسی: چگونه هوش مصنوعی را به بردهی خود تبدیل کنیم!” را مطالعه فرمایید. این مقاله پایهای محکم برای فهم بهتر مفاهیم و کاربردهای LLMها فراهم میکند. بدون آشنایی با اصول پرامپتنویسی، ممکن است استفادهی چندان موثری از این مدلهای زبانی نداشته باشید. پس برای بهرهمندی حداکثری از اطلاعات ارائه شده در مقالهی حاضر، پیشنهاد میکنیم ابتدا نگاهی به مقالهی پرامپتنویسی بیندازید.
تاریخچه و سیر تکاملی هوش مصنوعی
فهرست مطالب
تکامل مدلهای زبانی بزرگ: از گذشته تا امروز
همانطور که میبینیم، مدلهای زبانی بزرگ (Large Language Models) سالهاست که بر جستجو تاثیر گذاشتهاند و با ظهور ChatGPT و دیگر چتباتها، اهمیت آنها بیش از پیش برای همگان آشکار شده است.
مدلهای زبانی بزرگ، عامل اصلی پیشران در رشد چشمگیر هوش مصنوعی مولد در سال 2024 محسوب میشوند. با این حال، لازم به ذکر میباشد که این فناوریها از مدتها قبل در حوزههای پژوهشی و کاربردی مورد توجه بودهاند. پیشرفتهای اخیر در این زمینه، نتیجه تکامل تدریجی و بهبود مستمر این مدلها طی سالهای متمادی است، که اکنون به نقطه عطفی در کاربردپذیری و کارآمدی رسیدهاند.
مدلهای زبانی بزرگ، سیستمهای هوش مصنوعی جعبه سیاه هستند که از یادگیری عمیق بر روی مجموعه دادههای بسیار عظیم برای درک و تولید متن جدید استفاده میکنند. شکلگیری LLMهای مدرن به سال ۲۰۱۴ برمیگردد، زمانی که مکانیزم “توجه” (یک تکنیک یادگیری ماشین برای تقلید از توجه شناختی انسان) در یک مقاله پژوهشی با عنوان “ترجمه ماشینی عصبی با یادگیری مشترک برای همراستا کردن و ترجمه1” معرفی شد. سپس در سال ۲۰۱۷، با معرفی مدل ترنسفورمر در مقاله دیگری با عنوان “همه آن چیزی که نیاز دارید، توجه نام دارد2“، این مکانیزم توجه بهبود پیدا کرد.
برخی از شناختهشدهترین مدلهای زبانی امروزی بر پایه مدل ترنسفورمر ساخته شدهاند، از جمله سری مدلهای “ترنسفورمر مولد از پیشآموختهشده3” و “بازنماییهای رمزگذار دوسویه از ترنسفورمرها (BERT)4“.
ChatGPT که بر مجموعهای از مدلهای زبانی شرکت OpenAI اجرا میشود، تنها دو ماه پس از انتشار در سال ۲۰۲۲، بیش از ۱۰۰ میلیون کاربر را جذب کرد. از آن زمان، مدلهای رقابتی زیادی منتشر شدهاند. برخی از آنها متعلق به شرکتهای بزرگی مانند گوگل و مایکروسافت هستند و برخی دیگر متنباز (open source) میباشند.
پیشرفتهای مداوم در این زمینه پیگیری همهی آنها را دشوار میکند. در اینجا برخی از تأثیرگذارترین مدلها، چه گذشته و چه حال، برای شما همراهان فروشگاه اینترنتی هامیا آورده شدهاست. این فهرست شامل مدلهایی میشود که راه را برای رهبران امروزی هموار کردهاند و همچنین مدلهایی که میتوانند تأثیر قابل توجهی در آینده داشته باشند.
بهترین مدلهای زبانی بزرگ کنونی
در زیر نمونههایی از مرتبطترین مدلهای زبانی بزرگ امروزی آورده شده است. این مدلها به پردازش زبان طبیعی (NLP) میپردازند و بر معماری مدلهای آینده تأثیر میگذارند.
برت (BERT)
برت مجموعهای از مدلهای زبانی بزرگ است که توسط گوگل در سال ۲۰۱۸ معرفی شد. BERT یک مدل مبتنی بر ترنسفورمر میباشد که میتواند توالیهایی از داده را به توالیهای دیگری از داده تبدیل کند. معماری برت شامل انباشتهای از رمزگذارهای ترنسفورمر است و دارای ۳۴۲ میلیون پارامتر میباشد. برت روی مجموعهی عظیمی از دادههای پیش-آموزش قرار داده شده و همچنین برای انجام وظایف خاصی مانند استنتاج زبان طبیعی و شباهت متن جملهها به طور دقیق تنظیم شدهاست. این مدل در بروزرسانی سال ۲۰۱۹ جستجوی گوگل برای بهبود درک پرسشها به کار گرفته شد.

کلاود (Claude)
مدل زبانی بزرگ کلاود (Claude LLM) بر “هوش مصنوعی قانون اساسی” تمرکز دارد، که خروجیهای هوش مصنوعی را با هدایت مجموعهای از اصول شکل میدهد که به دستیار هوش مصنوعی که آن را قدرت میدهد، کمک میکند مفید، بیخطر و دقیق باشد. کلاود توسط شرکت Anthropic ساخته شده است. آخرین مدل Claude LLM، Claude 3.5 Sonnet نام دارد. این مدل نسبت به نسخههای قبلی LLM، ظرافت، طنز و دستورالعملهای پیچیده را بهتر درک میکند و با سرعتی دو برابر Claude 3 Opus کار میکند. این مدل به صورت رایگان از طریق Claude.ai و برنامه Claude iOS و Claude Android در دسترس قرار گرفته. برای دستیابی به اطلاعات بیشتر در زمینه چتبات هوش مصنوعی کلاود (Claude) و همچنین نحوهی استفاده از آن، میتوانید مقالهی منتشر شده از هامیا ژورنال را با عنوان “معرفی چتبات قدرتمند Claude و شرکت مادر آن Anthropic” مطالعه نمایید.

Cohere
Cohere یک پلتفرم هوش مصنوعی سازمانی است که چندین مدل زبانی بزرگ (LLM) از جمله Command، Rerank و Embed را ارائه میدهد. این مدلها میتوانند به صورت سفارشی برای موارد استفادهی خاص یک شرکت آموزش داده شوند و بطور دقیق تنظیم شوند. شرکت سازندهی مدلهای LLM کمپانی Cohere توسط یکی از نویسندگان مقاله “همه آن چیزی که نیاز دارید، توجه نام دارد” تأسیس شد. یکی از نقاط قوت Cohere اینست که برخلاف OpenAI که به مایکروسافت Azure وابسته میباشد، به یک فضای ابری خاص محدود نمیشود.
معرفی ابزار کوپایلت شرکت مایکروسافت (Microsoft copilot)

ارنی (Ernie)
ارنی مدل زبانی بزرگ شرکت Baidu است که چتبات Ernie 4.0 را پشتیبانی میکند. این ربات در آگوست ۲۰۲۳ منتشر شد و بیش از ۴۵ میلیون کاربر جذب کرد. گفته میشود ارنی ۱۰ تریلیون پارامتر دارد. این ربات به بهترین نحو در زبان ماندارین (Mandarin) کار میکند اما در زبانهای دیگر نیز توانایی دارد.

فالکن 40B (Falcon 40B)
فالکن 40B یک مدل مبتنی بر ترنسفورمر با معماری “رمزگشای عِلّی” (causal decoder) میباشد که توسط مؤسسهی فناوری نوآوری (Technology Innovation Institute) توسعه یافتهاست. این مدل متنباز بوده و با دادههای انگلیسی آموزش داده شدهاست. نسخههای اصلی این مدل در دو نسخهی کوچکتر با نامهای فالکن B1 و فالکن B7 (به ترتیب با یک میلیارد و هفت میلیارد پارامتر) نیز در دسترس هستند. آمازون مدل فالکن 40B را بر روی پلتفرم Amazon SageMaker فراهم کردهاست. همچنین این مدل به صورت رایگان بر روی گیتهاب نیز در دسترس میباشد.

Gemini
جمینای یک خانواده از مدلهای زبانی بزرگ (LLM) از شرکت گوگل است که چتباتی به همین نام را قدرت میبخشد. این مدل جایگزین پالم (Palm) در راهاندازی چتبات شد که با تغییر مدل، از بارد (Bard) به جمینای تغییر نام یافت. مدلهای جمینای چندوجهی (Multimodal) هستند، یعنی میتوانند علاوه بر متن، تصاویر، صدا و ویدیو را نیز مدیریت کنند. جمینای همچنین در بسیاری از برنامهها و محصولات گوگل ادغام شده است. این مدل در چهار اندازهی مختلف عرضه میشود: اولترا (Ultra)، پرو (Pro)، فلش (Flash) و نانو (Nano). اولترا بزرگترین و تواناترین مدل است، پرو مدل میانرده، فلش مدلی سبک، سریع و مقرون به صرفه در حالی که دارای استدلال چندوجهی و نانو کوچکترین مدل است که برای کارایی در وظایف درون-دستگاهی طراحی شدهاست. اگر علاقهمند به کسب اطلاعات جامعتر درباره چتبات هوش مصنوعی گوگل جمینای (Google Gemini) هستید، پیشنهاد میشود مقالهای را که هامیا ژورنال با عنوان “معرفی جمینای (Gemini)، هوش مصنوعی شرکت گوگل” منتشر کردهاست، مطالعه فرمایید. این مقاله منبع ارزشمندی برای درک بهتر قابلیتها و ویژگیهای این فناوری پیشرفتهاست.

Gemma
Gemma یک خانواده از مدلهای متنبازِ زبانی بزرگ (LLM) از گوگل میباشد که با استفاده از همان منابعی که برای جمینای (Gemini) به کار رفته، آموزش داده شدهاند. Gemma در دو اندازهی مختلف ارائه میشود: یک مدل با دو میلیارد پارامتر و یک مدل با هفت میلیارد پارامتر. مدلهای Gemma را میتوان به صورت محلی روی رایانهی شخصی اجرا کرد و تحقیقات نشان دادهاند در چندین معیار ارزیابیشده، از مدلهای هماندازهی Llama 2 پیشی گرفتهاند.

جیپیتی-۳ (GPT-3)
GPT-3 مدل زبانی بزرگ شرکت OpenAI میباشد که با بیش از ۱۷۵ میلیارد پارامتر در سال ۲۰۲۰ منتشر شد. جیپیتی-۳ از معماری ترنسفورمر مبتنی بر رمزگشا استفاده میکند. در سپتامبر ۲۰۲۲، مایکروسافت اعلام کرد که حق استفاده انحصاری از مدل زیربنایی جیپیتی-۳ را دارد. جیپیتی-۳ ده برابر بزرگتر از نسخه قبلی خود است. دادههای آموزشی جیپیتی-۳ شامل کامن کرال (Common Crawl)، وبتکست۲ (WebText2)، Books1، Books2 و ویکیپدیا است.
جیپیتی-۳ آخرین مدل از سری مدلهای جیپیتی است که OpenAI تعداد پارامترهای آن را به صورت عمومی اعلام کردهاست. سری جیپیتی اولین بار در سال ۲۰۱۸ با مقاله OpenAI تحت عنوان “بهبود درک زبان از طریق پیشآموزش مولد” معرفی شد.

GPT-3.5
GPT-3.5 نسخهی ارتقا یافتهی GPT-3 با تعداد پارامتر کمتر میباشد. این مدل با استفاده از یادگیری تقویتی مبتنی بر بازخورد انسان، بطور دقیق تنظیم شدهاست. GPT-3.5 نسخهای از GPT است که چت جیپیتی (ChatGPT) را نیرو میبخشد. طبق گفتهی OpenAI، چندین مدل از این نسخه وجود دارد کهGPT-3.5 Turbo توانمندترین آنهاست. دادههای آموزشی GPT-3.5 تا سپتامبر ۲۰۲۱ را در بر میگیرد. این مدل همچنین در موتور جستجوی بینگ ادغام شده بود، اما از آن زمان با GPT-4 جایگزین شده است.
آیا کنجکاو هستید درباره ستاره درخشان دنیای هوش مصنوعی، یعنی ChatGPT که توسط OpenAI خلق شده، بیشتر بدانید؟ خب، شانس با شما یار است! هامیا ژورنال یک مقاله فوقالعاده جذاب با عنوان “معرفی ChatGPT – انقلابی بزرگ در هوش مصنوعی” منتشر کرده که مثل یک گنج اطلاعاتی است. این مقاله همه چیز را درباره این چتبات شگفتانگیز که بر پایه مدل GPT-3.5 ساخته شده، برایتان روشن میکند. از قابلیتهای خارقالعادهاش گرفته تا ویژگیهای منحصر به فردش، همه و همه در این مقاله گنجانده شدهاست. پس اگر میخواهید از این قطار پیشرفت جا نمانید و درک عمیقتری از این فناوری انقلابی پیدا کنید، خواندن این مقاله را از دست ندهید. مطمئن باشید که با مطالعه آن، دیدگاه جدیدی نسبت به آینده هوش مصنوعی پیدا خواهید کرد.
GPT-4
GPT-4 بزرگترین مدل سری GPT متعلق به OpenAI است که در سال ۲۰۲۳ منتشر شد. همانند مدلهای قبلی، این مدل نیز بر پایه معماری ترنسفورمر کار میکند. برخلاف مدلهای پیشین، تعداد پارامترهای آن برای عموم منتشر نشده است، اگرچه شایعاتی وجود دارد که تعداد این پارامترها بیش از ۱۷۰ تریلیون است. OpenAI مدل GPT-4 را یک مدل چندوجهی توصیف میکند، به این معنی که بر خلاف مدلهای قبلی که تنها با زبان کار میکردند، میتواند هم زبان و هم تصاویر را پردازش و تولید کند. GPT-4 همچنین قابلیت پیام سیستمی را معرفی کرده که به کاربران امکان میدهد لحن صدا و نوع وظیفه را مشخص کنند.
GPT-4 در چندین آزمون تحصیلی، عملکردی در حد انسان را نشان داد. در زمان انتشار این مدل، برخی گمانهزنیهایی وجود داشت که GPT-4 به هوش مصنوعی عمومی (AGI) یعنی هوش در سطح انسان یا حتی فراتر از آن نزدیک شدهاست. GPT-4 موتور جستجوی مایکروسافت بینگ را پشتیبانی میکند، در سرویس ChatGPT پلاس در دسترس است و در نهایت با محصولات مایکروسافت آفیس ادغام خواهد شد.
GPT-4o
GPT-4 اُمنی یا همان GPT-4o جانشین OpenAI برای GPT-4 است و پیشرفتهای قابل توجهی نسبت به مدل قبلی ارائه میدهد. GPT-4o تعامل طبیعیتری را برای چت جیپیتی ایجاد میکند و یک مدل چندوجهی بزرگ است که ورودیهای مختلفی از جمله صدا، تصویر، ویدیو و متن را میپذیرد. مکالمات به کاربران این امکان را میدهد که همانطور که در یک گفتگوی انسانی عادی انجام میدادند، تعامل داشته باشند و قابلیت تعامل لحظهای آن همچنین میتواند احساسات را تشخیص دهد. GPT-4o میتواند در حین تعامل، تصاویر یا صفحه نمایش را ببیند و در مورد آنها سوال بپرسد. سرعت پاسخدهی GPT-4o تنها 232 میلیثانیهاست که مشابه زمان پاسخگویی انسان و سریعتر از GPT-4 Turbo است. مدل GPT-4o رایگان بوده و برای محصولات توسعهدهندگان و مشتریان در دسترس قرار میگیرد.
آیا تا به حال درباره GPT-4o، آخرین شاهکار هوش مصنوعی شرکت OpenAI، کنجکاو شدهاید؟ اگر مشتاق هستید به عمق این دنیای شگفتانگیز سفر کنید، یک فرصت طلایی برایتان داریم! هامیا ژورنال، پیشگام در ارائه اطلاعات تخصصی، مقالهای فوقالعاده با عنوان “معرفی GPT-4o: نقطه عطف انسان و ChatGPT” منتشر کردهاست. این مقاله مانند یک نقشه گنج، شما را به سوی درک عمیقتری از این فناوری پیشرفته هدایت میکند. تصور کنید در یک سفر اکتشافی هستید که در آن، لایه به لایه با قابلیتهای خیرهکننده و ویژگیهای منحصر به فرد GPT-4o آشنا میشوید. این مقاله نه تنها اطلاعات ارزشمندی را در اختیارتان قرار میدهد، بلکه شما را به تفکر درباره آینده تعامل انسان و هوش مصنوعی وا میدارد. پس اگر میخواهید در مرز دانش هوش مصنوعی قرار بگیرید و از آخرین پیشرفتها آگاه شوید، مطالعه این مقاله را از دست ندهید. این فرصتی است برای گسترش افق دیدتان و درک بهتر نقشی که GPT-4o میتواند در آینده ما ایفا کند.

لامدا (LaMDA)
لامدا (مدل زبانی برای کاربردهای گفتگو محور) یک خانواده از مدلهای زبانی بزرگ (LLM) است که توسط Google Brain در سال ۲۰۲۱ معرفی شد و از یک مدل زبانی ترنسفورمر فقط-رمزگشا (decoder-only) استفاده میکند و روی یک بدنه (corpus) عظیم متن پیش-آموزش داده شدهاست. در سال ۲۰۲۲، زمانی که بلیک لموین (Blake Lemoine)، مهندس سابق گوگل، ادعا کرد این برنامه احساس دارد، لامدا توجه گستردهای را به خود جلب کرد. این مدل بر اساس معماری Seq2Seq ساخته شده است.

لاما (Llama)
لاما (مدل زبانی بزرگ شرکت هوش مصنوعی متا) یک مدل زبانی بزرگ متعلق به شرکت Meta است که در سال ۲۰۲۳ عرضه شد. بزرگترین نسخهی آن ۶۵ میلیارد پارامتر دارد. لاما در ابتدا تنها در اختیار محققان و توسعهدهندگانِ تأییدشده قرار گرفت، اما اکنون متنباز شدهاست. Llama در اندازههای کوچکتری نیز ارائه میشود که برای استفاده، آزمایش و تجربهی آن به قدرت محاسباتی کمتری نیاز است. لاما از معماری ترنسفورمر استفاده میکند و روی مجموعهی متنوعی از منابع دادهی عمومی، شامل صفحات وب از CommonCrawl، گیتهاب، ویکیپدیا و پروژهی گوتنبرگ، آموزش داده شدهاست. لاما درنهایت بهطور غیررسمی منتشر شد و باعث ایجاد زیرشاخههای متعددی از جمله ویکونا (Vicuna) و اورکا (Orca) گردید.
معرفی ابزارهای جدید هوش مصنوعی در برنامهها و نرمافزارهای شرکت متا (meta)

میسترال (Mistral)
میسترال یک مدل زبانی با ۷ میلیارد پارامتر است که در تمام معیارهای ارزیابی شده، عملکرد بهتری نسبت به مدل زبانی لاما با اندازه مشابه دارد. این مدل زبانی همچنین دارای یک مدل تنظیمشده است که برای پیروی از دستورالعملها طراحی شدهاست. اندازهی کوچکتر آن امکان میزبانی شخصی و عملکرد مناسب برای اهداف تجاری را فراهم میکند. این مدل تحت مجوز آپاچی ۲.۰ (Apache 2.0) منتشر شده است.

Orca
Orca، یک مدل زبانی بزرگ (LLM) است که توسط مایکروسافت توسعه یافتهاست و با داشتن ۱۳ میلیارد پارامتر، به اندازهای کوچک است که روی یک لپتاپ اجرا شود. هدف Orca این است که با تقلید از روشهای استدلال به دست آمده توسط مدلهای زبانی بزرگ دیگر، بر پیشرفتهای انجامشده توسط سایر مدلهای متنباز بهبود بخشد. Orca علیرغم داشتن پارامترهای بسیار کمتر، به عملکردی مشابه GPT-4 دست مییابد و در بسیاری از وظایف با GPT-3.5 برابری میکند. Orca بر روی نسخهی ۱۳ میلیارد پارامتری مدل LLaMA ساخته شدهاست.

Palm
پالم (Pathways Language Model) یک مدل ۵۴۰ میلیارد پارامتری مبتنی بر ترنسفورمر است که از سوی گوگل ساخته شده و چتبات هوش مصنوعی این شرکت یعنی Gemini را قدرت میبخشد. این مدل روی چندین پاد TPU نسخه ۴ (سختافزار سفارشی گوگل برای یادگیری ماشین) آموزش داده شدهاست. پالم در انجام وظایف استدلالی مانند کد نویسی، ریاضی، طبقهبندی و پاسخ به سوالات تخصص دارد. همچنین پالم در تجزیهی وظایف پیچیده به زیر-وظایف سادهتر بسیار عالی عمل میکند.
نام پالم از یک ابتکار تحقیقاتی گوگل به نام Pathways گرفته شده است که هدف نهایی آن ساخت یک مدل واحد به عنوان پایهای برای موارد استفادهی متعدد است. نسخههای تنظیمشدهی متعددی از پالم وجود دارد، از جمله مدل Med-Palm 2 برای علوم زیستی و اطلاعات پزشکی و همچنین Sec-Palm برای استقرار در زمینهی امنیت سایبری به منظور تسریع تجزیه و تحلیل تهدیدات.

Phi
Phi-1 و Phi-2 یک مدل زبانی بزرگ (LLM) مبتنی بر ترنسفورمر از مایکروسافت است. با تنها ۱.۳ میلیارد پارامتر، Phi-1 به مدت چهار روز روی مجموعهای از دادههای با کیفیت کتاب درسی آموزش داده شد. Phi-2 نیز دارای 2.7 میلیارد پارامتر است. Phi-1 نمونهای از یک روند به سمت مدلهای کوچکتر است که با دادههای باکیفیتتر و دادههای مصنوعی آموزش داده میشوند. Phi-2 نسبت به نسخه قبلی خود بهبودهای قابل توجهی در عملکرد داشتهاست و برای وظایف متنوعی از جمله کدنویسی، استدلال و پردازش زبان طبیعی طراحی شدهاست.
احتمالاً شاهد کارهای خلاقانهی بیشتری در زمینه کاهش مقیاس خواهیم بود: اولویت دادن به کیفیت و تنوع دادهها نسبت به کمیت، تولید دادههای مصنوعی بسیار بیشتر و مدلهای تخصصی کوچک اما بسیار توانمند.
اندری کارپاتی، مدیر سابق بخش هوش مصنوعی تسلا و کارمند OpenAI، در شبکه اجتماعی X (قبلا توییتر) نوشتهاست
به دلیل کوچکتر بودن، Phi-1 در کد نویسی پایتون تخصص دارد و قابلیتهای عمومی کمتری دارد.
در زمان نگارش این مقاله، اطلاعات رسمی، قطعی و تکمیلی درباره جزئیات یا وجود Phi-3 یا Phi-4 نداشت. اگر این مدلها توسعه یافته باشند، احتمالاً پس از آخرین بهروزرسانی مقاله حاضر بودهاست.

StableLM
استیبل ال ام (StableLM) مجموعهای از مدلهای متنباز زبانی بزرگ است که توسط Stability AI، شرکت سازندهی ابزار تولید تصویر استیبل دیفیوژن (Stable Diffusion) توسعه یافتهاست. در زمان نگارش این متن، مدلهایی با ۳ و ۷ میلیارد پارامتر در دسترس هستند و مدلهایی با ۱۵، ۳۰، ۶۵ و ۱۷۵ میلیارد پارامتر نیز در حال توسعهاند. هدف StableLM شفافیت، دسترسیپذیری و پشتیبانی است.

Vicuna
ویکونا (Vicuna) یک مدل متن باز و تأثیرگذار دیگر از خانوادهی LLM است که از لاما (Llama) مشتق شدهاست. این مدل توسط LMSYS توسعه یافته و با استفاده از دادههای به اشتراک گذاشته شده در sharegpt.com به طور دقیق تنظیم شده است. بر اساس چندین معیار ارزیابی، ویکونا کوچکتر و با قابلیتهایی کمتر از GPT-4 است، اما برای یک مدل با اندازهی خودش عملکرد خوبی دارد. ویکونا تنها ۳۳ میلیارد پارامتر دارد، در حالی که GPT-4 دارای پارامترهایی در حد تریلیون است.

پیشگامان مدلهای زبانی بزرگ (LLM)
اگرچه مدلهای زبانی بزرگ (LLM) یک پدیده جدید هستند، اما پیشگامان آنها به چند دهه قبل باز میگردند. در این مقاله از هامیال ژورنال در دستهی هوش مصنوعی میبینید که چگونه مدلهای پیشرو Seq2Seq و الیزای قدیمیتر صحنه را برای LLM های مدرن آماده کردند.
Seq2Seq
Seq2Seq یک رویکرد یادگیری عمیق است که برای ترجمه ماشینی، شرح تصویر و پردازش زبان طبیعی استفاده میشود. این روش توسط گوگل توسعه یافته و زیربنای برخی از مدلهای زبانی بزرگ مدرن آنها، از جمله LaMDA، است. Seq2Seq همچنین زیربنای AlexaTM 20B، مدل زبانی بزرگ آمازون، قرار دارد. این روش از ترکیبی از کدگذار (encoder) و رمزگشا (decoder) استفاده میکند.
اليزا (Eliza)
الیزا (Eliza) یک برنامه اولیه برای پردازش زبان طبیعی است که در سال ۱۹۶۶ ساخته شد. این برنامه یکی از اولین نمونههای مدل زبان است. الیزا با استفاده از تطابق الگو و جایگزینی کلمات، مکالمه را شبیه سازی میکرد. الیزای تحت یک اسکریپت خاص، میتوانست با اعمال وزن بر روی کلمات کلیدی خاص و پاسخگویی به کاربر بر اساس آن، تعامل بین بیمار و درمانگر را به صورت طنزآمیزی تقلید کند. جاشوا وایزنبوم (Joshua Weizenbaum)، خالق الیزا، کتابی در مورد محدودیتهای محاسبات و هوش مصنوعی نوشت و از الیزا به عنوان نمونهای از خطرات اتکا بیش از حد به ماشینها برای شبیهسازی هوش انسانی استفاده کرد.
در حالی که الیزا به دلیل سادگی و عدم توانایی واقعی در درک زبان طبیعی، ابتدایی به نظر میرسد، اما گامی مهم در توسعه مدلهای زبانی بزرگ امروزی بود. الیزا نشان داد که چگونه میتوان از الگوها و جایگزینیها برای ایجاد مکالمهای شبیه به انسان استفاده کرد و راه را برای تحقیقات بیشتر در مورد پردازش زبان طبیعی و هوش مصنوعی هموار کرد.
برخی از جزئیات الیزا عبارتند از:
- الیزا با استفاده از مجموعه قوانینی که “قواعد الیزا” نامیده میشد، کار میکرد. این قوانین شامل الگوهای تطبیق برای کلمات و عبارات کلیدی و پاسخهای مربوطه بود.
- الیزا میتوانست از تکنیکی به نام “تجزیه و تحلیل واژه” برای شکستن کلمات به اجزای سازنده آنها و یافتن کلمات مرتبط استفاده کند.
- الیزا میتوانست از تکنیکی به نام “جستجوی معکوس” برای یافتن الگوهایی در ورودی کاربر که با قوانین آن مطابقت داشت، استفاده کند.
- الیزا میتوانست از تکنیکی به نام “تبدیل” برای جایگزینی کلمات و عبارات در ورودی کاربر با کلمات و عبارات دیگر استفاده کند.
الیزا ممکن است مدل زبانی کاملی نباشد، اما نقشی اساسی در تاریخ هوش مصنوعی ایفا کرد. این برنامه نشان داد که چگونه میتوان از الگوها و جایگزینیها برای ایجاد مکالمهای شبیه به انسان استفاده کرد و راه را برای تحقیقات بیشتر در مورد پردازش زبان طبیعی و هوش مصنوعی هموار کرد.
- NEURAL MACHINE TRANSLATION-BY JOINTLY LEARNING TO ALIGN AND TRANSLATE ↩︎
- Attention Is All You Need ↩︎
- generative pre-trained transformer ↩︎
- bidirectional encoder representations from transformers ↩︎
اگر محتوای ما برایتان جذاب بود و چیزی از آن آموختید، لطفاً لحظهای وقت بگذارید و این چند خط را بخوانید:
ما گروهی کوچک و مستقل از دوستداران علم و فناوری هستیم که تنها با حمایتهای شما میتوانیم به راه خود ادامه دهیم. اگر محتوای ما را مفید یافتید و مایلید از ما حمایت کنید، سادهترین و مستقیمترین راه، کمک مالی از طریق لینک دونیت در پایین صفحه است.
اما اگر به هر دلیلی امکان حمایت مالی ندارید، همراهی شما به شکلهای دیگر هم برای ما ارزشمند است. با معرفی ما به دوستانتان، لایک، کامنت یا هر نوع تعامل دیگر، میتوانید در این مسیر کنار ما باشید و یاریمان کنید. ❤️