هوش مصنوعی

بهترین مدل‌های زبانی بزرگ (LLM) در سال 2024

در عصر دیجیتال امروز، هوش مصنوعی با گام‌های بلند در حال پیشرفت است و مدل‌های زبانی بزرگ (LLM) در خط مقدم این انقلاب قرار دارند. از ChatGPT که دنیا را شگفت‌زده کرد تا Claude که با هوش مصنوعی قانون‌مند خود توجه‌ها را جلب نموده، این فناوری‌ها در حال تغییر شکل ارتباطات، خلاقیت و حل مسائل هستند. اما آیا تا به حال فکر کرده‌اید که این غول‌های هوشمند از کجا آمده‌اند؟ از ELIZA، اولین چت‌بات ساده در دهه 1960، تا GPT-4o با قابلیت‌های شگفت‌انگیزش، سفری طولانی و پرماجرا طی شده‌است. در این مقاله، شما را به سفری هیجان‌انگیز در تاریخچه و حال حاضر LLM‌ها می‌بریم. از پیشگامان اولیه گرفته تا آخرین دستاوردهای شرکت‌های بزرگ فناوری، هر آنچه باید درباره این موتورهای محرک هوش مصنوعی مدرن بدانید، اینجا خواهید یافت. با هامیا ژورنال همراه شوید تا دنیای شگفت‌انگیز مدل‌های زبانی بزرگ را کشف کنیم!

با توجه به پیشرفت سریع مدل‌های زبانی بزرگ، داشتن دانش پرامپت‌نویسی و مهندسی پرامپت به یک مهارت ضروری تبدیل شده است. این مهارت‌ها ارتباط تنگاتنگی با LLM‌ها دارند و می‌توانند تفاوت چشمگیری در کیفیت و دقت خروجی‌های این مدل‌ها ایجاد کنند. برای درک عمیق‌تر این ارتباط و بهره‌برداری مؤثرتر از مدل‌های زبانی بزرگ، توصیه می‌شود ابتدا مقاله‌ی قبلی هامیا ژورنال با عنوان “پرامپت نویسی: چگونه هوش مصنوعی را به برده‌ی خود تبدیل کنیم!” را مطالعه فرمایید. این مقاله پایه‌ای محکم برای فهم بهتر مفاهیم و کاربردهای LLM‌ها فراهم می‌کند. بدون آشنایی با اصول پرامپت‌نویسی، ممکن است استفاده‌ی چندان موثری از این مدل‌های زبانی نداشته باشید. پس برای بهره‌مندی حداکثری از اطلاعات ارائه شده در مقاله‌ی حاضر، پیشنهاد می‌کنیم ابتدا نگاهی به مقاله‌ی پرامپت‌نویسی بیندازید.

تاریخچه و سیر تکاملی هوش مصنوعی

تکامل مدل‌های زبانی بزرگ: از گذشته تا امروز

همانطور که می‌بینیم، مدل‌های زبانی بزرگ (Large Language Models) سال‌هاست که بر جستجو تاثیر گذاشته‌اند و با ظهور ChatGPT و دیگر چت‌بات‌ها، اهمیت آن‌ها بیش از پیش برای همگان آشکار شده است.

مدل‌های زبانی بزرگ، عامل اصلی پیشران در رشد چشمگیر هوش مصنوعی مولد در سال 2024 محسوب می‌شوند. با این حال، لازم به ذکر می‌باشد که این فناوری‌ها از مدت‌ها قبل در حوزه‌های پژوهشی و کاربردی مورد توجه بوده‌اند. پیشرفت‌های اخیر در این زمینه، نتیجه تکامل تدریجی و بهبود مستمر این مدل‌ها طی سال‌های متمادی است، که اکنون به نقطه عطفی در کاربردپذیری و کارآمدی رسیده‌اند.

مدل‌های زبانی بزرگ، سیستم‌های هوش مصنوعی جعبه سیاه هستند که از یادگیری عمیق بر روی مجموعه داده‌های بسیار عظیم برای درک و تولید متن جدید استفاده می‌کنند. شکل‌گیری LLMهای مدرن به سال ۲۰۱۴ برمی‌گردد، زمانی که مکانیزم “توجه” (یک تکنیک یادگیری ماشین برای تقلید از توجه شناختی انسان) در یک مقاله پژوهشی با عنوان “ترجمه ماشینی عصبی با یادگیری مشترک برای هم‌راستا کردن و ترجمه1” معرفی شد. سپس در سال ۲۰۱۷، با معرفی مدل ترنسفورمر در مقاله دیگری با عنوان “همه آن چیزی که نیاز دارید، توجه نام دارد2“، این مکانیزم توجه بهبود پیدا کرد.

برخی از شناخته‌شده‌ترین مدل‌های زبانی امروزی بر پایه مدل ترنسفورمر ساخته شده‌اند، از جمله سری مدل‌های “ترنسفورمر مولد از پیش‌آموخته‌شده3” و “بازنمایی‌های رمزگذار دوسویه از ترنسفورمرها (BERT)4“.

ChatGPT که بر مجموعه‌ای از مدل‌های زبانی شرکت OpenAI اجرا می‌شود، تنها دو ماه پس از انتشار در سال ۲۰۲۲، بیش از ۱۰۰ میلیون کاربر را جذب کرد. از آن زمان، مدل‌های رقابتی زیادی منتشر شده‌اند. برخی از آن‌ها متعلق به شرکت‌های بزرگی مانند گوگل و مایکروسافت هستند و برخی دیگر متن‌باز (open source) می‌باشند.

پیشرفت‌های مداوم در این زمینه پیگیری همه‌ی آن‌ها را دشوار می‌کند. در اینجا برخی از تأثیرگذارترین مدل‌ها، چه گذشته و چه حال، برای شما همراهان فروشگاه اینترنتی هامیا آورده شده‌است. این فهرست شامل مدل‌هایی می‌شود که راه را برای رهبران امروزی هموار کرده‌اند و همچنین مدل‌هایی که می‌توانند تأثیر قابل توجهی در آینده داشته باشند.

بهترین مدل‌های زبانی بزرگ کنونی

در زیر نمونه‌هایی از مرتبط‌ترین مدل‌های زبانی بزرگ امروزی آورده شده است. این مدل‌ها به پردازش زبان طبیعی (NLP) می‌پردازند و بر معماری مدل‌های آینده تأثیر می‌گذارند.

برت (BERT)

برت مجموعه‌ای از مدل‌های زبانی بزرگ است که توسط گوگل در سال ۲۰۱۸ معرفی شد. BERT یک مدل مبتنی بر ترنسفورمر می‌باشد که می‌تواند توالی‌هایی از داده را به توالی‌های دیگری از داده تبدیل کند. معماری برت شامل انباشته‌ای از رمزگذارهای ترنسفورمر است و دارای ۳۴۲ میلیون پارامتر می‌باشد. برت روی مجموعه‌ی عظیمی از داده‌های پیش-آموزش قرار داده شده و همچنین برای انجام وظایف خاصی مانند استنتاج زبان طبیعی و شباهت متن جمله‌ها به طور دقیق تنظیم شده‌است. این مدل در بروزرسانی سال ۲۰۱۹ جستجوی گوگل برای بهبود درک پرسش‌ها به کار گرفته شد.

کلاود (Claude)

مدل زبانی بزرگ کلاود (Claude LLM) بر “هوش مصنوعی قانون اساسی” تمرکز دارد، که خروجی‌های هوش مصنوعی را با هدایت مجموعه‌ای از اصول شکل می‌دهد که به دستیار هوش مصنوعی که آن را قدرت می‌دهد، کمک می‌کند مفید، بی‌خطر و دقیق باشد. کلاود توسط شرکت Anthropic ساخته شده است. آخرین مدل Claude LLM، Claude 3.5 Sonnet نام دارد. این مدل نسبت به نسخه‌های قبلی LLM، ظرافت، طنز و دستورالعمل‌های پیچیده را بهتر درک می‌کند و با سرعتی دو برابر Claude 3 Opus کار می‌کند. این مدل به صورت رایگان از طریق Claude.ai و برنامه Claude iOS و Claude Android در دسترس قرار گرفته. برای دستیابی به اطلاعات بیشتر در زمینه‌ چت‌بات هوش مصنوعی کلاود (Claude) و همچنین نحوه‌ی استفاده از آن، می‌توانید مقاله‌ی منتشر شده از هامیا ژورنال را با عنوان “معرفی چت‌بات قدرتمند Claude و شرکت مادر آن  Anthropicمطالعه نمایید.

Cohere

Cohere یک پلتفرم هوش مصنوعی سازمانی است که چندین مدل زبانی بزرگ (LLM) از جمله Command، Rerank و Embed را ارائه می‌دهد. این مدل‌ها می‌توانند به صورت سفارشی برای موارد استفاده‌ی خاص یک شرکت آموزش داده شوند و بطور دقیق تنظیم شوند. شرکت سازنده‌ی مدل‌های LLM کمپانی Cohere توسط یکی از نویسندگان مقاله “همه آن چیزی که نیاز دارید، توجه نام دارد” تأسیس شد. یکی از نقاط قوت Cohere اینست که برخلاف OpenAI که به مایکروسافت Azure وابسته می‌باشد، به یک فضای ابری خاص محدود نمی‌شود.

معرفی ابزار کوپایلت شرکت مایکروسافت (Microsoft copilot)

ارنی (Ernie)

ارنی مدل زبانی بزرگ شرکت Baidu است که چت‌بات Ernie 4.0 را پشتیبانی می‌کند. این ربات در آگوست ۲۰۲۳ منتشر شد و بیش از ۴۵ میلیون کاربر جذب کرد. گفته می‌شود ارنی ۱۰ تریلیون پارامتر دارد. این ربات به بهترین نحو در زبان ماندارین (Mandarin) کار می‌کند اما در زبان‌های دیگر نیز توانایی دارد.

فالکن 40B (Falcon 40B)

فالکن 40B یک مدل مبتنی بر ترنسفورمر با معماری “رمزگشای عِلّی” (causal decoder) می‌باشد که توسط مؤسسه‌ی فناوری نوآوری (Technology Innovation Institute) توسعه یافته‌است. این مدل متن‌باز بوده و با داده‌های انگلیسی آموزش داده شده‌است. نسخه‌های اصلی این مدل در دو نسخه‌ی کوچک‌تر با نام‌های فالکن B1 و فالکن B7 (به ترتیب با یک میلیارد و هفت میلیارد پارامتر) نیز در دسترس هستند. آمازون مدل فالکن 40B را بر روی پلتفرم Amazon SageMaker فراهم کرده‌است. همچنین این مدل به صورت رایگان بر روی گیت‌هاب نیز در دسترس می‌باشد.

Gemini

جمینای یک خانواده از مدل‌های زبانی بزرگ (LLM) از شرکت گوگل است که چت‌باتی به همین نام را قدرت می‌بخشد. این مدل جایگزین پالم (Palm) در راه‌اندازی چت‌بات شد که با تغییر مدل، از بارد (Bard) به جمینای تغییر نام یافت. مدل‌های جمینای چندوجهی (Multimodal) هستند، یعنی می‌توانند علاوه بر متن، تصاویر، صدا و ویدیو را نیز مدیریت کنند. جمینای همچنین در بسیاری از برنامه‌ها و محصولات گوگل ادغام شده است. این مدل در چهار اندازه‌ی مختلف عرضه می‌شود: اولترا (Ultra)، پرو (Pro)، فلش (Flash) و نانو (Nano). اولترا بزرگترین و تواناترین مدل است، پرو مدل میان‌رده، فلش مدلی سبک، سریع و مقرون به صرفه در حالی که دارای استدلال چندوجهی و نانو کوچکترین مدل است که برای کارایی در وظایف درون-دستگاهی طراحی شده‌است. اگر علاقه‌مند به کسب اطلاعات جامع‌تر درباره چت‌بات هوش مصنوعی گوگل جمینای (Google Gemini) هستید، پیشنهاد می‌شود مقاله‌ای را که هامیا ژورنال با عنوان “معرفی جمینای (Gemini)، هوش مصنوعی شرکت گوگل” منتشر کرده‌است، مطالعه فرمایید. این مقاله منبع ارزشمندی برای درک بهتر قابلیت‌ها و ویژگی‌های این فناوری پیشرفته‌است.

Gemma

Gemma یک خانواده از مدل‌های متن‌بازِ زبانی بزرگ (LLM) از گوگل می‌باشد که با استفاده از همان منابعی که برای جمینای (Gemini) به کار رفته، آموزش داده شده‌اند. Gemma در دو اندازه‌ی مختلف ارائه می‌شود: یک مدل با دو میلیارد پارامتر و یک مدل با هفت میلیارد پارامتر. مدل‌های Gemma را می‌توان به صورت محلی روی رایانه‌ی شخصی اجرا کرد و تحقیقات نشان داده‌اند در چندین معیار ارزیابی‌شده، از مدل‌های هم‌اندازه‌ی Llama 2 پیشی گرفته‌اند.

جی‌پی‌تی-۳ (GPT-3)

GPT-3 مدل زبانی بزرگ شرکت OpenAI می‌باشد که با بیش از ۱۷۵ میلیارد پارامتر در سال ۲۰۲۰ منتشر شد. جی‌پی‌تی-۳ از معماری ترنسفورمر مبتنی بر رمزگشا استفاده می‌کند. در سپتامبر ۲۰۲۲، مایکروسافت اعلام کرد که حق استفاده انحصاری از مدل زیربنایی جی‌پی‌تی-۳ را دارد. جی‌پی‌تی-۳ ده برابر بزرگتر از نسخه قبلی خود است. داده‌های آموزشی جی‌پی‌تی-۳ شامل کامن کرال (Common Crawl)، وب‌تکست۲ (WebText2)، Books1، Books2 و ویکی‌پدیا است.

جی‌پی‌تی-۳ آخرین مدل از سری مدل‌های جی‌پی‌تی است که OpenAI تعداد پارامترهای آن را به صورت عمومی اعلام کرده‌است. سری جی‌پی‌تی اولین بار در سال ۲۰۱۸ با مقاله OpenAI تحت عنوان “بهبود درک زبان از طریق پیش‌آموزش مولد” معرفی شد.

GPT-3.5

GPT-3.5 نسخه‌ی ارتقا یافته‌ی GPT-3 با تعداد پارامتر کمتر می‌باشد. این مدل با استفاده از یادگیری تقویتی مبتنی بر بازخورد انسان، بطور دقیق تنظیم شده‌است. GPT-3.5 نسخه‌ای از GPT است که چت جی‌پی‌تی (ChatGPT) را نیرو می‌بخشد. طبق گفته‌ی OpenAI، چندین مدل از این نسخه وجود دارد کهGPT-3.5 Turbo توانمندترین آن‌هاست. داده‌های آموزشی GPT-3.5 تا سپتامبر ۲۰۲۱ را در بر می‌گیرد. این مدل همچنین در موتور جستجوی بینگ ادغام شده بود، اما از آن زمان با GPT-4 جایگزین شده است.

آیا کنجکاو هستید درباره ستاره درخشان دنیای هوش مصنوعی، یعنی ChatGPT که توسط OpenAI خلق شده، بیشتر بدانید؟ خب، شانس با شما یار است! هامیا ژورنال یک مقاله فوق‌العاده جذاب با عنوان “معرفی ChatGPT – انقلابی بزرگ در هوش مصنوعی” منتشر کرده که مثل یک گنج اطلاعاتی است. این مقاله همه چیز را درباره این چت‌بات شگفت‌انگیز که بر پایه مدل GPT-3.5 ساخته شده، برایتان روشن می‌کند. از قابلیت‌های خارق‌العاده‌اش گرفته تا ویژگی‌های منحصر به فردش، همه و همه در این مقاله گنجانده شده‌است. پس اگر می‌خواهید از این قطار پیشرفت جا نمانید و درک عمیق‌تری از این فناوری انقلابی پیدا کنید، خواندن این مقاله را از دست ندهید. مطمئن باشید که با مطالعه آن، دیدگاه جدیدی نسبت به آینده هوش مصنوعی پیدا خواهید کرد.

GPT-4

GPT-4 بزرگترین مدل سری GPT متعلق به OpenAI است که در سال ۲۰۲۳ منتشر شد. همانند مدل‌های قبلی، این مدل نیز بر پایه معماری ترنسفورمر کار می‌کند. برخلاف مدل‌های پیشین، تعداد پارامترهای آن برای عموم منتشر نشده است، اگرچه شایعاتی وجود دارد که تعداد این پارامترها بیش از ۱۷۰ تریلیون است. OpenAI مدل GPT-4 را یک مدل چندوجهی توصیف می‌کند، به این معنی که بر خلاف مدل‌های قبلی که تنها با زبان کار می‌کردند، می‌تواند هم زبان و هم تصاویر را پردازش و تولید کند. GPT-4 همچنین قابلیت پیام سیستمی را معرفی کرده که به کاربران امکان می‌دهد لحن صدا و نوع وظیفه را مشخص کنند.

GPT-4 در چندین آزمون تحصیلی، عملکردی در حد انسان را نشان داد. در زمان انتشار این مدل، برخی گمانه‌زنی‌هایی وجود داشت که GPT-4 به هوش مصنوعی عمومی (AGI) یعنی هوش در سطح انسان یا حتی فراتر از آن نزدیک شده‌است. GPT-4 موتور جستجوی مایکروسافت بینگ را پشتیبانی می‌کند، در سرویس ChatGPT پلاس در دسترس است و در نهایت با محصولات مایکروسافت آفیس ادغام خواهد شد.

GPT-4o

GPT-4 اُمنی یا همان GPT-4o جانشین OpenAI برای GPT-4 است و پیشرفت‌های قابل توجهی نسبت به مدل قبلی ارائه می‌دهد. GPT-4o تعامل طبیعی‌تری را برای چت جی‌پی‌تی ایجاد می‌کند و یک مدل چندوجهی بزرگ است که ورودی‌های مختلفی از جمله صدا، تصویر، ویدیو و متن را می‌پذیرد. مکالمات به کاربران این امکان را می‌دهد که همانطور که در یک گفتگوی انسانی عادی انجام می‌دادند، تعامل داشته باشند و قابلیت تعامل لحظه‌ای آن همچنین می‌تواند احساسات را تشخیص دهد. GPT-4o می‌تواند در حین تعامل، تصاویر یا صفحه نمایش را ببیند و در مورد آن‌ها سوال بپرسد. سرعت پاسخ‌دهی GPT-4o تنها 232 میلی‌ثانیه‌است که مشابه زمان پاسخگویی انسان و سریع‌تر از GPT-4 Turbo است. مدل GPT-4o رایگان بوده و برای محصولات توسعه‌دهندگان و مشتریان در دسترس قرار می‌گیرد.

آیا تا به حال درباره GPT-4o، آخرین شاهکار هوش مصنوعی شرکت OpenAI، کنجکاو شده‌اید؟ اگر مشتاق هستید به عمق این دنیای شگفت‌انگیز سفر کنید، یک فرصت طلایی برایتان داریم! هامیا ژورنال، پیشگام در ارائه اطلاعات تخصصی، مقاله‌ای فوق‌العاده با عنوان “معرفی GPT-4o: نقطه عطف انسان و ChatGPT” منتشر کرده‌است. این مقاله مانند یک نقشه گنج، شما را به سوی درک عمیق‌تری از این فناوری پیشرفته هدایت می‌کند. تصور کنید در یک سفر اکتشافی هستید که در آن، لایه به لایه با قابلیت‌های خیره‌کننده و ویژگی‌های منحصر به فرد GPT-4o آشنا می‌شوید. این مقاله نه تنها اطلاعات ارزشمندی را در اختیارتان قرار می‌دهد، بلکه شما را به تفکر درباره آینده تعامل انسان و هوش مصنوعی وا می‌دارد. پس اگر می‌خواهید در مرز دانش هوش مصنوعی قرار بگیرید و از آخرین پیشرفت‌ها آگاه شوید، مطالعه این مقاله را از دست ندهید. این فرصتی است برای گسترش افق دیدتان و درک بهتر نقشی که GPT-4o می‌تواند در آینده ما ایفا کند.

لامدا (LaMDA)

لامدا (مدل زبانی برای کاربردهای گفتگو محور) یک خانواده از مدل‌های زبانی بزرگ (LLM) است که توسط Google Brain در سال ۲۰۲۱ معرفی شد و از یک مدل زبانی ترنسفورمر فقط-رمزگشا (decoder-only) استفاده می‌کند و روی یک بدنه (corpus) عظیم متن پیش-آموزش داده شده‌است. در سال ۲۰۲۲، زمانی که بلیک لموین (Blake Lemoine)، مهندس سابق گوگل، ادعا کرد این برنامه احساس دارد، لامدا توجه گسترده‌ای را به خود جلب کرد. این مدل بر اساس معماری Seq2Seq ساخته شده است.

لاما (Llama)

لاما (مدل زبانی بزرگ شرکت هوش مصنوعی متا) یک مدل زبانی بزرگ متعلق به شرکت Meta است که در سال ۲۰۲۳ عرضه شد. بزرگترین نسخه‌ی آن ۶۵ میلیارد پارامتر دارد. لاما در ابتدا تنها در اختیار محققان و توسعه‌دهندگانِ تأیید‌شده قرار گرفت، اما اکنون متن‌باز شده‌است. Llama در اندازه‌های کوچک‌تری نیز ارائه می‌شود که برای استفاده، آزمایش و تجربه‌ی آن به قدرت محاسباتی کمتری نیاز است. لاما از معماری ترنسفورمر استفاده می‌کند و روی مجموعه‌ی متنوعی از منابع داده‌ی عمومی، شامل صفحات وب از CommonCrawl، گیت‌هاب، ویکی‌پدیا و پروژه‌ی گوتنبرگ، آموزش داده شده‌است. لاما درنهایت به‌طور غیررسمی منتشر شد و باعث ایجاد زیرشاخه‌های متعددی از جمله ویکونا (Vicuna) و اورکا (Orca) گردید.

معرفی ابزارهای جدید هوش مصنوعی در برنامه‌ها و نرم‌افزارهای شرکت متا (meta)

میسترال (Mistral)

میسترال یک مدل زبانی با ۷ میلیارد پارامتر است که در تمام معیارهای ارزیابی شده، عملکرد بهتری نسبت به مدل زبانی لاما با اندازه مشابه دارد. این مدل زبانی همچنین دارای یک مدل تنظیم‌شده است که برای پیروی از دستورالعمل‌ها طراحی شده‌است. اندازه‌ی کوچک‌تر آن امکان میزبانی شخصی و عملکرد مناسب برای اهداف تجاری را فراهم می‌کند. این مدل تحت مجوز آپاچی ۲.۰ (Apache 2.0) منتشر شده است.

Orca

Orca، یک مدل زبانی بزرگ (LLM) است که توسط مایکروسافت توسعه یافته‌است و با داشتن ۱۳ میلیارد پارامتر، به اندازه‌ای کوچک است که روی یک لپ‌تاپ اجرا شود. هدف Orca این است که با تقلید از روش‌های استدلال به دست آمده توسط مدل‌های زبانی بزرگ دیگر، بر پیشرفت‌های انجام‌شده توسط سایر مدل‌های متن‌باز بهبود بخشد. Orca علی‌رغم داشتن پارامترهای بسیار کمتر، به عملکردی مشابه GPT-4 دست می‌یابد و در بسیاری از وظایف با GPT-3.5 برابری می‌کند. Orca بر روی نسخه‌ی ۱۳ میلیارد پارامتری مدل LLaMA ساخته شده‌است.

Palm

پالم (Pathways Language Model) یک مدل ۵۴۰ میلیارد پارامتری مبتنی بر ترنسفورمر است که از سوی گوگل ساخته شده و چت‌بات هوش مصنوعی این شرکت یعنی Gemini را قدرت می‌بخشد. این مدل روی چندین پاد TPU نسخه ۴ (سخت‌افزار سفارشی گوگل برای یادگیری ماشین) آموزش داده شده‌است. پالم در انجام وظایف استدلالی مانند کد نویسی، ریاضی، طبقه‌بندی و پاسخ به سوالات تخصص دارد. همچنین پالم در تجزیه‌ی وظایف پیچیده به زیر-وظایف ساده‌تر بسیار عالی عمل می‌کند.

نام پالم از یک ابتکار تحقیقاتی گوگل به نام Pathways گرفته شده است که هدف نهایی آن ساخت یک مدل واحد به عنوان پایه‌ای برای موارد استفاده‌ی متعدد است. نسخه‌های تنظیم‌شده‌ی متعددی از پالم وجود دارد، از جمله مدل Med-Palm 2 برای علوم زیستی و اطلاعات پزشکی و همچنین Sec-Palm برای استقرار در زمینه‌ی امنیت سایبری به منظور تسریع تجزیه و تحلیل تهدیدات.

Phi

Phi-1 و Phi-2 یک مدل زبانی بزرگ (LLM) مبتنی بر ترنسفورمر از مایکروسافت است. با تنها ۱.۳ میلیارد پارامتر، Phi-1 به مدت چهار روز روی مجموعه‌ای از داده‌های با کیفیت کتاب درسی آموزش داده شد. Phi-2 نیز دارای 2.7 میلیارد پارامتر است. Phi-1 نمونه‌ای از یک روند به سمت مدل‌های کوچک‌تر است که با داده‌های باکیفیت‌تر و داده‌های مصنوعی آموزش داده می‌شوند. Phi-2 نسبت به نسخه قبلی خود بهبودهای قابل توجهی در عملکرد داشته‌است و برای وظایف متنوعی از جمله کدنویسی، استدلال و پردازش زبان طبیعی طراحی شده‌است.

احتمالاً شاهد کارهای خلاقانه‌ی بیشتری در زمینه کاهش مقیاس خواهیم بود: اولویت دادن به کیفیت و تنوع داده‌ها نسبت به کمیت، تولید داده‌های مصنوعی بسیار بیشتر و مدل‌های تخصصی کوچک اما بسیار توانمند.

اندری کارپاتی، مدیر سابق بخش هوش مصنوعی تسلا و کارمند OpenAI، در شبکه اجتماعی X (قبلا توییتر) نوشته‌است

به دلیل کوچک‌تر بودن، Phi-1 در کد نویسی پایتون تخصص دارد و قابلیت‌های عمومی کمتری دارد.

در زمان نگارش این مقاله، اطلاعات رسمی، قطعی و تکمیلی درباره جزئیات یا وجود Phi-3 یا Phi-4 نداشت. اگر این مدل‌ها توسعه یافته باشند، احتمالاً پس از آخرین به‌روزرسانی مقاله حاضر بوده‌است.

StableLM

استیبل ال ام (StableLM) مجموعه‌ای از مدل‌های متن‌باز زبانی بزرگ است که توسط Stability AI، شرکت سازنده‌ی ابزار تولید تصویر استیبل دیفیوژن (Stable Diffusion) توسعه یافته‌است. در زمان نگارش این متن، مدل‌هایی با ۳ و ۷ میلیارد پارامتر در دسترس هستند و مدل‌هایی با ۱۵، ۳۰، ۶۵ و ۱۷۵ میلیارد پارامتر نیز در حال توسعه‌اند. هدف StableLM شفافیت، دسترسی‌پذیری و پشتیبانی است.

Vicuna

ویکونا (Vicuna) یک مدل متن باز و تأثیرگذار دیگر از خانواده‌ی LLM است که از لاما (Llama) مشتق شده‌است. این مدل توسط LMSYS توسعه یافته و با استفاده از داده‌های به اشتراک گذاشته شده در sharegpt.com به طور دقیق تنظیم شده است. بر اساس چندین معیار ارزیابی، ویکونا کوچکتر و با قابلیت‌هایی کمتر از GPT-4 است، اما برای یک مدل با اندازه‌ی خودش عملکرد خوبی دارد. ویکونا تنها ۳۳ میلیارد پارامتر دارد، در حالی که GPT-4 دارای پارامترهایی در حد تریلیون است.

پیشگامان مدل‌های زبانی بزرگ (LLM)

اگرچه مدل‌های زبانی بزرگ (LLM) یک پدیده جدید هستند، اما پیشگامان آن‌ها به چند دهه قبل باز می‌گردند. در این مقاله از هامیال ژورنال در دسته‌ی هوش مصنوعی می‌بینید که چگونه مدل‌های پیشرو Seq2Seq و الیزای قدیمی‌تر صحنه را برای LLM های مدرن آماده کردند.

Seq2Seq

Seq2Seq یک رویکرد یادگیری عمیق است که برای ترجمه ماشینی، شرح تصویر و پردازش زبان طبیعی استفاده می‌شود. این روش توسط گوگل توسعه یافته و زیربنای برخی از مدل‌های زبانی بزرگ مدرن آن‌ها، از جمله LaMDA، است. Seq2Seq همچنین زیربنای AlexaTM 20B، مدل زبانی بزرگ آمازون، قرار دارد. این روش از ترکیبی از کدگذار (encoder) و رمزگشا (decoder) استفاده می‌کند.

اليزا (Eliza)

الیزا (Eliza) یک برنامه اولیه برای پردازش زبان طبیعی است که در سال ۱۹۶۶ ساخته شد. این برنامه یکی از اولین نمونه‌های مدل زبان است. الیزا با استفاده از تطابق الگو و جایگزینی کلمات، مکالمه را شبیه سازی می‌کرد. الیزای تحت یک اسکریپت خاص، می‌توانست با اعمال وزن بر روی کلمات کلیدی خاص و پاسخگویی به کاربر بر اساس آن، تعامل بین بیمار و درمانگر را به صورت طنزآمیزی تقلید کند. جاشوا وایزنبوم (Joshua Weizenbaum)، خالق الیزا، کتابی در مورد محدودیت‌های محاسبات و هوش مصنوعی نوشت و از الیزا به عنوان نمونه‌ای از خطرات اتکا بیش از حد به ماشین‌ها برای شبیه‌سازی هوش انسانی استفاده کرد.

در حالی که الیزا به دلیل سادگی و عدم توانایی واقعی در درک زبان طبیعی، ابتدایی به نظر می‌رسد، اما گامی مهم در توسعه مدل‌های زبانی بزرگ امروزی بود. الیزا نشان داد که چگونه می‌توان از الگوها و جایگزینی‌ها برای ایجاد مکالمه‌ای شبیه به انسان استفاده کرد و راه را برای تحقیقات بیشتر در مورد پردازش زبان طبیعی و هوش مصنوعی هموار کرد.

برخی از جزئیات الیزا عبارتند از:

  • الیزا با استفاده از مجموعه قوانینی که “قواعد الیزا” نامیده می‌شد، کار می‌کرد. این قوانین شامل الگوهای تطبیق برای کلمات و عبارات کلیدی و پاسخ‌های مربوطه بود.
  • الیزا می‌توانست از تکنیکی به نام “تجزیه و تحلیل واژه” برای شکستن کلمات به اجزای سازنده آنها و یافتن کلمات مرتبط استفاده کند.
  • الیزا می‌توانست از تکنیکی به نام “جستجوی معکوس” برای یافتن الگوهایی در ورودی کاربر که با قوانین آن مطابقت داشت، استفاده کند.
  • الیزا می‌توانست از تکنیکی به نام “تبدیل” برای جایگزینی کلمات و عبارات در ورودی کاربر با کلمات و عبارات دیگر استفاده کند.

الیزا ممکن است مدل زبانی کاملی نباشد، اما نقشی اساسی در تاریخ هوش مصنوعی ایفا کرد. این برنامه نشان داد که چگونه می‌توان از الگوها و جایگزینی‌ها برای ایجاد مکالمه‌ای شبیه به انسان استفاده کرد و راه را برای تحقیقات بیشتر در مورد پردازش زبان طبیعی و هوش مصنوعی هموار کرد.

  1. NEURAL MACHINE TRANSLATION-BY JOINTLY LEARNING TO ALIGN AND TRANSLATE ↩︎
  2. Attention Is All You Need ↩︎
  3. generative pre-trained transformer ↩︎
  4. bidirectional encoder representations from transformers ↩︎

امتیاز دهید!
3 / 5

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا