مدلهای زبانی بزرگ (LLMها) که قدرت موتورهایی چون ChatGPT را تأمین میکنند، بیشک انقلابی در تعامل انسان و ماشین پدید آورده و افقهای جدیدی را به روی ما گشودهاند. اما اگر دقیقتر بنگریم، در بنیان این سازههای عظیم دیجیتال، ترکهای عمیقی نمایان میشود. پدیدهای به نام توهمزایی (Hallucination) که دقت و اعتبار این مدلها را زیر سوال میبرد و از سوی دیگر، نیاز سیریناپذیر آنها به منابع محاسباتی عظیم، که نوآوری را در انحصار چند غول فناوری محدود میکند، نشاندهنده محدودیتهای LLM ها است. این پرسش مطرح میشود که آیا این فناوری، که روزی نماد پیشرفت بیحدومرز بود، اکنون خود به مانعی در مسیر تکامل هوشمندانهتر و آزادانهتر هوش مصنوعی تبدیل شده است؟ اصلا آینده مدل های زبانی چه خواهد بود؟
اکنون، موج جدید هوش مصنوعی مولد در حال ظهور است که پاسخی به همین چالشهاست؛ موجی که نه بر پایه ساخت مدلهای بزرگتر، بلکه بر اساس هوشمندی، بهرهوری و تخصصگرایی بنا شده است. این نسل نوین، نویدبخش خروج از بنبستهای فعلی و باز کردن فضا برای رقابت و نوآوریهای چابک است. این مقاله به کاوش در چشمانداز هیجانانگیز پس از LLMها میپردازد و جایگزین های LLM، از جمله مدلهای زبانی کوچک (SLM) و سیستمهای استدلال منطقی را معرفی میکند؛ فناوریهایی که قرار است آینده هوش مصنوعی را نه تنها قدرتمندتر، بلکه دقیقتر، دسترسپذیرتر و کارآمدتر سازند.
فهرست مطالب
بدون توسعه مدلهای زبانی بزرگ (LLMها)، شکل کنونی هوش مصنوعی مولد که امروزه شاهد آن هستیم، محقق نمیشد. این مدلها نقشی اساسی در شکلگیری قابلیتهای فعلی هوش مصنوعی مولد ایفا کردهاند.
با این حال، مدلهای زبانی بزرگ (LLMها) با محدودیتهای چشمگیری نیز مواجه هستند. از جمله این محدودیتهای LLM میتوان به “توهمزایی” (hallucination)، که به تولید اطلاعات نادرست یا بیمعنی توسط مدل اشاره دارد، نیاز فراوان به منابع محاسباتی گسترده برای آموزش و عملیات و همچنین ناتوانی در انجام استدلالهای پیچیده و منطقی اشاره کرد.
از آنجا که مشکلات ذکر شده چالشهای مهمی را برای برخی از کاربردهای هوش مصنوعی مولد ایجاد میکنند، پیشبینی میشود که در آینده نزدیک، انواع جدیدی از مدلها وارد اکوسیستم هوش مصنوعی مولد شوند. هرچند مدلهای زبانی بزرگ (LLMها) در آینده نزدیک به طور کامل حذف نخواهند شد، اما احتمالاً توسط اشکال دیگری از هوش مصنوعی تکمیل میشوند که در زمینههای محدودیت های LLM ها عملکرد بهتری از خود نشان میدهند.
پژوهشها در زمینه جایگزینهای مدلهای زبانی بزرگ (LLMها) هنوز در مراحل اولیه قرار دارد و به همین دلیل، پیشبینی دقیق “پدیده بزرگ بعدی” در هوش مصنوعی مولد پس از LLMها دشوار است. با این حال، میتوان با تکیه بر دانش موجود، حدسهای آگاهانهای در این خصوص مطرح کرد؛ فناوریهایی نظیر سیستمهای استدلال منطقی، مدلهای یادگیری بلادرنگ (Real-time learning models)، شبکههای یادگیری مایع (Liquid learning networks) و مدل های زبانی کوچک (Small language models) از جمله مواردی هستند که پتانسیل بالایی برای نقشآفرینی در آینده هوش مصنوعی مولد دارند.
مدل زبانی بزرگ دقیقاً به چه معناست؟
به طور کلی، عبارت “مدل زبانی بزرگ (LLM)” به هر نوع مدل یادگیری ماشین اشاره دارد که بر روی مقادیر بسیار عظیمی از دادههای متنی آموزش دیده است. دلیل اصلی انتخاب واژه “بزرگ” در این عنوان نیز همین حجم گسترده دادههای مورد استفاده برای آموزش این مدلهاست.
با این حال، زمانی که برخی از متخصصان یا علاقهمندان به هوش مصنوعی از مدلهای زبانی بزرگ (LLM) صحبت میکنند، منظورشان به طور خاص مدلهایی است که از معماری ترنسفورمر یا ترانسفورماتور (Transformer Model) بهره میبرند. ویژگی متمایز کننده این معماری، توانایی آن در تبدیل متن به واحدهای کوچکتر به نام توکن (که میتوانند کلمات یا بخشی از کلمات باشند) و سپس تحلیل همزمان چندین توکن است. این فرآیند از طریق مکانیزمی به نام “مکانیزم توجه” (attention mechanism) انجام میشود که اهمیت نسبی هر کلمه یا توکن را در یک جمله یا قطعه متن برآورد میکند. این قابلیت باعث تمایز ترنسفورمرها از سایر انواع مدلها میشود که دادهها را به صورت ترتیبی و گام به گام پردازش میکنند (برای فهم بهتر مکانیزم این معماری، میتوانید مقاله منتشر شده در هامیا ژورنال با عنوان “رمزگشایی از دنیای هوش مصنوعی و LLM: از توکنها تا پنجرههای کانالی رمزگشایی از دنیای هوش مصنوعی و LLM: از توکنها تا پنجرههای کانالی” را مطالعه نمائید)
تمامی مدلهای زبانی بزرگ برجستهای که در سالیان اخیر توجه بسیاری را به خود جلب کردهاند (از جمله مدلهای GPT شرکت OpenAI، مدلهای Claude شرکت Anthropic و مدلهای Llama شرکت Meta) از معماری ترنسفورمر استفاده میکنند. با این حال، شایان ذکر است که انواع دیگری از LLMها نیز وجود دارند، مانند مدل Mamba، که رویکردهای متفاوتی را در معماری خود به کار میبرند.
این طبقهبندی ممکن است کمی مبهم باشد، زیرا هیچ تعریف رسمی و استانداردی وجود ندارد که مشخص کند مجموعه داده آموزشی یک مدل تا چه اندازه باید بزرگ باشد تا آن مدل به عنوان مدل زبان بزرگ (LLM) شناخته شود. LLMهای شناخته شده معمولاً بر روی حجم عظیمی از اطلاعات آموزش میبینند که اغلب شامل بخش اعظم دادههای متنی قابل دسترس به صورت عمومی در اینترنت است.
اگر توسعهدهندگان مدلها را بر روی زیرمجموعه کوچکتری از دادهها آموزش دهند، این سوال مطرح میشود که آیا آن مدلها همچنان باید به عنوان مدلهای زبان بزرگ (LLM) طبقهبندی شود یا بهتر است آن را مدل های زبانی کوچک (SLM) بنامیم. از این منظر، اصطلاح LLM شباهت زیادی به اصطلاح “دادههای بزرگ” (big data) دارد؛ در هر دو مورد، هیچ قانون سختگیرانهای وجود ندارد که به طور دقیق تعیین کند حجم دادههای مورد نظر چقدر باید “بزرگ” باشد تا تحت این عناوین قرار گیرند.
نواقصات و محدودیتهای مدلهای زبانی بزرگ (LLM)
مدلهای زبانی بزرگ (LLMها) تواناییهای چشمگیری از خود نشان میدهند، از جمله تفسیر درخواستهای بیانشده به زبان طبیعی انسان و تولید محتوای جدید در پاسخ به آنها. همچنین، LLMها را میتوان با سیستمهای تولیدکننده تصویر و ویدئو ترکیب کرد تا محتوای چندوجهی (multimodal) تولید کنند که شامل اشکال مختلف داده مانند متن، تصویر، ویدئو و غیره است.
با این حال، مدلهای زبانی بزرگ (LLMها) با چالشها و محدودیتهای قابل توجهی نیز مواجه هستند که در ادامه به آنها میپردازیم:
- خطر توهمزایی (Hallucination): یکی از محدودیت های LLMها پدیده “توهمزایی” است؛ به این معنا که این مدلها ممکن است پاسخهایی تولید کنند که حاوی اطلاعات نادرست یا بیمعنا هستند. این پدیده عمدتاً به دلیل شیوه پردازش ورودیها توسط مدل رخ میدهد. اگرچه برخی از انواع LLMها بیشتر از بقیه مستعد توهمزایی هستند (برای مثال، گزارشهایی وجود دارد که برخی LLMهای غیرترنسفورمر مانند EMMA نرخ توهمزایی پایینتری دارند) اما به نظر نمیرسد که بتوان یک LLM کاملاً مقاوم در برابر این پدیده ایجاد کرد.
- نیاز به منابع محاسباتی: با وجود اینکه برخی از مدلهای زبانی بزرگ (LLMها) از نظر محاسباتی کارآمدتر از بقیه عمل میکنند (به عنوان مثال، مدلهای مبتنی بر معماری ترنسفورمر کارایی محاسباتی بالایی ندارند)، اما تمامی آنها چه در مرحله آموزش (training) و چه در مرحله استنتاج (inference) (یعنی زمان استفاده از مدل برای تولید پاسخ)، به حجم عظیمی از منابع محاسباتی نظیر توان پردازشی و حافظه نیاز دارند.
- فقدان حافظه: مدلهای زبانی بزرگ (LLMها) اطلاعاتی را که بر اساس آنها آموزش دیدهاند “به خاطر میسپارند”؛ این توانایی بخشی جداییناپذیر از عملکرد داخلی آنهاست. با این حال، آنها نمیتوانند دادههایی را که در طول استنتاج (inference) با آنها مواجه میشوند، به طور دائمی ذخیره کنند یا یک درخواست قبلی کاربر را هنگام پردازش یک درخواست جدید به خاطر بیاورند. اگرچه برخی از سرویسهای هوش مصنوعی مولد مانند ChatGPT میتوانند هنگام پاسخگویی به درخواستهای جدید، درخواستهای قبلی کاربر را در نظر بگیرند، اما به نظر میرسد این قابلیت از طریق مکانیسمهای خارجی و مجزا از مدلهای اصلی LLM پیادهسازی شده است.
- عدم پشتیبانی از یادگیری پیوسته: مدلهای زبانی بزرگ (LLMها) نمیتوانند اطلاعات جدید را به صورت پیوسته و مداوم یاد بگیرند. این مدلها تنها قادر به تولید محتوا بر اساس دادههایی هستند که در مرحله آموزش خود با آنها مواجه شدهاند. برای بهروزرسانی پایگاه دانش یک LLM، لازم است که آن را با دادههای اضافی و جدید آموزش داد. در حال حاضر، هیچ روش قابل اعتمادی برای آموزش یک مدل به صورت لحظهای و بلادرنگ وجود ندارد که بتواند دانش آن را به صورت مستمر و آنلاین بهروز نگه دارد.
- ناتوانی در استدلال: مدلهای زبانی بزرگ (LLMها) فاقد توانایی استدلال هستند. این بدان معناست که آنها نمیتوانند از منطق برای تفسیر دادههایی که با مجموعه دادههای آموزشی آنها ارتباط مستقیمی ندارند، استفاده کنند. این مدلها صرفاً میتوانند ورودیهای جدید را با الگوهای موجود در دادههای آموزشی خود مقایسه کرده و بر اساس این شباهتها، خروجی تولید کنند.
این چالشها میتوانند موانع قابل توجهی برای برخی از موارد استفاده هوش مصنوعی مولد ایجاد کنند. به عنوان مثال، پدیده توهمزایی (hallucinations) سبب میشود که هوش مصنوعی مولد در زمینههایی که دقت اطلاعات از اهمیت حیاتی برخوردار است (مانند حوزه حقوق) غیرقابل اعتماد باشد. این موضوع به طور دردناکی برای یک وکیل مشخص شد، زمانی که او از ChatGPT برای کمک به تحقیقات حقوقی خود استفاده کرد و با اطلاعات نادرست مواجه شد.
به همین ترتیب، هر مورد استفادهای که به اطلاعات کاملاً بهروز نیاز داشته باشد (برای مثال، جستجوی مقالات خبری که اخیراً منتشر شدهاند) برای بهرهبرداری با یک مدل زبان بزرگ (LLM) با چالشهای اساسی روبرو است؛ زیرا پایگاه دانش LLM هرگز به طور کامل با دادههایی که در زمان واقعی در حال تغییر هستند، هماهنگ نخواهد بود. علاوه بر این، ماهیت محاسباتی فشردهی مدل های زبانی بزرگ (computationally intensive) باعث میشود که توسعه و بهرهبرداری از آنها پرهزینه باشد، که به طور بالقوه میتواند رشد بلندمدت فناوری LLM را محدود سازد.
جایگزینها و روشهای رفع محدودیت های LLM
در حال حاضر هیچ جایگزین واحدی برای مدلهای زبانی بزرگ (LLMها) وجود ندارد که بتواند تمام محدودیتهای آنها را به طور کامل برطرف کرده و تجربه کاربری بهتری را تضمین کند. با این حال، تکنیکها و رویکردهای متفاوت طراحی هوش مصنوعی میتوانند به کاهش برخی از کاستیهای این مدلها کمک کنند و به احتمال زیاد، آینده مدل های زبانی در دل این تکنیکها و رویکردها قرار گرفته است.
سیستمهای استدلالی منطقی
اگرچه مدلهای زبانی بزرگ (LLMها) به خودی خود قادر به استدلال نیستند، اما انواع دیگری از سیستمهای هوش مصنوعی وجود دارند که توانایی پردازش دادهها را بر اساس منطق دارند. به بیان ساده، استدلال منطقی یکی از قدیمیترین رویکردها در هوش مصنوعی است؛ این همان روشی بود که در دهه ۱۹۵۰ برای آموزش رایانهها جهت بازی چکرز بر اساس رویههای از پیش تعریف شده به کار گرفته شد. زبانهای برنامهنویسی هوش مصنوعی که به طور خاص برای استدلال منطقی طراحی شدهاند، مانند پرولوگ (Prolog)، نیز دهههاست که مورد استفاده قرار میگیرند.
محدودیت اصلی استدلال منطقی به عنوان یک ابزار هوش مصنوعی این است که توسعهدهندگان باید قوانین منطق را به صورت صریح تعریف کنند. پیشبینی تمامی سناریوهایی که یک ابزار هوش مصنوعی ممکن است برای استدلال به آنها نیاز داشته باشد، عملاً غیرممکن است. بنابراین، استدلال منطقی به تنهایی احتمالاً هرگز برای توانمندسازی کامل ابزارهای هوش مصنوعی مولد کافی نخواهد بود. با این حال، سیستمهای منطقی میتوانند با مدلهای زبانی بزرگ (LLMها) ترکیب شوند تا برخی از محدودیتهای دومی را کاهش دهند. به عنوان مثال، قوانین منطق میتوانند خروجی LLM را ارزیابی کرده و محتوایی را که به نظر “توهمزا” میرسد، شناسایی و فیلتر کنند.
مدلهای یادگیری بلادرنگ
در حالی که مدلهای زبانی بزرگ (LLMها) در سالهای اخیر مورد توجه گستردهای قرار گرفتهاند، برخی از محققان بر روی انواع دیگری از مدلها کار میکنند که قادر به “یادگیری” دادههای جدید به صورت پیوسته و بلادرنگ هستند. یک نمونه از این مدلها، AIGO است که توسعهدهندگان آن، این مدل را با رویکردی که آن را معماری نوروسیمبلیک یکپارچه (INSA) مینامند، طراحی کردهاند. جزئیات فنی دقیق در مورد نحوه عملکرد این مدل هنوز به طور عمومی محدود است، اما نکته مهم این است که AIGO یک LLM نیست و به وضوح قابلیت افزودن مداوم به پایگاه دانش خود را دارد.
اگر جایگزینهایی برای مدلهای زبانی بزرگ (LLMها) مانند AIGO به بلوغ و پذیرش عمومی دست یابند، میتوانند راه را برای طیف وسیعی از کاربردهای نوین هوش مصنوعی مولد باز کنند. این کاربردها نیازمند عملکرد مدلها بر اساس اطلاعات کاملاً بهروز و بلادرنگ هستند که در حال حاضر LLMها در این زمینه با محدودیتهایی مواجهاند.
شبکههای یادگیری مایع (LLN)
شبکههای یادگیری مایع (LLNها) یکی دیگر از جایگزین های LLM ها محسوب میشوند که قابلیت یادگیری اطلاعات جدید را به صورت پیوسته ارائه میدهند. برخلاف LLMها، LLNها میتوانند پارامترهای خود را به صورت بلادرنگ و بر اساس دادههای ورودی تغییر دهند، که این ویژگی به آنها انعطافپذیری بیشتری در یادگیری میدهد.
از لحاظ تاریخی، شبکههای یادگیری مایع (LLNها) عمدتاً برای پردازش دادههای سری زمانی (time-series data) استفاده شدهاند؛ به این معنا که آنها برای تحلیل دادههایی که به ترتیب زمانی خاصی رخ میدهند، مانند دادههای مالی یا حسگرها، طراحی شدهاند. کاربرد آنها در تفسیر پرسوجوهای زبان طبیعی باز و تولید محتوای جدید کمتر بوده است. با این حال، پتانسیل تطبیق این مدلها برای موارد استفاده هوش مصنوعی مولد نیز وجود دارد و تحقیقات در این زمینه ادامه دارد.
مدل های زبانی کوچک (SLM)
همانطور که قبلاً اشاره شد، یک مدل زبانی کوچک (SLM) شباهتهای ساختاری با یک مدل زبانی بزرگ (LLM) دارد، با این تفاوت کلیدی که SLMها بر روی مجموعه داده کوچکتری آموزش دیدهاند.
به طور کلی، هر چه دادههای آموزشی (training data) بزرگتر باشد، عملکرد مدل معمولاً بهتر خواهد بود، به خصوص اگر هدف ساخت مدلی باشد که بتواند طیف وسیعی از موارد استفاده را پشتیبانی کند (که ویژگی بارز اکثر مدلهای زبانی بزرگ است). اما مدلهایی که بر روی مجموعههای داده محدودتر آموزش دیدهاند، به قدرت محاسباتی کمتری نیاز دارند و کمتر مستعد “توهمزایی” (hallucination) هستند؛ زیرا توهمزایی میتواند ناشی از شرایطی باشد که دادههای آموزشی یک مدل آنقدر وسیع و پیچیده است که مدل نمیتواند ارتباطات مرتبط و صحیح بین دادههای ورودی و دادههای آموزشی را به درستی شناسایی کند.
با توجه به این مزایا، این احتمال وجود دارد که شاهد افزایش استفاده از مدل های زبانی کوچک (SLMها) به عنوان جایگزینی برای مدلهای زبانی بزرگ (LLMها) باشیم. این امر به ویژه برای موارد استفادهای که محدود و تخصصی هستند (مانند پاسخگویی به پرسوجوهای مشتریان برای یک نوع خاص از کسبوکار همچون مدل صوتی OpenAI) و به دقت بالاتری نسبت به آنچه LLMها میتوانند ارائه دهند، نیاز دارند، صادق است.
جمع بندی
سفری که با شگفتی مدلهای زبانی بزرگ آغاز شد، اکنون با این تحلیل به درک عمیقتری از محدودیتها و افقهای پس از آن رسیده است. همانطور که در این مقاله به تفصیل شرح داده شد، آینده هوش مصنوعی نه در ساخت غولهایی بزرگتر و پرهزینهتر، بلکه در ایجاد یک اکوسیستم هوشمند، چابک و ترکیبی نهفته است. این مقاله نشان داد که چگونه جایگزین های LLM، از مدل های زبانی کوچک (SLM) که دقت و بهرهوری را به ارمغان میآورند، گرفته تا سیستمهای استدلال منطقی و شبکههای یادگیری بلادرنگ، در حال شکل دادن به پایههای نسل جدید هوش مصنوعی مولد هستند؛ نسلی که نویدبخش دقت بیشتر و خطای کمتر است.
این تحول، فراتر از یک تغییر فنی، یک چرخش پارادایم به سوی دموکراتیزه شدن قدرت محاسباتی و تقویت رقابت است. پایان یافتن سلطهی یک معماری واحد، راه را برای نوآوریهای بیشمار، کاهش هزینههای گزاف و ظهور راهحلهای تخصصی توسط بازیگران کوچکتر هموار میکند. در نهایت، موج جدید هوش مصنوعی مولد که در این تحلیل به آن پرداخته شد، چشماندازی را ترسیم میکند که در آن قدرت خلق و استدلال، نه در انحصار عدهای معدود، بلکه در دستان جامعه وسیعتری از توسعهدهندگان، کارآفرینان و متفکران آزاد قرار خواهد گرفت و این، همان آیندهای است که باید برای آن هیجانزده بود.
سوالات متداول
خیر، به طور کامل حذف نمیشوند. آینده مدلهای زبانی بزرگ در همکاری با فناوریهای دیگر است. آنها به عنوان بخشی از یک اکوسیستم ترکیبی، توسط مدلهایی که در نقاط ضعفشان (مثل استدلال منطقی) قویترند، تکمیل خواهند شد.
اصلیترین محدودیت های LLM شامل “توهمزایی” (تولید اطلاعات نادرست)، نیاز به منابع محاسباتی بسیار گران و انحصاری و ضعف در انجام استدلالهای پیچیده و منطقی است که در کاربردهای حساس، پذیرفتنی نیست.
این موج جدید هوش مصنوعی مولد به جای تمرکز بر ساخت مدلهای بزرگتر، بر هوشمندی، بهرهوری و تخصصگرایی تأکید دارد. هدف آن، استفاده از جایگزین های LLM برای ساخت سیستمهایی دقیقتر، کمهزینهتر و با قابلیت استدلال بالاتر است.
مدل های زبانی کوچک (SLM) ساختاری مشابه LLMها دارند اما روی دادههای محدودتر و تخصصیتری آموزش میبینند. مزیت اصلی آنها نیاز به قدرت محاسباتی بسیار کمتر و تمایل پایینتر به “توهمزایی” است، که آنها را به گزینهای عالی برای کاربردهای تجاری و تخصصی تبدیل میکند.
اگر محتوای ما برایتان جذاب بود و چیزی از آن آموختید، لطفاً لحظهای وقت بگذارید و این چند خط را بخوانید:
ما گروهی کوچک و مستقل از دوستداران علم و فناوری هستیم که تنها با حمایتهای شما میتوانیم به راه خود ادامه دهیم. اگر محتوای ما را مفید یافتید و مایلید از ما حمایت کنید، سادهترین و مستقیمترین راه، کمک مالی از طریق لینک دونیت در پایین صفحه است.
اما اگر به هر دلیلی امکان حمایت مالی ندارید، همراهی شما به شکلهای دیگر هم برای ما ارزشمند است. با معرفی ما به دوستانتان، لایک، کامنت یا هر نوع تعامل دیگر، میتوانید در این مسیر کنار ما باشید و یاریمان کنید. ❤️