هوش مصنوعی

آینده مدل های زبانی؟! نگاهی به محدودیت‌های LLM و رفع آنها

مدل‌های زبانی بزرگ (LLMها) که قدرت موتورهایی چون ChatGPT را تأمین می‌کنند، بی‌شک انقلابی در تعامل انسان و ماشین پدید آورده و افق‌های جدیدی را به روی ما گشوده‌اند. اما اگر دقیق‌تر بنگریم، در بنیان این سازه‌های عظیم دیجیتال، ترک‌های عمیقی نمایان می‌شود. پدیده‌ای به نام توهم‌زایی (Hallucination) که دقت و اعتبار این مدل‌ها را زیر سوال می‌برد و از سوی دیگر، نیاز سیری‌ناپذیر آن‌ها به منابع محاسباتی عظیم، که نوآوری را در انحصار چند غول فناوری محدود می‌کند، نشان‌دهنده محدودیت‌های LLM ها است. این پرسش مطرح می‌شود که آیا این فناوری، که روزی نماد پیشرفت بی‌حدومرز بود، اکنون خود به مانعی در مسیر تکامل هوشمندانه‌تر و آزادانه‌تر هوش مصنوعی تبدیل شده است؟ اصلا آینده مدل های زبانی چه خواهد بود؟

اکنون، موج جدید هوش مصنوعی مولد در حال ظهور است که پاسخی به همین چالش‌هاست؛ موجی که نه بر پایه ساخت مدل‌های بزرگ‌تر، بلکه بر اساس هوشمندی، بهره‌وری و تخصص‌گرایی بنا شده است. این نسل نوین، نویدبخش خروج از بن‌بست‌های فعلی و باز کردن فضا برای رقابت و نوآوری‌های چابک است. این مقاله به کاوش در چشم‌انداز هیجان‌انگیز پس از LLMها می‌پردازد و جایگزین های LLM، از جمله مدل‌های زبانی کوچک (SLM) و سیستم‌های استدلال منطقی را معرفی می‌کند؛ فناوری‌هایی که قرار است آینده هوش مصنوعی را نه تنها قدرتمندتر، بلکه دقیق‌تر، دسترس‌پذیرتر و کارآمدتر سازند.

بدون توسعه مدل‌های زبانی بزرگ (LLMها)، شکل کنونی هوش مصنوعی مولد که امروزه شاهد آن هستیم، محقق نمی‌شد. این مدل‌ها نقشی اساسی در شکل‌گیری قابلیت‌های فعلی هوش مصنوعی مولد ایفا کرده‌اند.

با این حال، مدل‌های زبانی بزرگ (LLMها) با محدودیت‌های چشمگیری نیز مواجه هستند. از جمله این محدودیت‌های LLM می‌توان به “توهم‌زایی” (hallucination)، که به تولید اطلاعات نادرست یا بی‌معنی توسط مدل اشاره دارد، نیاز فراوان به منابع محاسباتی گسترده برای آموزش و عملیات و همچنین ناتوانی در انجام استدلال‌های پیچیده و منطقی اشاره کرد.

از آنجا که مشکلات ذکر شده چالش‌های مهمی را برای برخی از کاربردهای هوش مصنوعی مولد ایجاد می‌کنند، پیش‌بینی می‌شود که در آینده نزدیک، انواع جدیدی از مدل‌ها وارد اکوسیستم هوش مصنوعی مولد شوند. هرچند مدل‌های زبانی بزرگ (LLMها) در آینده نزدیک به طور کامل حذف نخواهند شد، اما احتمالاً توسط اشکال دیگری از هوش مصنوعی تکمیل می‌شوند که در زمینه‌های محدودیت های LLM ها عملکرد بهتری از خود نشان می‌دهند.

پژوهش‌ها در زمینه جایگزین‌های مدل‌های زبانی بزرگ (LLMها) هنوز در مراحل اولیه قرار دارد و به همین دلیل، پیش‌بینی دقیق “پدیده بزرگ بعدی” در هوش مصنوعی مولد پس از LLMها دشوار است. با این حال، می‌توان با تکیه بر دانش موجود، حدس‌های آگاهانه‌ای در این خصوص مطرح کرد؛ فناوری‌هایی نظیر سیستم‌های استدلال منطقی، مدل‌های یادگیری بلادرنگ (Real-time learning models)، شبکه‌های یادگیری مایع (Liquid learning networks) و مدل های زبانی کوچک (Small language models) از جمله مواردی هستند که پتانسیل بالایی برای نقش‌آفرینی در آینده هوش مصنوعی مولد دارند.

مدل زبانی بزرگ دقیقاً به چه معناست؟

به طور کلی، عبارت “مدل زبانی بزرگ (LLM)” به هر نوع مدل یادگیری ماشین اشاره دارد که بر روی مقادیر بسیار عظیمی از داده‌های متنی آموزش دیده است. دلیل اصلی انتخاب واژه “بزرگ” در این عنوان نیز همین حجم گسترده داده‌های مورد استفاده برای آموزش این مدل‌هاست.

با این حال، زمانی که برخی از متخصصان یا علاقه‌مندان به هوش مصنوعی از مدل‌های زبانی بزرگ (LLM) صحبت می‌کنند، منظورشان به طور خاص مدل‌هایی است که از معماری ترنسفورمر یا ترانسفورماتور (Transformer Model) بهره می‌برند. ویژگی متمایز کننده این معماری، توانایی آن در تبدیل متن به واحدهای کوچک‌تر به نام توکن (که می‌توانند کلمات یا بخشی از کلمات باشند) و سپس تحلیل همزمان چندین توکن است. این فرآیند از طریق مکانیزمی به نام “مکانیزم توجه” (attention mechanism) انجام می‌شود که اهمیت نسبی هر کلمه یا توکن را در یک جمله یا قطعه متن برآورد می‌کند. این قابلیت باعث تمایز ترنسفورمرها از سایر انواع مدل‌ها می‌شود که داده‌ها را به صورت ترتیبی و گام به گام پردازش می‌کنند (برای فهم بهتر مکانیزم این معماری، می‌توانید مقاله منتشر شده در هامیا ژورنال با عنوان “رمزگشایی از دنیای هوش مصنوعی و LLM: از توکن‌ها تا پنجره‌های کانالی رمزگشایی از دنیای هوش مصنوعی و LLM: از توکن‌ها تا پنجره‌های کانالی” را مطالعه نمائید)

تمامی مدل‌های زبانی بزرگ برجسته‌ای که در سالیان اخیر توجه بسیاری را به خود جلب کرده‌اند (از جمله مدل‌های GPT شرکت OpenAI، مدل‌های Claude شرکت Anthropic و مدل‌های Llama شرکت Meta) از معماری ترنسفورمر استفاده می‌کنند. با این حال، شایان ذکر است که انواع دیگری از LLMها نیز وجود دارند، مانند مدل Mamba، که رویکردهای متفاوتی را در معماری خود به کار می‌برند.

این طبقه‌بندی ممکن است کمی مبهم باشد، زیرا هیچ تعریف رسمی و استانداردی وجود ندارد که مشخص کند مجموعه داده آموزشی یک مدل تا چه اندازه باید بزرگ باشد تا آن مدل به عنوان مدل زبان بزرگ (LLM) شناخته شود. LLMهای شناخته شده معمولاً بر روی حجم عظیمی از اطلاعات آموزش می‌بینند که اغلب شامل بخش اعظم داده‌های متنی قابل دسترس به صورت عمومی در اینترنت است.

اگر توسعه‌دهندگان مدل‌ها را بر روی زیرمجموعه کوچکتری از داده‌ها آموزش دهند، این سوال مطرح می‌شود که آیا آن مدل‌ها همچنان باید به عنوان مدل‌های زبان بزرگ (LLM) طبقه‌بندی شود یا بهتر است آن را مدل های زبانی کوچک (SLM) بنامیم. از این منظر، اصطلاح LLM شباهت زیادی به اصطلاح “داده‌های بزرگ” (big data) دارد؛ در هر دو مورد، هیچ قانون سختگیرانه‌ای وجود ندارد که به طور دقیق تعیین کند حجم داده‌های مورد نظر چقدر باید “بزرگ” باشد تا تحت این عناوین قرار گیرند.

نواقصات و محدودیت‌های مدل‌های زبانی بزرگ (LLM)

مدل‌های زبانی بزرگ (LLMها) توانایی‌های چشمگیری از خود نشان می‌دهند، از جمله تفسیر درخواست‌های بیان‌شده به زبان طبیعی انسان و تولید محتوای جدید در پاسخ به آن‌ها. همچنین، LLMها را می‌توان با سیستم‌های تولیدکننده تصویر و ویدئو ترکیب کرد تا محتوای چندوجهی (multimodal) تولید کنند که شامل اشکال مختلف داده مانند متن، تصویر، ویدئو و غیره است.

با این حال، مدل‌های زبانی بزرگ (LLMها) با چالش‌ها و محدودیت‌های قابل توجهی نیز مواجه هستند که در ادامه به آن‌ها می‌پردازیم:

  • خطر توهم‌زایی (Hallucination): یکی از محدودیت های LLMها پدیده “توهم‌زایی” است؛ به این معنا که این مدل‌ها ممکن است پاسخ‌هایی تولید کنند که حاوی اطلاعات نادرست یا بی‌معنا هستند. این پدیده عمدتاً به دلیل شیوه پردازش ورودی‌ها توسط مدل رخ می‌دهد. اگرچه برخی از انواع LLMها بیشتر از بقیه مستعد توهم‌زایی هستند (برای مثال، گزارش‌هایی وجود دارد که برخی LLMهای غیرترنسفورمر مانند EMMA نرخ توهم‌زایی پایین‌تری دارند) اما به نظر نمی‌رسد که بتوان یک LLM کاملاً مقاوم در برابر این پدیده ایجاد کرد.
  • نیاز به منابع محاسباتی: با وجود اینکه برخی از مدل‌های زبانی بزرگ (LLMها) از نظر محاسباتی کارآمدتر از بقیه عمل می‌کنند (به عنوان مثال، مدل‌های مبتنی بر معماری ترنسفورمر کارایی محاسباتی بالایی ندارند)، اما تمامی آن‌ها چه در مرحله آموزش (training) و چه در مرحله استنتاج (inference) (یعنی زمان استفاده از مدل برای تولید پاسخ)، به حجم عظیمی از منابع محاسباتی نظیر توان پردازشی و حافظه نیاز دارند.
  • فقدان حافظه: مدل‌های زبانی بزرگ (LLMها) اطلاعاتی را که بر اساس آن‌ها آموزش دیده‌اند “به خاطر می‌سپارند”؛ این توانایی بخشی جدایی‌ناپذیر از عملکرد داخلی آن‌هاست. با این حال، آن‌ها نمی‌توانند داده‌هایی را که در طول استنتاج (inference) با آن‌ها مواجه می‌شوند، به طور دائمی ذخیره کنند یا یک درخواست قبلی کاربر را هنگام پردازش یک درخواست جدید به خاطر بیاورند. اگرچه برخی از سرویس‌های هوش مصنوعی مولد مانند ChatGPT می‌توانند هنگام پاسخگویی به درخواست‌های جدید، درخواست‌های قبلی کاربر را در نظر بگیرند، اما به نظر می‌رسد این قابلیت از طریق مکانیسم‌های خارجی و مجزا از مدل‌های اصلی LLM پیاده‌سازی شده است.
  • عدم پشتیبانی از یادگیری پیوسته: مدل‌های زبانی بزرگ (LLMها) نمی‌توانند اطلاعات جدید را به صورت پیوسته و مداوم یاد بگیرند. این مدل‌ها تنها قادر به تولید محتوا بر اساس داده‌هایی هستند که در مرحله آموزش خود با آن‌ها مواجه شده‌اند. برای به‌روزرسانی پایگاه دانش یک LLM، لازم است که آن را با داده‌های اضافی و جدید آموزش داد. در حال حاضر، هیچ روش قابل اعتمادی برای آموزش یک مدل به صورت لحظه‌ای و بلادرنگ وجود ندارد که بتواند دانش آن را به صورت مستمر و آنلاین به‌روز نگه دارد.
  • ناتوانی در استدلال: مدل‌های زبانی بزرگ (LLMها) فاقد توانایی استدلال هستند. این بدان معناست که آن‌ها نمی‌توانند از منطق برای تفسیر داده‌هایی که با مجموعه داده‌های آموزشی آن‌ها ارتباط مستقیمی ندارند، استفاده کنند. این مدل‌ها صرفاً می‌توانند ورودی‌های جدید را با الگوهای موجود در داده‌های آموزشی خود مقایسه کرده و بر اساس این شباهت‌ها، خروجی تولید کنند.

این چالش‌ها می‌توانند موانع قابل توجهی برای برخی از موارد استفاده هوش مصنوعی مولد ایجاد کنند. به عنوان مثال، پدیده توهم‌زایی (hallucinations) سبب می‌شود که هوش مصنوعی مولد در زمینه‌هایی که دقت اطلاعات از اهمیت حیاتی برخوردار است (مانند حوزه حقوق) غیرقابل اعتماد باشد. این موضوع به طور دردناکی برای یک وکیل مشخص شد، زمانی که او از ChatGPT برای کمک به تحقیقات حقوقی خود استفاده کرد و با اطلاعات نادرست مواجه شد.

به همین ترتیب، هر مورد استفاده‌ای که به اطلاعات کاملاً به‌روز نیاز داشته باشد (برای مثال، جستجوی مقالات خبری که اخیراً منتشر شده‌اند) برای بهره‌برداری با یک مدل زبان بزرگ (LLM) با چالش‌های اساسی روبرو است؛ زیرا پایگاه دانش LLM هرگز به طور کامل با داده‌هایی که در زمان واقعی در حال تغییر هستند، هماهنگ نخواهد بود. علاوه بر این، ماهیت محاسباتی فشرده‌ی مدل های زبانی بزرگ (computationally intensive) باعث می‌شود که توسعه و بهره‌برداری از آن‌ها پرهزینه باشد، که به طور بالقوه می‌تواند رشد بلندمدت فناوری LLM را محدود سازد.

جایگزین‌ها و روش‌های رفع محدودیت های LLM

در حال حاضر هیچ جایگزین واحدی برای مدل‌های زبانی بزرگ (LLMها) وجود ندارد که بتواند تمام محدودیت‌های آن‌ها را به طور کامل برطرف کرده و تجربه کاربری بهتری را تضمین کند. با این حال، تکنیک‌ها و رویکردهای متفاوت طراحی هوش مصنوعی می‌توانند به کاهش برخی از کاستی‌های این مدل‌ها کمک کنند و به احتمال زیاد، آینده مدل های زبانی در دل این تکنیک‌ها و رویکردها قرار گرفته است.

سیستم‌های استدلالی منطقی

اگرچه مدل‌های زبانی بزرگ (LLMها) به خودی خود قادر به استدلال نیستند، اما انواع دیگری از سیستم‌های هوش مصنوعی وجود دارند که توانایی پردازش داده‌ها را بر اساس منطق دارند. به بیان ساده، استدلال منطقی یکی از قدیمی‌ترین رویکردها در هوش مصنوعی است؛ این همان روشی بود که در دهه ۱۹۵۰ برای آموزش رایانه‌ها جهت بازی چکرز بر اساس رویه‌های از پیش تعریف شده به کار گرفته شد. زبان‌های برنامه‌نویسی هوش مصنوعی که به طور خاص برای استدلال منطقی طراحی شده‌اند، مانند پرولوگ (Prolog)، نیز دهه‌هاست که مورد استفاده قرار می‌گیرند.

محدودیت اصلی استدلال منطقی به عنوان یک ابزار هوش مصنوعی این است که توسعه‌دهندگان باید قوانین منطق را به صورت صریح تعریف کنند. پیش‌بینی تمامی سناریوهایی که یک ابزار هوش مصنوعی ممکن است برای استدلال به آن‌ها نیاز داشته باشد، عملاً غیرممکن است. بنابراین، استدلال منطقی به تنهایی احتمالاً هرگز برای توانمندسازی کامل ابزارهای هوش مصنوعی مولد کافی نخواهد بود. با این حال، سیستم‌های منطقی می‌توانند با مدل‌های زبانی بزرگ (LLMها) ترکیب شوند تا برخی از محدودیت‌های دومی را کاهش دهند. به عنوان مثال، قوانین منطق می‌توانند خروجی LLM را ارزیابی کرده و محتوایی را که به نظر “توهم‌زا” می‌رسد، شناسایی و فیلتر کنند.

مدل‌های یادگیری بلادرنگ

در حالی که مدل‌های زبانی بزرگ (LLMها) در سال‌های اخیر مورد توجه گسترده‌ای قرار گرفته‌اند، برخی از محققان بر روی انواع دیگری از مدل‌ها کار می‌کنند که قادر به “یادگیری” داده‌های جدید به صورت پیوسته و بلادرنگ هستند. یک نمونه از این مدل‌ها، AIGO است که توسعه‌دهندگان آن، این مدل را با رویکردی که آن را معماری نوروسیمبلیک یکپارچه (INSA) می‌نامند، طراحی کرده‌اند. جزئیات فنی دقیق در مورد نحوه عملکرد این مدل هنوز به طور عمومی محدود است، اما نکته مهم این است که AIGO یک LLM نیست و به وضوح قابلیت افزودن مداوم به پایگاه دانش خود را دارد.

اگر جایگزین‌هایی برای مدل‌های زبانی بزرگ (LLMها) مانند AIGO به بلوغ و پذیرش عمومی دست یابند، می‌توانند راه را برای طیف وسیعی از کاربردهای نوین هوش مصنوعی مولد باز کنند. این کاربردها نیازمند عملکرد مدل‌ها بر اساس اطلاعات کاملاً به‌روز و بلادرنگ هستند که در حال حاضر LLMها در این زمینه با محدودیت‌هایی مواجه‌اند.

شبکه‌های یادگیری مایع (LLN)

شبکه‌های یادگیری مایع (LLNها) یکی دیگر از جایگزین های LLM ها محسوب می‌شوند که قابلیت یادگیری اطلاعات جدید را به صورت پیوسته ارائه می‌دهند. برخلاف LLMها، LLNها می‌توانند پارامترهای خود را به صورت بلادرنگ و بر اساس داده‌های ورودی تغییر دهند، که این ویژگی به آن‌ها انعطاف‌پذیری بیشتری در یادگیری می‌دهد.

از لحاظ تاریخی، شبکه‌های یادگیری مایع (LLNها) عمدتاً برای پردازش داده‌های سری زمانی (time-series data) استفاده شده‌اند؛ به این معنا که آن‌ها برای تحلیل داده‌هایی که به ترتیب زمانی خاصی رخ می‌دهند، مانند داده‌های مالی یا حسگرها، طراحی شده‌اند. کاربرد آن‌ها در تفسیر پرس‌وجوهای زبان طبیعی باز و تولید محتوای جدید کمتر بوده است. با این حال، پتانسیل تطبیق این مدل‌ها برای موارد استفاده هوش مصنوعی مولد نیز وجود دارد و تحقیقات در این زمینه ادامه دارد.

مدل های زبانی کوچک (SLM)

همانطور که قبلاً اشاره شد، یک مدل زبانی کوچک (SLM) شباهت‌های ساختاری با یک مدل زبانی بزرگ (LLM) دارد، با این تفاوت کلیدی که SLMها بر روی مجموعه داده کوچکتری آموزش دیده‌اند.

به طور کلی، هر چه داده‌های آموزشی (training data) بزرگ‌تر باشد، عملکرد مدل معمولاً بهتر خواهد بود، به خصوص اگر هدف ساخت مدلی باشد که بتواند طیف وسیعی از موارد استفاده را پشتیبانی کند (که ویژگی بارز اکثر مدل‌های زبانی بزرگ است). اما مدل‌هایی که بر روی مجموعه‌های داده محدودتر آموزش دیده‌اند، به قدرت محاسباتی کمتری نیاز دارند و کمتر مستعد “توهم‌زایی” (hallucination) هستند؛ زیرا توهم‌زایی می‌تواند ناشی از شرایطی باشد که داده‌های آموزشی یک مدل آنقدر وسیع و پیچیده است که مدل نمی‌تواند ارتباطات مرتبط و صحیح بین داده‌های ورودی و داده‌های آموزشی را به درستی شناسایی کند.

با توجه به این مزایا، این احتمال وجود دارد که شاهد افزایش استفاده از مدل های زبانی کوچک (SLMها) به عنوان جایگزینی برای مدل‌های زبانی بزرگ (LLMها) باشیم. این امر به ویژه برای موارد استفاده‌ای که محدود و تخصصی هستند (مانند پاسخگویی به پرس‌وجوهای مشتریان برای یک نوع خاص از کسب‌وکار همچون مدل صوتی OpenAI) و به دقت بالاتری نسبت به آنچه LLMها می‌توانند ارائه دهند، نیاز دارند، صادق است.

جمع بندی

سفری که با شگفتی مدل‌های زبانی بزرگ آغاز شد، اکنون با این تحلیل به درک عمیق‌تری از محدودیت‌ها و افق‌های پس از آن رسیده است. همان‌طور که در این مقاله به تفصیل شرح داده شد، آینده هوش مصنوعی نه در ساخت غول‌هایی بزرگ‌تر و پرهزینه‌تر، بلکه در ایجاد یک اکوسیستم هوشمند، چابک و ترکیبی نهفته است. این مقاله نشان داد که چگونه جایگزین های LLM، از مدل های زبانی کوچک (SLM) که دقت و بهره‌وری را به ارمغان می‌آورند، گرفته تا سیستم‌های استدلال منطقی و شبکه‌های یادگیری بلادرنگ، در حال شکل دادن به پایه‌های نسل جدید هوش مصنوعی مولد هستند؛ نسلی که نویدبخش دقت بیشتر و خطای کمتر است.

این تحول، فراتر از یک تغییر فنی، یک چرخش پارادایم به سوی دموکراتیزه شدن قدرت محاسباتی و تقویت رقابت است. پایان یافتن سلطه‌ی یک معماری واحد، راه را برای نوآوری‌های بی‌شمار، کاهش هزینه‌های گزاف و ظهور راه‌حل‌های تخصصی توسط بازیگران کوچکتر هموار می‌کند. در نهایت، موج جدید هوش مصنوعی مولد که در این تحلیل به آن پرداخته شد، چشم‌اندازی را ترسیم می‌کند که در آن قدرت خلق و استدلال، نه در انحصار عده‌ای معدود، بلکه در دستان جامعه وسیع‌تری از توسعه‌دهندگان، کارآفرینان و متفکران آزاد قرار خواهد گرفت و این، همان آینده‌ای است که باید برای آن هیجان‌زده بود.

سوالات متداول

۱. آینده مدل‌های زبانی بزرگ (LLM) چه خواهد شد؟ آیا حذف می‌شوند؟

خیر، به طور کامل حذف نمی‌شوند. آینده مدل‌های زبانی بزرگ در همکاری با فناوری‌های دیگر است. آن‌ها به عنوان بخشی از یک اکوسیستم ترکیبی، توسط مدل‌هایی که در نقاط ضعفشان (مثل استدلال منطقی) قوی‌ترند، تکمیل خواهند شد.

۲. مهم‌ترین محدودیت های LLM که زمینه را برای نسل جدید هوش مصنوعی فراهم کرده، چیست؟

اصلی‌ترین محدودیت های LLM شامل “توهم‌زایی” (تولید اطلاعات نادرست)، نیاز به منابع محاسباتی بسیار گران و انحصاری و ضعف در انجام استدلال‌های پیچیده و منطقی است که در کاربردهای حساس، پذیرفتنی نیست.

۳. موج جدید هوش مصنوعی مولد چه تفاوتی با نسل فعلی دارد؟

این موج جدید هوش مصنوعی مولد به جای تمرکز بر ساخت مدل‌های بزرگ‌تر، بر هوشمندی، بهره‌وری و تخصص‌گرایی تأکید دارد. هدف آن، استفاده از جایگزین های LLM برای ساخت سیستم‌هایی دقیق‌تر، کم‌هزینه‌تر و با قابلیت استدلال بالاتر است.

۴. مدل های زبانی کوچک (SLM) چه هستند و چه مزیتی نسبت به LLMها دارند؟

مدل های زبانی کوچک (SLM) ساختاری مشابه LLMها دارند اما روی داده‌های محدودتر و تخصصی‌تری آموزش می‌بینند. مزیت اصلی آن‌ها نیاز به قدرت محاسباتی بسیار کمتر و تمایل پایین‌تر به “توهم‌زایی” است، که آن‌ها را به گزینه‌ای عالی برای کاربردهای تجاری و تخصصی تبدیل می‌کند.

امتیاز دهید!
1 / 5

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا