هوش مصنوعی

استارتاپ چینی منبع باز به نام مدل زبانی بزرگ DeepSeek

شرکت نوپای چینی دیپ‌سیک ای‌آی (DeepSeek AI)، با هدف ترویج تحقیقات در حوزه هوش مصنوعی، مدل‌های زبانی بزرگ (LLM) خود را با نام DeepSeek LLM به صورت open source عرضه کرده است. این مجموعه مدل‌ها شامل دو نسخه پایه و چت با ابعاد پارامتری 7 و 67 میلیارد می‌باشد.

DeepSeek 7B base

DeepSeek 7B chat

DeepSeek 67B base

DeepSeek 67B chat

نسخه 67 میلیارد پارامتری مدل پایه DeepSeek LLM، در مقایسه با مدل رقیب لاما 2 با ابعاد مشابه (LlaMA 270B base)، عملکرد به مراتب بهتری را در طیف گسترده‌ای از وظایف از جمله استدلال منطقی، تولید کد، حل مسائل ریاضی و درک زبان چینی از خود نشان داده است.

تفاوت عملکرد این دو مدل صرفاً کمی نبوده و نشان‌دهنده یک جهش کیفی در توانایی‌های مدل DeepSeek LLM می‌باشد. به عنوان مثال، نسخه چت این مدل در آزمون کدنویسی HumanEval نرخ موفقیت 73.78 درصدی را کسب کرده که نشان از برتری آن نسبت به سایر مدل‌های هم‌رده دارد. همچنین، این مدل بدون نیاز به تنظیمات دقیق، امتیاز 84.1 درصدی را در مجموعه داده ریاضی GSM8K به دست آورده است.

شرکت DeepSeek AI با انتشار منبع باز هر دو نسخه 7 و 67 میلیارد پارامتری مدل خود، به همراه نسخه‌های تخصصی چت، گامی مهم در جهت توسعه جامعه تحقیقات هوش مصنوعی برداشته است. دسترسی آزاد به این مدل‌ها، امکان بررسی، بهبود و توسعه بیشتر آن‌ها را برای محققان و توسعه‌دهندگان فراهم می‌آورد و در نهایت منجر به ظهور کاربردهای نوین و گسترده‌تر هوش مصنوعی خواهد شد.

به منظور ارزیابی جامع و دقیق توانایی‌های مدل‌های زبانی بزرگ خود، شرکت DeepSeek AI مجموعه داده‌های آزمون جدیدی را طراحی و اجرا نمود. این مجموعه داده‌ها شامل آزمون سراسری دبیرستان مجارستان و مجموعه داده ارزیابی پیروی از دستورالعمل گوگل می‌باشد. نتایج حاصل از این ارزیابی‌ها، توانایی استثنایی مدل‌های دیپ‌سیک در حل مسائل پیچیده و انجام وظایف متنوع، از جمله آزمون‌های استاندارد و دستورالعمل‌های جدید، را به اثبات رسانده است.

DeepSeek AI با ارائه جزئیات دقیق در مورد فرآیند جمع‌آوری و آماده‌سازی داده‌های آموزشی، شفافیتی مثال‌زدنی را در این زمینه نشان داده است. این شرکت با تمرکز بر تنوع و اصالت داده‌ها و رعایت کامل حقوق مالکیت معنوی، خط‌مشی مشخصی را برای جمع‌آوری و پردازش داده‌ها تعریف کرده است. در این خط‌مشی، داده‌های متنی، ریاضی، کد، کتاب و سایر منابع مرتبط جمع‌آوری شده و پس از اعمال فیلترهای دقیق برای حذف محتوای سمی و تکراری، جهت آموزش مدل‌ها مورد استفاده قرار می‌گیرند.

مدل‌های زبانی دیپ‌سیک با الهام از معماری مدل‌های موفق مانند لاما، طراحی و آموزش دیده‌اند. مدل 7 میلیارد پارامتری از مکانیزم توجه چند سر (Multi-Head attention) و مدل 67 میلیارد پارامتری از مکانیزم توجه پرس‌وجوی گروهی (Grouped-Query Attention) بهره می‌برند. فرآیند آموزش این مدل‌ها با استفاده از اندازه‌های دسته بزرگ و برنامه‌ریزی دقیق نرخ یادگیری، به صورت کارآمد و موثر انجام شده است.

کاربران می‌توانند از طریق یک رابط کاربری وب مشابه با ChatGPT یا Claude، به مدل‌های چت و تولید کد دیپ‌سیک دسترسی پیدا کنند. با این حال، به دلیل مقررات موجود در کشور چین، چت‌بات وب‌محور دیپ‌سیک دارای محدودیت‌هایی در برخی از پرس‌وجوها می‌باشد. این محدودیت‌ها با هدف رعایت مقررات و حفظ ایمنی کاربران اعمال شده و متفاوت از اقدامات ایمنی است که از طریق یادگیری تقویتی با بازخورد انسانی فعال شده‌اند.

سوالاتی که به موضوعات حساس مرتبط با چین اشاره دارند، به صورت خودکار توسط سیستم فیلترینگ مدل مسدود شده و از پایگاه داده حذف می‌گردند. در پاسخ به این دسته از پرسش‌ها، مدل به جای ارائه پاسخ، سوال را حذف نموده و پیغامی مبنی بر حذف محتوا به دلایل امنیتی به کاربر نمایش می‌دهد.

خوشبختانه، به نظر می‌رسد این مکانیزم سانسور صرفاً در نسخه وب این مدل (https://chat.deepseek.com) اعمال شده و در مدل‌های اصلی که به صورت منبع باز عرضه شده‌اند، وجود ندارد.

انتشار مدل‌های زبانی بزرگ DeepSeek AI، استانداردهای جدیدی را در حوزه هوش مصنوعی تعریف نموده و فرصت‌های بی‌نظیری را برای پژوهشگران و متخصصان این حوزه فراهم آورده است. این اقدام منبع باز، علاوه بر نشان دادن تعهد این شرکت به پیشرفت علم هوش مصنوعی، زمینه را برای همکاری‌های گسترده و مؤثر در جهت توسعه مدل‌های زبانی پیچیده‌تر و قدرتمندتر فراهم می‌نماید.

نمای کلی مدل Deepseek

ارائه‌دهنده
شرکتی که این مدل را توسعه داده است.
DeepSeek
پنجره کانالی ورودی
حداکثر تعداد توکن‌هایی که مدل می‌تواند به عنوان ورودی پردازش کند.
128 هزار
حداکثر تعداد توکن‌های خروجی
حداکثر تعداد توکن‌هایی که مدل می‌تواند به عنوان خروجی تولید کند.
8 هزار
منبع باز
کد منبع مدل برای عموم قابل دسترسی است.
بله
تاریخ انتشار
زمانی که مدل برای اولین بار منتشر شده است.
27 دسامبر 2024
تاریخ به‌روزرسانی دانش
آخرین باری که دانش مدل به‌روز شده است.
نامشخص
پلتفرم‌های دسترسی
پلتفرم‌هایی که می‌توان از طریق آن‌ها به مدل دسترسی داشت.
DeepSeek و Hugging Face
چند وجهی بودن
نوع داده‌ای که این مدل می‌تواند تفسیر کند.
فقط متن

قیمت‌گذاری مدل دیپ‌سیک ورژن 3

ورودی
هزینه پردازش هر یک میلیون توکن در پرامپت شما
0.14 دلار به ازای هر میلیون توکن
خروجی
هزینه تولید هر یک میلیون توکن توسط مدل
0.28 دلار به ازای هر میلیون توکن
امتیاز دهید!
2 / 5

نوشته های مشابه

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *

دکمه بازگشت به بالا