شرکت نوپای چینی دیپسیک ایآی (DeepSeek AI)، با هدف ترویج تحقیقات در حوزه هوش مصنوعی، مدلهای زبانی بزرگ (LLM) خود را با نام DeepSeek LLM به صورت open source عرضه کرده است. این مجموعه مدلها شامل دو نسخه پایه و چت با ابعاد پارامتری 7 و 67 میلیارد میباشد.
DeepSeek 7B base
DeepSeek 7B chat
DeepSeek 67B base
DeepSeek 67B chat
نسخه 67 میلیارد پارامتری مدل پایه DeepSeek LLM، در مقایسه با مدل رقیب لاما 2 با ابعاد مشابه (LlaMA 270B base)، عملکرد به مراتب بهتری را در طیف گستردهای از وظایف از جمله استدلال منطقی، تولید کد، حل مسائل ریاضی و درک زبان چینی از خود نشان داده است.
تفاوت عملکرد این دو مدل صرفاً کمی نبوده و نشاندهنده یک جهش کیفی در تواناییهای مدل DeepSeek LLM میباشد. به عنوان مثال، نسخه چت این مدل در آزمون کدنویسی HumanEval نرخ موفقیت 73.78 درصدی را کسب کرده که نشان از برتری آن نسبت به سایر مدلهای همرده دارد. همچنین، این مدل بدون نیاز به تنظیمات دقیق، امتیاز 84.1 درصدی را در مجموعه داده ریاضی GSM8K به دست آورده است.
شرکت DeepSeek AI با انتشار منبع باز هر دو نسخه 7 و 67 میلیارد پارامتری مدل خود، به همراه نسخههای تخصصی چت، گامی مهم در جهت توسعه جامعه تحقیقات هوش مصنوعی برداشته است. دسترسی آزاد به این مدلها، امکان بررسی، بهبود و توسعه بیشتر آنها را برای محققان و توسعهدهندگان فراهم میآورد و در نهایت منجر به ظهور کاربردهای نوین و گستردهتر هوش مصنوعی خواهد شد.
به منظور ارزیابی جامع و دقیق تواناییهای مدلهای زبانی بزرگ خود، شرکت DeepSeek AI مجموعه دادههای آزمون جدیدی را طراحی و اجرا نمود. این مجموعه دادهها شامل آزمون سراسری دبیرستان مجارستان و مجموعه داده ارزیابی پیروی از دستورالعمل گوگل میباشد. نتایج حاصل از این ارزیابیها، توانایی استثنایی مدلهای دیپسیک در حل مسائل پیچیده و انجام وظایف متنوع، از جمله آزمونهای استاندارد و دستورالعملهای جدید، را به اثبات رسانده است.
DeepSeek AI با ارائه جزئیات دقیق در مورد فرآیند جمعآوری و آمادهسازی دادههای آموزشی، شفافیتی مثالزدنی را در این زمینه نشان داده است. این شرکت با تمرکز بر تنوع و اصالت دادهها و رعایت کامل حقوق مالکیت معنوی، خطمشی مشخصی را برای جمعآوری و پردازش دادهها تعریف کرده است. در این خطمشی، دادههای متنی، ریاضی، کد، کتاب و سایر منابع مرتبط جمعآوری شده و پس از اعمال فیلترهای دقیق برای حذف محتوای سمی و تکراری، جهت آموزش مدلها مورد استفاده قرار میگیرند.
مدلهای زبانی دیپسیک با الهام از معماری مدلهای موفق مانند لاما، طراحی و آموزش دیدهاند. مدل 7 میلیارد پارامتری از مکانیزم توجه چند سر (Multi-Head attention) و مدل 67 میلیارد پارامتری از مکانیزم توجه پرسوجوی گروهی (Grouped-Query Attention) بهره میبرند. فرآیند آموزش این مدلها با استفاده از اندازههای دسته بزرگ و برنامهریزی دقیق نرخ یادگیری، به صورت کارآمد و موثر انجام شده است.
کاربران میتوانند از طریق یک رابط کاربری وب مشابه با ChatGPT یا Claude، به مدلهای چت و تولید کد دیپسیک دسترسی پیدا کنند. با این حال، به دلیل مقررات موجود در کشور چین، چتبات وبمحور دیپسیک دارای محدودیتهایی در برخی از پرسوجوها میباشد. این محدودیتها با هدف رعایت مقررات و حفظ ایمنی کاربران اعمال شده و متفاوت از اقدامات ایمنی است که از طریق یادگیری تقویتی با بازخورد انسانی فعال شدهاند.
سوالاتی که به موضوعات حساس مرتبط با چین اشاره دارند، به صورت خودکار توسط سیستم فیلترینگ مدل مسدود شده و از پایگاه داده حذف میگردند. در پاسخ به این دسته از پرسشها، مدل به جای ارائه پاسخ، سوال را حذف نموده و پیغامی مبنی بر حذف محتوا به دلایل امنیتی به کاربر نمایش میدهد.
خوشبختانه، به نظر میرسد این مکانیزم سانسور صرفاً در نسخه وب این مدل (https://chat.deepseek.com) اعمال شده و در مدلهای اصلی که به صورت منبع باز عرضه شدهاند، وجود ندارد.
انتشار مدلهای زبانی بزرگ DeepSeek AI، استانداردهای جدیدی را در حوزه هوش مصنوعی تعریف نموده و فرصتهای بینظیری را برای پژوهشگران و متخصصان این حوزه فراهم آورده است. این اقدام منبع باز، علاوه بر نشان دادن تعهد این شرکت به پیشرفت علم هوش مصنوعی، زمینه را برای همکاریهای گسترده و مؤثر در جهت توسعه مدلهای زبانی پیچیدهتر و قدرتمندتر فراهم مینماید.
نمای کلی مدل Deepseek
ارائهدهنده شرکتی که این مدل را توسعه داده است. | DeepSeek |
پنجره کانالی ورودی حداکثر تعداد توکنهایی که مدل میتواند به عنوان ورودی پردازش کند. | 128 هزار |
حداکثر تعداد توکنهای خروجی حداکثر تعداد توکنهایی که مدل میتواند به عنوان خروجی تولید کند. | 8 هزار |
منبع باز کد منبع مدل برای عموم قابل دسترسی است. | بله |
تاریخ انتشار زمانی که مدل برای اولین بار منتشر شده است. | 27 دسامبر 2024 |
تاریخ بهروزرسانی دانش آخرین باری که دانش مدل بهروز شده است. | نامشخص |
پلتفرمهای دسترسی پلتفرمهایی که میتوان از طریق آنها به مدل دسترسی داشت. | DeepSeek و Hugging Face |
چند وجهی بودن نوع دادهای که این مدل میتواند تفسیر کند. | فقط متن |
قیمتگذاری مدل دیپسیک ورژن 3
ورودی هزینه پردازش هر یک میلیون توکن در پرامپت شما | 0.14 دلار به ازای هر میلیون توکن |
خروجی هزینه تولید هر یک میلیون توکن توسط مدل | 0.28 دلار به ازای هر میلیون توکن |