GeekAlerts

جایی برای گیک‌ها

مدل DeepSeek V3.1 با ۶۸۵ میلیارد پارامتر به صورت اوپن‌سورس منتشر شد

مدل DeepSeek V3.1 با ۶۸۵ میلیارد پارامتر به صورت اوپن‌سورس منتشر شد

خلاصه

  • استارتاپ چینی DeepSeek یه مدل هوش مصنوعی ۶۸۵ میلیارد پارامتری به نام V3.1 رو بی‌سر و صدا منتشر کرده.
  • این مدل اوپن‌سورس (متن‌باز) هست و رقیب جدی برای غول‌های آمریکایی مثل OpenAI و Anthropic به حساب میاد.
  • DeepSeek V3.1 تو بنچمارک‌های کدنویسی عالی عمل کرده و سرعت و کارایی بالایی داره (مثلا خیلی ارزون‌تر از Claude Opus کار رو انجام میده).
  • معماری «ترکیبی» داره که چت، استدلال و کدنویسی رو تو یه مدل ادغام کرده و کارایی رو بالا برده.
  • با وجود عملکرد فوق‌العاده، حجم زیاد (۷۰۰ گیگابایت) و نیاز به منابع قوی برای اجرا، چالش‌های خودش رو برای کاربرای عادی داره.

استارتاپ هوش مصنوعی چینی DeepSeek به تازگی سر و صدای زیادی تو جامعه جهانی هوش مصنوعی به پا کرده. قضیه از این قراره که این شرکت بدون هیچ تبلیغات و هیاهویی، جاه‌طلبانه‌ترین مدل هوش مصنوعی خودش یعنی DeepSeek V3.1 رو منتشر کرده. این مدل که ۶۸۵ میلیارد پارامتر داره، یه جورایی داره سلطه غول‌های هوش مصنوعی آمریکایی رو به چالش میکشه و با اوپن سورس یا متن باز بودنش، کل فضای رقابتی رو تغییر میده.

این شرکت که تو شهر هانگژو مستقره و از طرف شرکت High-Flyer Capital Management حمایت میشه، مدل جدیدش رو خیلی بی‌سر و صدا روی پلتفرم Hugging Face آپلود کرد. اما همین مدل، چند ساعت بعد از انتشارش، تو تست‌های اولیه امتیازهایی گرفت که با سیستم‌های اختصاصی شرکت‌هایی مثل OpenAI و Anthropic رقابت میکرد. از طرفی، لایسنس متن باز این مدل باعث میشه که همه تو دنیا بتونن بهش دسترسی داشته باشن و تنش‌های ژئوپلیتیکی محدودیتی ایجاد نکنه.

انتشار DeepSeek V3.1 فقط یه پیشرفت معمولی تو توانایی‌های هوش مصنوعی نیست؛ بلکه نشون‌دهنده یه تغییر اساسی تو نحوه توسعه، توزیع و کنترل پیشرفته‌ترین سیستم‌های هوش مصنوعیه. این موضوع میتونه پیامدهای عمیقی برای رقابت تکنولوژیکی بین آمریکا و چین داشته باشه.

چند ساعت بعد از اینکه این مدل روی هاگینگ فیس قرار گرفت، رتبه‌اش تو لیست محبوبیت‌ها بالا رفت و محقق‌های زیادی از سراسر دنیا که اون رو دانلود و تست کرده بودن، ازش تعریف کردن. این مدل تو بنچمارک معتبر کدنویسی Aider امتیاز ۷۱.۶ درصد رو به دست آورد و خودش رو به عنوان یکی از بهترین مدل‌های موجود معرفی کرد و مستقیما سلطه غول‌های هوش مصنوعی آمریکایی رو به چالش کشید.

DeepSeek V3.1 چطوری به این عملکرد بالا رسیده؟

این مدل دستاوردهای مهندسی قابل توجهی داره که انتظارات از عملکرد مدل‌های هوش مصنوعی رو تغییر میده. سیستم V3.1 میتونه تا ۱۲۸ هزار توکن زمینه (context) رو پردازش کنه که تقریبا معادل یه کتاب ۴۰۰ صفحه‌ایه. در عین حال، سرعت پاسخگویی اون خیلی بیشتر از رقباییه که بر اساس استدلال کار میکنن و کندتر هستن. این مدل از فرمت‌های دقت چندگانه، از BF16 استاندارد گرفته تا FP8 آزمایشی، پشتیبانی میکنه. این ویژگی به توسعه‌دهنده‌ها اجازه میده عملکرد رو برای سخت‌افزار خودشون بهینه‌سازی کنن.

اما پیشرفت اصلی تو چیزیه که DeepSeek بهش میگه «معماری ترکیبی». برخلاف تلاش‌های قبلی برای ترکیب قابلیت‌های مختلف هوش مصنوعی که معمولا منجر به سیستم‌هایی میشد که تو هیچ کاری خوب نبودن، V3.1 به طور یکپارچه عملکردهای چت، استدلال و کدنویسی رو تو یه مدل واحد و منسجم ادغام کرده.

اندرو کریستیانسون، یه محقق هوش مصنوعی، تو یه توییت نوشت: «دیپ‌سیک نسخه ۳.۱ تو بنچمارک aider امتیاز ۷۱.۶ درصد گرفته – که بهترین عملکرد برای مدل‌های غیر استدلالیه». اون اضافه کرد که این امتیاز «۱ درصد بیشتر از Claude Opus 4 هست در حالی که ۶۸ برابر ارزونتره». این دستاورد، DeepSeek رو کنار مدل‌های خیلی خاص قرار میده که قبلا فقط گرون‌ترین سیستم‌های اختصاصی به این سطح از عملکرد میرسیدن.

تحلیل‌هایی که تو جامعه کاربری انجام شد، نشون داد که نوآوری‌های فنی پیچیده‌ای زیر این سطح وجود داره. یه محقق با نام مستعار «Rookie» که مدیر تالارهای گفتگوی r/DeepSeek و r/LocalLLaMA هم هست، ادعا کرده که چهار توکن ویژه جدید تو معماری این مدل پیدا کرده: قابلیت‌های جستجو که امکان ادغام با وب به صورت زنده رو فراهم میکنه و توکن‌های تفکر که به مدل اجازه میده فرایندهای استدلال داخلی داشته باشه. این اضافات نشون میده که DeepSeek چالش‌های اساسی‌ای که بقیه سیستم‌های ترکیبی باهاش درگیر بودن رو حل کرده.

کارایی این مدل هم به همون اندازه چشمگیره. با هزینه تقریبی ۱.۰۱ دلار برای هر تسک کدنویسی کامل، DeepSeek V3.1 نتایجی مشابه سیستم‌هایی ارائه میده که برای کار مشابه نزدیک به ۷۰ دلار هزینه دارن. برای کاربرهای سازمانی که روزانه هزاران تعامل با هوش مصنوعی دارن، چنین تفاوت هزینه‌ای میتونه به معنی میلیون‌ها دلار صرفه‌جویی باشه.

زمان‌بندی استراتژیک برای به چالش کشیدن آمریکا

DeepSeek زمان انتشار مدلش رو با دقت جراحی‌واری انتخاب کرده. عرضه V3.1 فقط چند هفته بعد از رونمایی OpenAI از GPT-5 و عرضه Claude 4 توسط Anthropic اتفاق افتاد؛ مدل‌هایی که هر دو به عنوان پیشرفته‌ترین مدل‌های هوش مصنوعی معرفی شده بودن. DeepSeek با رسیدن به عملکرد اون‌ها در حالی که متن باز باقی مونده، مستقیما مدل‌های کسب و کار اصلی رهبران هوش مصنوعی آمریکا رو به چالش کشیده.

این موضوع ابعاد استراتژیک گسترده‌ای داره. در حالی که شرکت‌های آمریکایی کنترل شدیدی روی پیشرفته‌ترین سیستم‌هاشون دارن و برای دسترسی به API هزینه‌های سنگین میگیرن و محدودیت‌های استفاده اعمال میکنن، DeepSeek قابلیت‌های مشابه رو به صورت رایگان برای دانلود، تغییر و استفاده تو هر جای دنیا در دسترس قرار داده.

این تفاوت فلسفی، نشون‌دهنده اختلاف نظرهای بزرگتر تو رویکرد این دو ابرقدرت به توسعه فناوریه. شرکت‌های آمریکایی مثل OpenAI و Anthropic به مدل‌هاشون به عنوان مالکیت معنوی باارزشی نگاه میکنن که باید محافظت و ازش کسب درآمد بشه. اما شرکت‌های چینی به طور فزاینده‌ای هوش مصنوعی پیشرفته رو مثل یه کالای عمومی میبینن که دسترسی گسترده بهش، نوآوری رو تسریع میکنه.

پو ژائو، یه روزنامه‌نگار، اشاره کرد: «DeepSeek بی‌سر و صدا تگ R1 رو حذف کرده. حالا هر ورودی به طور پیش‌فرض به V3.1 میره— با ۱۲۸ هزار توکن زمینه، پاسخ‌های یکپارچه و سبک ثابت». اون اضافه کرد: «این بیشتر شبیه یه تجمیع استراتژیکه تا چند مدل عمومی جداگانه. یه پاسخ چینی به ریسک تکه‌تکه شدن تو رقابت مدل‌های زبان بزرگ». این استراتژی تجمیع نشون میده که DeepSeek از اشتباهات قبلی، چه اشتباهات خودش و چه رقباش، درس گرفته.

رابطه سخت‌افزار و نرم‌افزار:

پردازنده گرافیکی H200 انویدیا با ۱۴۱ گیگابایت حافظه و پهنای باند ۴.۸ ترابایت بر ثانیه، یه شگفتی مهندسیه. این سخت‌افزار اجازه میده مدل‌هایی مثل DeepSeek V3.1 که به ۳۷ میلیارد پارامتر فعال نیاز دارن، روی یک گره (single-node) اجرا بشن. عملکرد H200 تو کوانتیزه‌سازی FP8 که به سرعت ۲۸۶۴ توکن بر ثانیه میرسه، ارزشش رو برای کارهای استنتاجی (inference) نشون میده. اما این رابطه متقابل بین سخت‌افزار و نرم‌افزار یک‌طرفه نیست. مدل V3.1 با آموزش FP8 و معماری MLA (Multi-head Latent Attention)، بار محاسباتی روی سخت‌افزار رو کم میکنه و عملکرد بیشتری از GPUهای موجود میگیره.

نکته کلیدی اینه که نوآوری نرم‌افزاری حالا میتونه قابلیت‌های سخت‌افزاری رو تقویت کنه، نه اینکه فقط بهشون وابسته باشه. برای مثال، موتور استنتاج SGLang شرکت DeepSeek که برای مدل‌های MoE بهینه‌سازی شده، با پیش‌بینی چند توکنی، تولید پاسخ رو ۲ تا ۳ برابر سریع‌تر میکنه.

محدودیت‌های مقیاس‌پذیری:

با وجود این پیشرفت‌ها، محدودیت‌های سخت‌افزاری همچنان پابرجاست، به خصوص تو تنظیمات چند گره‌ای (multi-node). توان پردازشی DeepSeek V3.1 از ۲۸۶۴ توکن بر ثانیه تو حالت تک‌گره، تو تنظیمات 2x8xH200 به فقط ۲۷۶.۷۴ توکن بر ثانیه کاهش پیدا میکنه که یعنی ۹۰ درصد افت. این موضوع نشون‌دهنده چالش همیشگی سربار ارتباطی بین گره‌هاست؛ مشکلی که نرم‌افزار به تنهایی نمیتونه کامل حلش کنه.

تلاش AMD برای رقابت:

مدل‌های MI325X و MI355X از شرکت AMD که برای رقابت با H200 و B200 انویدیا طراحی شدن، با تاخیرهای قابل توجهی مواجه شدن. مثلا تولید انبوه MI325X تو سه ماهه دوم سال ۲۰۲۵ شروع شد که یک چهارم سال بعد از H200 بود و نسبت عملکرد به قیمتش هم از محصولات انویدیا عقب‌تره. این تاخیر به انویدیا اجازه داده که سلطه خودش رو تو بازار اجاره سخت‌افزار محکم کنه.

واکنش جامعه جهانی

پاسخ بین‌المللی به DeepSeek V3.1 نشون میده که برتری فنی چقدر سریع میتونه از مرزهای ژئوپلیتیکی عبور کنه. توسعه‌دهنده‌ها از سراسر دنیا، بدون توجه به منشا چینی مدل، ظرف چند ساعت شروع به دانلود، تست و تحسین قابلیت‌هاش کردن. ویکتور موستار، رئیس بخش محصولات هاگینگ فیس، تو یه توییت اشاره کرد که «هوش مصنوعی متن باز الان تو اوج خودشه… فقط به لیست ترندهای فعلی هاگینگ فیس نگاه کنید» و گفت که مدل‌های چینی به طور فزاینده‌ای بر محبوب‌ترین دانلودهای این پلتفرم مسلط میشن.

تئورتاکسس، یه توسعه‌دهنده هوش مصنوعی که مدت‌هاست DeepSeek رو دنبال میکنه، به استراتژی ظاهری این شرکت اشاره کرد و گفت: «من مدت‌هاست میگم که اون‌ها از نگهداری خطوط تولید مدل‌های جداگانه متنفرن و به محض اینکه ممکن بشه، همه چیز رو تو یه محصول واحد جمع میکنن. شاید این همون باشه».

چالش‌ها و فرصت‌ها

با اینکه DeepSeek V3.1 به صورت رایگان در دسترسه، حجم عظیم ۷۰۰ گیگابایتی اون یه مانع عملی بزرگه. میزبانی و سفارشی‌سازی این مدل به منابع محاسباتی و تخصص قابل توجهی نیاز داره که بیشتر سازمان‌ها ندارن. برای خیلی‌ها، مزیت اصلی «متن باز» بودنش، دسترسی به APIهای ارزون‌تر از طریق ارائه‌دهندگان ابریه، نه توانایی اجرای محلی و تغییر اون. علاوه بر این، ممکنه شرکت‌های آمریکایی به دلیل تنش‌های ژئوپلیتیکی و ترجیح دادن فروشندگان داخلی که پلتفرم‌های یکپارچه و پشتیبانی و امنیت سازمانی ارائه میدن، برای استفاده از این مدل تردید کنن.

مدل V3.1 تحت مجوز آزاد MIT منتشر شده که یعنی برای استفاده تجاری و تغییرات در دسترسه. در حال حاضر مدل پایه روی هاگینگ فیس موجوده و احتمالا نسخه‌های دیگه‌ای هم به زودی منتشر میشن. شرکت همچنین اعلام کرده که مدل آنلاینش به نسخه V3.1 با زمینه ۱۲۸ هزار توکنی ارتقا پیدا کرده. اما تاریخ انتشار قطعی برای مدل مورد انتظار DeepSeek R2 وجود نداره.

منابع

  • [۲] Bloomberg – Are you a robot?
  • [۴] What we know so far about DeepSeek-V3.1, the new Chinese open-weight language model – TechTalks
  • [۱] AI Infrastructure Competition: DeepSeek’s V3.1 and the Shifting Balance of Power
  • [۳] DeepSeek open-sources new V3.1 model · TechNode
  • [۵] DeepSeek V3.1 just dropped — and it might be the most powerful open AI yet | VentureBeat

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *