GeekAlerts

جایی برای گیک‌ها

·

معرفی مدل Qwen3 علی‌بابا، چین از راه می‌رسد

معرفی مدل Qwen3 علی‌بابا، چین از راه می‌رسد

به نظر میرسید که سیلیکون ولی در دنیای هوش مصنوعی حرف اول و آخر را میزند، اما این پیشتازی با یک چالش جدی و جدید روبرو شده است. شرکت علی‌بابا با معرفی خانواده مدل‌های هوش مصنوعی Qwen3، قابلیت‌هایی را به نمایش گذاشته که به نظر میرسد با بهترین مدل‌های غربی برابری میکند یا حتی از آنها پیشی میگیرد. این اتفاق یک نقطه عطف در چشم‌انداز جهانی هوش مصنوعی به حساب می‌آید. تست‌های بنچمارک نشان میدهند که این غول تجارت الکترونیک چینی، سیستمی ساخته که در چندین معیار کلیدی، عملکردی بهتر از مدل o1 شرکت OpenAI و مدل R1 شرکت DeepSeek دارد.

این تحول سوالات مهمی را برای رهبران فناوری و سرمایه‌گذاران غربی ایجاد میکند: آیا شکاف فناوری بین هوش مصنوعی آمریکا و چین سریع‌تر از چیزی که فکر میکردیم در حال بسته شدن است؟ و این موضوع چه معنایی برای آینده نوآوری و تسلط بر بازار هوش مصنوعی دارد؟ این ماجرا فقط یک به‌روزرسانی فنی نیست، بلکه یک سیگنال واضح است که نشان میدهد رهبری جهانی هوش مصنوعی روز به روز غیرمتمرکزتر میشود.

یک معماری پیچیده از شرق

خانواده Qwen3 هشت مدل مختلف را معرفی میکند که از یک نسخه بهینه با ۶۰۰ میلیون پارامتر تا یک نسخه غول‌پیکر با ۲۳۵ میلیارد پارامتر را شامل میشود. چیزی که این عرضه را برای ناظران غربی خاص میکند، فقط مقیاس آن نیست، بلکه پیچیدگی پیاده‌سازی آن است. این سیستم روی ۳۶ تریلیون توکن داده که شامل ۱۱۹ زبان و گویش مختلف است آموزش دیده؛ یک رژیم آموزشی که با بسیاری از رقبای غربی خود رقابت میکند یا حتی از آنها فراتر میرود.

تیم Qwen در این باره گفته: «Qwen3 یک نقطه عطف مهم در سفر ما به سمت هوش عمومی مصنوعی و هوش ابرمصنوعی است». آنها تاکید کردند که تمرکزشان بیشتر روی بهبود روش‌های پیش‌آموزشی بوده تا افزایش اندازه مدل. شاید نگران‌کننده‌ترین بخش برای شرکت‌های فناوری آمریکایی این باشد که علی‌بابا مدل‌های کوچکتری در خانواده Qwen3 مهندسی کرده که عملکردی در سطح مدل‌های بسیار بزرگتر دارند. نسخه ۶۰۰ میلیون پارامتری به طور بالقوه میتواند به شکل مستقیم روی گوشی‌های هوشمند اجرا شود و این موضوع میتواند دسترسی به قابلیت‌های پیشرفته هوش مصنوعی را در دستگاه‌های لبه (edge devices) دموکراتیزه کند؛ مرزی که بسیاری از شرکت‌های غربی آن را از نظر استراتژیک مهم میدانند.

همچنین، شرکت چینی علی‌بابا مدل Qwen3 را در اندازه‌های متنوعی عرضه کرده است. این سری شامل نسخه‌هایی با ۰.۶ میلیارد، ۱.۷ میلیارد، ۴ میلیارد، ۸ میلیارد، ۱۴ میلیارد و ۳۲ میلیارد پارامتر است. در کنار اینها، یک مدل ۲۳۵ میلیارد پارامتری با ۲۲ میلیارد پارامتر فعال و یک مدل ۳۰ میلیارد پارامتری با ۳ میلیارد پارامتر فعال نیز وجود دارد. این تنوع به توسعه‌دهندگان انعطاف‌پذیری زیادی میدهد تا از Qwen برای ساخت برنامه‌های هوش مصنوعی برای دستگاه‌های مختلف، از جمله گوشی‌های موبایل، استفاده کنند.

یک ویژگی خاص: استدلال دو حالته

یکی از ویژگی‌های برجسته برای مخاطبان فنی، پیاده‌سازی چیزی است که علی‌بابا آن را «عملکرد استدلال ترکیبی» مینامد. این ویژگی به کاربران اجازه میدهد بین یک حالت «تفکر» فشرده برای مسائل فنی پیچیده و یک حالت «بدون تفکر» پاسخگوتر برای پرس‌وجوهای روزمره جابجا شوند. این رویکرد شباهت‌هایی به مدل‌های سری «o» از OpenAI دارد که قابلیت‌های استدلال مشابهی را نشان میدهند. با این حال، علی‌بابا این عملکرد را در کل خانواده مدل‌های خود، از جمله کوچکترین نسخه‌ها، پیاده‌سازی کرده است. این کار دسترسی به قابلیت‌های استدلالی را باز میکند که شرکت‌های غربی معمولا آن را برای قدرتمندترین سیستم‌ها و گران‌ترین سطوح خدمات خود نگه میدارند.

مدل‌های استدلال ترکیبی، به گفته علی‌بابا، میتوانند به شکل یکپارچه بین حالت «تفکر» برای کارهای پیچیده مثل کدنویسی و حالت «بدون تفکر» برای پاسخ‌های سریع و عمومی جابجا شوند. به گفته این شرکت: «ما به شکل یکپارچه حالت‌های تفکر و بدون تفکر را ادغام کرده‌ایم». این سیستم به شکل هوشمندانه بین استدلال عمومی با بازدهی بالا و استراتژی‌های تفکر عمیق و متمرکز برای حل مسائل پیچیده جابجا میشود. نتیجه این کار یک هوش مصنوعی هوشمندتر، سریع‌تر و انعطاف‌پذیرتر است که میتواند از نوشتن کد و تحلیل داده تا تهیه محتوای خلاقانه را با ظرافت چشمگیری انجام دهد.

در برخی از نسخه‌های منتخب، Qwen3 از رویکرد «ترکیبی از متخصصان» (MoE) نیز استفاده میکند که فقط مرتبط‌ترین مسیرهای عصبی را برای یک کار مشخص فعال میکند. این کار نه تنها بازدهی را افزایش میدهد، بلکه به مدل اجازه میدهد تا حجم کارهای بزرگتری را با کنترل هزینه‌های محاسباتی مدیریت کند.

استراتژی منبع-باز در برابر مدل‌های تجاری بسته غربی

در حالی که شرکت‌هایی مثل OpenAI، Anthropic و به طور فزاینده‌ای Google، به سمت سیستم‌های بسته و اختصاصی رفته‌اند، علی‌بابا مدل Qwen3 را تحت یک مجوز منبع-باز (Open-Source) در دسترس قرار داده است. این یک استراتژی با پیامدهای بالقوه گسترده برای شرکت‌های فناوری غربی و مدل‌های کسب‌وکار آنهاست.

مدل‌های علی‌بابا حالا در پلتفرم‌هایی مثل GitHub، Hugging Face و ModelScope خود علی‌بابا در دسترس هستند و در حال ادغام در سرویس‌های تحت وب این شرکت نیز هستند. این رویکرد نتایج قابل توجهی به همراه داشته است. به گفته علی‌بابا، اکوسیستم Qwen حالا از بیش از ۱۰۰ هزار مدل مشتق شده پشتیبانی میکند و با پیشی گرفتن از جامعه Llama شرکت متا، به چیزی تبدیل شده که آنها ادعا میکنند «بزرگترین اکوسیستم هوش مصنوعی منبع-باز جهان» است. طبق آمار این شرکت، سری Qwen بیش از ۳۰۰ میلیون بار دانلود شده است.

نیتن لمبرت، پژوهشگر موسسه Allen for AI مستقر در آمریکا، معتقد است که رویکرد علی‌بابا برای بازارهای غربی اهمیت استراتژیک دارد. او در خبرنامه ساب‌استک خود نوشت: «شرکت‌های چینی که مدل‌های خود را با وزن‌های باز (open-weight) منتشر میکنند، کار فوق‌العاده‌ای در اعمال قدرت نرم بر اکوسیستم هوش مصنوعی آمریکا انجام میدهند». او افزود که این استراتژی میتواند «مؤثرترین راه برای شرکت‌های چینی برای به دست آوردن سهم بازار در آمریکا» باشد.

برای توسعه‌دهندگان اروپایی و آمریکایی که از محدودیت‌های دسترسی به تواناترین سیستم‌های هوش مصنوعی ناامید شده‌اند، جایگزین‌های چینی که عملکردی قابل مقایسه با محدودیت‌های استفاده کمتر ارائه میدهند، میتوانند به شکل فزاینده‌ای جذاب شوند و به طور بالقوه استراتژی‌های درآمدزایی شرکت‌های غربی را مختل کنند. این حرکت شکاف بین APIهای اختصاصی و دسترسی منبع-باز را پر میکند و به جامعه پژوهشگران و توسعه‌دهندگان این امکان را میدهد تا مرزهای جدیدی در تحقیقات هوش مصنوعی کشف کنند.

عملکرد در بنچمارک‌ها: Qwen3 در برابر رقبا

این فقط یک ادعا نیست؛ اعداد و ارقام هم از این مدل پشتیبانی میکنند. بزرگترین مدل این خانواده، Qwen-3-235B-A22B، در بنچمارک‌های کلیدی کدنویسی و استدلال، مدل o3-mini از OpenAI و مدل Gemini 2.5 Pro از گوگل را شکست داده است، هرچند این نسخه هنوز به صورت عمومی در دسترس نیست. به طور مشخص، مدل ۲۳۵ میلیارد پارامتری Qwen3 در بنچمارک‌هایی که توانایی‌های آن را در ریاضیات و برنامه‌نویسی ارزیابی میکنند، از مدل‌های استدلال o1 و o3-mini شرکت OpenAI بهتر عمل کرده است. علاوه بر این، در چندین بنچمارک دیگر نیز عملکردی برابر با مدل‌های Gemini 2.5 Pro گوگل ارائه میدهد.

با این حال، برای حفظ بی‌طرفی باید گفت که این مدل از مدل جدیدتر OpenAI یعنی o4-mini (نسخه high) عقب‌تر است. برای مثال، در بنچمارک کدنویسی LiveCodeBench، امتیاز مدل ۲۳۵ میلیارد پارامتری Qwen3 پایین‌تر از o4-mini است.

این مدل‌ها به صورت محلی با استفاده از ابزارهایی مانند Ollama و LM Studio قابل پیاده‌سازی هستند و همچنین از طریق یک مرورگر وب با استفاده از Qwen Chat قابل دسترسی هستند.

واکنش سریع سیلیکون ولی

واکنش اکوسیستم فناوری آمریکا به خوبی نشان داد که دستاورد علی‌بابا چقدر جدی گرفته شده است. تنها چند ساعت پس از اعلام این خبر، ایلان ماسک در شبکه اجتماعی X اعلام کرد که استارتاپ هوش مصنوعی او، xAI، فوراً یک نسخه بتای اولیه از Grok 3.5 را برای مشترکین پریمیوم منتشر خواهد کرد. اعلامیه ماسک به شکل مستقیم ادعاهای فنی Qwen3 را هدف قرار داد و تاکید کرد که Grok 3.5 «اولین هوش مصنوعی است که میتواند، برای مثال، به سوالات فنی در مورد موتورهای موشک یا الکتروشیمی به درستی پاسخ دهد».

این واکنش سریع که در عرض چند ساعت به جای چرخه‌های توسعه چند ماهه معمول در تکرارهای قبلی هوش مصنوعی رخ داد، نشان میدهد که شرکت‌های آمریکایی حالا متوجه شده‌اند که برای مقابله با پیشرفت چین، به پاسخ‌های چابک‌تری نیاز دارند.

زنگ بیدارباش: توانایی‌های رو به رشد چین در هوش مصنوعی

برای ناظران غربی، داستان Qwen3 از ماه ژانویه شروع شد، زمانی که مدل R1 از شرکت DeepSeek بسیاری از تحلیلگران صنعت را شگفت‌زده کرد. آن عرضه، لحظه مهمی بود که بسیاری از инсайдерهای سیلیکون ولی حالا آن را تایید میکنند؛ یک مدل توسعه یافته توسط چین که با منابع بسیار کمتر، عملکردی مشابه یا برتر از رقبای آمریکایی خود ارائه داد.

یک گزارش از دانشگاه استنفورد که در همین ماه منتشر شد، این روند را تایید میکند: تحقیقات و توسعه هوش مصنوعی در چین، شکافی را که زمانی غیرقابل پر کردن به نظر میرسید، به شکل قابل توجهی کم کرده است. شواهد این موضوع در سرعت بی‌سابقه توسعه در چشم‌انداز فناوری چین قابل مشاهده است. شرکت‌های بزرگی مانند علی‌بابا، بایدو، بایت‌دنس و تنسنت همگی در سه‌ماهه گذشته مدل‌های پایه خود را منتشر کرده یا به شکل اساسی ارتقا داده‌اند.

تحلیلگران هوش مصنوعی به CNBC گفته‌اند که Qwen3 یک چالش جدی برای رقبای علی‌بابا در چین و همچنین رهبران صنعت در آمریکا محسوب میشود. وی سان، تحلیلگر ارشد هوش مصنوعی در Counterpoint Research، در بیانیه‌ای به CNBC گفت که سری Qwen3 «یک پیشرفت قابل توجه است، نه فقط به خاطر عملکرد برترش» بلکه به خاطر چندین ویژگی که «پتانسیل کاربردی مدل‌ها» را نشان میدهد. سان افزود که این ویژگی‌ها شامل حالت تفکر ترکیبی، پشتیبانی از ۱۱۹ زبان و گویش، و در دسترس بودن به صورت منبع-باز است.

سوال سرمایه‌گذاری برای بازارهای غربی

شاید چیزی که بیش از همه سرمایه‌گذاران و استراتژیست‌های فناوری غربی را نگران میکند، مقیاس منابعی است که از طرح‌های هوش مصنوعی علی‌بابا حمایت میکند. در اوایل سال جاری، این غول تجارت الکترونیک متعهد شد که بیش از ۵۲ میلیارد دلار آمریکا را طی سه سال به طور خاص برای زیرساخت‌های هوش مصنوعی سرمایه‌گذاری کند. این یک سرمایه‌گذاری قابل مقایسه با طرح‌های ملی بزرگ در بسیاری از کشورهای اروپایی است. چرخه انتشار فشرده، یعنی عرضه Qwen3 تنها سه ماه پس از Qwen2.5-Max، نشان‌دهنده اراده‌ای برای پیشی گرفتن از جدول زمانی توسعه سنتی در مسیر کسب رهبری هوش مصنوعی است.

یک اکوسیستم رو به رشد

موفقیت استراتژی منبع-باز علی‌بابا در اعداد مشخص است. این شرکت میگوید سری Qwen بیش از ۳۰۰ میلیون بار دانلود شده و بیش از ۱۰۰ هزار مدل مشتق شده بر روی پلتفرم Hugging Face ایجاد کرده است. با توجه به اینکه مدل R2 از DeepSeek در راه است و شرکت Baidu نیز در حال حرکت به سمت یک مدل کسب‌وکار منبع-باز است، نادیده گرفتن شتاب حرکت چین در حوزه هوش مصنوعی دشوار است.

ری وانگ، یک تحلیلگر مستقر در واشنگتن که بر رقابت اقتصادی و فناوری آمریکا و چین تمرکز دارد، میگوید: «انتشار سری Qwen 3 توسط علی‌بابا، توانایی‌های قوی آزمایشگاه‌های چینی را برای توسعه مدل‌های بسیار رقابتی، نوآورانه و منبع-باز، با وجود فشارهای فزاینده از سوی کنترل‌های صادراتی سخت‌گیرانه آمریکا، بیشتر نمایان میکند». وانگ معتقد است که با وجود این موفقیت‌ها، Qwen3 هنوز پشت سر پیشرفته‌ترین مدل‌های جهان مانند o3 و o4-mini از OpenAI قرار دارد. با این حال، او اضافه میکند: «در زمینه کلی رقابت هوش مصنوعی آمریکا و چین، شکاف بین آزمایشگاه‌های آمریکایی و چینی کم شده است، احتمالا به چند ماه، و برخی ممکن است بگویند حتی به چند هفته رسیده است. با آخرین عرضه Qwen 3 و عرضه قریب‌الوقوع R2 از DeepSeek، بعید است این شکاف بیشتر شود و حتی ممکن است به کاهش خود ادامه دهد».

ارتباط با Cerebras: یک توسعه جدید و مهم

داستان Qwen3 با عرضه اولیه آن تمام نمیشود. شرکت Cerebras Systems یک نسخه تطبیق‌یافته از مدل استدلال Qwen3-235B را بر روی پلتفرم استنتاج خود معرفی کرده است. این یک ارتقای قابل توجه است که در آن پنجره زمینه (context window) مدل به ۱۳۱ هزار توکن گسترش یافته است. این بهبود به مدل اجازه میدهد تا حجم زیادی از داده‌ها، از جمله ده‌ها فایل و ده‌ها هزار خط کد را به طور همزمان پردازش کند. این افزایش از پنجره زمینه ۳۲ هزار توکنی، Qwen3-235B را از یک ابزار محدود به یک پلتفرم عملیاتی برای شرکت‌ها تبدیل میکند.

Cerebras با استفاده از موتور مقیاس ویفر (Wafer Scale Engine) خود، مدل Qwen3-235B را شتاب میدهد و زمان پاسخ را به شدت کاهش میدهد، از یک یا دو دقیقه به تنها یک یا دو ثانیه. این افزایش سرعت، کاربردهای هوش مصنوعی در زمان واقعی، به ویژه در کدنویسی و جریان‌های کاری هوش مصنوعی عاملی (agentic) را بهبود میبخشد.

از نظر قیمت‌گذاری، Cerebras این مدل را با قیمت ۰.۶۰ دلار برای هر میلیون توکن ورودی و ۱.۲۰ دلار برای هر میلیون توکن خروجی ارائه میدهد. این قیمت به طور قابل توجهی ارزان‌تر از رقبایی مانند OpenAI است که قیمت‌گذاری آن برای مدل‌های استدلال مشابه به ۲ دلار برای هر میلیون توکن ورودی و ۸ دلار برای هر میلیون توکن خروجی میرسد. ارائه این قابلیت با هزینه‌ای حدود یک دهم مدل‌های مشابه میتواند بر پذیرش آن در محیط‌های توسعه و سازمانی تأثیر بگذارد.

همچنین، Cerebras در کنفرانس RAISE Summit در پاریس، همکاری‌های استراتژیک با شرکت‌هایی مانند DataRobot، Notion، Docker و Hugging Face را اعلام کرد تا اکوسیستم هوش مصنوعی خود را گسترش دهد و ابزارهای توسعه‌دهندگان را بهبود بخشد.

  • Docker: ادغام با Docker Compose به توسعه‌دهندگان اجازه میدهد تا پشته‌های هوش مصنوعی چندعاملی را به سرعت مستقر کنند.
  • DataRobot: چارچوب منبع-باز AI/ML Syftr اکنون بر روی Cerebras Inference اجرا میشود و به مشتریان برنامه‌های عاملی با تأخیر کم و کیفیت بالا ارائه میدهد.
  • Hugging Face: Cerebras کتابخانه SmolAgents را پشتیبانی میکند و به توسعه‌دهندگان در ساخت عامل‌هایی با قابلیت استدلال، استفاده از ابزار و اجرای کد کمک میکند.
  • Notion: این پلتفرم فضای کاری از فناوری استنتاج هوش مصنوعی Cerebras برای بهبود ویژگی Notion AI for Work خود استفاده میکند.

یک نگاه فنی‌تر: مدل‌های Embedding و Reranker

علاوه بر مدل‌های زبان بزرگ، علی‌بابا مدل‌های تخصصی‌تری را نیز در خانواده Qwen3 ارائه کرده است. مدل‌های Qwen3-Embedding و Qwen3-Reranker برای رسیدگی به محدودیت‌های سیستم‌های هوش مصنوعی فعلی در زمینه‌های چندزبانه و وظایف خاص طراحی شده‌اند. این مدل‌ها بر اساس یک معماری مبتنی بر ترنسفورمر متراکم با توجه علّی (causal attention) ساخته شده‌اند که به آنها اجازه میدهد با استخراج حالت‌های پنهان مربوط به توکن‌های خاص، embeddingهای با کیفیت بالا تولید کنند. این مدل‌ها از ۱۱۹ زبان پشتیبانی میکنند و جزو متنوع‌ترین گزینه‌های منبع-باز موجود هستند.

مدل‌های Qwen3-Embedding برای بازیابی معنایی، طبقه‌بندی، تولید افزوده با بازیابی (RAG)، تحلیل احساسات و جستجوی کد بهینه شده‌اند. این تطبیق‌پذیری از طریق یک خط لوله آموزشی پیچیده شامل نظارت ضعیف در مقیاس بزرگ و تنظیم دقیق نظارت شده به دست آمده است.

عملکرد این مدل‌ها در بنچمارک‌ها نیز تایید شده است. در بنچمارک MMTEB که شامل ۲۱۶ وظیفه در بیش از ۲۵۰ زبان است، مدل Qwen3-Embedding-8B به میانگین امتیاز ۷۰.۵۸ دست یافت و از مدل‌های پیشرو دیگری مانند Gemini و GTE-Qwen2 پیشی گرفت. به همین ترتیب، در بنچمارک MTEB-Code، این مدل با کسب امتیاز ۸۰.۶۸ درخشید که توانایی آن را در کاربردهایی مانند بازیابی کد و پرسش و پاسخ‌های Stack Overflow نشان میدهد.

این مدل‌ها تحت لیسانس آپاچی ۲.۰ در پلتفرم‌هایی مانند Hugging Face، GitHub و ModelScope منتشر شده‌اند. پلتفرم‌هایی مانند UBOS نیز در خط مقدم این تحول قرار دارند و راهکارهایی ارائه میدهند که هوش مصنوعی را برای کسب‌وکارها قابل دسترس و مقیاس‌پذیر میکنند. UBOS میتواند مدل‌هایی مانند Qwen3 را برای توسعه عامل‌های بازاریابی هوش مصنوعی و سایر برنامه‌های کاربردی مبتنی بر هوش مصنوعی ادغام و مستقر کند.

همزیستی رقابتی به جای جدایی فناوری؟

با وجود درخواست‌های روزافزون برای جدایی فناوری بین سیستم‌های غربی و چینی، ماهیت منبع-باز مدل‌هایی مانند Qwen3 یک پارادوکس جالب ایجاد میکند: کانال‌هایی برای انتقال دانش و پیشرفت متقابل با وجود تنش‌های استراتژیک گسترده‌تر و تفاوت در الزامات مالی، همچنان پابرجا هستند.

نیتن لمبرت میگوید: «همه ما میتوانیم از نظر فناوری از آنها بهره‌مند شویم». این جمله به یک همزیستی بالقوه اشاره دارد که در آن رقابت، نوآوری را به پیش میبرد، در حالی که پیاده‌سازی‌های باز، انتشار گسترده‌تر پیشرفت‌ها را تضمین میکند. برای کسب‌وکارها و توسعه‌دهندگان اروپایی و آمریکایی، رقابت بین شرق و غرب ممکن است ابزارهای هوش مصنوعی تواناتر و در دسترس‌تری را، صرف نظر از مبدا آنها، به ارمغان بیاورد؛ به شرطی که کانال‌های تبادل فناوری در میان رقابت‌های استراتژیک گسترده‌تر باز بمانند.

Qwen3 ثابت میکند که هوش مصنوعی پیشرفته دیگر فقط از سیلیکون ولی بیرون نمی‌آید و مرزهای نوآوری در حوزه منبع-باز ممکن است اکنون توسط چین رهبری شود. بازی جهانی هوش مصنوعی به تازگی رقابتی‌تر شده و علی‌بابا نه تنها در حال تلاش برای رسیدن به رقبا نیست، بلکه در حال بازنویسی قواعد بازی است.

منابع

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *