به نظر میرسید که سیلیکون ولی در دنیای هوش مصنوعی حرف اول و آخر را میزند، اما این پیشتازی با یک چالش جدی و جدید روبرو شده است. شرکت علیبابا با معرفی خانواده مدلهای هوش مصنوعی Qwen3، قابلیتهایی را به نمایش گذاشته که به نظر میرسد با بهترین مدلهای غربی برابری میکند یا حتی از آنها پیشی میگیرد. این اتفاق یک نقطه عطف در چشمانداز جهانی هوش مصنوعی به حساب میآید. تستهای بنچمارک نشان میدهند که این غول تجارت الکترونیک چینی، سیستمی ساخته که در چندین معیار کلیدی، عملکردی بهتر از مدل o1 شرکت OpenAI و مدل R1 شرکت DeepSeek دارد.
این تحول سوالات مهمی را برای رهبران فناوری و سرمایهگذاران غربی ایجاد میکند: آیا شکاف فناوری بین هوش مصنوعی آمریکا و چین سریعتر از چیزی که فکر میکردیم در حال بسته شدن است؟ و این موضوع چه معنایی برای آینده نوآوری و تسلط بر بازار هوش مصنوعی دارد؟ این ماجرا فقط یک بهروزرسانی فنی نیست، بلکه یک سیگنال واضح است که نشان میدهد رهبری جهانی هوش مصنوعی روز به روز غیرمتمرکزتر میشود.
یک معماری پیچیده از شرق
خانواده Qwen3 هشت مدل مختلف را معرفی میکند که از یک نسخه بهینه با ۶۰۰ میلیون پارامتر تا یک نسخه غولپیکر با ۲۳۵ میلیارد پارامتر را شامل میشود. چیزی که این عرضه را برای ناظران غربی خاص میکند، فقط مقیاس آن نیست، بلکه پیچیدگی پیادهسازی آن است. این سیستم روی ۳۶ تریلیون توکن داده که شامل ۱۱۹ زبان و گویش مختلف است آموزش دیده؛ یک رژیم آموزشی که با بسیاری از رقبای غربی خود رقابت میکند یا حتی از آنها فراتر میرود.
تیم Qwen در این باره گفته: «Qwen3 یک نقطه عطف مهم در سفر ما به سمت هوش عمومی مصنوعی و هوش ابرمصنوعی است». آنها تاکید کردند که تمرکزشان بیشتر روی بهبود روشهای پیشآموزشی بوده تا افزایش اندازه مدل. شاید نگرانکنندهترین بخش برای شرکتهای فناوری آمریکایی این باشد که علیبابا مدلهای کوچکتری در خانواده Qwen3 مهندسی کرده که عملکردی در سطح مدلهای بسیار بزرگتر دارند. نسخه ۶۰۰ میلیون پارامتری به طور بالقوه میتواند به شکل مستقیم روی گوشیهای هوشمند اجرا شود و این موضوع میتواند دسترسی به قابلیتهای پیشرفته هوش مصنوعی را در دستگاههای لبه (edge devices) دموکراتیزه کند؛ مرزی که بسیاری از شرکتهای غربی آن را از نظر استراتژیک مهم میدانند.
همچنین، شرکت چینی علیبابا مدل Qwen3 را در اندازههای متنوعی عرضه کرده است. این سری شامل نسخههایی با ۰.۶ میلیارد، ۱.۷ میلیارد، ۴ میلیارد، ۸ میلیارد، ۱۴ میلیارد و ۳۲ میلیارد پارامتر است. در کنار اینها، یک مدل ۲۳۵ میلیارد پارامتری با ۲۲ میلیارد پارامتر فعال و یک مدل ۳۰ میلیارد پارامتری با ۳ میلیارد پارامتر فعال نیز وجود دارد. این تنوع به توسعهدهندگان انعطافپذیری زیادی میدهد تا از Qwen برای ساخت برنامههای هوش مصنوعی برای دستگاههای مختلف، از جمله گوشیهای موبایل، استفاده کنند.
یک ویژگی خاص: استدلال دو حالته
یکی از ویژگیهای برجسته برای مخاطبان فنی، پیادهسازی چیزی است که علیبابا آن را «عملکرد استدلال ترکیبی» مینامد. این ویژگی به کاربران اجازه میدهد بین یک حالت «تفکر» فشرده برای مسائل فنی پیچیده و یک حالت «بدون تفکر» پاسخگوتر برای پرسوجوهای روزمره جابجا شوند. این رویکرد شباهتهایی به مدلهای سری «o» از OpenAI دارد که قابلیتهای استدلال مشابهی را نشان میدهند. با این حال، علیبابا این عملکرد را در کل خانواده مدلهای خود، از جمله کوچکترین نسخهها، پیادهسازی کرده است. این کار دسترسی به قابلیتهای استدلالی را باز میکند که شرکتهای غربی معمولا آن را برای قدرتمندترین سیستمها و گرانترین سطوح خدمات خود نگه میدارند.
مدلهای استدلال ترکیبی، به گفته علیبابا، میتوانند به شکل یکپارچه بین حالت «تفکر» برای کارهای پیچیده مثل کدنویسی و حالت «بدون تفکر» برای پاسخهای سریع و عمومی جابجا شوند. به گفته این شرکت: «ما به شکل یکپارچه حالتهای تفکر و بدون تفکر را ادغام کردهایم». این سیستم به شکل هوشمندانه بین استدلال عمومی با بازدهی بالا و استراتژیهای تفکر عمیق و متمرکز برای حل مسائل پیچیده جابجا میشود. نتیجه این کار یک هوش مصنوعی هوشمندتر، سریعتر و انعطافپذیرتر است که میتواند از نوشتن کد و تحلیل داده تا تهیه محتوای خلاقانه را با ظرافت چشمگیری انجام دهد.
در برخی از نسخههای منتخب، Qwen3 از رویکرد «ترکیبی از متخصصان» (MoE) نیز استفاده میکند که فقط مرتبطترین مسیرهای عصبی را برای یک کار مشخص فعال میکند. این کار نه تنها بازدهی را افزایش میدهد، بلکه به مدل اجازه میدهد تا حجم کارهای بزرگتری را با کنترل هزینههای محاسباتی مدیریت کند.
استراتژی منبع-باز در برابر مدلهای تجاری بسته غربی
در حالی که شرکتهایی مثل OpenAI، Anthropic و به طور فزایندهای Google، به سمت سیستمهای بسته و اختصاصی رفتهاند، علیبابا مدل Qwen3 را تحت یک مجوز منبع-باز (Open-Source) در دسترس قرار داده است. این یک استراتژی با پیامدهای بالقوه گسترده برای شرکتهای فناوری غربی و مدلهای کسبوکار آنهاست.
مدلهای علیبابا حالا در پلتفرمهایی مثل GitHub، Hugging Face و ModelScope خود علیبابا در دسترس هستند و در حال ادغام در سرویسهای تحت وب این شرکت نیز هستند. این رویکرد نتایج قابل توجهی به همراه داشته است. به گفته علیبابا، اکوسیستم Qwen حالا از بیش از ۱۰۰ هزار مدل مشتق شده پشتیبانی میکند و با پیشی گرفتن از جامعه Llama شرکت متا، به چیزی تبدیل شده که آنها ادعا میکنند «بزرگترین اکوسیستم هوش مصنوعی منبع-باز جهان» است. طبق آمار این شرکت، سری Qwen بیش از ۳۰۰ میلیون بار دانلود شده است.
نیتن لمبرت، پژوهشگر موسسه Allen for AI مستقر در آمریکا، معتقد است که رویکرد علیبابا برای بازارهای غربی اهمیت استراتژیک دارد. او در خبرنامه ساباستک خود نوشت: «شرکتهای چینی که مدلهای خود را با وزنهای باز (open-weight) منتشر میکنند، کار فوقالعادهای در اعمال قدرت نرم بر اکوسیستم هوش مصنوعی آمریکا انجام میدهند». او افزود که این استراتژی میتواند «مؤثرترین راه برای شرکتهای چینی برای به دست آوردن سهم بازار در آمریکا» باشد.
برای توسعهدهندگان اروپایی و آمریکایی که از محدودیتهای دسترسی به تواناترین سیستمهای هوش مصنوعی ناامید شدهاند، جایگزینهای چینی که عملکردی قابل مقایسه با محدودیتهای استفاده کمتر ارائه میدهند، میتوانند به شکل فزایندهای جذاب شوند و به طور بالقوه استراتژیهای درآمدزایی شرکتهای غربی را مختل کنند. این حرکت شکاف بین APIهای اختصاصی و دسترسی منبع-باز را پر میکند و به جامعه پژوهشگران و توسعهدهندگان این امکان را میدهد تا مرزهای جدیدی در تحقیقات هوش مصنوعی کشف کنند.
عملکرد در بنچمارکها: Qwen3 در برابر رقبا
این فقط یک ادعا نیست؛ اعداد و ارقام هم از این مدل پشتیبانی میکنند. بزرگترین مدل این خانواده، Qwen-3-235B-A22B، در بنچمارکهای کلیدی کدنویسی و استدلال، مدل o3-mini از OpenAI و مدل Gemini 2.5 Pro از گوگل را شکست داده است، هرچند این نسخه هنوز به صورت عمومی در دسترس نیست. به طور مشخص، مدل ۲۳۵ میلیارد پارامتری Qwen3 در بنچمارکهایی که تواناییهای آن را در ریاضیات و برنامهنویسی ارزیابی میکنند، از مدلهای استدلال o1 و o3-mini شرکت OpenAI بهتر عمل کرده است. علاوه بر این، در چندین بنچمارک دیگر نیز عملکردی برابر با مدلهای Gemini 2.5 Pro گوگل ارائه میدهد.
با این حال، برای حفظ بیطرفی باید گفت که این مدل از مدل جدیدتر OpenAI یعنی o4-mini (نسخه high) عقبتر است. برای مثال، در بنچمارک کدنویسی LiveCodeBench، امتیاز مدل ۲۳۵ میلیارد پارامتری Qwen3 پایینتر از o4-mini است.
این مدلها به صورت محلی با استفاده از ابزارهایی مانند Ollama و LM Studio قابل پیادهسازی هستند و همچنین از طریق یک مرورگر وب با استفاده از Qwen Chat قابل دسترسی هستند.
واکنش سریع سیلیکون ولی
واکنش اکوسیستم فناوری آمریکا به خوبی نشان داد که دستاورد علیبابا چقدر جدی گرفته شده است. تنها چند ساعت پس از اعلام این خبر، ایلان ماسک در شبکه اجتماعی X اعلام کرد که استارتاپ هوش مصنوعی او، xAI، فوراً یک نسخه بتای اولیه از Grok 3.5 را برای مشترکین پریمیوم منتشر خواهد کرد. اعلامیه ماسک به شکل مستقیم ادعاهای فنی Qwen3 را هدف قرار داد و تاکید کرد که Grok 3.5 «اولین هوش مصنوعی است که میتواند، برای مثال، به سوالات فنی در مورد موتورهای موشک یا الکتروشیمی به درستی پاسخ دهد».
این واکنش سریع که در عرض چند ساعت به جای چرخههای توسعه چند ماهه معمول در تکرارهای قبلی هوش مصنوعی رخ داد، نشان میدهد که شرکتهای آمریکایی حالا متوجه شدهاند که برای مقابله با پیشرفت چین، به پاسخهای چابکتری نیاز دارند.
زنگ بیدارباش: تواناییهای رو به رشد چین در هوش مصنوعی
برای ناظران غربی، داستان Qwen3 از ماه ژانویه شروع شد، زمانی که مدل R1 از شرکت DeepSeek بسیاری از تحلیلگران صنعت را شگفتزده کرد. آن عرضه، لحظه مهمی بود که بسیاری از инсайдерهای سیلیکون ولی حالا آن را تایید میکنند؛ یک مدل توسعه یافته توسط چین که با منابع بسیار کمتر، عملکردی مشابه یا برتر از رقبای آمریکایی خود ارائه داد.
یک گزارش از دانشگاه استنفورد که در همین ماه منتشر شد، این روند را تایید میکند: تحقیقات و توسعه هوش مصنوعی در چین، شکافی را که زمانی غیرقابل پر کردن به نظر میرسید، به شکل قابل توجهی کم کرده است. شواهد این موضوع در سرعت بیسابقه توسعه در چشمانداز فناوری چین قابل مشاهده است. شرکتهای بزرگی مانند علیبابا، بایدو، بایتدنس و تنسنت همگی در سهماهه گذشته مدلهای پایه خود را منتشر کرده یا به شکل اساسی ارتقا دادهاند.
تحلیلگران هوش مصنوعی به CNBC گفتهاند که Qwen3 یک چالش جدی برای رقبای علیبابا در چین و همچنین رهبران صنعت در آمریکا محسوب میشود. وی سان، تحلیلگر ارشد هوش مصنوعی در Counterpoint Research، در بیانیهای به CNBC گفت که سری Qwen3 «یک پیشرفت قابل توجه است، نه فقط به خاطر عملکرد برترش» بلکه به خاطر چندین ویژگی که «پتانسیل کاربردی مدلها» را نشان میدهد. سان افزود که این ویژگیها شامل حالت تفکر ترکیبی، پشتیبانی از ۱۱۹ زبان و گویش، و در دسترس بودن به صورت منبع-باز است.
سوال سرمایهگذاری برای بازارهای غربی
شاید چیزی که بیش از همه سرمایهگذاران و استراتژیستهای فناوری غربی را نگران میکند، مقیاس منابعی است که از طرحهای هوش مصنوعی علیبابا حمایت میکند. در اوایل سال جاری، این غول تجارت الکترونیک متعهد شد که بیش از ۵۲ میلیارد دلار آمریکا را طی سه سال به طور خاص برای زیرساختهای هوش مصنوعی سرمایهگذاری کند. این یک سرمایهگذاری قابل مقایسه با طرحهای ملی بزرگ در بسیاری از کشورهای اروپایی است. چرخه انتشار فشرده، یعنی عرضه Qwen3 تنها سه ماه پس از Qwen2.5-Max، نشاندهنده ارادهای برای پیشی گرفتن از جدول زمانی توسعه سنتی در مسیر کسب رهبری هوش مصنوعی است.
یک اکوسیستم رو به رشد
موفقیت استراتژی منبع-باز علیبابا در اعداد مشخص است. این شرکت میگوید سری Qwen بیش از ۳۰۰ میلیون بار دانلود شده و بیش از ۱۰۰ هزار مدل مشتق شده بر روی پلتفرم Hugging Face ایجاد کرده است. با توجه به اینکه مدل R2 از DeepSeek در راه است و شرکت Baidu نیز در حال حرکت به سمت یک مدل کسبوکار منبع-باز است، نادیده گرفتن شتاب حرکت چین در حوزه هوش مصنوعی دشوار است.
ری وانگ، یک تحلیلگر مستقر در واشنگتن که بر رقابت اقتصادی و فناوری آمریکا و چین تمرکز دارد، میگوید: «انتشار سری Qwen 3 توسط علیبابا، تواناییهای قوی آزمایشگاههای چینی را برای توسعه مدلهای بسیار رقابتی، نوآورانه و منبع-باز، با وجود فشارهای فزاینده از سوی کنترلهای صادراتی سختگیرانه آمریکا، بیشتر نمایان میکند». وانگ معتقد است که با وجود این موفقیتها، Qwen3 هنوز پشت سر پیشرفتهترین مدلهای جهان مانند o3 و o4-mini از OpenAI قرار دارد. با این حال، او اضافه میکند: «در زمینه کلی رقابت هوش مصنوعی آمریکا و چین، شکاف بین آزمایشگاههای آمریکایی و چینی کم شده است، احتمالا به چند ماه، و برخی ممکن است بگویند حتی به چند هفته رسیده است. با آخرین عرضه Qwen 3 و عرضه قریبالوقوع R2 از DeepSeek، بعید است این شکاف بیشتر شود و حتی ممکن است به کاهش خود ادامه دهد».
ارتباط با Cerebras: یک توسعه جدید و مهم
داستان Qwen3 با عرضه اولیه آن تمام نمیشود. شرکت Cerebras Systems یک نسخه تطبیقیافته از مدل استدلال Qwen3-235B را بر روی پلتفرم استنتاج خود معرفی کرده است. این یک ارتقای قابل توجه است که در آن پنجره زمینه (context window) مدل به ۱۳۱ هزار توکن گسترش یافته است. این بهبود به مدل اجازه میدهد تا حجم زیادی از دادهها، از جمله دهها فایل و دهها هزار خط کد را به طور همزمان پردازش کند. این افزایش از پنجره زمینه ۳۲ هزار توکنی، Qwen3-235B را از یک ابزار محدود به یک پلتفرم عملیاتی برای شرکتها تبدیل میکند.
Cerebras با استفاده از موتور مقیاس ویفر (Wafer Scale Engine) خود، مدل Qwen3-235B را شتاب میدهد و زمان پاسخ را به شدت کاهش میدهد، از یک یا دو دقیقه به تنها یک یا دو ثانیه. این افزایش سرعت، کاربردهای هوش مصنوعی در زمان واقعی، به ویژه در کدنویسی و جریانهای کاری هوش مصنوعی عاملی (agentic) را بهبود میبخشد.
از نظر قیمتگذاری، Cerebras این مدل را با قیمت ۰.۶۰ دلار برای هر میلیون توکن ورودی و ۱.۲۰ دلار برای هر میلیون توکن خروجی ارائه میدهد. این قیمت به طور قابل توجهی ارزانتر از رقبایی مانند OpenAI است که قیمتگذاری آن برای مدلهای استدلال مشابه به ۲ دلار برای هر میلیون توکن ورودی و ۸ دلار برای هر میلیون توکن خروجی میرسد. ارائه این قابلیت با هزینهای حدود یک دهم مدلهای مشابه میتواند بر پذیرش آن در محیطهای توسعه و سازمانی تأثیر بگذارد.
همچنین، Cerebras در کنفرانس RAISE Summit در پاریس، همکاریهای استراتژیک با شرکتهایی مانند DataRobot، Notion، Docker و Hugging Face را اعلام کرد تا اکوسیستم هوش مصنوعی خود را گسترش دهد و ابزارهای توسعهدهندگان را بهبود بخشد.
- Docker: ادغام با Docker Compose به توسعهدهندگان اجازه میدهد تا پشتههای هوش مصنوعی چندعاملی را به سرعت مستقر کنند.
- DataRobot: چارچوب منبع-باز AI/ML Syftr اکنون بر روی Cerebras Inference اجرا میشود و به مشتریان برنامههای عاملی با تأخیر کم و کیفیت بالا ارائه میدهد.
- Hugging Face: Cerebras کتابخانه SmolAgents را پشتیبانی میکند و به توسعهدهندگان در ساخت عاملهایی با قابلیت استدلال، استفاده از ابزار و اجرای کد کمک میکند.
- Notion: این پلتفرم فضای کاری از فناوری استنتاج هوش مصنوعی Cerebras برای بهبود ویژگی Notion AI for Work خود استفاده میکند.
یک نگاه فنیتر: مدلهای Embedding و Reranker
علاوه بر مدلهای زبان بزرگ، علیبابا مدلهای تخصصیتری را نیز در خانواده Qwen3 ارائه کرده است. مدلهای Qwen3-Embedding و Qwen3-Reranker برای رسیدگی به محدودیتهای سیستمهای هوش مصنوعی فعلی در زمینههای چندزبانه و وظایف خاص طراحی شدهاند. این مدلها بر اساس یک معماری مبتنی بر ترنسفورمر متراکم با توجه علّی (causal attention) ساخته شدهاند که به آنها اجازه میدهد با استخراج حالتهای پنهان مربوط به توکنهای خاص، embeddingهای با کیفیت بالا تولید کنند. این مدلها از ۱۱۹ زبان پشتیبانی میکنند و جزو متنوعترین گزینههای منبع-باز موجود هستند.
مدلهای Qwen3-Embedding برای بازیابی معنایی، طبقهبندی، تولید افزوده با بازیابی (RAG)، تحلیل احساسات و جستجوی کد بهینه شدهاند. این تطبیقپذیری از طریق یک خط لوله آموزشی پیچیده شامل نظارت ضعیف در مقیاس بزرگ و تنظیم دقیق نظارت شده به دست آمده است.
عملکرد این مدلها در بنچمارکها نیز تایید شده است. در بنچمارک MMTEB که شامل ۲۱۶ وظیفه در بیش از ۲۵۰ زبان است، مدل Qwen3-Embedding-8B به میانگین امتیاز ۷۰.۵۸ دست یافت و از مدلهای پیشرو دیگری مانند Gemini و GTE-Qwen2 پیشی گرفت. به همین ترتیب، در بنچمارک MTEB-Code، این مدل با کسب امتیاز ۸۰.۶۸ درخشید که توانایی آن را در کاربردهایی مانند بازیابی کد و پرسش و پاسخهای Stack Overflow نشان میدهد.
این مدلها تحت لیسانس آپاچی ۲.۰ در پلتفرمهایی مانند Hugging Face، GitHub و ModelScope منتشر شدهاند. پلتفرمهایی مانند UBOS نیز در خط مقدم این تحول قرار دارند و راهکارهایی ارائه میدهند که هوش مصنوعی را برای کسبوکارها قابل دسترس و مقیاسپذیر میکنند. UBOS میتواند مدلهایی مانند Qwen3 را برای توسعه عاملهای بازاریابی هوش مصنوعی و سایر برنامههای کاربردی مبتنی بر هوش مصنوعی ادغام و مستقر کند.
همزیستی رقابتی به جای جدایی فناوری؟
با وجود درخواستهای روزافزون برای جدایی فناوری بین سیستمهای غربی و چینی، ماهیت منبع-باز مدلهایی مانند Qwen3 یک پارادوکس جالب ایجاد میکند: کانالهایی برای انتقال دانش و پیشرفت متقابل با وجود تنشهای استراتژیک گستردهتر و تفاوت در الزامات مالی، همچنان پابرجا هستند.
نیتن لمبرت میگوید: «همه ما میتوانیم از نظر فناوری از آنها بهرهمند شویم». این جمله به یک همزیستی بالقوه اشاره دارد که در آن رقابت، نوآوری را به پیش میبرد، در حالی که پیادهسازیهای باز، انتشار گستردهتر پیشرفتها را تضمین میکند. برای کسبوکارها و توسعهدهندگان اروپایی و آمریکایی، رقابت بین شرق و غرب ممکن است ابزارهای هوش مصنوعی تواناتر و در دسترستری را، صرف نظر از مبدا آنها، به ارمغان بیاورد؛ به شرطی که کانالهای تبادل فناوری در میان رقابتهای استراتژیک گستردهتر باز بمانند.
Qwen3 ثابت میکند که هوش مصنوعی پیشرفته دیگر فقط از سیلیکون ولی بیرون نمیآید و مرزهای نوآوری در حوزه منبع-باز ممکن است اکنون توسط چین رهبری شود. بازی جهانی هوش مصنوعی به تازگی رقابتیتر شده و علیبابا نه تنها در حال تلاش برای رسیدن به رقبا نیست، بلکه در حال بازنویسی قواعد بازی است.
منابع
- Alibaba’s Qwen3 AI rattles Musk to beta xAI version
- https://www.scmp.com/tech/big-tech/article/3308571/alibabas-qwen3-ai-model-family-helps-narrow-tech-gap-between-china-and-us-analysts
- https://www.youtube.com/watch?v=wxAOuGzIsSk
- Forget ChatGPT? Alibaba’s Qwen3 Might Be the New AI King | DailyAI
- Alibaba’s Qwen3 Redefines the AI Race: Outpaces Rivals in Open Benchmarks – regulatingai.org
- Alibaba’s Qwen3 Outperforms OpenAI’s o1 and o3-mini, on Par With Gemini 2.5 Pro | by Sarayavalasaravikiran | AI Simplified in Plain English | Medium
- Alibaba’s Qwen3: A New Era in AI Reasoning Begins | The AI Ledger
- Alibaba’s Qwen3 Models: Redefining Multilingual Embedding and Ranking Standards – UBOS
- Alibaba Qwen3 AI series — China’s latest open-source AI breakthrough
- Cerebras Expands Alibaba’s Qwen3-235B Model and Forms Strategic AI Partnerships with Notion, DataRobot, Docker
دیدگاهتان را بنویسید