در دنیای هوش مصنوعی که به سرعت در حال پیشرفته، هر روز شاهد معرفی مدلهای جدید و توانمندتری هستیم. یکی از این مدلها که در منابع مختلفی به اون اشاره شده، خانواده مدلهای زبان بزرگ (LLM) به اسم Qwen هست که توسط علیبابا کلود توسعه داده شده. این مدلها در نسخهها و اندازههای مختلفی عرضه شدن تا نیازهای متنوع توسعهدهندهها و شرکتها رو پوشش بدن. در این مقاله، قراره به صورت دقیق و با جزییات کامل، به بررسی اطلاعات منتشر شده در مورد جدیدترین نسخه این خانواده، یعنی Qwen2.5، و مدلهای زیرمجموعه اون بپردازیم. از رویداد معرفی گرفته تا مشخصات فنی، عملکرد در بنچمارکها، و نحوه دسترسی و استفاده از اونها، همه و همه مواردی هستن که به صورت بیطرفانه و بر اساس متون ارائه شده، مورد بررسی قرار میگیرن. هدف اینه که یک تصویر کامل و جامع از اونچه در مورد این مدلها گفته شده، ارائه بشه.
رویداد Apsara و معرفی رسمی Qwen2.5
بر اساس اطلاعات منتشر شده، علیبابا کلود در رویداد سالانه خودش به اسم Apsara که در شهر هانگژو برگزار شد، از جدیدترین مدل زبان بزرگ خودش یعنی Qwen2.5 رونمایی کرد. این رویداد در تاریخ پنجشنبه ۱۹ سپتامبر ۲۰۲۴ اتفاق افتاد. در معرفی این مدل جدید، گفته شده که دانش اون به طور قابل توجهی بیشتر شده و تواناییهاش در زمینه کدنویسی و ریاضیات بهبود زیادی پیدا کرده. علاوه بر این، در زمینههایی مثل دنبال کردن دستورالعملها، تولید متنهای طولانی، درک دادههای ساختاریافته و تولید خروجیهای ساختاریافته هم بهتر عمل میکنه.
جینگرن ژو، مدیر ارشد فناوری علیبابا کلود اینتلیجنس، در این رویداد اعلام کرد که این ابتکار قراره به توسعهدهندهها و شرکتها در هر اندازهای قدرت بده تا توانایی خودشون رو در استفاده از فناوریهای هوش مصنوعی افزایش بدن و رشد جامعه متنباز رو بیشتر تحریک کنن.
رویداد Apsara که در هانگژو برگزار شد، یک برنامه سه روزه بود که از ۱۹ تا ۲۱ سپتامبر ادامه داشت. در این رویداد، حدود ۴۰۰ فروم با ۳۴۲ ساعت محتوا در مورد هوش مصنوعی، فناوریهای محاسبات ابری و شیوههای صنعتی ارائه شد. این حجم از محتوا نشوندهنده تمرکز ویژه این رویداد بر فناوریهای نوین و کاربردهای اونهاست.
ادی وو، رئیس و مدیرعامل علیبابا کلود اینتلیجنس، در سخنرانی افتتاحیه این کنفرانس گفت: «در طول سال گذشته، توسعه هوش مصنوعی مولد در سراسر جهان به سرعت شتاب گرفته. هر بازاری به طور فعال در حال بررسی کاربردهای عملی مدلهای بزرگ است.» این گفته نشوندهنده اهمیت روزافزون هوش مصنوعی مولد در صنایع مختلفه. همچنین در یک نظرسنجی جهانی اخیر مککینزی در مورد هوش مصنوعی، مشخص شده که استفاده از این فناوری افزایش چشمگیری داشته. بر اساس این نظرسنجی، ۶۵ درصد از سازمانها حالا به طور منظم از هوش مصنوعی مولد استفاده میکنن که این رقم تقریبا دو برابر آمار سال قبله.
سرمایهگذاری و زیرساختها
در کنار معرفی مدلهای جدید، به موضوع سرمایهگذاری و توسعه زیرساختها هم پرداخته شده. ادی وو اشاره کرده که آستانه ساخت مدلهای پیشرفته جهانی و رقابتی موندن، به میلیاردها یا حتی دهها میلیارد دلار آمریکا خواهد رسید. این موضوع نشوندهنده هزینههای بالای تحقیق و توسعه در این حوزه است. او اضافه کرد: «مسیر هوش مصنوعی برای داشتن تواناییهای خلاقانه و کمک به انسانها برای حل مشکلات پیچیده، روشنه و این موضوع پتانسیل کاربرد گسترده هوش مصنوعی رو در صنایع و سناریوهای مختلف باز میکنه.»
علیبابا کلود همچنین اعلام کرد که در حال سرمایهگذاری با شدت بیسابقهای در تحقیق و توسعه فناوری هوش مصنوعی و ساخت زیرساخت جهانی خودشه. هدف از این سرمایهگذاری، ایجاد یک زیرساخت هوش مصنوعی برای آینده است تا به مشتریان جهانی خدمترسانی کنه و پتانسیل کسبوکار اونها رو آزاد کنه.
برای تقویت خدمات خودش، علیبابا کلود از ارتقای قابل توجهی در خدمات زیرساخت هوش مصنوعی خودش خبر داد. این ارتقاها بر پیشرفت در معماری مراکز داده، مدیریت دادهها، و آموزش و استنتاج مدل تمرکز داره. این بهبودها با هدف بهینهسازی بهرهوری عملیاتی و کاهش زمان استقرار و در عین حال به حداکثر رسوندن استفاده از دادهها برای کاربردهای هوش مصنوعی مولد طراحی شدن. علاوه بر این، بهروزرسانیها بر بهینهسازی مدیریت منابع و حاکمیت تاکید دارن تا سازمانها بتونن به طور موثر از دادهها و قدرت محاسباتی خودشون استفاده کنن. به طور کلی، زیرساخت ارتقا یافته، یک پلتفرم قوی برای توسعه برنامههای هوش مصنوعی کارآمد، پایدار و فراگیر فراهم میکنه.
خانواده مدلهای Tongyi و جامعه متنباز
علیبابا کلود در حال پیشبرد خانواده مدلهای بزرگ خودش به اسم Tongyi با یک مدل جدید تبدیل متن به ویدیو و یک مدل زبان بصری بزرگ پیشرفته است. این بخشی از تلاشهای این شرکت برای گسترش تواناییهای چندوجهی مدلهاشه.
در زمینه متنباز بودن، مدل Qwen2.5 بیش از ۱۰۰ مدل مختلف رو ارائه میده. این مجموعه شامل مدلهای پایه، مدلهای دستورالعملمحور (instruct) و مدلهای کوانتیزهشده (quantized) با سطوح دقت و روشهای مختلف در چندین حالت، از جمله زبان، صدا، تصویر و مدلهای تخصصی کد و ریاضیات میشه.
از زمان معرفی مدلهای Qwen در آوریل ۲۰۲۳، این مدلها بیش از ۴۰ میلیون بار در پلتفرمهای متنباز مثل Hugging Face و ModelScope دانلود شدن. این استقبال همچنین الهامبخش ساخت بیش از ۵۰,۰۰۰ مدل دیگه بر اساس Qwen بوده که نشوندهنده تاثیرگذاری اون در جامعه متنباز هست. علیبابا کلود در طول سالهای گذشته بیش از ۲۰۰ مدل هوش مصنوعی مولد رو به صورت متنباز منتشر کرده.
مدل Qwen-max: عملکرد و رقابت
در روز اول رویداد Apsara، علیبابا کلود از یک مدل ارتقا یافته به اسم Qwen-max هم رونمایی کرد. گفته شده که عملکرد این مدل در زمینههای درک زبان، استدلال و کدنویسی با سایر مدلهای پیشرفته روز برابری میکنه. در گزارش فنی Qwen2.5 که در پلتفرم arXiv منتشر شده هم به این مدل اشاره شده و عملکرد اون در کنار مدلهای دیگهای مثل DeepSeek V3، GPT-4o و Claude-3.5-Sonnet مقایسه شده. در ادامه به جزییات این مقایسهها بیشتر پرداخته میشه.
گسترش قابلیتهای چندوجهی (Multimodal)
علاوه بر مدلهای زبانی، علیبابا کلود در حال گسترش مرزهای قابلیتهای چندوجهی با معرفی یک مدل جدید تبدیل متن به ویدیو، بهبود مدل زبان بصری و معرفی برنامه AI Developer هست.
مدل تبدیل متن به ویدیو
این شرکت یک مدل نوآورانه تبدیل متن به ویدیو رو به عنوان بخشی از خانواده مدلهای بزرگ Wanxiang معرفی کرده. این مدل میتونه ویدیوهایی با کیفیت بالا در سبکهای بصری مختلف تولید کنه و تصاویر ثابت رو به محتوای پویا تبدیل کنه. این فرآیند با استفاده از دستورات متنی به دو زبان چینی و انگلیسی انجام میشه.
بهبود مدل زبان بصری Qwen2-VL
بهبودهایی هم برای مدل زبان بصری علیبابا کلود، یعنی Qwen2-VL، اعلام شده. این مدل حالا میتونه ویدیوهایی با مدت زمان بیش از ۲۰ دقیقه رو درک کنه و از پرسش و پاسخ مبتنی بر ویدیو پشتیبانی میکنه. طراحی این مدل به گونهای هست که برای یکپارچهسازی راحت در دستگاههای تلفن همراه، خودروها و رباتیک مناسب باشه و عملیاتهای خودکار مختلف رو تسهیل کنه.
یک مقاله در وبسایت “Starter AI” هم به این مدل اشاره کرده و اون رو یک مدل بصری قدرتمند توصیف کرده که میتونه ویدیوهایی با مدت زمان طولانی رو تجزیه و تحلیل کنه و به سوالات مربوط به محتوای اونها پاسخ بده. این مدل از زبانهای مختلفی از جمله انگلیسی، چینی و ویتنامی پشتیبانی میکنه و نتایج بنچمارک اون با مدلهای پیشرویی مثل Llama 3.1 و GPT-4 قابل مقایسه است.
معرفی AI Developer
در زمینه توسعه نرمافزار، علیبابا کلود یک دستیار به اسم AI Developer رو معرفی کرده که مبتنی بر مدل Qwen هست. این دستیار میتونه وظایفی مثل تحلیل نیازمندیها، کدنویسی و اشکالزدایی رو خودکار کنه و به توسعهدهندهها اجازه بده تا روی مسئولیتهای اصلی و توسعه مهارتهای خودشون تمرکز کنن.
بررسی تخصصی مدل Qwen2.5-Omni-7B
یکی از مدلهای خاصی که در این خانواده معرفی شده، Qwen2.5-Omni-7B هست. این مدل به عنوان یک مدل چندوجهی یکپارچه و سرتاسری (end-to-end) در سری Qwen توصیف شده. این مدل در هفته اول انتشارش در جامعه متنباز Hugging Face، با بیش از ۸۰,۰۰۰ دانلود در صدر لیست مدلهای هوش مصنوعی این پلتفرم قرار گرفت. این خبر در مقالهای به تاریخ ۲۷ مارس ۲۰۲۵ توسط کریستال لیو منتشر شده و در تاریخ ۵ آوریل بهروزرسانی شده تا صدرنشینی در لیست Hugging Face رو شامل بشه.
قابلیتهای اصلی Qwen2.5-Omni-7B
این مدل به طور منحصربهفردی برای درک جامع چندوجهی طراحی شده. این یعنی میتونه ورودیهای متنوعی از جمله متن، تصویر، صدا و ویدیو رو پردازش کنه و به طور همزمان پاسخهای متنی و گفتاری طبیعی رو به صورت لحظهای (real-time) تولید کنه. این ویژگی یک استاندارد جدید برای هوش مصنوعی چندوجهی قابل پیادهسازی روی دستگاههای لبه (edge devices) مثل تلفنهای همراه و لپتاپها تعیین میکنه.
با وجود اینکه این مدل طراحی فشردهای با ۷ میلیارد پارامتر داره، عملکرد بدون افت و قابلیتهای چندوجهی قدرتمندی رو ارائه میده. این ترکیب منحصربهفرد، اون رو به یک پایه مناسب برای توسعه عاملهای هوش مصنوعی چابک و مقرونبهصرفه تبدیل میکنه که ارزش ملموسی رو به خصوص در برنامههای صوتی هوشمند ارائه میدن. به عنوان مثال، از این مدل میشه برای کمک به کاربران کمبینا برای مسیریابی در محیطها از طریق توضیحات صوتی لحظهای، ارائه راهنمایی گام به گام آشپزی با تحلیل مواد اولیه از روی ویدیو، یا قدرت بخشیدن به گفتگوهای خدمات مشتری هوشمند که نیازهای مشتریان رو واقعا درک میکنن، استفاده کرد.
این مدل در حال حاضر به صورت متنباز در Hugging Face و GitHub در دسترسه و همچنین از طریق Qwen Chat و جامعه متنباز علیبابا کلود یعنی ModelScope هم میشه به اون دسترسی داشت.
معماری نوآورانه و عملکرد بالا
گفته شده که Qwen2.5-Omni-7B عملکرد قابل توجهی در تمام حالتها (modalities) داره و با مدلهای تخصصی تکحالته با اندازه مشابه رقابت میکنه. به طور خاص، این مدل یک معیار جدید در تعامل صوتی لحظهای، تولید گفتار طبیعی و قوی، و دنبال کردن دستورالعملهای گفتاری سرتاسری تعیین کرده.
کارایی و عملکرد بالای اون ناشی از معماری نوآورانهاش هست که شامل موارد زیر میشه:
- معماری متفکر-سخنگو (Thinker-Talker Architecture): این معماری، تولید متن (از طریق متفکر) و سنتز گفتار (از طریق سخنگو) رو از هم جدا میکنه تا تداخل بین حالتهای مختلف رو به حداقل برسونه و خروجی با کیفیت بالایی ارائه بده.
- TMRoPE (Time-aligned Multimodal RoPE): یک تکنیک جایگذاری موقعیتی (position embedding) برای هماهنگی بهتر ورودیهای ویدیویی با صدا جهت تولید محتوای منسجم.
- پردازش جریانی بلوکی (Block-wise Streaming Processing): این ویژگی پاسخهای صوتی با تاخیر کم رو برای تعاملات صوتی یکپارچه امکانپذیر میکنه.
مجموعه داده و عملکرد در بنچمارکها
مدل Qwen2.5-Omni-7B روی یک مجموعه داده عظیم و متنوع پیشآموزش دیده. این مجموعه داده شامل جفتهای تصویر-متن، ویدیو-متن، ویدیو-صدا، صدا-متن و دادههای متنی میشه که عملکرد قوی اون رو در وظایف مختلف تضمین میکنه.
با توجه به معماری نوآورانه و مجموعه داده پیشآموزش با کیفیت، این مدل در دنبال کردن دستورات صوتی برتری داره و به سطوح عملکردی قابل مقایسه با ورودی متنی خالص میرسه. برای وظایفی که نیاز به ادغام چندین حالت دارن، مثل وظایف ارزیابی شده در OmniBench (که توانایی مدلها رو در شناسایی، تفسیر و استدلال در ورودیهای بصری، صوتی و متنی ارزیابی میکنه)، Qwen2.5-Omni به عملکرد پیشرفتهای دست پیدا کرده.
این مدل همچنین تواناییهای بالایی در درک و تولید گفتار قوی از طریق یادگیری درونمتنی (In-context Learning) نشون میده. علاوه بر این، پس از بهینهسازی با یادگیری تقویتی (RL)، پایداری تولید در این مدل به طور قابل توجهی بهبود یافته و کاهش چشمگیری در ناهماهنگی توجه، خطاهای تلفظی و مکثهای نامناسب در طول پاسخ گفتاری داشته.
بررسی تخصصی مدل Qwen2.5-VL
خانواده Qwen2.5 شامل مدلهای قدرتمند دیگهای هم در زمینه پردازش بصری میشه. Qwen2.5-VL یک سری از مدلهای زبان بصری چندوجهی هست که توسط تیم Qwen در علیبابا کلود توسعه داده شده. این مدلها برای درک و پردازش انواع دادههای بصری و متنی طراحی شدن.
نسخهها و بهبودهای Qwen2.5-VL
بر اساس گزارشها، تیم Qwen پس از دریافت بازخوردهای ارزشمند از توسعهدهندگانی که بر روی مدلهای Qwen2-VL کار کرده بودن، روی ساخت مدلهای زبان بصری مفیدتر تمرکز کردن و نتیجه اون معرفی Qwen2.5-VL بود. این مدل در سه اندازه ۳، ۷ و ۷۲ میلیارد پارامتر عرضه شده.
بهبودهای کلیدی این سری شامل موارد زیر هست:
- قابلیتهای قدرتمند تجزیه اسناد (Document Parsing): تشخیص متن به تجزیه جامع اسناد ارتقا پیدا کرده و در پردازش اسناد چند صحنهای، چند زبانه و انواع مختلف محتوای داخلی (دستخط، جدول، نمودار، فرمولهای شیمیایی و نتهای موسیقی) برتری داره.
- مکانیابی دقیق اشیا در فرمتهای مختلف: دقت در تشخیص، اشاره و شمارش اشیا بهبود یافته و از فرمتهای مختصات مطلق و JSON برای استدلال فضایی پیشرفته پشتیبانی میکنه.
- درک ویدیوی بسیار طولانی و مکانیابی دقیق در ویدیو: وضوح دینامیک بومی به بعد زمانی گسترش پیدا کرده و توانایی درک ویدیوهایی با مدت زمان چند ساعته و استخراج بخشهای رویداد در چند ثانیه رو افزایش داده.
- عملکرد بهبود یافته به عنوان عامل (Agent) برای کامپیوتر و دستگاههای تلفن همراه: با استفاده از تواناییهای پیشرفته در مکانیابی، استدلال و تصمیمگیری، عملکرد مدل به عنوان یک عامل در گوشیهای هوشمند و کامپیوترها تقویت شده.
بهروزرسانیهای معماری Qwen2.5-VL
برای رسیدن به این قابلیتها، تغییراتی در معماری مدل ایجاد شده:
- آموزش با وضوح و نرخ فریم دینامیک برای درک ویدیو: با اتخاذ نمونهبرداری دینامیک فریم در ثانیه (FPS)، وضوح دینامیک به بعد زمانی گسترش یافته و مدل رو قادر میسازه تا ویدیوها رو با نرخهای نمونهبرداری مختلف درک کنه. بر این اساس، mRoPE در بعد زمانی با شناسهها (IDs) و همترازی زمانی مطلق بهروزرسانی شده تا مدل بتونه توالی و سرعت زمانی رو یاد بگیره و در نهایت توانایی مشخص کردن لحظات خاص رو به دست بیاره.
- رمزگذار بصری بهینهسازی شده و کارآمد: سرعت آموزش و استنتاج با پیادهسازی استراتژیک توجه پنجرهای (window attention) در ViT افزایش یافته. معماری ViT همچنین با SwiGLU و RMSNorm بهینهسازی شده تا با ساختار LLM کیو-ون دو و نیم هماهنگ بشه.
مدل Qwen2.5-VL-32B: یک نسخه خاص
در تاریخ ۲۶ مارس ۲۰۲۵، علیبابا از جدیدترین مدل چندوجهی خودش، Qwen2.5-VL-32B، تحت لایسنس Apache 2.0 رونمایی کرد. بنچمارکهای اولیه نشون میدن که این مدل با داشتن تنها ۳۲ میلیارد پارامتر، از رقبای بزرگتری مثل Gemma 3-27B و Mistral Small 3.1 24B عملکرد بهتری داره. در برخی تستها، حتی از نسخه ۷۲ میلیارد پارامتری خود علیبابا یعنی Qwen2-VL-72B و نسخههای قدیمیتر GPT-4o هم پیشی گرفته، هرچند از نسخه فعلی GPT-4o بهتر نیست.
این مدل در بنچمارکهای MMMU (درک ماشینی چندوجهی) و MathVista (ارزیابی استدلال ریاضی با استفاده از تصاویر) به امتیازات بالایی دست پیدا کرده. بنچمارک MM-MT-Bench که کیفیت تعامل رو اندازهگیری میکنه، بهبودهای قابل توجهی نسبت به نسخه قبلی نشون میده.
یک توسعهدهنده به اسم سایمون ویلیسون این مدل رو روی یک کامپیوتر مک با ۶۴ گیگابایت رم تست کرده. تستهای او نشون داده که مدل میتونه توضیحات دقیق و با ساختار خوبی از نقشههای پیچیده ساحلی ارائه بده و خطوط عمق و ویژگیهای جغرافیایی رو به درستی تفسیر کنه.
نسخههای بهینهسازی شده مختلفی از این مدل برای کاربران Apple Silicon در دسترس قرار گرفته، از جمله نسخههای ۴ بیتی، ۶ بیتی، ۸ بیتی و bf16 که اون رو برای پیکربندیهای سختافزاری مختلف قابل دسترس میکنه. تیم Qwen قصد داره روی توسعه فرآیندهای استدلال طولانیتر و موثرتر برای مدیریت وظایfف بصری پیچیده تمرکز کنه.
کاربرد به عنوان “عامل بصری”
بر اساس اطلاعات منتشر شده، بهبودهای ایجاد شده در Qwen2.5-VL اون رو به عنوان یک دستیار بصری مفید مطرح کرده. علیبابا در دموهای مختلف نشون داده که این مدل میتونه محتوای صفحه نمایش رو تجزیه و تحلیل کنه و دستورالعملهایی برای کارهایی مثل رزرو بلیط هواپیما، بررسی پیشبینی آبوهوا و کار با رابطهای کاربری پیچیدهای مثل Gimp ارائه بده.
این مدل میتونه اشیای خاص و اجزای اونها رو شناسایی کنه، برای مثال تشخیص بده که آیا یک موتورسوار کلاه ایمنی به سر داره یا نه. هنگام پردازش اسنادی مثل فاکتورها و فرمها، میتونه اطلاعات رو در فرمتهای ساختاریافته مثل JSON برای استفاده مجدد آسان خروجی بده.
اگرچه Qwen2.5 یک مدل عامل تخصصی مثل CUA از OpenAI نیست، اما در تحلیل رابطهای کاربری، شناسایی دکمههای مرتبط و برنامهریزی گردش کار برتری داره. این قابلیت میتونه اون رو به عنوان پایهای برای یک سیستم اپراتور-مانند متنباز ارزشمند کنه.
بررسی تخصصی مدل Qwen2.5-Max
یکی دیگر از مدلهای برجسته در این خانواده، Qwen2.5-Max هست. این مدل به عنوان یک مدل بزرگ MoE (ترکیبی از متخصصان) معرفی شده که روی بیش از ۲۰ تریلیون توکن پیشآموزش دیده و با روشهای تنظیم دقیق نظارت شده (SFT) و یادگیری تقویتی از بازخورد انسانی (RLHF) پسآموزش دیده.
عملکرد و مقایسه با رقبا
عملکرد Qwen2.5-Max در کنار مدلهای پیشرو، چه اختصاصی و چه متنباز، در بنچمارکهای مختلفی ارزیابی شده. این بنچمارکها شامل MMLU-Pro (برای سنجش دانش در سطح دانشگاهی)، LiveCodeBench (برای ارزیابی تواناییهای کدنویسی)، LiveBench (برای تست جامع قابلیتهای عمومی) و Arena-Hard (برای تخمین ترجیحات انسانی) میشه.
مقایسه مدلهای دستورالعملمحور (Instruct Models):
در مقایسه با مدلهای پیشرفتهای مثل DeepSeek V3، GPT-4o و Claude-3.5-Sonnet، نتایج عملکرد Qwen2.5-Max به شرح زیر گزارش شده:
بنچمارک | Qwen2.5-Max | DeepSeek V3 | GPT-4o | Claude-3.5-Sonnet |
---|---|---|---|---|
Arena-Hard | ۸۹.۴ | ۸۶.۵ | ۸۸.۱ | ۸۵.۵ |
LiveBench | ۸.۹ | ۸.۷ | ۹.۲ | ۸.۹ |
LiveCodeBench | ۳۸.۷ | ۳۷.۴ | ۴۱.۱ | ۳۸.۴ |
GPQA-Diamond | ۵۰.۶ | ۴۹.۰ | ۵۲.۱ | ۴۸.۶ |
MMLU-Pro | ۸۶.۴ | ۸۷.۰ | ۸۸.۲ | ۸۶.۶ |
بر اساس این جدول، Qwen2.5-Max در بنچمارکهایی مثل Arena-Hard، LiveBench، LiveCodeBench و GPQA-Diamond از DeepSeek V3 عملکرد بهتری داشته و در سایر ارزیابیها، از جمله MMLU-Pro، نتایج رقابتی نشون داده.
مقایسه مدلهای پایه (Base Models):
از اونجایی که دسترسی به مدلهای پایه اختصاصی مثل GPT-4o و Claude-3.5-Sonnet وجود نداره، Qwen2.5-Max با مدلهای متنباز پیشرو مقایسه شده:
بنچمارک | Qwen2.5-Max | DeepSeek V3 | Llama-3.1-405B | Qwen2.5-72B |
---|---|---|---|---|
MMLU | ۹۱.۱ | ۹۰.۳ | ۹۰.۲ | ۸۹.۶ |
GPQA | ۴۲.۱ | ۴۱.۳ | ۴۱.۵ | ۳۹.۴ |
HumanEval | ۹۴.۵ | ۹۲.۷ | ۹۱.۶ | ۹۲.۱ |
MATH | ۷۷.۲ | ۷۲.۸ | ۷۰.۶ | ۷۲.۰ |
مدلهای پایه Qwen2.5-Max در اکثر بنچمارکها مزایای قابل توجهی نشون دادن.
مقاله منتشر شده در VentureBeat هم به این مدل پرداخته و اون رو دومین پیشرفت بزرگ هوش مصنوعی از چین در کمتر از یک هفته توصیف کرده که بازارهای فناوری آمریکا رو بیشتر نگران کرده. این مقاله به معماری MoE به عنوان یک استراتژی برای دستیابی به عملکرد رقابتی بدون نیاز به خوشههای عظیم GPU اشاره میکنه که میتونه هزینههای زیرساخت رو تا ۴۰-۶۰ درصد کاهش بده.
نحوه استفاده از Qwen2.5-Max
این مدل در Qwen Chat در دسترسه و کاربران میتونن مستقیما با مدل چت کنن. همچنین API این مدل (با نام qwen-max-2025-01-25
) از طریق علیبابا کلود در دسترس قرار گرفته. کاربران میتونن با ثبتنام در علیبابا کلود و فعالسازی سرویس Model Studio، یک کلید API ایجاد کنن.
از اونجایی که APIهای Qwen با OpenAI-API سازگار هستن، میشه از روشهای معمول استفاده از APIهای OpenAI برای اون هم استفاده کرد. نمونه کد پایتون برای استفاده از این مدل به شکل زیر ارائه شده:
from openai import OpenAI
import os
client = OpenAI(
api_key=os.getenv("API_KEY"),
base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)
completion = client.chat.completions.create(
model="qwen-max-2025-01-25",
messages=[
{'role': 'system', 'content': 'You are a helpful assistant.'},
{'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
]
)
print(completion.choices[0].message)
گزارش فنی و جامعه علمی
یک گزارش فنی با عنوان «Qwen2.5 Technical Report» در پلتفرم arXiv با شناسه arXiv:2412.15115
منتشر شده. اولین نسخه این گزارش در ۱۹ دسامبر ۲۰۲۴ و نسخه دوم اون در ۳ ژانویه ۲۰۲۵ ارائه شده. نویسندگان این گزارش یک تیم بزرگ از محققان Qwen هستن که اسامی افرادی مثل ان یانگ، بائوسونگ یانگ، بیژن ژانگ، بینیوان هوی و دهها نفر دیگه در اون ذکر شده.
چکیده این گزارش فنی:
در این گزارش، سری جامع مدلهای زبان بزرگ Qwen2.5 معرفی شده که برای پاسخگویی به نیازهای متنوع طراحی شدن. در مقایسه با نسخههای قبلی، Qwen2.5 در هر دو مرحله پیشآموزش و پسآموزش به طور قابل توجهی بهبود یافته. در مرحله پیشآموزش، حجم مجموعه دادههای با کیفیت از ۷ تریلیون توکن به ۱۸ تریلیون توکن افزایش یافته. این موضوع یک پایه قوی برای دانش عمومی، دانش تخصصی و تواناییهای استدلال فراهم میکنه.
در مرحله پسآموزش، تنظیم دقیق نظارت شده پیچیدهای با بیش از ۱ میلیون نمونه و همچنین یادگیری تقویتی چند مرحلهای پیادهسازی شده. تکنیکهای پسآموزش، ترجیحات انسانی رو بهبود بخشیده و به طور قابل توجهی تولید متن طولانی، تحلیل دادههای ساختاریافته و دنبال کردن دستورالعملها رو بهتر کرده.
برای مدیریت موارد استفاده متنوع و موثر، سری LLM کیو-ون دو و نیم در اندازههای غنی ارائه شده. نسخههای متنباز شامل مدلهای پایه و مدلهای تنظیمشده با دستورالعمل هستن و نسخههای کوانتیزه شده هم در دسترسه. علاوه بر این، برای راهحلهای میزبانی شده، مدلهای اختصاصی در حال حاضر شامل دو نوع ترکیبی از متخصصان (MoE) هستن: Qwen2.5-Turbo و Qwen2.5-Plus که هر دو از طریق استودیو مدل علیبابا کلود در دسترسن.
مدل پرچمدار متنباز Qwen2.5-72B-Instruct از تعدادی از مدلهای باز و اختصاصی عملکرد بهتری داره و عملکرد رقابتی با مدل پیشرفته متنباز Llama-3-405B-Instruct که حدود ۵ برابر بزرگتره، نشون میده. Qwen2.5-Turbo و Qwen2.5-Plus هم در حالی که به ترتیب با GPT-4o-mini و GPT-4o رقابت میکنن، صرفه اقتصادی بالاتری دارن. علاوه بر این، مدلهای Qwen2.5 به عنوان پایه برای آموزش مدلهای تخصصی مثل Qwen2.5-Math، Qwen2.5-Coder و QvQ و همچنین مدلهای چندوجهی استفاده شدن.
حضور در شبکههای اجتماعی و پلتفرمهای توسعهدهندگان
علیبابا کلود به طور فعال در پلتفرمهای مختلفی مثل فیسبوک حضور داره. در یک پست فیسبوکی در تاریخ ۱۳ ژوئن ۲۰۲۴، این شرکت از عرضه سری Qwen2 به عنوان قدرتمندترین LLM متنباز خودش خبر داده و گفته که این سری به دلیل عملکرد بهبود یافته و همترازی ایمنی بهتر، در رتبهبندی LLMهای متنباز صدرنشین شده. این سری شامل مدلهایی با اندازههای ۰.۵ تا ۷۲ میلیارد پارامتر و همچنین یک مدل MoE پیشرفته میشه.
در گیتهاب، مخزن عمومی QwenLM/Qwen2.5-VL برای این مدل ایجاد شده که شامل کدها، راهنماها و اطلاعات فنی برای توسعهدهندگان هست. این مخزن تحت لایسنس Apache-2.0 منتشر شده و تا زمان نگارش اطلاعات، بیش از ۱۱.۷ هزار ستاره و ۸۶۶ فورک داشته.
این مخزن شامل بخشهای مختلفی است:
- cookbooks: شامل نوتبوکهایی برای نمایش قابلیتهای مختلف مثل تشخیص جهانی، تجزیه اسناد، درک فضایی، OCR و استخراج اطلاعات کلیدی، درک ویدیو و عاملهای موبایل و کامپیوتر.
- docker: شامل فایلهای لازم برای ساخت ایمیجهای داکر جهت سادهسازی فرآیند استقرار.
- evaluation/mmmu: کدهای مربوط به ارزیابی و استنتاج برای بنچمارک MMMU.
- qwen-vl-finetune: کدهای مربوط به تنظیم دقیق مدلهای Qwen2-VL و Qwen2.5-VL.
در این مخزن، راهنماهای دقیقی برای نصب و استفاده از مدل با استفاده از کتابخانههایی مثل Transformers و vLLM ارائه شده. همچنین حداقل نیازمندیهای حافظه VRAM برای اندازهها و دقتهای مختلف مدل مشخص شده. به عنوان مثال، برای مدل Qwen2.5-VL-7B در حالت BF16، به حداقل ۱۳.۱۷ گیگابایت VRAM نیاز است.
منابع
- Introducing Qwen2.5 Coder 32B Instruct | Qwen – Alibaba Cloud Community
- Alibaba Cloud Unveils Qwen2.5, Full-Stack AI Infrastructure Enhancements at 2024 Apsara Conference-Alibaba Group
- Alibaba Cloud Releases Qwen2.5-Omni-7B
- Qwen2.5-Max: Exploring the Intelligence of Large-scale MoE Model | Qwen
- [۲۴۱۲.۱۵۱۱۵] Qwen2.5 Technical Report
- Alibaba Cloud – Introducing Qwen2 – Our Most Powerful Open…
- Alibaba’s Qwen2.5-VL-32B matches larger models with just 32B parameters
- GPTNext is coming, Alibaba’s Qwen2-VL, Cohere updates Command R
- Alibaba’s Qwen2.5-Max challenges U.S. tech giants, reshapes enterprise AI | VentureBeat
- GitHub – QwenLM/Qwen2.5-VL: Qwen2.5-VL is the multimodal large language model series developed by Qwen team, Alibaba Cloud.
دیدگاهتان را بنویسید