GeekAlerts

جایی برای گیک‌ها

·

بررسی مدل هوش مصنوعی Qwen2.5 علی‌بابا و خانواده آن

در دنیای هوش مصنوعی که به سرعت در حال پیشرفته، هر روز شاهد معرفی مدل‌های جدید و توانمندتری هستیم. یکی از این مدل‌ها که در منابع مختلفی به اون اشاره شده، خانواده مدل‌های زبان بزرگ (LLM) به اسم Qwen هست که توسط علی‌بابا کلود توسعه داده شده. این مدل‌ها در نسخه‌ها و اندازه‌های مختلفی عرضه شدن تا نیازهای متنوع توسعه‌دهنده‌ها و شرکت‌ها رو پوشش بدن. در این مقاله، قراره به صورت دقیق و با جزییات کامل، به بررسی اطلاعات منتشر شده در مورد جدیدترین نسخه این خانواده، یعنی Qwen2.5، و مدل‌های زیرمجموعه اون بپردازیم. از رویداد معرفی گرفته تا مشخصات فنی، عملکرد در بنچمارک‌ها، و نحوه دسترسی و استفاده از اونها، همه و همه مواردی هستن که به صورت بی‌طرفانه و بر اساس متون ارائه شده، مورد بررسی قرار میگیرن. هدف اینه که یک تصویر کامل و جامع از اونچه در مورد این مدل‌ها گفته شده، ارائه بشه.

رویداد Apsara و معرفی رسمی Qwen2.5

بر اساس اطلاعات منتشر شده، علی‌بابا کلود در رویداد سالانه خودش به اسم Apsara که در شهر هانگژو برگزار شد، از جدیدترین مدل زبان بزرگ خودش یعنی Qwen2.5 رونمایی کرد. این رویداد در تاریخ پنجشنبه ۱۹ سپتامبر ۲۰۲۴ اتفاق افتاد. در معرفی این مدل جدید، گفته شده که دانش اون به طور قابل توجهی بیشتر شده و توانایی‌هاش در زمینه کدنویسی و ریاضیات بهبود زیادی پیدا کرده. علاوه بر این، در زمینه‌هایی مثل دنبال کردن دستورالعمل‌ها، تولید متن‌های طولانی، درک داده‌های ساختاریافته و تولید خروجی‌های ساختاریافته هم بهتر عمل میکنه.

جینگرن ژو، مدیر ارشد فناوری علی‌بابا کلود اینتلیجنس، در این رویداد اعلام کرد که این ابتکار قراره به توسعه‌دهنده‌ها و شرکت‌ها در هر اندازه‌ای قدرت بده تا توانایی خودشون رو در استفاده از فناوری‌های هوش مصنوعی افزایش بدن و رشد جامعه متن‌باز رو بیشتر تحریک کنن.

رویداد Apsara که در هانگژو برگزار شد، یک برنامه سه روزه بود که از ۱۹ تا ۲۱ سپتامبر ادامه داشت. در این رویداد، حدود ۴۰۰ فروم با ۳۴۲ ساعت محتوا در مورد هوش مصنوعی، فناوری‌های محاسبات ابری و شیوه‌های صنعتی ارائه شد. این حجم از محتوا نشون‌دهنده تمرکز ویژه این رویداد بر فناوری‌های نوین و کاربردهای اونهاست.

ادی وو، رئیس و مدیرعامل علی‌بابا کلود اینتلیجنس، در سخنرانی افتتاحیه این کنفرانس گفت: «در طول سال گذشته، توسعه هوش مصنوعی مولد در سراسر جهان به سرعت شتاب گرفته. هر بازاری به طور فعال در حال بررسی کاربردهای عملی مدل‌های بزرگ است.» این گفته نشون‌دهنده اهمیت روزافزون هوش مصنوعی مولد در صنایع مختلفه. همچنین در یک نظرسنجی جهانی اخیر مک‌کینزی در مورد هوش مصنوعی، مشخص شده که استفاده از این فناوری افزایش چشمگیری داشته. بر اساس این نظرسنجی، ۶۵ درصد از سازمان‌ها حالا به طور منظم از هوش مصنوعی مولد استفاده میکنن که این رقم تقریبا دو برابر آمار سال قبله.

سرمایه‌گذاری و زیرساخت‌ها

در کنار معرفی مدل‌های جدید، به موضوع سرمایه‌گذاری و توسعه زیرساخت‌ها هم پرداخته شده. ادی وو اشاره کرده که آستانه ساخت مدل‌های پیشرفته جهانی و رقابتی موندن، به میلیاردها یا حتی ده‌ها میلیارد دلار آمریکا خواهد رسید. این موضوع نشون‌دهنده هزینه‌های بالای تحقیق و توسعه در این حوزه است. او اضافه کرد: «مسیر هوش مصنوعی برای داشتن توانایی‌های خلاقانه و کمک به انسان‌ها برای حل مشکلات پیچیده، روشنه و این موضوع پتانسیل کاربرد گسترده هوش مصنوعی رو در صنایع و سناریوهای مختلف باز میکنه.»

علی‌بابا کلود همچنین اعلام کرد که در حال سرمایه‌گذاری با شدت بی‌سابقه‌ای در تحقیق و توسعه فناوری هوش مصنوعی و ساخت زیرساخت جهانی خودشه. هدف از این سرمایه‌گذاری، ایجاد یک زیرساخت هوش مصنوعی برای آینده است تا به مشتریان جهانی خدمت‌رسانی کنه و پتانسیل کسب‌وکار اونها رو آزاد کنه.

برای تقویت خدمات خودش، علی‌بابا کلود از ارتقای قابل توجهی در خدمات زیرساخت هوش مصنوعی خودش خبر داد. این ارتقاها بر پیشرفت در معماری مراکز داده، مدیریت داده‌ها، و آموزش و استنتاج مدل تمرکز داره. این بهبودها با هدف بهینه‌سازی بهره‌وری عملیاتی و کاهش زمان استقرار و در عین حال به حداکثر رسوندن استفاده از داده‌ها برای کاربردهای هوش مصنوعی مولد طراحی شدن. علاوه بر این، به‌روزرسانی‌ها بر بهینه‌سازی مدیریت منابع و حاکمیت تاکید دارن تا سازمان‌ها بتونن به طور موثر از داده‌ها و قدرت محاسباتی خودشون استفاده کنن. به طور کلی، زیرساخت ارتقا یافته، یک پلتفرم قوی برای توسعه برنامه‌های هوش مصنوعی کارآمد، پایدار و فراگیر فراهم میکنه.

خانواده مدل‌های Tongyi و جامعه متن‌باز

علی‌بابا کلود در حال پیشبرد خانواده مدل‌های بزرگ خودش به اسم Tongyi با یک مدل جدید تبدیل متن به ویدیو و یک مدل زبان بصری بزرگ پیشرفته است. این بخشی از تلاش‌های این شرکت برای گسترش توانایی‌های چندوجهی مدل‌هاشه.

در زمینه متن‌باز بودن، مدل Qwen2.5 بیش از ۱۰۰ مدل مختلف رو ارائه میده. این مجموعه شامل مدل‌های پایه، مدل‌های دستورالعمل‌محور (instruct) و مدل‌های کوانتیزه‌شده (quantized) با سطوح دقت و روش‌های مختلف در چندین حالت، از جمله زبان، صدا، تصویر و مدل‌های تخصصی کد و ریاضیات میشه.

از زمان معرفی مدل‌های Qwen در آوریل ۲۰۲۳، این مدل‌ها بیش از ۴۰ میلیون بار در پلتفرم‌های متن‌باز مثل Hugging Face و ModelScope دانلود شدن. این استقبال همچنین الهام‌بخش ساخت بیش از ۵۰,۰۰۰ مدل دیگه بر اساس Qwen بوده که نشون‌دهنده تاثیرگذاری اون در جامعه متن‌باز هست. علی‌بابا کلود در طول سال‌های گذشته بیش از ۲۰۰ مدل هوش مصنوعی مولد رو به صورت متن‌باز منتشر کرده.

مدل Qwen-max: عملکرد و رقابت

در روز اول رویداد Apsara، علی‌بابا کلود از یک مدل ارتقا یافته به اسم Qwen-max هم رونمایی کرد. گفته شده که عملکرد این مدل در زمینه‌های درک زبان، استدلال و کدنویسی با سایر مدل‌های پیشرفته روز برابری میکنه. در گزارش فنی Qwen2.5 که در پلتفرم arXiv منتشر شده هم به این مدل اشاره شده و عملکرد اون در کنار مدل‌های دیگه‌ای مثل DeepSeek V3، GPT-4o و Claude-3.5-Sonnet مقایسه شده. در ادامه به جزییات این مقایسه‌ها بیشتر پرداخته میشه.

گسترش قابلیت‌های چندوجهی (Multimodal)

علاوه بر مدل‌های زبانی، علی‌بابا کلود در حال گسترش مرزهای قابلیت‌های چندوجهی با معرفی یک مدل جدید تبدیل متن به ویدیو، بهبود مدل زبان بصری و معرفی برنامه AI Developer هست.

مدل تبدیل متن به ویدیو

این شرکت یک مدل نوآورانه تبدیل متن به ویدیو رو به عنوان بخشی از خانواده مدل‌های بزرگ Wanxiang معرفی کرده. این مدل میتونه ویدیوهایی با کیفیت بالا در سبک‌های بصری مختلف تولید کنه و تصاویر ثابت رو به محتوای پویا تبدیل کنه. این فرآیند با استفاده از دستورات متنی به دو زبان چینی و انگلیسی انجام میشه.

بهبود مدل زبان بصری Qwen2-VL

بهبودهایی هم برای مدل زبان بصری علی‌بابا کلود، یعنی Qwen2-VL، اعلام شده. این مدل حالا میتونه ویدیوهایی با مدت زمان بیش از ۲۰ دقیقه رو درک کنه و از پرسش و پاسخ مبتنی بر ویدیو پشتیبانی میکنه. طراحی این مدل به گونه‌ای هست که برای یکپارچه‌سازی راحت در دستگاه‌های تلفن همراه، خودروها و رباتیک مناسب باشه و عملیات‌های خودکار مختلف رو تسهیل کنه.

یک مقاله در وب‌سایت “Starter AI” هم به این مدل اشاره کرده و اون رو یک مدل بصری قدرتمند توصیف کرده که میتونه ویدیوهایی با مدت زمان طولانی رو تجزیه و تحلیل کنه و به سوالات مربوط به محتوای اونها پاسخ بده. این مدل از زبان‌های مختلفی از جمله انگلیسی، چینی و ویتنامی پشتیبانی میکنه و نتایج بنچمارک اون با مدل‌های پیشرویی مثل Llama 3.1 و GPT-4 قابل مقایسه است.

معرفی AI Developer

در زمینه توسعه نرم‌افزار، علی‌بابا کلود یک دستیار به اسم AI Developer رو معرفی کرده که مبتنی بر مدل Qwen هست. این دستیار میتونه وظایفی مثل تحلیل نیازمندی‌ها، کدنویسی و اشکال‌زدایی رو خودکار کنه و به توسعه‌دهنده‌ها اجازه بده تا روی مسئولیت‌های اصلی و توسعه مهارت‌های خودشون تمرکز کنن.


بررسی تخصصی مدل Qwen2.5-Omni-7B

یکی از مدل‌های خاصی که در این خانواده معرفی شده، Qwen2.5-Omni-7B هست. این مدل به عنوان یک مدل چندوجهی یکپارچه و سرتاسری (end-to-end) در سری Qwen توصیف شده. این مدل در هفته اول انتشارش در جامعه متن‌باز Hugging Face، با بیش از ۸۰,۰۰۰ دانلود در صدر لیست مدل‌های هوش مصنوعی این پلتفرم قرار گرفت. این خبر در مقاله‌ای به تاریخ ۲۷ مارس ۲۰۲۵ توسط کریستال لیو منتشر شده و در تاریخ ۵ آوریل به‌روزرسانی شده تا صدرنشینی در لیست Hugging Face رو شامل بشه.

قابلیت‌های اصلی Qwen2.5-Omni-7B

این مدل به طور منحصربه‌فردی برای درک جامع چندوجهی طراحی شده. این یعنی میتونه ورودی‌های متنوعی از جمله متن، تصویر، صدا و ویدیو رو پردازش کنه و به طور همزمان پاسخ‌های متنی و گفتاری طبیعی رو به صورت لحظه‌ای (real-time) تولید کنه. این ویژگی یک استاندارد جدید برای هوش مصنوعی چندوجهی قابل پیاده‌سازی روی دستگاه‌های لبه (edge devices) مثل تلفن‌های همراه و لپ‌تاپ‌ها تعیین میکنه.

با وجود اینکه این مدل طراحی فشرده‌ای با ۷ میلیارد پارامتر داره، عملکرد بدون افت و قابلیت‌های چندوجهی قدرتمندی رو ارائه میده. این ترکیب منحصربه‌فرد، اون رو به یک پایه مناسب برای توسعه عامل‌های هوش مصنوعی چابک و مقرون‌به‌صرفه تبدیل میکنه که ارزش ملموسی رو به خصوص در برنامه‌های صوتی هوشمند ارائه میدن. به عنوان مثال، از این مدل میشه برای کمک به کاربران کم‌بینا برای مسیریابی در محیط‌ها از طریق توضیحات صوتی لحظه‌ای، ارائه راهنمایی گام به گام آشپزی با تحلیل مواد اولیه از روی ویدیو، یا قدرت بخشیدن به گفتگوهای خدمات مشتری هوشمند که نیازهای مشتریان رو واقعا درک میکنن، استفاده کرد.

این مدل در حال حاضر به صورت متن‌باز در Hugging Face و GitHub در دسترسه و همچنین از طریق Qwen Chat و جامعه متن‌باز علی‌بابا کلود یعنی ModelScope هم میشه به اون دسترسی داشت.

معماری نوآورانه و عملکرد بالا

گفته شده که Qwen2.5-Omni-7B عملکرد قابل توجهی در تمام حالت‌ها (modalities) داره و با مدل‌های تخصصی تک‌حالته با اندازه مشابه رقابت میکنه. به طور خاص، این مدل یک معیار جدید در تعامل صوتی لحظه‌ای، تولید گفتار طبیعی و قوی، و دنبال کردن دستورالعمل‌های گفتاری سرتاسری تعیین کرده.

کارایی و عملکرد بالای اون ناشی از معماری نوآورانه‌اش هست که شامل موارد زیر میشه:

  • معماری متفکر-سخنگو (Thinker-Talker Architecture): این معماری، تولید متن (از طریق متفکر) و سنتز گفتار (از طریق سخنگو) رو از هم جدا میکنه تا تداخل بین حالت‌های مختلف رو به حداقل برسونه و خروجی با کیفیت بالایی ارائه بده.
  • TMRoPE (Time-aligned Multimodal RoPE): یک تکنیک جایگذاری موقعیتی (position embedding) برای هماهنگی بهتر ورودی‌های ویدیویی با صدا جهت تولید محتوای منسجم.
  • پردازش جریانی بلوکی (Block-wise Streaming Processing): این ویژگی پاسخ‌های صوتی با تاخیر کم رو برای تعاملات صوتی یکپارچه امکان‌پذیر میکنه.

مجموعه داده و عملکرد در بنچمارک‌ها

مدل Qwen2.5-Omni-7B روی یک مجموعه داده عظیم و متنوع پیش‌آموزش دیده. این مجموعه داده شامل جفت‌های تصویر-متن، ویدیو-متن، ویدیو-صدا، صدا-متن و داده‌های متنی میشه که عملکرد قوی اون رو در وظایف مختلف تضمین میکنه.

با توجه به معماری نوآورانه و مجموعه داده پیش‌آموزش با کیفیت، این مدل در دنبال کردن دستورات صوتی برتری داره و به سطوح عملکردی قابل مقایسه با ورودی متنی خالص میرسه. برای وظایفی که نیاز به ادغام چندین حالت دارن، مثل وظایف ارزیابی شده در OmniBench (که توانایی مدل‌ها رو در شناسایی، تفسیر و استدلال در ورودی‌های بصری، صوتی و متنی ارزیابی میکنه)، Qwen2.5-Omni به عملکرد پیشرفته‌ای دست پیدا کرده.

این مدل همچنین توانایی‌های بالایی در درک و تولید گفتار قوی از طریق یادگیری درون‌متنی (In-context Learning) نشون میده. علاوه بر این، پس از بهینه‌سازی با یادگیری تقویتی (RL)، پایداری تولید در این مدل به طور قابل توجهی بهبود یافته و کاهش چشمگیری در ناهماهنگی توجه، خطاهای تلفظی و مکث‌های نامناسب در طول پاسخ گفتاری داشته.


بررسی تخصصی مدل Qwen2.5-VL

خانواده Qwen2.5 شامل مدل‌های قدرتمند دیگه‌ای هم در زمینه پردازش بصری میشه. Qwen2.5-VL یک سری از مدل‌های زبان بصری چندوجهی هست که توسط تیم Qwen در علی‌بابا کلود توسعه داده شده. این مدل‌ها برای درک و پردازش انواع داده‌های بصری و متنی طراحی شدن.

نسخه‌ها و بهبودهای Qwen2.5-VL

بر اساس گزارش‌ها، تیم Qwen پس از دریافت بازخوردهای ارزشمند از توسعه‌دهندگانی که بر روی مدل‌های Qwen2-VL کار کرده بودن، روی ساخت مدل‌های زبان بصری مفیدتر تمرکز کردن و نتیجه اون معرفی Qwen2.5-VL بود. این مدل در سه اندازه ۳، ۷ و ۷۲ میلیارد پارامتر عرضه شده.

بهبودهای کلیدی این سری شامل موارد زیر هست:

  • قابلیت‌های قدرتمند تجزیه اسناد (Document Parsing): تشخیص متن به تجزیه جامع اسناد ارتقا پیدا کرده و در پردازش اسناد چند صحنه‌ای، چند زبانه و انواع مختلف محتوای داخلی (دست‌خط، جدول، نمودار، فرمول‌های شیمیایی و نت‌های موسیقی) برتری داره.
  • مکان‌یابی دقیق اشیا در فرمت‌های مختلف: دقت در تشخیص، اشاره و شمارش اشیا بهبود یافته و از فرمت‌های مختصات مطلق و JSON برای استدلال فضایی پیشرفته پشتیبانی میکنه.
  • درک ویدیوی بسیار طولانی و مکان‌یابی دقیق در ویدیو: وضوح دینامیک بومی به بعد زمانی گسترش پیدا کرده و توانایی درک ویدیوهایی با مدت زمان چند ساعته و استخراج بخش‌های رویداد در چند ثانیه رو افزایش داده.
  • عملکرد بهبود یافته به عنوان عامل (Agent) برای کامپیوتر و دستگاه‌های تلفن همراه: با استفاده از توانایی‌های پیشرفته در مکان‌یابی، استدلال و تصمیم‌گیری، عملکرد مدل به عنوان یک عامل در گوشی‌های هوشمند و کامپیوترها تقویت شده.

به‌روزرسانی‌های معماری Qwen2.5-VL

برای رسیدن به این قابلیت‌ها، تغییراتی در معماری مدل ایجاد شده:

  • آموزش با وضوح و نرخ فریم دینامیک برای درک ویدیو: با اتخاذ نمونه‌برداری دینامیک فریم در ثانیه (FPS)، وضوح دینامیک به بعد زمانی گسترش یافته و مدل رو قادر میسازه تا ویدیوها رو با نرخ‌های نمونه‌برداری مختلف درک کنه. بر این اساس، mRoPE در بعد زمانی با شناسه‌ها (IDs) و هم‌ترازی زمانی مطلق به‌روزرسانی شده تا مدل بتونه توالی و سرعت زمانی رو یاد بگیره و در نهایت توانایی مشخص کردن لحظات خاص رو به دست بیاره.
  • رمزگذار بصری بهینه‌سازی شده و کارآمد: سرعت آموزش و استنتاج با پیاده‌سازی استراتژیک توجه پنجره‌ای (window attention) در ViT افزایش یافته. معماری ViT همچنین با SwiGLU و RMSNorm بهینه‌سازی شده تا با ساختار LLM کیو-ون دو و نیم هماهنگ بشه.

مدل Qwen2.5-VL-32B: یک نسخه خاص

در تاریخ ۲۶ مارس ۲۰۲۵، علی‌بابا از جدیدترین مدل چندوجهی خودش، Qwen2.5-VL-32B، تحت لایسنس Apache 2.0 رونمایی کرد. بنچمارک‌های اولیه نشون میدن که این مدل با داشتن تنها ۳۲ میلیارد پارامتر، از رقبای بزرگ‌تری مثل Gemma 3-27B و Mistral Small 3.1 24B عملکرد بهتری داره. در برخی تست‌ها، حتی از نسخه ۷۲ میلیارد پارامتری خود علی‌بابا یعنی Qwen2-VL-72B و نسخه‌های قدیمی‌تر GPT-4o هم پیشی گرفته، هرچند از نسخه فعلی GPT-4o بهتر نیست.

این مدل در بنچمارک‌های MMMU (درک ماشینی چندوجهی) و MathVista (ارزیابی استدلال ریاضی با استفاده از تصاویر) به امتیازات بالایی دست پیدا کرده. بنچمارک MM-MT-Bench که کیفیت تعامل رو اندازه‌گیری میکنه، بهبودهای قابل توجهی نسبت به نسخه قبلی نشون میده.

یک توسعه‌دهنده به اسم سایمون ویلیسون این مدل رو روی یک کامپیوتر مک با ۶۴ گیگابایت رم تست کرده. تست‌های او نشون داده که مدل میتونه توضیحات دقیق و با ساختار خوبی از نقشه‌های پیچیده ساحلی ارائه بده و خطوط عمق و ویژگی‌های جغرافیایی رو به درستی تفسیر کنه.

نسخه‌های بهینه‌سازی شده مختلفی از این مدل برای کاربران Apple Silicon در دسترس قرار گرفته، از جمله نسخه‌های ۴ بیتی، ۶ بیتی، ۸ بیتی و bf16 که اون رو برای پیکربندی‌های سخت‌افزاری مختلف قابل دسترس میکنه. تیم Qwen قصد داره روی توسعه فرآیندهای استدلال طولانی‌تر و موثرتر برای مدیریت وظایfف بصری پیچیده تمرکز کنه.

کاربرد به عنوان “عامل بصری”

بر اساس اطلاعات منتشر شده، بهبودهای ایجاد شده در Qwen2.5-VL اون رو به عنوان یک دستیار بصری مفید مطرح کرده. علی‌بابا در دموهای مختلف نشون داده که این مدل میتونه محتوای صفحه نمایش رو تجزیه و تحلیل کنه و دستورالعمل‌هایی برای کارهایی مثل رزرو بلیط هواپیما، بررسی پیش‌بینی آب‌وهوا و کار با رابط‌های کاربری پیچیده‌ای مثل Gimp ارائه بده.

این مدل میتونه اشیای خاص و اجزای اونها رو شناسایی کنه، برای مثال تشخیص بده که آیا یک موتورسوار کلاه ایمنی به سر داره یا نه. هنگام پردازش اسنادی مثل فاکتورها و فرم‌ها، میتونه اطلاعات رو در فرمت‌های ساختاریافته مثل JSON برای استفاده مجدد آسان خروجی بده.

اگرچه Qwen2.5 یک مدل عامل تخصصی مثل CUA از OpenAI نیست، اما در تحلیل رابط‌های کاربری، شناسایی دکمه‌های مرتبط و برنامه‌ریزی گردش کار برتری داره. این قابلیت میتونه اون رو به عنوان پایه‌ای برای یک سیستم اپراتور-مانند متن‌باز ارزشمند کنه.


بررسی تخصصی مدل Qwen2.5-Max

یکی دیگر از مدل‌های برجسته در این خانواده، Qwen2.5-Max هست. این مدل به عنوان یک مدل بزرگ MoE (ترکیبی از متخصصان) معرفی شده که روی بیش از ۲۰ تریلیون توکن پیش‌آموزش دیده و با روش‌های تنظیم دقیق نظارت شده (SFT) و یادگیری تقویتی از بازخورد انسانی (RLHF) پس‌آموزش دیده.

عملکرد و مقایسه با رقبا

عملکرد Qwen2.5-Max در کنار مدل‌های پیشرو، چه اختصاصی و چه متن‌باز، در بنچمارک‌های مختلفی ارزیابی شده. این بنچمارک‌ها شامل MMLU-Pro (برای سنجش دانش در سطح دانشگاهی)، LiveCodeBench (برای ارزیابی توانایی‌های کدنویسی)، LiveBench (برای تست جامع قابلیت‌های عمومی) و Arena-Hard (برای تخمین ترجیحات انسانی) میشه.

مقایسه مدل‌های دستورالعمل‌محور (Instruct Models):

در مقایسه با مدل‌های پیشرفته‌ای مثل DeepSeek V3، GPT-4o و Claude-3.5-Sonnet، نتایج عملکرد Qwen2.5-Max به شرح زیر گزارش شده:

بنچمارکQwen2.5-MaxDeepSeek V3GPT-4oClaude-3.5-Sonnet
Arena-Hard۸۹.۴۸۶.۵۸۸.۱۸۵.۵
LiveBench۸.۹۸.۷۹.۲۸.۹
LiveCodeBench۳۸.۷۳۷.۴۴۱.۱۳۸.۴
GPQA-Diamond۵۰.۶۴۹.۰۵۲.۱۴۸.۶
MMLU-Pro۸۶.۴۸۷.۰۸۸.۲۸۶.۶

بر اساس این جدول، Qwen2.5-Max در بنچمارک‌هایی مثل Arena-Hard، LiveBench، LiveCodeBench و GPQA-Diamond از DeepSeek V3 عملکرد بهتری داشته و در سایر ارزیابی‌ها، از جمله MMLU-Pro، نتایج رقابتی نشون داده.

مقایسه مدل‌های پایه (Base Models):

از اونجایی که دسترسی به مدل‌های پایه اختصاصی مثل GPT-4o و Claude-3.5-Sonnet وجود نداره، Qwen2.5-Max با مدل‌های متن‌باز پیشرو مقایسه شده:

بنچمارکQwen2.5-MaxDeepSeek V3Llama-3.1-405BQwen2.5-72B
MMLU۹۱.۱۹۰.۳۹۰.۲۸۹.۶
GPQA۴۲.۱۴۱.۳۴۱.۵۳۹.۴
HumanEval۹۴.۵۹۲.۷۹۱.۶۹۲.۱
MATH۷۷.۲۷۲.۸۷۰.۶۷۲.۰

مدل‌های پایه Qwen2.5-Max در اکثر بنچمارک‌ها مزایای قابل توجهی نشون دادن.

مقاله منتشر شده در VentureBeat هم به این مدل پرداخته و اون رو دومین پیشرفت بزرگ هوش مصنوعی از چین در کمتر از یک هفته توصیف کرده که بازارهای فناوری آمریکا رو بیشتر نگران کرده. این مقاله به معماری MoE به عنوان یک استراتژی برای دستیابی به عملکرد رقابتی بدون نیاز به خوشه‌های عظیم GPU اشاره میکنه که میتونه هزینه‌های زیرساخت رو تا ۴۰-۶۰ درصد کاهش بده.

نحوه استفاده از Qwen2.5-Max

این مدل در Qwen Chat در دسترسه و کاربران میتونن مستقیما با مدل چت کنن. همچنین API این مدل (با نام qwen-max-2025-01-25) از طریق علی‌بابا کلود در دسترس قرار گرفته. کاربران میتونن با ثبت‌نام در علی‌بابا کلود و فعال‌سازی سرویس Model Studio، یک کلید API ایجاد کنن.

از اونجایی که APIهای Qwen با OpenAI-API سازگار هستن، میشه از روش‌های معمول استفاده از APIهای OpenAI برای اون هم استفاده کرد. نمونه کد پایتون برای استفاده از این مدل به شکل زیر ارائه شده:

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1",
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
      {'role': 'system', 'content': 'You are a helpful assistant.'},
      {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

گزارش فنی و جامعه علمی

یک گزارش فنی با عنوان «Qwen2.5 Technical Report» در پلتفرم arXiv با شناسه arXiv:2412.15115 منتشر شده. اولین نسخه این گزارش در ۱۹ دسامبر ۲۰۲۴ و نسخه دوم اون در ۳ ژانویه ۲۰۲۵ ارائه شده. نویسندگان این گزارش یک تیم بزرگ از محققان Qwen هستن که اسامی افرادی مثل ان یانگ، بائوسونگ یانگ، بیژن ژانگ، بینیوان هوی و ده‌ها نفر دیگه در اون ذکر شده.

چکیده این گزارش فنی:

در این گزارش، سری جامع مدل‌های زبان بزرگ Qwen2.5 معرفی شده که برای پاسخگویی به نیازهای متنوع طراحی شدن. در مقایسه با نسخه‌های قبلی، Qwen2.5 در هر دو مرحله پیش‌آموزش و پس‌آموزش به طور قابل توجهی بهبود یافته. در مرحله پیش‌آموزش، حجم مجموعه داده‌های با کیفیت از ۷ تریلیون توکن به ۱۸ تریلیون توکن افزایش یافته. این موضوع یک پایه قوی برای دانش عمومی، دانش تخصصی و توانایی‌های استدلال فراهم میکنه.

در مرحله پس‌آموزش، تنظیم دقیق نظارت شده پیچیده‌ای با بیش از ۱ میلیون نمونه و همچنین یادگیری تقویتی چند مرحله‌ای پیاده‌سازی شده. تکنیک‌های پس‌آموزش، ترجیحات انسانی رو بهبود بخشیده و به طور قابل توجهی تولید متن طولانی، تحلیل داده‌های ساختاریافته و دنبال کردن دستورالعمل‌ها رو بهتر کرده.

برای مدیریت موارد استفاده متنوع و موثر، سری LLM کیو-ون دو و نیم در اندازه‌های غنی ارائه شده. نسخه‌های متن‌باز شامل مدل‌های پایه و مدل‌های تنظیم‌شده با دستورالعمل هستن و نسخه‌های کوانتیزه شده هم در دسترسه. علاوه بر این، برای راه‌حل‌های میزبانی شده، مدل‌های اختصاصی در حال حاضر شامل دو نوع ترکیبی از متخصصان (MoE) هستن: Qwen2.5-Turbo و Qwen2.5-Plus که هر دو از طریق استودیو مدل علی‌بابا کلود در دسترسن.

مدل پرچمدار متن‌باز Qwen2.5-72B-Instruct از تعدادی از مدل‌های باز و اختصاصی عملکرد بهتری داره و عملکرد رقابتی با مدل پیشرفته متن‌باز Llama-3-405B-Instruct که حدود ۵ برابر بزرگ‌تره، نشون میده. Qwen2.5-Turbo و Qwen2.5-Plus هم در حالی که به ترتیب با GPT-4o-mini و GPT-4o رقابت میکنن، صرفه اقتصادی بالاتری دارن. علاوه بر این، مدل‌های Qwen2.5 به عنوان پایه برای آموزش مدل‌های تخصصی مثل Qwen2.5-Math، Qwen2.5-Coder و QvQ و همچنین مدل‌های چندوجهی استفاده شدن.

حضور در شبکه‌های اجتماعی و پلتفرم‌های توسعه‌دهندگان

علی‌بابا کلود به طور فعال در پلتفرم‌های مختلفی مثل فیسبوک حضور داره. در یک پست فیسبوکی در تاریخ ۱۳ ژوئن ۲۰۲۴، این شرکت از عرضه سری Qwen2 به عنوان قدرتمندترین LLM متن‌باز خودش خبر داده و گفته که این سری به دلیل عملکرد بهبود یافته و هم‌ترازی ایمنی بهتر، در رتبه‌بندی LLMهای متن‌باز صدرنشین شده. این سری شامل مدل‌هایی با اندازه‌های ۰.۵ تا ۷۲ میلیارد پارامتر و همچنین یک مدل MoE پیشرفته میشه.

در گیت‌هاب، مخزن عمومی QwenLM/Qwen2.5-VL برای این مدل ایجاد شده که شامل کدها، راهنماها و اطلاعات فنی برای توسعه‌دهندگان هست. این مخزن تحت لایسنس Apache-2.0 منتشر شده و تا زمان نگارش اطلاعات، بیش از ۱۱.۷ هزار ستاره و ۸۶۶ فورک داشته.

این مخزن شامل بخش‌های مختلفی است:

  • cookbooks: شامل نوت‌بوک‌هایی برای نمایش قابلیت‌های مختلف مثل تشخیص جهانی، تجزیه اسناد، درک فضایی، OCR و استخراج اطلاعات کلیدی، درک ویدیو و عامل‌های موبایل و کامپیوتر.
  • docker: شامل فایل‌های لازم برای ساخت ایمیج‌های داکر جهت ساده‌سازی فرآیند استقرار.
  • evaluation/mmmu: کدهای مربوط به ارزیابی و استنتاج برای بنچمارک MMMU.
  • qwen-vl-finetune: کدهای مربوط به تنظیم دقیق مدل‌های Qwen2-VL و Qwen2.5-VL.

در این مخزن، راهنماهای دقیقی برای نصب و استفاده از مدل با استفاده از کتابخانه‌هایی مثل Transformers و vLLM ارائه شده. همچنین حداقل نیازمندی‌های حافظه VRAM برای اندازه‌ها و دقت‌های مختلف مدل مشخص شده. به عنوان مثال، برای مدل Qwen2.5-VL-7B در حالت BF16، به حداقل ۱۳.۱۷ گیگابایت VRAM نیاز است.

منابع

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *