معرفی مدل Qwen1.5 از علی‌بابا

در ماه‌های اخیر، تمرکز روی توسعه یک مدل «خوب» و همزمان بهینه‌سازی تجربه توسعه‌دهنده‌ها بوده. همزمان با حرکت به سمت Qwen1.5، که نسل بعدی در سری مدل‌های Qwen به حساب میاد، این آپدیت درست قبل از سال نوی چینی از راه رسیده.

با Qwen1.5، مدل‌های پایه و چت در شش اندازه مختلف به صورت متن‌باز منتشر میشن: ۰.5B، ۱.8B، 4B، 7B، 14B، 32B، 72B و 110B. همچنین یک مدل MoE هم وجود داره که برای اطلاعات بیشتر در موردش میشه به بلاگ مربوطه مراجعه کرد. طبق روال همیشگی، مدل‌های کوانتایزشده هم ارائه میشن که شامل مدل‌های Int4 و Int8 از نوع GPTQ و همچنین مدل‌های کوانتایزشده AWQ و GGUF هستن. برای بهتر کردن تجربه توسعه‌دهنده‌ها، کد Qwen1.5 با کتابخانه ترنسفورمرز هاگینگ فیس ادغام شده، که این یعنی با transformers>=4.37.0 میشه بدون نیاز به trust_remote_code ازش استفاده کرد.

همکاری‌هایی با فریمورک‌هایی مثل vLLM و SGLang برای دیپلوی (استقرار)، AutoAWQ و AutoGPTQ برای کوانتیزیشن، Axolotl و LLaMA-Factory برای فاین‌تیونینگ (تنظیم دقیق) و llama.cpp برای اجرای محلی مدل‌های زبان بزرگ (LLM) انجام شده که همگی حالا از Qwen1.5 پشتیبانی میکنن. سری Qwen1.5 روی پلتفرم‌هایی مثل Ollama و LMStudio هم در دسترسه. علاوه بر این، سرویس‌های API نه‌تنها روی DashScope بلکه روی together.ai هم ارائه میشن که دسترسی جهانی دارن. برای شروع میشه به اینجا مراجعه کرد و پیشنهاد میشه که Qwen1.5-72B-chat رو امتحان کنید.

این نسخه بهبودهای قابل توجهی در زمینه هماهنگی مدل‌های چت با ترجیحات انسانی و همچنین توانایی‌های چندزبانه به همراه داره. همه مدل‌ها حالا به طور یکپارچه از طول زمینه (context length) تا ۳۲۷۶۸ توکن پشتیبانی میکنن. بهبودهای جزئی هم در کیفیت مدل‌های زبان پایه ایجاد شده که میتونه برای کارهای فاین‌تیونینگ شما مفید باشه. این قدم، یک گام کوچک در مسیر رسیدن به هدف ساخت یک مدل واقعا «خوب» به حساب میاد.

عملکرد مدل‌های Qwen1.5 چطوره؟

برای اینکه درک بهتری از عملکرد Qwen1.5 داشته باشیم، یک ارزیابی جامع از مدل‌های پایه و چت در قابلیت‌های مختلف انجام شده. این قابلیت‌ها شامل توانایی‌های اساسی مثل درک زبان، کدنویسی، استدلال، قابلیت‌های چندزبانه، هماهنگی با ترجیحات انسانی، ایجنت و تولید متن با کمک بازیابی اطلاعات (RAG) میشه.

توانایی‌های اساسی

برای ارزیابی توانایی‌های پایه‌ای مدل‌های زبان، ارزیابی‌هایی روی بنچمارک‌های سنتی مثل MMLU (5-shot)، C-Eval، Humaneval، GS8K، BBH و غیره انجام شده.

نتایج مدل‌های بزرگ‌تر در جدول زیر نشون داده شده:

مدل	MMLU	C-Eval	GSM8K	MATH	HumanEval	MBPP	BBH	CMMLU
GPT-4	۸۶.۴	۶۹.۹	۹۲.۰	۴۵.۸	۶۷.۰	۶۱.۸	۸۶.۷	۷۱.۰
Llama2-7B	۴۶.۸	۳۲.۵	۱۶.۷	۳.۳	۱۲.۸	۲۰.۸	۳۸.۲	۳۱.۸
Llama2-13B	۵۵.۰	۴۱.۴	۲۹.۶	۵.۰	۱۸.۹	۳۰.۳	۴۵.۶	۳۸.۴
Llama2-34B	۶۲.۶	–	۴۲.۲	۶.۲	۲۲.۶	۳۳.۰	۴۴.۱	–
Llama2-70B	۶۹.۸	۵۰.۱	۵۴.۴	۱۰.۶	۲۳.۷	۳۷.۷	۵۸.۴	۵۳.۶
Mistral-7B	۶۴.۱	۴۷.۴	۴۷.۵	۱۱.۳	۲۷.۴	۳۸.۶	۵۶.۷	۴۴.۷
Mixtral-8x7B	۷۰.۶	–	۷۴.۴	۲۸.۴	۴۰.۲	۶۰.۷	–	–
Qwen1.5-7B	۶۱.۰	۷۴.۱	۶۲.۵	۲۰.۳	۳۶.۰	۳۷.۴	۴۰.۲	۷۳.۱
Qwen1.5-14B	۶۷.۶	۷۸.۷	۷۰.۱	۲۹.۲	۳۷.۸	۴۴.۰	۵۳.۷	۷۷.۶
Qwen1.5-32B	۷۳.۴	۸۳.۵	۷۷.۴	۳۶.۱	۳۷.۲	۴۹.۴	۶۶.۸	۸۲.۳
Qwen1.5-72B	۷۷.۵	۸۴.۱	۷۹.۵	۳۴.۱	۴۱.۵	۵۳.۴	۶۵.۵	۸۳.۵

در هر اندازه مدل، Qwen1.5 عملکرد قدرتمندی رو در بنچمارک‌های مختلف ارزیابی نشون میده. به طور خاص، Qwen1.5-72B در تمام بنچمارک‌ها از Llama2-70B بهتر عمل میکنه و قابلیت‌های استثنایی خودش رو در درک زبان، استدلال و ریاضیات به نمایش میذاره.

با توجه به افزایش علاقه اخیر به مدل‌های زبان کوچک، Qwen1.5 با اندازه‌های کوچکتر از ۷ میلیارد پارامتر با برجسته‌ترین مدل‌های کوچک در جامعه مقایسه شده. نتایج در جدول زیر اومده:

مدل	پارامترهای غیر امبدینگ	MMLU	C-Eval	GSM8K	MATH	HumanEval	MBPP	BBH	CMMLU
Tinyllama-1.1B	۱.1B	۲۴.۳	۲۵.۰	۲.۳	۰.۷	۶.۷	۱۹.۹	۲۸.۸	۲۴.۰
Gemini-Nano-3B	–	–	–	۲۲.۸	–	–	۲۷.۲	۴۲.۴	–
StableLM-Zephyr-3B	۲.7B	۴۵.۹	۳۰.۳	۵۲.۵	۱۲.۵	۳۵.۴	۳۱.۹	۳۷.۷	۳۰.۹
Phi-2	۲.5B	۵۲.۷	۲۳.۴	۵۷.۲	۳.۵	۴۷.۶	۵۵.۰	۴۳.۴	۲۴.۲
MiniCPM-2B	۲.4B	۵۳.۵	۵۱.۱	۵۳.۸	۱۰.۲	۵۰.۰	۴۷.۳	۳۶.۹	۵۱.۱
Gemma-2B	۲.0B	۴۲.۳	–	۱۷.۷	۱۱.۸	۲۲.۰	۲۹.۲	۳۵.۲	–
Qwen1.5-0.5B	۰.3B	۳۹.۲	۵۰.۵	۲۲.۰	۳.۱	۱۲.۲	۶.۸	۱۸.۳	۴۶.۶
Qwen1.5-1.8B	۱.2B	۴۶.۸	۵۹.۷	۳۸.۴	۱۰.۱	۲۰.۱	۱۸.۰	۲۴.۲	۵۷.۸
Qwen1.5-4B	۳.1B	۵۶.۱	۶۷.۶	۵۷.۰	۱۰.۰	۲۵.۶	۲۹.۲	۳۲.۵	۶۶.۷
Qwen1.5-MoE-A2.7B	۲.0B	۶۲.۵	۷۹.۲	۶۱.۵	۲۱.۹	۳۴.۲	۳۶.۶	۳۹.۱	۷۹.۲

میشه گفت که مدل‌های پایه Qwen1.5 با کمتر از ۷ میلیارد پارامتر، با مدل‌های کوچک پیشرو در جامعه رقابت تنگاتنگی دارن. در آینده، کار روی بهبود کیفیت مدل‌های کوچک و کشف روش‌هایی برای انتقال موثر قابلیت‌های پیشرفته مدل‌های بزرگتر به مدل‌های کوچکتر ادامه پیدا میکنه.

هماهنگی با ترجیحات انسانی

هدف از هماهنگ‌سازی (Alignment)، افزایش توانایی مدل‌های زبان بزرگ در پیروی از دستورالعمل‌ها و کمک به ارائه پاسخ‌هایی است که با ترجیحات انسانی همخوانی زیادی داشته باشن. با درک اهمیت ادغام ترجیحات انسانی در فرآیند یادگیری، از تکنیک‌هایی مثل بهینه‌سازی مستقیم سیاست (DPO) و بهینه‌سازی سیاست پروگزیمال (PPO) به طور موثر در هماهنگ‌سازی آخرین سری Qwen استفاده شده.

با این حال، ارزیابی کیفیت چنین مدل‌های چتی یک چالش بزرگه. در حالی که ارزیابی جامع انسانی بهترین روشه، اما با چالش‌های قابل توجهی در زمینه مقیاس‌پذیری و تکرارپذیری روبرو هست. بنابراین، در ابتدا مدل‌ها روی دو بنچمارک پرکاربرد، با استفاده از مدل‌های زبان بزرگ پیشرفته به عنوان داور، ارزیابی میشن: MT-Bench و Alpaca-Eval. نتایج در زیر ارائه شده:

مدل‌ها	MT-Bench	AlpacaEval 2.0
	Avg. Score	Win Rate	Length
Qwen1.5-72B-Chat	۸.۶۱ ± ۰.۰۴ (۸.۶۷/۸.۶۱/۸.۵۶)	۲۷.۱۸ ± ۱.۳۰	۱۶۰۰
Qwen1.5-14B-Chat	۷.۹۱ ± ۰.۱۱ (۷.۹۹/۷.۹۹/۷.۷۷)	۱۹.۷ ± ۱.۱۲	۱۶۰۸
Qwen1.5-7B-Chat	۷.۶۰ ± ۰.۰۵ (۷.۵۸/۷.۵۵/۷.۶۶)	۱۳.۲۰ ± ۱.۴۳	۱۶۰۶

با وجود اینکه هنوز به طور قابل توجهی از GPT-4-Turbo عقب‌تره، بزرگترین مدل متن‌باز Qwen1.5، یعنی Qwen1.5-72B-Chat، عملکرد برتری از خودش نشون میده و از Claude-2.1، GPT-3.5-Turbo-0613، Mixtral-8x7b-instruct و TULU 2 DPO 70B بهتر عمل میکنه و در هر دو بنچمارک MT-Bench و Alpaca-Eval v2 با Mistral Medium برابری میکنه.

علاوه بر این، اگرچه امتیازدهی داوران LLM ممکنه با طول پاسخ‌ها مرتبط باشه، مشاهدات نشون میده که این مدل‌ها برای دستکاری سوگیری داوران LLM، پاسخ‌های طولانی تولید نمیکنن. میانگین طول پاسخ Qwen1.5-Chat در AlpacaEval 2.0 فقط ۱۶۱۸ کلمه است که با طول GPT-4 همخوانی داره و از GPT-4-Turbo کوتاه‌تره.

درک چندزبانه مدل‌های پایه

یک مجموعه متنوع از ۱۲ زبان از اروپا، شرق آسیا و جنوب شرقی آسیا به دقت انتخاب شده تا قابلیت‌های چندزبانه مدل پایه به طور کامل ارزیابی بشه. برای این منظور، مجموعه‌های آزمایشی از مخازن متن‌باز جامعه گردآوری شده که چهار بعد مختلف رو پوشش میده: امتحانات، درک مطلب، ترجمه و ریاضیات. جدول زیر اطلاعات دقیقی در مورد هر مجموعه آزمایشی، از جمله تنظیمات ارزیابی، معیارها و زبان‌هایی که شامل میشن رو ارائه میده:

دیتاست	دسته‌بندی	روش/متریک	زبان‌ها
MMLU-multi	امتحانات	۵-shot/Acc	ar, es, fr, pt, de, it, ru, ja, ko, id
M3Exams	امتحانات	۵-shot/Acc	pt, it, vi, th
BELEBELE	درک مطلب	۵-shot/Acc	ar, es, fr, pt, de, it, ru, ja, ko, vi, th, id
XWinograd	درک مطلب	۵-shot/Acc	fr, pt, ru, ja
XCOPA	درک مطلب	۵-shot/Acc	vi, id, th
PAWS-X	درک مطلب	۵-shot/Acc	es, fr, de, ja, ko
XStoryCloze	درک مطلب	۰-shot/Acc	ar, es, ru, id
Flores(zh/en↔xx)	ترجمه	۵-shot/BLEU	ar, es, fr, pt, de, it, ru, ja, ko, vi, th, id
MGSM	ریاضی	۸-shot/Acc	es, fr, ru, de, ja, th

نتایج دقیق در جدول زیر نشون داده شده:

مدل‌ها	امتحانات	درک مطلب	ریاضی	ترجمه
GPT-3.5	۵۲.۲۴	۷۱.۸۴	۳۲.۸۰	۳۱.۸۵
GPT-4	۷۱.۶۴	۸۳.۸۲	۸۰.۱۳	۳۴.۳۷
Llama2-7B	۳۴.۰۳	۵۰.۱۳	۹.۴۰	۲۲.۱۹
Llama2-13B	۳۹.۵۵	۵۷.۲۶	۱۶.۸۰	۲۵.۸۹
Llama2-70B	۵۵.۸۸	۷۳.۱۹	۴۰.۲۰	۳۱.۵۶
Mistral-7B	۴۷.۱۲	۶۳.۳۰	۲۶.۳۳	۲۳.۳۳
Mixtral-8x7B	۵۶.۰۸	۷۰.۷۰	۴۵.۰۰	۲۹.۷۸
Qwen1.5-0.5B	۲۶.۹۸	۴۴.۰۸	۳.۱۳	۹.۱۷
Qwen1.5-1.8B	۳۳.۵۷	۴۸.۳۷	۶.۴۷	۱۶.۱۹
Qwen1.5-4B	۴۱.۴۳	۵۹.۷۶	۲۱.۳۳	۲۳.۳۴
Qwen1.5-MoE-A2.7B	۴۴.۵۴	۶۱.۰۸	۳۰.۲۰	۲۷.۳۵
Qwen1.5-7B	۴۷.۷۰	۶۷.۶۳	۳۷.۲۷	۲۸.۳۶
Qwen1.5-14B	۵۵.۷۲	۷۴.۱۰	۴۹.۹۳	۳۱.۶۹
Qwen1.5-72B	۶۶.۳۵	۷۸.۱۶	۶۱.۶۷	۳۵.۵۷

مدل‌های پایه Qwen1.5 قابلیت‌های چندزبانه چشمگیری از خودشون نشون میدن، که این موضوع در عملکرد اونها در مجموعه‌ای متنوع از ۱۲ زبان مشخصه. در ارزیابی‌هایی که ابعاد مختلفی مثل امتحانات، درک مطلب، ترجمه و ریاضیات رو پوشش میدن، Qwen1.5 به طور مداوم نتایج قوی ارائه میده. از زبان‌هایی مثل عربی، اسپانیایی و فرانسوی گرفته تا ژاپنی، کره‌ای و تایلندی، Qwen1.5 توانایی خودش رو در درک و تولید محتوای با کیفیت در زمینه‌های زبانی مختلف نشون میده. مقایسه Qwen1.5-72B-Chat با GPT-3.5 نشون میده که این مدل‌ها توانایی‌های چندزبانه قوی دارن و میتونن در کاربردهای پایین‌دستی مثل ترجمه، درک زبان و چت چندزبانه به کار برن.

پشتیبانی از زمینه طولانی (Long Context)

با افزایش تقاضا برای درک زمینه طولانی، قابلیت همه مدل‌ها برای پشتیبانی از زمینه تا ۳۲ هزار توکن (32K) گسترش داده شده. عملکرد مدل‌های Qwen1.5 روی بنچمارک L-Eval ارزیابی شده که توانایی مدل‌ها در تولید پاسخ بر اساس زمینه طولانی رو میسنجه. نتایج در جدول زیر اومده:

مدل‌ها	Coursera	GSM	QuALITY	TOEFL	SFiction	میانگین
GPT3.5-turbo-16k	۶۳.۵۱	۸۴.۰۰	۶۱.۳۸	۷۸.۴۳	۶۴.۸۴	۷۰.۴۳
Claude1.3-100k	۶۰.۰۳	۸۸.۰۰	۷۳.۷۶	۸۳.۶۴	۷۲.۶۵	۷۵.۶۲
GPT4-32k	۷۵.۵۸	۹۶.۰۰	۸۲.۱۷	۸۴.۳۸	۷۴.۹۹	۸۲.۶۲
Qwen-72B-Chat	۵۸.۱۳	۷۶.۰۰	۷۷.۲۲	۸۶.۲۴	۶۹.۵۳	۷۳.۴۲
Qwen1.5-0.5B-Chat	۳۰.۸۱	۶.۰۰	۳۴.۱۶	۴۰.۵۲	۴۹.۲۲	۳۲.۱۴
Qwen1.5-1.8B-Chat	۳۹.۲۴	۳۷.۰۰	۴۲.۰۸	۵۵.۷۶	۴۴.۵۳	۴۳.۷۲
Qwen1.5-4B-Chat	۵۴.۹۴	۴۷.۰۰	۵۷.۹۲	۶۹.۱۵	۵۶.۲۵	۵۷.۰۵
Qwen1.5-7B-Chat	۵۹.۷۴	۶۰.۰۰	۶۴.۳۶	۷۹.۱۸	۶۲.۵۰	۶۵.۱۶
Qwen1.5-14B-Chat	۶۹.۰۴	۷۹.۰۰	۷۴.۷۵	۸۳.۶۴	۷۵.۷۸	۷۶.۴۴
Qwen1.5-72B-Chat	۷۱.۹۵	۸۲.۰۰	۷۷.۷۲	۸۵.۵۰	۷۳.۴۴	۷۸.۱۲

از نظر عملکرد، حتی یک مدل کوچک مثل Qwen1.5-7B-Chat عملکرد رقابتی در برابر GPT-3.5 در ۴ مورد از ۵ تسک نشون میده. بهترین مدل این سری، Qwen1.5-72B-Chat، به طور قابل توجهی از GPT3.5-turbo-16k بهتر عمل میکنه و فقط کمی از GPT4-32k عقب‌تره. این نتایج عملکرد برجسته در محدوده ۳۲ هزار توکن رو نشون میده، اما به این معنی نیست که مدل‌ها فقط به ۳۲ هزار توکن محدود هستن. میشه مقادیر max_position_embedding و sliding_window رو در فایل config.json به مقادیر بزرگتر تغییر داد تا ببینید آیا عملکرد مدل برای کارهای شما همچنان رضایت‌بخش هست یا نه.

توانایی اتصال به سیستم‌های خارجی

مدل‌های زبان بزرگ (LLM) تا حدی به خاطر توانایی‌شون در ادغام با دانش و ابزارهای خارجی محبوب شدن. تولید متن با کمک بازیابی اطلاعات (RAG) به دلیل کاهش مشکلات رایج LLM مثل توهم (hallucination)، کمبود داده‌های به‌روز و مدیریت اطلاعات خصوصی، مورد توجه قرار گرفته. علاوه بر این، LLM های قوی معمولا در استفاده از API ها و ابزارها از طریق فراخوانی تابع (function calling) عالی عمل میکنن و برای ایفای نقش به عنوان ایجنت‌های هوش مصنوعی ایده‌آل هستن.

عملکرد Qwen1.5-Chat ابتدا روی RGB ارزیابی شده، که یک بنچمارک RAG هست و هیچ بهینه‌سازی خاصی برای اون انجام نشده:

بنچمارک انگلیسی RGB برای تولید متن با کمک بازیابی اطلاعات

مدل‌ها	Noise 0.8 (Acc.↑)	Rejection 1.0 (Acc.↑)	Integration 0.4 (Acc.↑)	Counterfactual (Acc.↑)
GPT4-Turbo	۸۵.۶۷	۴۷.۳۳	۶۰.۰۰	۹۰.۰۰
GPT3.5-Turbo	۷۴.۳۳	۲۷.۶۷	۴۷.۰۰	۲۱.۰۰
Llama2-70B-Chat	۸۲.۰۰	۳۱.۰۰	۵۶.۰۰	۱۵.۰۰
Mistral-7B-Instruct-v0.2	۸۲.۰۰	۳۱.۰۰	۵۶.۰۰	۱۵.۰۰
Mixtral-8x7B-Instruct-v0.1	۸۲.۶۷	۳۷.۰۰	۶۷.۰۰	۸.۰۰
Qwen1.5-7B-Chat	۷۷.۶۷	۲۵.۰۰	۵۲.۰۰	۹.۰۰
Qwen1.5-14B-Chat	۸۰.۶۷	۲۴.۰۰	۶۰.۰۰	۸.۰۰
Qwen1.5-72B-Chat	۸۱.۶۷	۴۸.۶۷	۶۱.۰۰	۲۸.۰۰

بنچمارک چینی RGB برای تولید متن با کمک بازیابی اطلاعات

مدل‌ها	Noise 0.8 (Acc.↑)	Rejection 1.0 (Acc.↑)	Integration 0.4 (Acc.↑)	Counterfactual (Acc.↑)
GPT4-Turbo	۷۵.۰۰	۳۸.۶۷	۶۳.۰۰	۹۰.۰۰
GPT3.5-Turbo	۶۹.۰۰	۱۳.۰۰	۵۵.۰۰	۲۵.۰۰
Llama2-70B-Chat	۲۸.۰۰	۱۷.۰۰	۳۲.۰۰	۸.۰۰
Mistral-7B-Instruct-v0.2	۵۴.۶۷	۲۸.۶۷	۳۷.۰۰	۴.۰۰
Mixtral-8x7B-Instruct-v0.1	۲۷.۳۳	۴.۰۰	۲۴.۰۰	۴.۰۰
Qwen1.5-7B-Chat	۷۱.۰۰	۱۰.۳۳	۵۴.۰۰	۲۰.۰۰
Qwen1.5-14B-Chat	۷۵.۰۰	۱۶.۶۷	۵۵.۰۰	۲۲.۰۰
Qwen1.5-72B-Chat	۷۶.۰۰	۵۱.۰۰	۶۶.۰۰	۴۴.۰۰

سپس، ظرفیت Qwen برای عمل به عنوان یک ایجنت عمومی با آزمایش اون روی بنچمارک T-Eval ارزیابی شده. هیچ یک از مدل‌های Qwen برای این بنچمارک بهینه‌سازی خاصی نشدن:

عملکرد ایجنت در T-Eval انگلیسی

مدل‌ها	Overall	Instruct	Plan	Reason	Retrieve	Understand	Review
GPT4-Turbo	۸۶.۴	۹۶.۳	۸۷.۸	۶۵.۳	۸۸.۹	۸۵.۸	۹۴.۵
Llama-2-70B-Chat	۵۸.۵۹	۷۷.۸۰	۶۳.۷۵	۳۹.۰۷	۵۱.۳۵	۵۰.۳۴	۶۹.۲۰
Mistral-7B-Instruct-v0.2	۴۶.۶۸	۶۳.۵۷	۶۰.۸۸	۳۲.۵۹	۱۷.۵۸	۳۸.۰۸	۶۷.۳۵
Mixtral-8x7B-Instruct-v0.1	۶۲.۱۵	۴۲.۳۹	۴۶.۴۸	۶۰.۳۵	۷۶.۶۹	۷۳.۷۰	۷۳.۳۱
Qwen1.5-7B-Chat	۵۹.۶۷	۷۱.۱۲	۶۲.۹۵	۳۷.۶۰	۶۱.۱۷	۵۳.۷۵	۷۱.۴۶
Qwen1.5-14B-Chat	۷۱.۷۷	۸۶.۱۶	۷۳.۰۹	۴۹.۵۱	۷۲.۰۷	۶۶.۰۳	۸۳.۷۸
Qwen1.5-72B-Chat	۷۶.۶۹	۸۰.۹۶	۸۳.۱۲	۵۶.۸۹	۸۰.۱۷	۷۶.۶۸	۸۲.۳۴

عملکرد ایجنت در T-Eval چینی

مدل‌ها	Overall	Instruct	Plan	Reason	Retrieve	Understand	Review
GPT4-Turbo	۸۵.۹	۹۷.۶	۸۷.۰	۶۸.۴	۸۹.۲	۸۶.۸	۸۶.۰
Llama-2-70B-Chat	۵۱.۱۵	۵۳.۷۸	۵۶.۶۵	۳۴.۲۷	۴۸.۲۴	۵۰.۴۹	۶۳.۴۵
Mistral-7B-Instruct-v0.2	۴۶.۲۶	۴۹.۶۴	۶۱.۸۲	۳۶.۱۷	۲۰.۲۶	۴۷.۲۵	۶۲.۴۲
Mixtral-8x7B-Instruct-v0.1	۶۲.۷۷	۲۶.۳۸	۶۰.۷۹	۶۲.۰۲	۷۶.۶۰	۷۷.۷۴	۷۳.۱۰
Qwen1.5-7B-Chat	۵۳.۱۵	۶۰.۵۶	۶۲.۳۱	۴۲.۰۷	۵۵.۲۸	۵۵.۷۶	۴۲.۹۲
Qwen1.5-14B-Chat	۶۴.۸۵	۸۴.۲۵	۶۴.۷۷	۵۴.۶۸	۷۲.۳۵	۶۸.۸۸	۴۴.۱۵
Qwen1.5-72B-Chat	۷۲.۸۸	۹۷.۵۰	۸۰.۸۳	۵۸.۱۱	۷۶.۱۴	۷۱.۹۴	۵۲.۷۷

برای آزمایش قابلیت‌های استفاده از ابزار، که به عنوان فراخوانی تابع هم شناخته میشه، از بنچمارک متن‌باز ارزیابی پلاگین برای سنجش توانایی مدل‌ها در انتخاب و استفاده مناسب از ابزارها استفاده شده:

بنچمارک استفاده از ابزار (Tool-Use)

مدل‌ها	Tool Selection (Acc.↑)	Tool Input (Rouge-L↑)	False Positive (Acc.↑)
GPT-4	۹۸.۰	۹۵.۳	۷۶.۱
GPT-3.5	۷۴.۵	۸۰.۷	۱۹.۴
Llama-2-70B-Chat	۸۸.۵۴	۷۰.۳۶	۰.۳۷
Mistral-7B-Instruct-v0.2	۹۴.۷۹	۸۲.۸۱	۶.۳۴
Mixtral-8x7B-Instruct-v0.1	۹۹.۳۱	۹۴.۴۶	۳۱.۳۴
Qwen1.5-7B-Chat	۹۵.۸۳	۸۹.۴۸	۹۲.۵۴
Qwen1.5-14B-Chat	۹۳.۰۶	۸۸.۷۴	۹۲.۹۱
Qwen1.5-72B-Chat	۹۵.۱۴	۹۱.۱۴	۹۸.۵۱

در نهایت، از اونجایی که مفسر کد پایتون به ابزاری قدرتمند برای مدل‌های زبان بزرگ پیشرفته تبدیل شده، توانایی مدل‌ها در استفاده از این ابزار روی بنچمارک متن‌باز ارزیابی شده:

بنچمارک مفسر کد (Code Interpreter)

مدل‌ها	دقت نتایج اجرای کد (%)
	Math↑	Visualization-Hard↑	Visualization-Easy↑	General↑
GPT-4	۸۲.۸	۶۶.۷	۶۰.۸	۸۲.۸
GPT-3.5	۴۷.۳	۳۳.۳	۵۵.۷	۷۴.۱
Mistral-7B-Instruct-v0.2	۲۵.۵	۱۹.۱	۴۴.۳	۶۲.۱
Mixtral-8x7B-Instruct-v0.1	۴۷.۸	۳۳.۳	۵۴.۴	۶۰.۳
Qwen1.5-7B-Chat	۵۴.۰	۳۵.۷	۳۶.۷	۶۵.۵
Qwen1.5-14B-Chat	۶۲.۱	۴۶.۴	۴۸.۱	۷۰.۶
Qwen1.5-72B-Chat	۷۳.۱	۵۲.۳	۵۰.۶	۸۷.۹

مدل‌های بزرگتر Qwen1.5-Chat به طور کلی از مدل‌های کوچکتر بهتر عمل میکنن و به عملکرد استفاده از ابزار GPT-4 نزدیک میشن. با این حال، در کارهای مفسر کد مثل حل مسائل ریاضی و مصورسازی، حتی بزرگترین مدل Qwen1.5-72B-Chat هم به دلیل قابلیت‌های کدنویسی، به طور قابل توجهی از GPT-4 عقب‌تره. هدف اینه که در نسخه‌های آینده، قابلیت‌های کدنویسی همه مدل‌های Qwen در هر دو مرحله پیش‌آموزش و هماهنگ‌سازی تقویت بشه.

چطور با Qwen1.5 کار کنیم؟

بزرگترین تفاوت Qwen1.5، ادغامش با ترنسفورمرز هاگینگ فیسه. از نسخه ۴.۳۷.۰ به بعد، میشه از Qwen1.5 بدون کد سفارشی استفاده کرد، یعنی میشه مدل رو به این شکل بارگذاری کرد:

from transformers import AutoModelForCausalLM
# این کدی بود که قبلا استفاده میکردیم
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True)
# این کدیه که حالا میتونید استفاده کنید
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")

استفاده از Qwen1.5 برای چت با نسخه قبلی فرق داره. میشه از کد زیر برای چت با Qwen1.5 استفاده کرد:

from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # دستگاهی که مدل روش بارگذاری میشه

model = AutoModelForCausalLM.from_pretrained(
    "Qwen/Qwen1.5-14B-Chat-AWQ",
    device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-14B-Chat-AWQ")

prompt = "Give me a short introduction to large language model."
messages = [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
    messages,
    tokenize=False,
    add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)

generated_ids = model.generate(
    model_inputs.input_ids,
    max_new_tokens=512
)
generated_ids = [
    output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]

response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

برای مدل‌های چت، دیگه از متد خاص model.chat() استفاده نمیشه، بلکه از model.generate() با تمپلیت چتی که در tokenizer_config.json نوشته شده استفاده میشه تا بشه با tokenizer.apply_chat_template() ورودی رو تولید کرد و از eos_token برای کنترل زمان توقف تولید استفاده میشه.

مدل‌های AWQ و GPTQ (شامل مدل‌های Int4 و Int8) هم ارائه شدن تا بشه از Qwen1.5 در سناریوهای با منابع کم یا دیپلوی استفاده کرد. از اونجایی که ترنسفورمرز هاگینگ فیس از AWQ و GPTQ پشتیبانی میکنه، میشه اونها رو به همون روش بالا فقط با نام مدل مربوطه استفاده کرد.

علاوه بر این، کد با فریمورک‌های محبوب استنتاج (inference) ادغام شده تا بشه مدل رو به راحتی دیپلوی کرد. حالا vLLM>=0.3.0 و SGLang>=0.1.11 به طور رسمی از Qwen1.5 پشتیبانی میکنن. برای یادگیری استفاده دقیق، به مخازن گیت‌هاب و مستندات رسمی اونها مراجعه کنید. اینجا یک مثال برای نشون دادن نحوه استفاده از vLLM برای ساخت یک رابط سازگار با OpenAI-API برای مدل ارائه شده:

python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen1.5-7B-Chat

curl http://localhost:8000/v1/chat/completions \
    -H "Content-Type: application/json" \
    -d '{
    "model": "Qwen/Qwen1.5-7B-Chat",
    "messages": [
    {"role": "system", "content": "You are a helpful assistant."},
    {"role": "user", "content": "Tell me something about large language models."}
    ]
    }'

برای کاربرانی که میخوان LLM رو به صورت محلی اجرا کنن، llama.cpp هم از Qwen1.5 پشتیبانی میکنه و مدل‌های کوانتایزشده در فرمت GGUF به طور رسمی در هاب مدل HF ارائه شدن. میشه از کد زیر برای اجرای Qwen1.5 در llama.cpp استفاده کرد:

./main -m qwen1.5-7b-chat-q2_k.gguf -n 512 --color -i -cml -f prompts/chat-with-qwen.txt

علاوه بر این، میشه از فایل GGUF با Ollama استفاده کرد. به لطف پشتیبانی Ollama، حالا میشه مستقیما از یک خط فرمان استفاده کرد:

ollama run qwen

یا میشه از فایل GGUF برای کار با llamafile استفاده کرد تا مدل‌ها رو با یک فایل تکی اجرا کنید.

برای ساخت یک دموی وب به صورت محلی، پیشنهاد میشه از Text generation web UI استفاده کنید که استفاده ازش خیلی آسونه.

برای توسعه‌دهنده‌های پیشرفته که امیدوارن مدل‌های بهتر یا مناسب‌تری برای خودشون آموزش بدن، مثل پس‌آموزش، Qwen1.5 توسط trainer هاگینگ فیس و Peft پشتیبانی میشه. همچنین، فریمورک‌های آسانی وجود دارن که هم از فاین‌تیونینگ نظارت‌شده (SFT) و هم از هماهنگ‌سازی (PPO, DPO, غیره) پشتیبانی میکنن. حالا، هم LLaMA-Factory و هم Axolotl از آموزش Qwen1.5 پشتیبانی میکنن.

اگر میخواهید از Qwen1.5 برای کاربردهای پایین‌دستی، مثل RAG، استفاده از ابزار، یا ایجنت استفاده کنید، حالا میتونید API سازگار با OpenAI-API بسازید یا مدل‌های محلی رو برای فریمورک‌های معروفی مثل LlamaIndex، LangChain و CrewAI اجرا کنید.

نگاهی دقیق‌تر به خانواده مدل‌های Qwen

خانواده Qwen شامل مدل‌های تخصصی مختلفی است که برای نیازها و موارد استفاده متفاوت طراحی شدن. این مدل‌ها که توسط علی‌بابا کلود توسعه داده شدن، هوش مصنوعی رو به سطح جدیدی میرسونن و اون رو برای پردازش زبان طبیعی، بینایی کامپیوتر و درک صوتی هوشمندتر و مفیدتر میکنن.

ویژگی‌های کلیدی Qwen

خانواده مدل‌های Qwen ابزاری قدرتمند و همه‌کاره برای کاربردهای مختلف هوش مصنوعی فراهم میکنن. بیایید ویژگی‌های کلیدی که Qwen رو متمایز میکنه بررسی کنیم:

پشتیبانی چندزبانه: Qwen در درک و تولید چندزبانه عالی عمل میکنه و توانایی‌های قوی در هر دو زبان انگلیسی و چینی و همچنین پشتیبانی از زبان‌های متعدد دیگه داره. آخرین مدل‌های Qwen2 دایره زبانی خودشون رو به ۲۷ زبان اضافی گسترش دادن که مناطقی مثل اروپای غربی، اروپای شرقی و مرکزی، خاورمیانه، آسیای شرقی و آسیای جنوبی رو پوشش میده.
تولید متن: مدل‌های Qwen در وظایف مختلف تولید متن بسیار ماهر هستن. برخی از کاربردهای کلیدی شامل نوشتن مقاله، خلاصه‌سازی، سرودن شعر و تولید کد میشه.
پاسخ به سوال: Qwen هم در پاسخ به سوالات واقعی و هم سوالات باز عالیه.
درک تصویر: با مدل Qwen-VL، خانواده Qwen قابلیت‌های خودش رو به وظایف چندوجهی شامل تصاویر گسترش میده. ویژگی‌های کلیدی شامل تولید کپشن برای تصویر، پاسخ به سوالات بصری و درک اسناد میشه.
متن‌باز بودن: یکی از مهم‌ترین ویژگی‌های Qwen، متن‌باز بودن اونه که مزایای زیادی برای جامعه هوش مصنوعی داره: دسترسی آزاد، شفافیت، قابلیت سفارشی‌سازی و توسعه مبتنی بر جامعه.

فاین‌تیونینگ (تنظیم دقیق) مدل‌های Qwen

فاین‌تیونینگ مدل‌های Qwen به شما اجازه میده اونها رو برای وظایf خاصی تطبیق بدید و به طور بالقوه عملکردشون رو برای مورد استفاده خاص خودتون بهبود ببخشید. این فرآیند شامل آموزش مدل از پیش آموزش‌دیده روی یک مجموعه داده سفارشی است. در این مثال، مدل برای بهبود عملکرد در وظایف ترجمه و پاسخ به سوالات واقعی فاین‌تیون میشه.

پیش‌نیازها

قبل از شروع، مطمئن بشید که کتابخانه‌های زیر رو نصب کردید:

pip install datasets torch accelerate peft

مرحله ۱: آماده‌سازی دیتاست

اول، دیتاست خودتون رو در یک فرمت JSON آماده کنید. هر ورودی باید یک فیلد «prompt» و یک فیلد «completion» داشته باشه. این رو به عنوان custom_dataset.json ذخیره کنید. مثال:

[
  {
    "prompt": "Translate to French: 'Hello, how are you?'",
    "completion": "Bonjour, comment allez-vous?"
  },
  {
    "prompt": "What is the capital of Spain?",
    "completion": "The capital of Spain is Madrid."
  }
]

مرحله ۲: راه‌اندازی اسکریپت فاین‌تیونینگ

حالا ایمپورت‌های زیر رو اضافه میکنیم:

import torch
from transformers import TrainingArguments, Trainer
from datasets import load_dataset
from peft import LoraConfig, get_peft_model

مرحله ۳: آماده‌سازی دیتاست

بعد، یک تابع برای پیش‌پردازش دیتاست تعریف میکنیم و اون رو با استفاده از کتابخانه دیتاست هاگینگ فیس بارگذاری میکنیم:

def preprocess_function(examples):
    inputs = [f"{prompt}\n" for prompt in examples["prompt"]]
    targets = [f"{completion}\n" for completion in examples["completion"]]
    model_inputs = tokenizer(inputs, max_length=512, truncation=True, padding="max_length")
    labels = tokenizer(targets, max_length=512, truncation=True, padding="max_length")
    model_inputs["labels"] = labels["input_ids"]
    return model_inputs
dataset = load_dataset("json", data_files="custom_dataset.json")
tokenized_dataset = dataset["train"].train_test_split(test_size=0.1)
tokenized_dataset = tokenized_dataset.map(preprocess_function, batched=True, remove_columns=dataset["train"].column_names)

مرحله ۴: راه‌اندازی LoRA برای فاین‌تیونینگ بهینه

برای بهینه‌تر کردن فاین‌تیونینگ، از LoRA (Low-Rank Adaptation) استفاده میکنیم. این تکنیک به ما اجازه میده مدل‌های بزرگ رو با پارامترهای کمتری فاین‌تیون کنیم:

lora_config = LoraConfig(
    r=8,
    lora_alpha=32,
    target_modules=["q_proj", "v_proj"],
    lora_dropout=0.05,
    bias="none",
    task_type="CAUSAL_LM"
)
model = get_peft_model(model, lora_config)

مرحله ۵: تعریف آرگومان‌های آموزش

حالا آرگومان‌های آموزشی رو که جنبه‌های مختلف فرآیند فاین‌تیونینگ رو کنترل میکنن، تنظیم میکنیم:

training_args = TrainingArguments(
    output_dir="./results",
    num_train_epochs=3,
    per_device_train_batch_size=4,
    per_device_eval_batch_size=4,
    warmup_steps=500,
    weight_decay=0.01,
    logging_dir="./logs",
    logging_steps=10,
    evaluation_strategy="steps",
    eval_steps=500,
    save_strategy="steps",
    save_steps=1000,
    learning_rate=1e-4,
    fp16=True,
    gradient_checkpointing=True,
    gradient_accumulation_steps=4,
)

مرحله ۶: ایجاد Trainer و شروع فاین‌تیونینگ

با آماده بودن دیتاست و آرگومان‌های آموزشی، حالا میتونیم یک شی Trainer ایجاد کنیم و فرآیند فاین‌تیونینگ رو شروع کنیم:

trainer = Trainer(
    model=model,
    args=training_args,
    train_dataset=tokenized_dataset["train"],
    eval_dataset=tokenized_dataset["test"],
    tokenizer=tokenizer,
)
trainer.train()

مرحله ۸: ذخیره مدل فاین‌تیون شده

پس از اتمام فاین‌تیونینگ، مدل خودمون رو ذخیره میکنیم تا بعدا بتونیم ازش استفاده کنیم:

trainer.save_model("./fine_tuned_qwen")

مدل‌های تجاری و تخصصی Qwen

علاوه بر مدل‌های متن‌باز، علی‌بابا کلود مدل‌های تجاری و تخصصی‌تری رو هم ارائه میده که هر کدوم برای سناریوهای خاصی طراحی شدن. این مدل‌ها از طریق پلتفرم علی‌بابا در دسترس هستن و قابلیت‌های پیشرفته‌تری رو ارائه میدن.

QwQ: مدل استدلال

QwQ یک مدل استدلاله که بر پایه Qwen2.5 آموزش دیده و با استفاده از یادگیری تقویتی، بهبودهای قابل توجهی در توانایی‌های استدلال داشته. عملکردش در معیارهای اصلی ریاضی و کدنویسی (AIME 24/25, LiveCodeBench) و معیارهای عمومی (IFEval, LiveBench, و غیره) به سطح DeepSeek-R1 رسیده.

نام	نسخه	پنجره زمینه	حداکثر ورودی	حداکثر CoT	حداکثر پاسخ	قیمت ورودی	قیمت خروجی	سهمیه رایگان
qwq-plus	Stable	۱۳۱,۰۷۲	۹۸,۳۰۴	۳۲,۷۶۸	۸,۱۹۲	۰.۸ دلار	۲.۴ دلار	۱ میلیون توکن (معتبر برای ۱۸۰ روز)

Qwen-Max: اوج عملکرد

Qwen-Max بهترین عملکرد استنتاج رو در بین مدل‌های Qwen ارائه میده، مخصوصا برای کارهای پیچیده و چند مرحله‌ای.

نام	نسخه	پنجره زمینه	حداکثر ورودی	حداکثر خروجی	قیمت ورودی	قیمت خروجی	سهمیه رایگان
qwen-max	Stable	۳۲,۷۶۸	۳۰,۷۲۰	۸,۱۹۲	۱.۶ دلار	۶.۴ دلار	۱ میلیون توکن هرکدام (معتبر برای ۱۸۰ روز)
qwen-max-latest	Latest				۱.۶ دلار	۶.۴ دلار
qwen-max-2025-01-25	Snapshot

Qwen-Plus: تعادل بین عملکرد و هزینه

Qwen-Plus ترکیبی متعادل از عملکرد، سرعت و هزینه رو ارائه میده که برای کارهای با پیچیدگی متوسط ایده‌آله. این مدل میتونه در دو حالت «تفکر» (thinking) و «عدم تفکر» (non-thinking) پاسخ بده که با پارامتر enable_thinking قابل تنظیمه.

نام	نسخه	پنجره زمینه	حداکثر ورودی/خروجی	قیمت ورودی	قیمت خروجی	سهمیه رایگان
qwen-plus	Stable	۱۳۱,۰۷۲	تفکر: ۹۸,۳۰۴ غیرتفکر: ۱۲۹,۰۲۴ / ۱۶,۳۸۴ (CoT: ۳۸,۹۱۲)	۰.۴ دلار	تفکر: ۸ دلار غیرتفکر: ۱.۲ دلار	۱ میلیون توکن هرکدام (معتبر برای ۱۸۰ روز)
qwen-plus-latest	Latest			۰.۴ دلار	تفکر: ۸ دلار غیرتفکر: ۱.۲ دلار

این مدل از بیش از ۱۰۰ زبان و گویش پشتیبانی میکنه. لیست کامل زبان‌ها شامل موارد زیره:

انگلیسی، چینی ساده، چینی سنتی، فرانسوی، اسپانیایی، عربی، روسی، پرتغالی، آلمانی، ایتالیایی، هلندی، دانمارکی، ایرلندی، ولزی، فنلاندی، ایسلندی، سوئدی، نروژی (بوکمول و نینورسک)، ژاپنی، کره‌ای، ویتنامی، تایلندی، اندونزیایی، مالایی، برمه‌ای، تاگالوگ، خمر، لائوسی، هندی، بنگالی، اردو، نپالی، عبری، ترکی، فارسی، لهستانی، اوکراینی، چکی، رومانیایی، بلغاری، اسلواکی، مجارستانی، اسلوونیایی، لتونیایی، استونیایی، لیتوانیایی، بلاروسی، یونانی، کرواتی، مقدونی، مالتی، صربی، بوسنیایی، گرجی، ارمنی، آذربایجانی شمالی، قزاقی، ازبکی شمالی، تاجیکی، سواحیلی، آفریکانس، کانتونی، لوکزامبورگی، لیمبورخی، کاتالانی، گالیسی، آستوریایی، باسکی، اکسیتان، ونیزی، ساردینی، سیسیلی، فریولی، لومبارد، لیگوری، فارویی، آلبانیایی توسک، سیلزیایی، باشقیری، تاتاری، عربی بین‌النهرین، عربی نجدی، عربی مصری، عربی شامی، عربی تعزی-عدنی، دری، عربی تونسی، عربی مراکشی، کابووردیانو، توک پیسین، ییدیش شرقی، سندی، سینهالی، تلوگو، پنجابی، تامیلی، گجراتی، مالایالام، مراتی، کانادایی، ماگاهی، اوریا، آوادی، مایتیلی، آسامی، چتیسگری، بوجپوری، مینانگکابائو، بالیایی، جاوه‌ای، بنجاری، سوندایی، سبوانو، پانگاسینانی، ایلوکو، وارای (فیلیپین)، هائیتی، پاپیامنتو.

Qwen-Turbo: سرعت و هزینه پایین

Qwen-Turbo سرعت بالا و هزینه پایینی داره و برای کارهای ساده مناسبه. این مدل هم حالت «تفکر» و «عدم تفکر» داره.

نام	نسخه	پنجره زمینه	حداکثر ورودی/خروجی	قیمت ورودی	قیمت خروجی	سهمیه رایگان
qwen-turbo	Stable	تفکر: ۱۳۱,۰۷۲ غیرتفکر: ۱,۰۰۰,۰۰۰	تفکر: ۹۸,۳۰۴ غیرتفکر: ۱,۰۰۰,۰۰۰ / ۸,۱۹۲	۰.۰۵ دلار	تفکر: ۱ دلار غیرتفکر: ۰.۲ دلار	۱ میلیون توکن هرکدام (معتبر برای ۱۸۰ روز)

QVQ: استدلال بصری

QVQ یک مدل استدلال بصریه که از ورودی بصری و خروجی زنجیره-فکر پشتیبانی میکنه. این مدل در ریاضیات، کدنویسی، تحلیل بصری، خلاقیت و کارهای عمومی توانایی‌های قوی‌تری نشون میده.

نام	نسخه	پنجره زمینه	حداکثر ورودی/خروجی	قیمت ورودی	قیمت خروجی	سهمیه رایگان
qvq-max	Stable	۱۳۱,۰۷۲	۱۰۶,۴۹۶ (تا ۱۶,۳۸۴ برای هر تصویر) / ۸,۱۹۲	۱.۲ دلار	۴.۸ دلار	۱ میلیون توکن هرکدام (معتبر برای ۱۸۰ روز)

Qwen-VL و Qwen-OCR: درک تصویر و استخراج متن

Qwen-VL یک مدل تولید متنه که میتونه تصاویر رو درک و پردازش کنه. این مدل عملیات OCR انجام میده و قابلیت‌های بیشتری مثل خلاصه‌سازی و استدلال داره. Qwen-OCR یک مدل تخصصی برای استخراج متنه که روی استخراج متن از تصاویری مثل اسناد، جداول، سوالات امتحانی و دست‌نوشته‌ها تمرکز داره.

جدول Qwen-VL

نام	نسخه	پنجره زمینه	حداکثر ورودی/خروجی	قیمت ورودی	قیمت خروجی	سهمیه رایگان
qwen-vl-max	Stable	۱۳۱,۰۷۲	۱۲۹,۰۲۴ (تا ۱۶,۳۸۴ برای هر تصویر) / ۸,۱۹۲	۰.۸ دلار	۳.۲ دلار	۱ میلیون توکن هرکدام (معتبر برای ۱۸۰ روز)
qwen-vl-plus	Stable	۱۳۱,۰۷۲	۱۲۹,۰۲۴ (تا ۱۶,۳۸۴ برای هر تصویر) / ۸,۱۹۲	۰.۲۱ دلار	۰.۶۳ دلار

جدول Qwen-OCR

نام	نسخه	پنجره زمینه	حداکثر ورودی/خروجی	قیمت ورودی/خروجی	سهمیه رایگان
qwen-vl-ocr	Stable	۳۴,۰۹۶	۳۰,۰۰۰ (تا ۳۰,۰۰۰ برای هر تصویر) / ۴,۰۹۶	۰.۷۲ دلار	۱ میلیون توکن (معتبر برای ۱۸۰ روز)

مجموعه مدل‌های Qwen1.5 در هاگینگ فیس

در پلتفرم هاگینگ فیس، مجموعه گسترده‌ای از مدل‌های Qwen1.5 برای کاربردهای مختلف در دسترس قرار گرفته. این مدل‌ها شامل اندازه‌ها و نسخه‌های کوانتایزشده متفاوتی هستن که به توسعه‌دهنده‌ها اجازه میده مدل مناسب نیازشون رو انتخاب کنن. در ادامه لیستی از این مدل‌ها به همراه مشخصاتشون اومده:

Qwen/Qwen1.5-110B-Chat: تولید متن • 111B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۳.81k دانلود • ۱۲۶ لایک
Qwen/Qwen1.5-110B: تولید متن • 111B پارامتر • آپدیت در ۲۶ آوریل ۲۰۲۴ • ۱.11k دانلود • ۹۹ لایک
Qwen/Qwen1.5-32B: تولید متن • 33B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۱۲.7k دانلود • ۸۵ لایک
Qwen/Qwen1.5-32B-Chat: تولید متن • 33B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • 13k دانلود • ۱۰۹ لایک
Qwen/Qwen1.5-72B-Chat: تولید متن • 72B پارامتر • آپدیت در ۸ اکتبر ۲۰۲۴ • ۱۰.7k دانلود • ۲۱۷ لایک
Qwen/Qwen1.5-72B: تولید متن • 72B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۹.96k دانلود • ۶۰ لایک
Qwen/Qwen1.5-MoE-A2.7B: تولید متن • 14B پارامتر • آپدیت در ۱۸ آوریل ۲۰۲۴ • ۴۵.4k دانلود • ۲۰۵ لایک
Qwen/Qwen1.5-MoE-A2.7B-Chat: تولید متن • 14B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲۸.2k دانلود • ۱۲۵ لایک
Qwen/Qwen1.5-4B: تولید متن • 4B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۱۵.4k دانلود • ۳۵ لایک
Qwen/Qwen1.5-4B-Chat: تولید متن • 4B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • 258k دانلود • ۴۱ لایک
Qwen/Qwen1.5-32B-Chat-GPTQ-Int4: تولید متن • 6B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲.1k دانلود • ۳۰ لایک
Qwen/Qwen1.5-32B-Chat-GGUF: تولید متن • 33B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۳۷۹ دانلود • ۵۳ لایک
Qwen/Qwen1.5-32B-Chat-AWQ: تولید متن • 7B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۳۸۴ دانلود • ۱۸ لایک
Qwen/Qwen1.5-0.5B: تولید متن • ۰.6B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • 112k دانلود • ۱۶۴ لایک
Qwen/Qwen1.5-0.5B-Chat: تولید متن • ۰.6B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • 574k دانلود • ۸۲ لایک
Qwen/Qwen1.5-1.8B: تولید متن • 2B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۴۶.3k دانلود • ۵۱ لایک
Qwen/Qwen1.5-7B: تولید متن • 8B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۵۰.8k دانلود • ۵۴ لایک
Qwen/Qwen1.5-14B: تولید متن • 14B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۴۹.2k دانلود • ۴۰ لایک
Qwen/Qwen1.5-14B-Chat: تولید متن • 14B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱۹.6k دانلود • ۱۱۲ لایک
Qwen/Qwen1.5-0.5B-Chat-GPTQ-Int4: تولید متن • ۰.2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.29k دانلود • ۱۳ لایک
Qwen/Qwen1.5-7B-Chat-GPTQ-Int4: تولید متن • 2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.24k دانلود • ۱۸ لایک
Qwen/Qwen1.5-1.8B-Chat: تولید متن • 2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۵۴.3k دانلود • ۵۶ لایک
Qwen/Qwen1.5-7B-Chat: تولید متن • 8B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۶۳.7k دانلود • ۱۷۶ لایک
Qwen/Qwen1.5-0.5B-Chat-GPTQ-Int8: تولید متن • ۰.2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۹۶۸ دانلود • ۴ لایک
Qwen/Qwen1.5-14B-Chat-GPTQ-Int4: تولید متن • 3B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.49k دانلود • ۲۱ لایک
Qwen/Qwen1.5-7B-Chat-GPTQ-Int8: تولید متن • 3B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.09k دانلود • ۲۶ لایک
Qwen/Qwen1.5-7B-Chat-AWQ: تولید متن • 2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.18k دانلود • ۱۳ لایک
Qwen/Qwen1.5-72B-Chat-GPTQ-Int8: تولید متن • 21B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲۶ دانلود • ۷ لایک
Qwen/Qwen1.5-4B-Chat-GPTQ-Int8: تولید متن • 2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱۹ دانلود • ۶ لایک
Qwen/Qwen1.5-72B-Chat-GPTQ-Int4: تولید متن • 12B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲.08k دانلود • ۳۷ لایک
Qwen/CodeQwen1.5-7B-Chat-AWQ: تولید متن • 2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱۰۹ دانلود • ۱۴ لایک
Qwen/Qwen1.5-4B-Chat-GPTQ-Int4: تولید متن • 1B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۶۲۵ دانلود • ۵ لایک
Qwen/Qwen1.5-MoE-A2.7B-Chat-GPTQ-Int4: تولید متن • 2B پارامتر • آپدیت در ۹ ژوئن ۲۰۲۴ • ۱.37k دانلود • ۴۶ لایک
Qwen/Qwen1.5-72B-Chat-AWQ: تولید متن • 12B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.69k دانلود • ۲۴ لایک
Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int4: تولید متن • ۰.8B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.27k دانلود • ۷ لایک
Qwen/Qwen1.5-4B-Chat-GGUF: تولید متن • 4B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۷۲۳ دانلود • ۱۳ لایک
Qwen/Qwen1.5-4B-Chat-AWQ: تولید متن • 1B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.84k دانلود • ۳ لایک
Qwen/Qwen1.5-14B-Chat-GPTQ-Int8: تولید متن • 5B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱۶ دانلود • ۱۱ لایک
Qwen/Qwen1.5-14B-Chat-AWQ: تولید متن • 3B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.33k دانلود • ۲۳ لایک
Qwen/Qwen1.5-1.8B-Chat-AWQ: تولید متن • ۰.8B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۷۹ دانلود • ۴ لایک
Qwen/Qwen1.5-72B-Chat-GGUF: تولید متن • 72B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۱۰۸ دانلود • ۶۴ لایک
Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int8: تولید متن • ۰.9B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۷۶ دانلود • ۲ لایک
Qwen/Qwen1.5-0.5B-Chat-GGUF: تولید متن • ۰.6B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۳.49k دانلود • ۳۱ لایک
Qwen/Qwen1.5-0.5B-Chat-AWQ: تولید متن • ۰.4B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲۶۰ دانلود • ۷ لایک
Qwen/Qwen1.5-1.8B-Chat-GGUF: تولید متن • 2B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۱.7k دانلود • ۱۸ لایک
Qwen/Qwen1.5-14B-Chat-GGUF: تولید متن • 14B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۱.07k دانلود • ۶۶ لایک
Qwen/Qwen1.5-7B-Chat-GGUF: تولید متن • 8B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۳.23k دانلود • ۶۸ لایک
Qwen/CodeQwen1.5-7B-Chat: تولید متن • 7B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۳.12k دانلود • ۳۴۰ لایک
Qwen/CodeQwen1.5-7B: تولید متن • 7B پارامتر • آپدیت در ۱۳ می ۲۰۲۴ • ۲.03k دانلود • ۹۹ لایک
Qwen/CodeQwen1.5-7B-Chat-GGUF: تولید متن • 7B پارامتر • آپدیت در ۲۳ آوریل ۲۰۲۴ • ۱.57k دانلود • ۱۰۹ لایک
Qwen/Qwen1.5-110B-Chat-GGUF: تولید متن • 111B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۴۳ دانلود • ۱۴ لایک
Qwen/Qwen1.5-110B-Chat-AWQ: تولید متن • 17B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۳۹ دانلود • ۹ لایک
Qwen/Qwen1.5-110B-Chat-GPTQ-Int4: تولید متن • 17B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲۶ دانلود • ۱۷ لایک