در ماههای اخیر، تمرکز روی توسعه یک مدل «خوب» و همزمان بهینهسازی تجربه توسعهدهندهها بوده. همزمان با حرکت به سمت Qwen1.5، که نسل بعدی در سری مدلهای Qwen به حساب میاد، این آپدیت درست قبل از سال نوی چینی از راه رسیده.
با Qwen1.5، مدلهای پایه و چت در شش اندازه مختلف به صورت متنباز منتشر میشن: ۰.5B، ۱.8B، 4B، 7B، 14B، 32B، 72B و 110B. همچنین یک مدل MoE هم وجود داره که برای اطلاعات بیشتر در موردش میشه به بلاگ مربوطه مراجعه کرد. طبق روال همیشگی، مدلهای کوانتایزشده هم ارائه میشن که شامل مدلهای Int4 و Int8 از نوع GPTQ و همچنین مدلهای کوانتایزشده AWQ و GGUF هستن. برای بهتر کردن تجربه توسعهدهندهها، کد Qwen1.5 با کتابخانه ترنسفورمرز هاگینگ فیس ادغام شده، که این یعنی با transformers>=4.37.0
میشه بدون نیاز به trust_remote_code
ازش استفاده کرد.
همکاریهایی با فریمورکهایی مثل vLLM و SGLang برای دیپلوی (استقرار)، AutoAWQ و AutoGPTQ برای کوانتیزیشن، Axolotl و LLaMA-Factory برای فاینتیونینگ (تنظیم دقیق) و llama.cpp برای اجرای محلی مدلهای زبان بزرگ (LLM) انجام شده که همگی حالا از Qwen1.5 پشتیبانی میکنن. سری Qwen1.5 روی پلتفرمهایی مثل Ollama و LMStudio هم در دسترسه. علاوه بر این، سرویسهای API نهتنها روی DashScope بلکه روی together.ai هم ارائه میشن که دسترسی جهانی دارن. برای شروع میشه به اینجا مراجعه کرد و پیشنهاد میشه که Qwen1.5-72B-chat رو امتحان کنید.
این نسخه بهبودهای قابل توجهی در زمینه هماهنگی مدلهای چت با ترجیحات انسانی و همچنین تواناییهای چندزبانه به همراه داره. همه مدلها حالا به طور یکپارچه از طول زمینه (context length) تا ۳۲۷۶۸ توکن پشتیبانی میکنن. بهبودهای جزئی هم در کیفیت مدلهای زبان پایه ایجاد شده که میتونه برای کارهای فاینتیونینگ شما مفید باشه. این قدم، یک گام کوچک در مسیر رسیدن به هدف ساخت یک مدل واقعا «خوب» به حساب میاد.
عملکرد مدلهای Qwen1.5 چطوره؟
برای اینکه درک بهتری از عملکرد Qwen1.5 داشته باشیم، یک ارزیابی جامع از مدلهای پایه و چت در قابلیتهای مختلف انجام شده. این قابلیتها شامل تواناییهای اساسی مثل درک زبان، کدنویسی، استدلال، قابلیتهای چندزبانه، هماهنگی با ترجیحات انسانی، ایجنت و تولید متن با کمک بازیابی اطلاعات (RAG) میشه.
تواناییهای اساسی
برای ارزیابی تواناییهای پایهای مدلهای زبان، ارزیابیهایی روی بنچمارکهای سنتی مثل MMLU (5-shot)، C-Eval، Humaneval، GS8K، BBH و غیره انجام شده.
نتایج مدلهای بزرگتر در جدول زیر نشون داده شده:
مدل | MMLU | C-Eval | GSM8K | MATH | HumanEval | MBPP | BBH | CMMLU |
---|---|---|---|---|---|---|---|---|
GPT-4 | ۸۶.۴ | ۶۹.۹ | ۹۲.۰ | ۴۵.۸ | ۶۷.۰ | ۶۱.۸ | ۸۶.۷ | ۷۱.۰ |
Llama2-7B | ۴۶.۸ | ۳۲.۵ | ۱۶.۷ | ۳.۳ | ۱۲.۸ | ۲۰.۸ | ۳۸.۲ | ۳۱.۸ |
Llama2-13B | ۵۵.۰ | ۴۱.۴ | ۲۹.۶ | ۵.۰ | ۱۸.۹ | ۳۰.۳ | ۴۵.۶ | ۳۸.۴ |
Llama2-34B | ۶۲.۶ | – | ۴۲.۲ | ۶.۲ | ۲۲.۶ | ۳۳.۰ | ۴۴.۱ | – |
Llama2-70B | ۶۹.۸ | ۵۰.۱ | ۵۴.۴ | ۱۰.۶ | ۲۳.۷ | ۳۷.۷ | ۵۸.۴ | ۵۳.۶ |
Mistral-7B | ۶۴.۱ | ۴۷.۴ | ۴۷.۵ | ۱۱.۳ | ۲۷.۴ | ۳۸.۶ | ۵۶.۷ | ۴۴.۷ |
Mixtral-8x7B | ۷۰.۶ | – | ۷۴.۴ | ۲۸.۴ | ۴۰.۲ | ۶۰.۷ | – | – |
Qwen1.5-7B | ۶۱.۰ | ۷۴.۱ | ۶۲.۵ | ۲۰.۳ | ۳۶.۰ | ۳۷.۴ | ۴۰.۲ | ۷۳.۱ |
Qwen1.5-14B | ۶۷.۶ | ۷۸.۷ | ۷۰.۱ | ۲۹.۲ | ۳۷.۸ | ۴۴.۰ | ۵۳.۷ | ۷۷.۶ |
Qwen1.5-32B | ۷۳.۴ | ۸۳.۵ | ۷۷.۴ | ۳۶.۱ | ۳۷.۲ | ۴۹.۴ | ۶۶.۸ | ۸۲.۳ |
Qwen1.5-72B | ۷۷.۵ | ۸۴.۱ | ۷۹.۵ | ۳۴.۱ | ۴۱.۵ | ۵۳.۴ | ۶۵.۵ | ۸۳.۵ |
در هر اندازه مدل، Qwen1.5 عملکرد قدرتمندی رو در بنچمارکهای مختلف ارزیابی نشون میده. به طور خاص، Qwen1.5-72B در تمام بنچمارکها از Llama2-70B بهتر عمل میکنه و قابلیتهای استثنایی خودش رو در درک زبان، استدلال و ریاضیات به نمایش میذاره.
با توجه به افزایش علاقه اخیر به مدلهای زبان کوچک، Qwen1.5 با اندازههای کوچکتر از ۷ میلیارد پارامتر با برجستهترین مدلهای کوچک در جامعه مقایسه شده. نتایج در جدول زیر اومده:
مدل | پارامترهای غیر امبدینگ | MMLU | C-Eval | GSM8K | MATH | HumanEval | MBPP | BBH | CMMLU |
---|---|---|---|---|---|---|---|---|---|
Tinyllama-1.1B | ۱.1B | ۲۴.۳ | ۲۵.۰ | ۲.۳ | ۰.۷ | ۶.۷ | ۱۹.۹ | ۲۸.۸ | ۲۴.۰ |
Gemini-Nano-3B | – | – | – | ۲۲.۸ | – | – | ۲۷.۲ | ۴۲.۴ | – |
StableLM-Zephyr-3B | ۲.7B | ۴۵.۹ | ۳۰.۳ | ۵۲.۵ | ۱۲.۵ | ۳۵.۴ | ۳۱.۹ | ۳۷.۷ | ۳۰.۹ |
Phi-2 | ۲.5B | ۵۲.۷ | ۲۳.۴ | ۵۷.۲ | ۳.۵ | ۴۷.۶ | ۵۵.۰ | ۴۳.۴ | ۲۴.۲ |
MiniCPM-2B | ۲.4B | ۵۳.۵ | ۵۱.۱ | ۵۳.۸ | ۱۰.۲ | ۵۰.۰ | ۴۷.۳ | ۳۶.۹ | ۵۱.۱ |
Gemma-2B | ۲.0B | ۴۲.۳ | – | ۱۷.۷ | ۱۱.۸ | ۲۲.۰ | ۲۹.۲ | ۳۵.۲ | – |
Qwen1.5-0.5B | ۰.3B | ۳۹.۲ | ۵۰.۵ | ۲۲.۰ | ۳.۱ | ۱۲.۲ | ۶.۸ | ۱۸.۳ | ۴۶.۶ |
Qwen1.5-1.8B | ۱.2B | ۴۶.۸ | ۵۹.۷ | ۳۸.۴ | ۱۰.۱ | ۲۰.۱ | ۱۸.۰ | ۲۴.۲ | ۵۷.۸ |
Qwen1.5-4B | ۳.1B | ۵۶.۱ | ۶۷.۶ | ۵۷.۰ | ۱۰.۰ | ۲۵.۶ | ۲۹.۲ | ۳۲.۵ | ۶۶.۷ |
Qwen1.5-MoE-A2.7B | ۲.0B | ۶۲.۵ | ۷۹.۲ | ۶۱.۵ | ۲۱.۹ | ۳۴.۲ | ۳۶.۶ | ۳۹.۱ | ۷۹.۲ |
میشه گفت که مدلهای پایه Qwen1.5 با کمتر از ۷ میلیارد پارامتر، با مدلهای کوچک پیشرو در جامعه رقابت تنگاتنگی دارن. در آینده، کار روی بهبود کیفیت مدلهای کوچک و کشف روشهایی برای انتقال موثر قابلیتهای پیشرفته مدلهای بزرگتر به مدلهای کوچکتر ادامه پیدا میکنه.
هماهنگی با ترجیحات انسانی
هدف از هماهنگسازی (Alignment)، افزایش توانایی مدلهای زبان بزرگ در پیروی از دستورالعملها و کمک به ارائه پاسخهایی است که با ترجیحات انسانی همخوانی زیادی داشته باشن. با درک اهمیت ادغام ترجیحات انسانی در فرآیند یادگیری، از تکنیکهایی مثل بهینهسازی مستقیم سیاست (DPO) و بهینهسازی سیاست پروگزیمال (PPO) به طور موثر در هماهنگسازی آخرین سری Qwen استفاده شده.
با این حال، ارزیابی کیفیت چنین مدلهای چتی یک چالش بزرگه. در حالی که ارزیابی جامع انسانی بهترین روشه، اما با چالشهای قابل توجهی در زمینه مقیاسپذیری و تکرارپذیری روبرو هست. بنابراین، در ابتدا مدلها روی دو بنچمارک پرکاربرد، با استفاده از مدلهای زبان بزرگ پیشرفته به عنوان داور، ارزیابی میشن: MT-Bench و Alpaca-Eval. نتایج در زیر ارائه شده:
مدلها | MT-Bench | AlpacaEval 2.0 | |
---|---|---|---|
Avg. Score | Win Rate | Length | |
Qwen1.5-72B-Chat | ۸.۶۱ ± ۰.۰۴ (۸.۶۷/۸.۶۱/۸.۵۶) | ۲۷.۱۸ ± ۱.۳۰ | ۱۶۰۰ |
Qwen1.5-14B-Chat | ۷.۹۱ ± ۰.۱۱ (۷.۹۹/۷.۹۹/۷.۷۷) | ۱۹.۷ ± ۱.۱۲ | ۱۶۰۸ |
Qwen1.5-7B-Chat | ۷.۶۰ ± ۰.۰۵ (۷.۵۸/۷.۵۵/۷.۶۶) | ۱۳.۲۰ ± ۱.۴۳ | ۱۶۰۶ |
با وجود اینکه هنوز به طور قابل توجهی از GPT-4-Turbo عقبتره، بزرگترین مدل متنباز Qwen1.5، یعنی Qwen1.5-72B-Chat، عملکرد برتری از خودش نشون میده و از Claude-2.1، GPT-3.5-Turbo-0613، Mixtral-8x7b-instruct و TULU 2 DPO 70B بهتر عمل میکنه و در هر دو بنچمارک MT-Bench و Alpaca-Eval v2 با Mistral Medium برابری میکنه.
علاوه بر این، اگرچه امتیازدهی داوران LLM ممکنه با طول پاسخها مرتبط باشه، مشاهدات نشون میده که این مدلها برای دستکاری سوگیری داوران LLM، پاسخهای طولانی تولید نمیکنن. میانگین طول پاسخ Qwen1.5-Chat در AlpacaEval 2.0 فقط ۱۶۱۸ کلمه است که با طول GPT-4 همخوانی داره و از GPT-4-Turbo کوتاهتره.
درک چندزبانه مدلهای پایه
یک مجموعه متنوع از ۱۲ زبان از اروپا، شرق آسیا و جنوب شرقی آسیا به دقت انتخاب شده تا قابلیتهای چندزبانه مدل پایه به طور کامل ارزیابی بشه. برای این منظور، مجموعههای آزمایشی از مخازن متنباز جامعه گردآوری شده که چهار بعد مختلف رو پوشش میده: امتحانات، درک مطلب، ترجمه و ریاضیات. جدول زیر اطلاعات دقیقی در مورد هر مجموعه آزمایشی، از جمله تنظیمات ارزیابی، معیارها و زبانهایی که شامل میشن رو ارائه میده:
دیتاست | دستهبندی | روش/متریک | زبانها |
---|---|---|---|
MMLU-multi | امتحانات | ۵-shot/Acc | ar, es, fr, pt, de, it, ru, ja, ko, id |
M3Exams | امتحانات | ۵-shot/Acc | pt, it, vi, th |
BELEBELE | درک مطلب | ۵-shot/Acc | ar, es, fr, pt, de, it, ru, ja, ko, vi, th, id |
XWinograd | درک مطلب | ۵-shot/Acc | fr, pt, ru, ja |
XCOPA | درک مطلب | ۵-shot/Acc | vi, id, th |
PAWS-X | درک مطلب | ۵-shot/Acc | es, fr, de, ja, ko |
XStoryCloze | درک مطلب | ۰-shot/Acc | ar, es, ru, id |
Flores(zh/en↔xx) | ترجمه | ۵-shot/BLEU | ar, es, fr, pt, de, it, ru, ja, ko, vi, th, id |
MGSM | ریاضی | ۸-shot/Acc | es, fr, ru, de, ja, th |
نتایج دقیق در جدول زیر نشون داده شده:
مدلها | امتحانات | درک مطلب | ریاضی | ترجمه |
---|---|---|---|---|
GPT-3.5 | ۵۲.۲۴ | ۷۱.۸۴ | ۳۲.۸۰ | ۳۱.۸۵ |
GPT-4 | ۷۱.۶۴ | ۸۳.۸۲ | ۸۰.۱۳ | ۳۴.۳۷ |
Llama2-7B | ۳۴.۰۳ | ۵۰.۱۳ | ۹.۴۰ | ۲۲.۱۹ |
Llama2-13B | ۳۹.۵۵ | ۵۷.۲۶ | ۱۶.۸۰ | ۲۵.۸۹ |
Llama2-70B | ۵۵.۸۸ | ۷۳.۱۹ | ۴۰.۲۰ | ۳۱.۵۶ |
Mistral-7B | ۴۷.۱۲ | ۶۳.۳۰ | ۲۶.۳۳ | ۲۳.۳۳ |
Mixtral-8x7B | ۵۶.۰۸ | ۷۰.۷۰ | ۴۵.۰۰ | ۲۹.۷۸ |
Qwen1.5-0.5B | ۲۶.۹۸ | ۴۴.۰۸ | ۳.۱۳ | ۹.۱۷ |
Qwen1.5-1.8B | ۳۳.۵۷ | ۴۸.۳۷ | ۶.۴۷ | ۱۶.۱۹ |
Qwen1.5-4B | ۴۱.۴۳ | ۵۹.۷۶ | ۲۱.۳۳ | ۲۳.۳۴ |
Qwen1.5-MoE-A2.7B | ۴۴.۵۴ | ۶۱.۰۸ | ۳۰.۲۰ | ۲۷.۳۵ |
Qwen1.5-7B | ۴۷.۷۰ | ۶۷.۶۳ | ۳۷.۲۷ | ۲۸.۳۶ |
Qwen1.5-14B | ۵۵.۷۲ | ۷۴.۱۰ | ۴۹.۹۳ | ۳۱.۶۹ |
Qwen1.5-72B | ۶۶.۳۵ | ۷۸.۱۶ | ۶۱.۶۷ | ۳۵.۵۷ |
مدلهای پایه Qwen1.5 قابلیتهای چندزبانه چشمگیری از خودشون نشون میدن، که این موضوع در عملکرد اونها در مجموعهای متنوع از ۱۲ زبان مشخصه. در ارزیابیهایی که ابعاد مختلفی مثل امتحانات، درک مطلب، ترجمه و ریاضیات رو پوشش میدن، Qwen1.5 به طور مداوم نتایج قوی ارائه میده. از زبانهایی مثل عربی، اسپانیایی و فرانسوی گرفته تا ژاپنی، کرهای و تایلندی، Qwen1.5 توانایی خودش رو در درک و تولید محتوای با کیفیت در زمینههای زبانی مختلف نشون میده. مقایسه Qwen1.5-72B-Chat با GPT-3.5 نشون میده که این مدلها تواناییهای چندزبانه قوی دارن و میتونن در کاربردهای پاییندستی مثل ترجمه، درک زبان و چت چندزبانه به کار برن.
پشتیبانی از زمینه طولانی (Long Context)
با افزایش تقاضا برای درک زمینه طولانی، قابلیت همه مدلها برای پشتیبانی از زمینه تا ۳۲ هزار توکن (32K) گسترش داده شده. عملکرد مدلهای Qwen1.5 روی بنچمارک L-Eval ارزیابی شده که توانایی مدلها در تولید پاسخ بر اساس زمینه طولانی رو میسنجه. نتایج در جدول زیر اومده:
مدلها | Coursera | GSM | QuALITY | TOEFL | SFiction | میانگین |
---|---|---|---|---|---|---|
GPT3.5-turbo-16k | ۶۳.۵۱ | ۸۴.۰۰ | ۶۱.۳۸ | ۷۸.۴۳ | ۶۴.۸۴ | ۷۰.۴۳ |
Claude1.3-100k | ۶۰.۰۳ | ۸۸.۰۰ | ۷۳.۷۶ | ۸۳.۶۴ | ۷۲.۶۵ | ۷۵.۶۲ |
GPT4-32k | ۷۵.۵۸ | ۹۶.۰۰ | ۸۲.۱۷ | ۸۴.۳۸ | ۷۴.۹۹ | ۸۲.۶۲ |
Qwen-72B-Chat | ۵۸.۱۳ | ۷۶.۰۰ | ۷۷.۲۲ | ۸۶.۲۴ | ۶۹.۵۳ | ۷۳.۴۲ |
Qwen1.5-0.5B-Chat | ۳۰.۸۱ | ۶.۰۰ | ۳۴.۱۶ | ۴۰.۵۲ | ۴۹.۲۲ | ۳۲.۱۴ |
Qwen1.5-1.8B-Chat | ۳۹.۲۴ | ۳۷.۰۰ | ۴۲.۰۸ | ۵۵.۷۶ | ۴۴.۵۳ | ۴۳.۷۲ |
Qwen1.5-4B-Chat | ۵۴.۹۴ | ۴۷.۰۰ | ۵۷.۹۲ | ۶۹.۱۵ | ۵۶.۲۵ | ۵۷.۰۵ |
Qwen1.5-7B-Chat | ۵۹.۷۴ | ۶۰.۰۰ | ۶۴.۳۶ | ۷۹.۱۸ | ۶۲.۵۰ | ۶۵.۱۶ |
Qwen1.5-14B-Chat | ۶۹.۰۴ | ۷۹.۰۰ | ۷۴.۷۵ | ۸۳.۶۴ | ۷۵.۷۸ | ۷۶.۴۴ |
Qwen1.5-72B-Chat | ۷۱.۹۵ | ۸۲.۰۰ | ۷۷.۷۲ | ۸۵.۵۰ | ۷۳.۴۴ | ۷۸.۱۲ |
از نظر عملکرد، حتی یک مدل کوچک مثل Qwen1.5-7B-Chat عملکرد رقابتی در برابر GPT-3.5 در ۴ مورد از ۵ تسک نشون میده. بهترین مدل این سری، Qwen1.5-72B-Chat، به طور قابل توجهی از GPT3.5-turbo-16k بهتر عمل میکنه و فقط کمی از GPT4-32k عقبتره. این نتایج عملکرد برجسته در محدوده ۳۲ هزار توکن رو نشون میده، اما به این معنی نیست که مدلها فقط به ۳۲ هزار توکن محدود هستن. میشه مقادیر max_position_embedding
و sliding_window
رو در فایل config.json
به مقادیر بزرگتر تغییر داد تا ببینید آیا عملکرد مدل برای کارهای شما همچنان رضایتبخش هست یا نه.
توانایی اتصال به سیستمهای خارجی
مدلهای زبان بزرگ (LLM) تا حدی به خاطر تواناییشون در ادغام با دانش و ابزارهای خارجی محبوب شدن. تولید متن با کمک بازیابی اطلاعات (RAG) به دلیل کاهش مشکلات رایج LLM مثل توهم (hallucination)، کمبود دادههای بهروز و مدیریت اطلاعات خصوصی، مورد توجه قرار گرفته. علاوه بر این، LLM های قوی معمولا در استفاده از API ها و ابزارها از طریق فراخوانی تابع (function calling) عالی عمل میکنن و برای ایفای نقش به عنوان ایجنتهای هوش مصنوعی ایدهآل هستن.
عملکرد Qwen1.5-Chat ابتدا روی RGB ارزیابی شده، که یک بنچمارک RAG هست و هیچ بهینهسازی خاصی برای اون انجام نشده:
بنچمارک انگلیسی RGB برای تولید متن با کمک بازیابی اطلاعات
مدلها | Noise 0.8 (Acc.↑) | Rejection 1.0 (Acc.↑) | Integration 0.4 (Acc.↑) | Counterfactual (Acc.↑) |
---|---|---|---|---|
GPT4-Turbo | ۸۵.۶۷ | ۴۷.۳۳ | ۶۰.۰۰ | ۹۰.۰۰ |
GPT3.5-Turbo | ۷۴.۳۳ | ۲۷.۶۷ | ۴۷.۰۰ | ۲۱.۰۰ |
Llama2-70B-Chat | ۸۲.۰۰ | ۳۱.۰۰ | ۵۶.۰۰ | ۱۵.۰۰ |
Mistral-7B-Instruct-v0.2 | ۸۲.۰۰ | ۳۱.۰۰ | ۵۶.۰۰ | ۱۵.۰۰ |
Mixtral-8x7B-Instruct-v0.1 | ۸۲.۶۷ | ۳۷.۰۰ | ۶۷.۰۰ | ۸.۰۰ |
Qwen1.5-7B-Chat | ۷۷.۶۷ | ۲۵.۰۰ | ۵۲.۰۰ | ۹.۰۰ |
Qwen1.5-14B-Chat | ۸۰.۶۷ | ۲۴.۰۰ | ۶۰.۰۰ | ۸.۰۰ |
Qwen1.5-72B-Chat | ۸۱.۶۷ | ۴۸.۶۷ | ۶۱.۰۰ | ۲۸.۰۰ |
بنچمارک چینی RGB برای تولید متن با کمک بازیابی اطلاعات
مدلها | Noise 0.8 (Acc.↑) | Rejection 1.0 (Acc.↑) | Integration 0.4 (Acc.↑) | Counterfactual (Acc.↑) |
---|---|---|---|---|
GPT4-Turbo | ۷۵.۰۰ | ۳۸.۶۷ | ۶۳.۰۰ | ۹۰.۰۰ |
GPT3.5-Turbo | ۶۹.۰۰ | ۱۳.۰۰ | ۵۵.۰۰ | ۲۵.۰۰ |
Llama2-70B-Chat | ۲۸.۰۰ | ۱۷.۰۰ | ۳۲.۰۰ | ۸.۰۰ |
Mistral-7B-Instruct-v0.2 | ۵۴.۶۷ | ۲۸.۶۷ | ۳۷.۰۰ | ۴.۰۰ |
Mixtral-8x7B-Instruct-v0.1 | ۲۷.۳۳ | ۴.۰۰ | ۲۴.۰۰ | ۴.۰۰ |
Qwen1.5-7B-Chat | ۷۱.۰۰ | ۱۰.۳۳ | ۵۴.۰۰ | ۲۰.۰۰ |
Qwen1.5-14B-Chat | ۷۵.۰۰ | ۱۶.۶۷ | ۵۵.۰۰ | ۲۲.۰۰ |
Qwen1.5-72B-Chat | ۷۶.۰۰ | ۵۱.۰۰ | ۶۶.۰۰ | ۴۴.۰۰ |
سپس، ظرفیت Qwen برای عمل به عنوان یک ایجنت عمومی با آزمایش اون روی بنچمارک T-Eval ارزیابی شده. هیچ یک از مدلهای Qwen برای این بنچمارک بهینهسازی خاصی نشدن:
عملکرد ایجنت در T-Eval انگلیسی
مدلها | Overall | Instruct | Plan | Reason | Retrieve | Understand | Review |
---|---|---|---|---|---|---|---|
GPT4-Turbo | ۸۶.۴ | ۹۶.۳ | ۸۷.۸ | ۶۵.۳ | ۸۸.۹ | ۸۵.۸ | ۹۴.۵ |
Llama-2-70B-Chat | ۵۸.۵۹ | ۷۷.۸۰ | ۶۳.۷۵ | ۳۹.۰۷ | ۵۱.۳۵ | ۵۰.۳۴ | ۶۹.۲۰ |
Mistral-7B-Instruct-v0.2 | ۴۶.۶۸ | ۶۳.۵۷ | ۶۰.۸۸ | ۳۲.۵۹ | ۱۷.۵۸ | ۳۸.۰۸ | ۶۷.۳۵ |
Mixtral-8x7B-Instruct-v0.1 | ۶۲.۱۵ | ۴۲.۳۹ | ۴۶.۴۸ | ۶۰.۳۵ | ۷۶.۶۹ | ۷۳.۷۰ | ۷۳.۳۱ |
Qwen1.5-7B-Chat | ۵۹.۶۷ | ۷۱.۱۲ | ۶۲.۹۵ | ۳۷.۶۰ | ۶۱.۱۷ | ۵۳.۷۵ | ۷۱.۴۶ |
Qwen1.5-14B-Chat | ۷۱.۷۷ | ۸۶.۱۶ | ۷۳.۰۹ | ۴۹.۵۱ | ۷۲.۰۷ | ۶۶.۰۳ | ۸۳.۷۸ |
Qwen1.5-72B-Chat | ۷۶.۶۹ | ۸۰.۹۶ | ۸۳.۱۲ | ۵۶.۸۹ | ۸۰.۱۷ | ۷۶.۶۸ | ۸۲.۳۴ |
عملکرد ایجنت در T-Eval چینی
مدلها | Overall | Instruct | Plan | Reason | Retrieve | Understand | Review |
---|---|---|---|---|---|---|---|
GPT4-Turbo | ۸۵.۹ | ۹۷.۶ | ۸۷.۰ | ۶۸.۴ | ۸۹.۲ | ۸۶.۸ | ۸۶.۰ |
Llama-2-70B-Chat | ۵۱.۱۵ | ۵۳.۷۸ | ۵۶.۶۵ | ۳۴.۲۷ | ۴۸.۲۴ | ۵۰.۴۹ | ۶۳.۴۵ |
Mistral-7B-Instruct-v0.2 | ۴۶.۲۶ | ۴۹.۶۴ | ۶۱.۸۲ | ۳۶.۱۷ | ۲۰.۲۶ | ۴۷.۲۵ | ۶۲.۴۲ |
Mixtral-8x7B-Instruct-v0.1 | ۶۲.۷۷ | ۲۶.۳۸ | ۶۰.۷۹ | ۶۲.۰۲ | ۷۶.۶۰ | ۷۷.۷۴ | ۷۳.۱۰ |
Qwen1.5-7B-Chat | ۵۳.۱۵ | ۶۰.۵۶ | ۶۲.۳۱ | ۴۲.۰۷ | ۵۵.۲۸ | ۵۵.۷۶ | ۴۲.۹۲ |
Qwen1.5-14B-Chat | ۶۴.۸۵ | ۸۴.۲۵ | ۶۴.۷۷ | ۵۴.۶۸ | ۷۲.۳۵ | ۶۸.۸۸ | ۴۴.۱۵ |
Qwen1.5-72B-Chat | ۷۲.۸۸ | ۹۷.۵۰ | ۸۰.۸۳ | ۵۸.۱۱ | ۷۶.۱۴ | ۷۱.۹۴ | ۵۲.۷۷ |
برای آزمایش قابلیتهای استفاده از ابزار، که به عنوان فراخوانی تابع هم شناخته میشه، از بنچمارک متنباز ارزیابی پلاگین برای سنجش توانایی مدلها در انتخاب و استفاده مناسب از ابزارها استفاده شده:
بنچمارک استفاده از ابزار (Tool-Use)
مدلها | Tool Selection (Acc.↑) | Tool Input (Rouge-L↑) | False Positive (Acc.↑) |
---|---|---|---|
GPT-4 | ۹۸.۰ | ۹۵.۳ | ۷۶.۱ |
GPT-3.5 | ۷۴.۵ | ۸۰.۷ | ۱۹.۴ |
Llama-2-70B-Chat | ۸۸.۵۴ | ۷۰.۳۶ | ۰.۳۷ |
Mistral-7B-Instruct-v0.2 | ۹۴.۷۹ | ۸۲.۸۱ | ۶.۳۴ |
Mixtral-8x7B-Instruct-v0.1 | ۹۹.۳۱ | ۹۴.۴۶ | ۳۱.۳۴ |
Qwen1.5-7B-Chat | ۹۵.۸۳ | ۸۹.۴۸ | ۹۲.۵۴ |
Qwen1.5-14B-Chat | ۹۳.۰۶ | ۸۸.۷۴ | ۹۲.۹۱ |
Qwen1.5-72B-Chat | ۹۵.۱۴ | ۹۱.۱۴ | ۹۸.۵۱ |
در نهایت، از اونجایی که مفسر کد پایتون به ابزاری قدرتمند برای مدلهای زبان بزرگ پیشرفته تبدیل شده، توانایی مدلها در استفاده از این ابزار روی بنچمارک متنباز ارزیابی شده:
بنچمارک مفسر کد (Code Interpreter)
مدلها | دقت نتایج اجرای کد (%) | نرخ اجرای کد (%) | |||
---|---|---|---|---|---|
Math↑ | Visualization-Hard↑ | Visualization-Easy↑ | General↑ | ||
GPT-4 | ۸۲.۸ | ۶۶.۷ | ۶۰.۸ | ۸۲.۸ | |
GPT-3.5 | ۴۷.۳ | ۳۳.۳ | ۵۵.۷ | ۷۴.۱ | |
Mistral-7B-Instruct-v0.2 | ۲۵.۵ | ۱۹.۱ | ۴۴.۳ | ۶۲.۱ | |
Mixtral-8x7B-Instruct-v0.1 | ۴۷.۸ | ۳۳.۳ | ۵۴.۴ | ۶۰.۳ | |
Qwen1.5-7B-Chat | ۵۴.۰ | ۳۵.۷ | ۳۶.۷ | ۶۵.۵ | |
Qwen1.5-14B-Chat | ۶۲.۱ | ۴۶.۴ | ۴۸.۱ | ۷۰.۶ | |
Qwen1.5-72B-Chat | ۷۳.۱ | ۵۲.۳ | ۵۰.۶ | ۸۷.۹ |
مدلهای بزرگتر Qwen1.5-Chat به طور کلی از مدلهای کوچکتر بهتر عمل میکنن و به عملکرد استفاده از ابزار GPT-4 نزدیک میشن. با این حال، در کارهای مفسر کد مثل حل مسائل ریاضی و مصورسازی، حتی بزرگترین مدل Qwen1.5-72B-Chat هم به دلیل قابلیتهای کدنویسی، به طور قابل توجهی از GPT-4 عقبتره. هدف اینه که در نسخههای آینده، قابلیتهای کدنویسی همه مدلهای Qwen در هر دو مرحله پیشآموزش و هماهنگسازی تقویت بشه.
چطور با Qwen1.5 کار کنیم؟
بزرگترین تفاوت Qwen1.5، ادغامش با ترنسفورمرز هاگینگ فیسه. از نسخه ۴.۳۷.۰ به بعد، میشه از Qwen1.5 بدون کد سفارشی استفاده کرد، یعنی میشه مدل رو به این شکل بارگذاری کرد:
from transformers import AutoModelForCausalLM
# این کدی بود که قبلا استفاده میکردیم
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen-7B-Chat", device_map="auto", trust_remote_code=True)
# این کدیه که حالا میتونید استفاده کنید
model = AutoModelForCausalLM.from_pretrained("Qwen/Qwen1.5-7B-Chat", device_map="auto")
استفاده از Qwen1.5 برای چت با نسخه قبلی فرق داره. میشه از کد زیر برای چت با Qwen1.5 استفاده کرد:
from transformers import AutoModelForCausalLM, AutoTokenizer
device = "cuda" # دستگاهی که مدل روش بارگذاری میشه
model = AutoModelForCausalLM.from_pretrained(
"Qwen/Qwen1.5-14B-Chat-AWQ",
device_map="auto"
)
tokenizer = AutoTokenizer.from_pretrained("Qwen/Qwen1.5-14B-Chat-AWQ")
prompt = "Give me a short introduction to large language model."
messages = [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": prompt}
]
text = tokenizer.apply_chat_template(
messages,
tokenize=False,
add_generation_prompt=True
)
model_inputs = tokenizer([text], return_tensors="pt").to(device)
generated_ids = model.generate(
model_inputs.input_ids,
max_new_tokens=512
)
generated_ids = [
output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
]
response = tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]
برای مدلهای چت، دیگه از متد خاص model.chat()
استفاده نمیشه، بلکه از model.generate()
با تمپلیت چتی که در tokenizer_config.json
نوشته شده استفاده میشه تا بشه با tokenizer.apply_chat_template()
ورودی رو تولید کرد و از eos_token
برای کنترل زمان توقف تولید استفاده میشه.
مدلهای AWQ و GPTQ (شامل مدلهای Int4 و Int8) هم ارائه شدن تا بشه از Qwen1.5 در سناریوهای با منابع کم یا دیپلوی استفاده کرد. از اونجایی که ترنسفورمرز هاگینگ فیس از AWQ و GPTQ پشتیبانی میکنه، میشه اونها رو به همون روش بالا فقط با نام مدل مربوطه استفاده کرد.
علاوه بر این، کد با فریمورکهای محبوب استنتاج (inference) ادغام شده تا بشه مدل رو به راحتی دیپلوی کرد. حالا vLLM>=0.3.0
و SGLang>=0.1.11
به طور رسمی از Qwen1.5 پشتیبانی میکنن. برای یادگیری استفاده دقیق، به مخازن گیتهاب و مستندات رسمی اونها مراجعه کنید. اینجا یک مثال برای نشون دادن نحوه استفاده از vLLM برای ساخت یک رابط سازگار با OpenAI-API برای مدل ارائه شده:
python -m vllm.entrypoints.openai.api_server --model Qwen/Qwen1.5-7B-Chat
curl http://localhost:8000/v1/chat/completions \
-H "Content-Type: application/json" \
-d '{
"model": "Qwen/Qwen1.5-7B-Chat",
"messages": [
{"role": "system", "content": "You are a helpful assistant."},
{"role": "user", "content": "Tell me something about large language models."}
]
}'
برای کاربرانی که میخوان LLM رو به صورت محلی اجرا کنن، llama.cpp هم از Qwen1.5 پشتیبانی میکنه و مدلهای کوانتایزشده در فرمت GGUF به طور رسمی در هاب مدل HF ارائه شدن. میشه از کد زیر برای اجرای Qwen1.5 در llama.cpp استفاده کرد:
./main -m qwen1.5-7b-chat-q2_k.gguf -n 512 --color -i -cml -f prompts/chat-with-qwen.txt
علاوه بر این، میشه از فایل GGUF با Ollama استفاده کرد. به لطف پشتیبانی Ollama، حالا میشه مستقیما از یک خط فرمان استفاده کرد:
ollama run qwen
یا میشه از فایل GGUF برای کار با llamafile استفاده کرد تا مدلها رو با یک فایل تکی اجرا کنید.
برای ساخت یک دموی وب به صورت محلی، پیشنهاد میشه از Text generation web UI استفاده کنید که استفاده ازش خیلی آسونه.
برای توسعهدهندههای پیشرفته که امیدوارن مدلهای بهتر یا مناسبتری برای خودشون آموزش بدن، مثل پسآموزش، Qwen1.5 توسط trainer
هاگینگ فیس و Peft پشتیبانی میشه. همچنین، فریمورکهای آسانی وجود دارن که هم از فاینتیونینگ نظارتشده (SFT) و هم از هماهنگسازی (PPO, DPO, غیره) پشتیبانی میکنن. حالا، هم LLaMA-Factory و هم Axolotl از آموزش Qwen1.5 پشتیبانی میکنن.
اگر میخواهید از Qwen1.5 برای کاربردهای پاییندستی، مثل RAG، استفاده از ابزار، یا ایجنت استفاده کنید، حالا میتونید API سازگار با OpenAI-API بسازید یا مدلهای محلی رو برای فریمورکهای معروفی مثل LlamaIndex، LangChain و CrewAI اجرا کنید.
نگاهی دقیقتر به خانواده مدلهای Qwen
خانواده Qwen شامل مدلهای تخصصی مختلفی است که برای نیازها و موارد استفاده متفاوت طراحی شدن. این مدلها که توسط علیبابا کلود توسعه داده شدن، هوش مصنوعی رو به سطح جدیدی میرسونن و اون رو برای پردازش زبان طبیعی، بینایی کامپیوتر و درک صوتی هوشمندتر و مفیدتر میکنن.
ویژگیهای کلیدی Qwen
خانواده مدلهای Qwen ابزاری قدرتمند و همهکاره برای کاربردهای مختلف هوش مصنوعی فراهم میکنن. بیایید ویژگیهای کلیدی که Qwen رو متمایز میکنه بررسی کنیم:
- پشتیبانی چندزبانه: Qwen در درک و تولید چندزبانه عالی عمل میکنه و تواناییهای قوی در هر دو زبان انگلیسی و چینی و همچنین پشتیبانی از زبانهای متعدد دیگه داره. آخرین مدلهای Qwen2 دایره زبانی خودشون رو به ۲۷ زبان اضافی گسترش دادن که مناطقی مثل اروپای غربی، اروپای شرقی و مرکزی، خاورمیانه، آسیای شرقی و آسیای جنوبی رو پوشش میده.
- تولید متن: مدلهای Qwen در وظایف مختلف تولید متن بسیار ماهر هستن. برخی از کاربردهای کلیدی شامل نوشتن مقاله، خلاصهسازی، سرودن شعر و تولید کد میشه.
- پاسخ به سوال: Qwen هم در پاسخ به سوالات واقعی و هم سوالات باز عالیه.
- درک تصویر: با مدل Qwen-VL، خانواده Qwen قابلیتهای خودش رو به وظایف چندوجهی شامل تصاویر گسترش میده. ویژگیهای کلیدی شامل تولید کپشن برای تصویر، پاسخ به سوالات بصری و درک اسناد میشه.
- متنباز بودن: یکی از مهمترین ویژگیهای Qwen، متنباز بودن اونه که مزایای زیادی برای جامعه هوش مصنوعی داره: دسترسی آزاد، شفافیت، قابلیت سفارشیسازی و توسعه مبتنی بر جامعه.
فاینتیونینگ (تنظیم دقیق) مدلهای Qwen
فاینتیونینگ مدلهای Qwen به شما اجازه میده اونها رو برای وظایf خاصی تطبیق بدید و به طور بالقوه عملکردشون رو برای مورد استفاده خاص خودتون بهبود ببخشید. این فرآیند شامل آموزش مدل از پیش آموزشدیده روی یک مجموعه داده سفارشی است. در این مثال، مدل برای بهبود عملکرد در وظایف ترجمه و پاسخ به سوالات واقعی فاینتیون میشه.
پیشنیازها
قبل از شروع، مطمئن بشید که کتابخانههای زیر رو نصب کردید:
pip install datasets torch accelerate peft
مرحله ۱: آمادهسازی دیتاست
اول، دیتاست خودتون رو در یک فرمت JSON آماده کنید. هر ورودی باید یک فیلد «prompt» و یک فیلد «completion» داشته باشه. این رو به عنوان custom_dataset.json
ذخیره کنید. مثال:
[
{
"prompt": "Translate to French: 'Hello, how are you?'",
"completion": "Bonjour, comment allez-vous?"
},
{
"prompt": "What is the capital of Spain?",
"completion": "The capital of Spain is Madrid."
}
]
مرحله ۲: راهاندازی اسکریپت فاینتیونینگ
حالا ایمپورتهای زیر رو اضافه میکنیم:
import torch
from transformers import TrainingArguments, Trainer
from datasets import load_dataset
from peft import LoraConfig, get_peft_model
مرحله ۳: آمادهسازی دیتاست
بعد، یک تابع برای پیشپردازش دیتاست تعریف میکنیم و اون رو با استفاده از کتابخانه دیتاست هاگینگ فیس بارگذاری میکنیم:
def preprocess_function(examples):
inputs = [f"{prompt}\n" for prompt in examples["prompt"]]
targets = [f"{completion}\n" for completion in examples["completion"]]
model_inputs = tokenizer(inputs, max_length=512, truncation=True, padding="max_length")
labels = tokenizer(targets, max_length=512, truncation=True, padding="max_length")
model_inputs["labels"] = labels["input_ids"]
return model_inputs
dataset = load_dataset("json", data_files="custom_dataset.json")
tokenized_dataset = dataset["train"].train_test_split(test_size=0.1)
tokenized_dataset = tokenized_dataset.map(preprocess_function, batched=True, remove_columns=dataset["train"].column_names)
مرحله ۴: راهاندازی LoRA برای فاینتیونینگ بهینه
برای بهینهتر کردن فاینتیونینگ، از LoRA (Low-Rank Adaptation) استفاده میکنیم. این تکنیک به ما اجازه میده مدلهای بزرگ رو با پارامترهای کمتری فاینتیون کنیم:
lora_config = LoraConfig(
r=8,
lora_alpha=32,
target_modules=["q_proj", "v_proj"],
lora_dropout=0.05,
bias="none",
task_type="CAUSAL_LM"
)
model = get_peft_model(model, lora_config)
مرحله ۵: تعریف آرگومانهای آموزش
حالا آرگومانهای آموزشی رو که جنبههای مختلف فرآیند فاینتیونینگ رو کنترل میکنن، تنظیم میکنیم:
training_args = TrainingArguments(
output_dir="./results",
num_train_epochs=3,
per_device_train_batch_size=4,
per_device_eval_batch_size=4,
warmup_steps=500,
weight_decay=0.01,
logging_dir="./logs",
logging_steps=10,
evaluation_strategy="steps",
eval_steps=500,
save_strategy="steps",
save_steps=1000,
learning_rate=1e-4,
fp16=True,
gradient_checkpointing=True,
gradient_accumulation_steps=4,
)
مرحله ۶: ایجاد Trainer و شروع فاینتیونینگ
با آماده بودن دیتاست و آرگومانهای آموزشی، حالا میتونیم یک شی Trainer ایجاد کنیم و فرآیند فاینتیونینگ رو شروع کنیم:
trainer = Trainer(
model=model,
args=training_args,
train_dataset=tokenized_dataset["train"],
eval_dataset=tokenized_dataset["test"],
tokenizer=tokenizer,
)
trainer.train()
مرحله ۸: ذخیره مدل فاینتیون شده
پس از اتمام فاینتیونینگ، مدل خودمون رو ذخیره میکنیم تا بعدا بتونیم ازش استفاده کنیم:
trainer.save_model("./fine_tuned_qwen")
مدلهای تجاری و تخصصی Qwen
علاوه بر مدلهای متنباز، علیبابا کلود مدلهای تجاری و تخصصیتری رو هم ارائه میده که هر کدوم برای سناریوهای خاصی طراحی شدن. این مدلها از طریق پلتفرم علیبابا در دسترس هستن و قابلیتهای پیشرفتهتری رو ارائه میدن.
QwQ: مدل استدلال
QwQ یک مدل استدلاله که بر پایه Qwen2.5 آموزش دیده و با استفاده از یادگیری تقویتی، بهبودهای قابل توجهی در تواناییهای استدلال داشته. عملکردش در معیارهای اصلی ریاضی و کدنویسی (AIME 24/25, LiveCodeBench) و معیارهای عمومی (IFEval, LiveBench, و غیره) به سطح DeepSeek-R1 رسیده.
نام | نسخه | پنجره زمینه | حداکثر ورودی | حداکثر CoT | حداکثر پاسخ | قیمت ورودی | قیمت خروجی | سهمیه رایگان |
---|---|---|---|---|---|---|---|---|
qwq-plus | Stable | ۱۳۱,۰۷۲ | ۹۸,۳۰۴ | ۳۲,۷۶۸ | ۸,۱۹۲ | ۰.۸ دلار | ۲.۴ دلار | ۱ میلیون توکن (معتبر برای ۱۸۰ روز) |
Qwen-Max: اوج عملکرد
Qwen-Max بهترین عملکرد استنتاج رو در بین مدلهای Qwen ارائه میده، مخصوصا برای کارهای پیچیده و چند مرحلهای.
نام | نسخه | پنجره زمینه | حداکثر ورودی | حداکثر خروجی | قیمت ورودی | قیمت خروجی | سهمیه رایگان |
---|---|---|---|---|---|---|---|
qwen-max | Stable | ۳۲,۷۶۸ | ۳۰,۷۲۰ | ۸,۱۹۲ | ۱.۶ دلار | ۶.۴ دلار | ۱ میلیون توکن هرکدام (معتبر برای ۱۸۰ روز) |
qwen-max-latest | Latest | ۱.۶ دلار | ۶.۴ دلار | ||||
qwen-max-2025-01-25 | Snapshot |
Qwen-Plus: تعادل بین عملکرد و هزینه
Qwen-Plus ترکیبی متعادل از عملکرد، سرعت و هزینه رو ارائه میده که برای کارهای با پیچیدگی متوسط ایدهآله. این مدل میتونه در دو حالت «تفکر» (thinking) و «عدم تفکر» (non-thinking) پاسخ بده که با پارامتر enable_thinking
قابل تنظیمه.
نام | نسخه | پنجره زمینه | حداکثر ورودی/خروجی | قیمت ورودی | قیمت خروجی | سهمیه رایگان |
---|---|---|---|---|---|---|
qwen-plus | Stable | ۱۳۱,۰۷۲ | تفکر: ۹۸,۳۰۴ غیرتفکر: ۱۲۹,۰۲۴ / ۱۶,۳۸۴ (CoT: ۳۸,۹۱۲) | ۰.۴ دلار | تفکر: ۸ دلار غیرتفکر: ۱.۲ دلار | ۱ میلیون توکن هرکدام (معتبر برای ۱۸۰ روز) |
qwen-plus-latest | Latest | ۰.۴ دلار | تفکر: ۸ دلار غیرتفکر: ۱.۲ دلار |
این مدل از بیش از ۱۰۰ زبان و گویش پشتیبانی میکنه. لیست کامل زبانها شامل موارد زیره:
- انگلیسی، چینی ساده، چینی سنتی، فرانسوی، اسپانیایی، عربی، روسی، پرتغالی، آلمانی، ایتالیایی، هلندی، دانمارکی، ایرلندی، ولزی، فنلاندی، ایسلندی، سوئدی، نروژی (بوکمول و نینورسک)، ژاپنی، کرهای، ویتنامی، تایلندی، اندونزیایی، مالایی، برمهای، تاگالوگ، خمر، لائوسی، هندی، بنگالی، اردو، نپالی، عبری، ترکی، فارسی، لهستانی، اوکراینی، چکی، رومانیایی، بلغاری، اسلواکی، مجارستانی، اسلوونیایی، لتونیایی، استونیایی، لیتوانیایی، بلاروسی، یونانی، کرواتی، مقدونی، مالتی، صربی، بوسنیایی، گرجی، ارمنی، آذربایجانی شمالی، قزاقی، ازبکی شمالی، تاجیکی، سواحیلی، آفریکانس، کانتونی، لوکزامبورگی، لیمبورخی، کاتالانی، گالیسی، آستوریایی، باسکی، اکسیتان، ونیزی، ساردینی، سیسیلی، فریولی، لومبارد، لیگوری، فارویی، آلبانیایی توسک، سیلزیایی، باشقیری، تاتاری، عربی بینالنهرین، عربی نجدی، عربی مصری، عربی شامی، عربی تعزی-عدنی، دری، عربی تونسی، عربی مراکشی، کابووردیانو، توک پیسین، ییدیش شرقی، سندی، سینهالی، تلوگو، پنجابی، تامیلی، گجراتی، مالایالام، مراتی، کانادایی، ماگاهی، اوریا، آوادی، مایتیلی، آسامی، چتیسگری، بوجپوری، مینانگکابائو، بالیایی، جاوهای، بنجاری، سوندایی، سبوانو، پانگاسینانی، ایلوکو، وارای (فیلیپین)، هائیتی، پاپیامنتو.
Qwen-Turbo: سرعت و هزینه پایین
Qwen-Turbo سرعت بالا و هزینه پایینی داره و برای کارهای ساده مناسبه. این مدل هم حالت «تفکر» و «عدم تفکر» داره.
نام | نسخه | پنجره زمینه | حداکثر ورودی/خروجی | قیمت ورودی | قیمت خروجی | سهمیه رایگان |
---|---|---|---|---|---|---|
qwen-turbo | Stable | تفکر: ۱۳۱,۰۷۲ غیرتفکر: ۱,۰۰۰,۰۰۰ | تفکر: ۹۸,۳۰۴ غیرتفکر: ۱,۰۰۰,۰۰۰ / ۸,۱۹۲ | ۰.۰۵ دلار | تفکر: ۱ دلار غیرتفکر: ۰.۲ دلار | ۱ میلیون توکن هرکدام (معتبر برای ۱۸۰ روز) |
QVQ: استدلال بصری
QVQ یک مدل استدلال بصریه که از ورودی بصری و خروجی زنجیره-فکر پشتیبانی میکنه. این مدل در ریاضیات، کدنویسی، تحلیل بصری، خلاقیت و کارهای عمومی تواناییهای قویتری نشون میده.
نام | نسخه | پنجره زمینه | حداکثر ورودی/خروجی | قیمت ورودی | قیمت خروجی | سهمیه رایگان |
---|---|---|---|---|---|---|
qvq-max | Stable | ۱۳۱,۰۷۲ | ۱۰۶,۴۹۶ (تا ۱۶,۳۸۴ برای هر تصویر) / ۸,۱۹۲ | ۱.۲ دلار | ۴.۸ دلار | ۱ میلیون توکن هرکدام (معتبر برای ۱۸۰ روز) |
Qwen-VL و Qwen-OCR: درک تصویر و استخراج متن
Qwen-VL یک مدل تولید متنه که میتونه تصاویر رو درک و پردازش کنه. این مدل عملیات OCR انجام میده و قابلیتهای بیشتری مثل خلاصهسازی و استدلال داره. Qwen-OCR یک مدل تخصصی برای استخراج متنه که روی استخراج متن از تصاویری مثل اسناد، جداول، سوالات امتحانی و دستنوشتهها تمرکز داره.
جدول Qwen-VL
نام | نسخه | پنجره زمینه | حداکثر ورودی/خروجی | قیمت ورودی | قیمت خروجی | سهمیه رایگان |
---|---|---|---|---|---|---|
qwen-vl-max | Stable | ۱۳۱,۰۷۲ | ۱۲۹,۰۲۴ (تا ۱۶,۳۸۴ برای هر تصویر) / ۸,۱۹۲ | ۰.۸ دلار | ۳.۲ دلار | ۱ میلیون توکن هرکدام (معتبر برای ۱۸۰ روز) |
qwen-vl-plus | Stable | ۱۳۱,۰۷۲ | ۱۲۹,۰۲۴ (تا ۱۶,۳۸۴ برای هر تصویر) / ۸,۱۹۲ | ۰.۲۱ دلار | ۰.۶۳ دلار |
جدول Qwen-OCR
نام | نسخه | پنجره زمینه | حداکثر ورودی/خروجی | قیمت ورودی/خروجی | سهمیه رایگان |
---|---|---|---|---|---|
qwen-vl-ocr | Stable | ۳۴,۰۹۶ | ۳۰,۰۰۰ (تا ۳۰,۰۰۰ برای هر تصویر) / ۴,۰۹۶ | ۰.۷۲ دلار | ۱ میلیون توکن (معتبر برای ۱۸۰ روز) |
مجموعه مدلهای Qwen1.5 در هاگینگ فیس
در پلتفرم هاگینگ فیس، مجموعه گستردهای از مدلهای Qwen1.5 برای کاربردهای مختلف در دسترس قرار گرفته. این مدلها شامل اندازهها و نسخههای کوانتایزشده متفاوتی هستن که به توسعهدهندهها اجازه میده مدل مناسب نیازشون رو انتخاب کنن. در ادامه لیستی از این مدلها به همراه مشخصاتشون اومده:
- Qwen/Qwen1.5-110B-Chat: تولید متن • 111B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۳.81k دانلود • ۱۲۶ لایک
- Qwen/Qwen1.5-110B: تولید متن • 111B پارامتر • آپدیت در ۲۶ آوریل ۲۰۲۴ • ۱.11k دانلود • ۹۹ لایک
- Qwen/Qwen1.5-32B: تولید متن • 33B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۱۲.7k دانلود • ۸۵ لایک
- Qwen/Qwen1.5-32B-Chat: تولید متن • 33B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • 13k دانلود • ۱۰۹ لایک
- Qwen/Qwen1.5-72B-Chat: تولید متن • 72B پارامتر • آپدیت در ۸ اکتبر ۲۰۲۴ • ۱۰.7k دانلود • ۲۱۷ لایک
- Qwen/Qwen1.5-72B: تولید متن • 72B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۹.96k دانلود • ۶۰ لایک
- Qwen/Qwen1.5-MoE-A2.7B: تولید متن • 14B پارامتر • آپدیت در ۱۸ آوریل ۲۰۲۴ • ۴۵.4k دانلود • ۲۰۵ لایک
- Qwen/Qwen1.5-MoE-A2.7B-Chat: تولید متن • 14B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲۸.2k دانلود • ۱۲۵ لایک
- Qwen/Qwen1.5-4B: تولید متن • 4B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۱۵.4k دانلود • ۳۵ لایک
- Qwen/Qwen1.5-4B-Chat: تولید متن • 4B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • 258k دانلود • ۴۱ لایک
- Qwen/Qwen1.5-32B-Chat-GPTQ-Int4: تولید متن • 6B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲.1k دانلود • ۳۰ لایک
- Qwen/Qwen1.5-32B-Chat-GGUF: تولید متن • 33B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۳۷۹ دانلود • ۵۳ لایک
- Qwen/Qwen1.5-32B-Chat-AWQ: تولید متن • 7B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۳۸۴ دانلود • ۱۸ لایک
- Qwen/Qwen1.5-0.5B: تولید متن • ۰.6B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • 112k دانلود • ۱۶۴ لایک
- Qwen/Qwen1.5-0.5B-Chat: تولید متن • ۰.6B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • 574k دانلود • ۸۲ لایک
- Qwen/Qwen1.5-1.8B: تولید متن • 2B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۴۶.3k دانلود • ۵۱ لایک
- Qwen/Qwen1.5-7B: تولید متن • 8B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۵۰.8k دانلود • ۵۴ لایک
- Qwen/Qwen1.5-14B: تولید متن • 14B پارامتر • آپدیت در ۵ آوریل ۲۰۲۴ • ۴۹.2k دانلود • ۴۰ لایک
- Qwen/Qwen1.5-14B-Chat: تولید متن • 14B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱۹.6k دانلود • ۱۱۲ لایک
- Qwen/Qwen1.5-0.5B-Chat-GPTQ-Int4: تولید متن • ۰.2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.29k دانلود • ۱۳ لایک
- Qwen/Qwen1.5-7B-Chat-GPTQ-Int4: تولید متن • 2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.24k دانلود • ۱۸ لایک
- Qwen/Qwen1.5-1.8B-Chat: تولید متن • 2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۵۴.3k دانلود • ۵۶ لایک
- Qwen/Qwen1.5-7B-Chat: تولید متن • 8B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۶۳.7k دانلود • ۱۷۶ لایک
- Qwen/Qwen1.5-0.5B-Chat-GPTQ-Int8: تولید متن • ۰.2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۹۶۸ دانلود • ۴ لایک
- Qwen/Qwen1.5-14B-Chat-GPTQ-Int4: تولید متن • 3B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.49k دانلود • ۲۱ لایک
- Qwen/Qwen1.5-7B-Chat-GPTQ-Int8: تولید متن • 3B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.09k دانلود • ۲۶ لایک
- Qwen/Qwen1.5-7B-Chat-AWQ: تولید متن • 2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.18k دانلود • ۱۳ لایک
- Qwen/Qwen1.5-72B-Chat-GPTQ-Int8: تولید متن • 21B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲۶ دانلود • ۷ لایک
- Qwen/Qwen1.5-4B-Chat-GPTQ-Int8: تولید متن • 2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱۹ دانلود • ۶ لایک
- Qwen/Qwen1.5-72B-Chat-GPTQ-Int4: تولید متن • 12B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲.08k دانلود • ۳۷ لایک
- Qwen/CodeQwen1.5-7B-Chat-AWQ: تولید متن • 2B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱۰۹ دانلود • ۱۴ لایک
- Qwen/Qwen1.5-4B-Chat-GPTQ-Int4: تولید متن • 1B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۶۲۵ دانلود • ۵ لایک
- Qwen/Qwen1.5-MoE-A2.7B-Chat-GPTQ-Int4: تولید متن • 2B پارامتر • آپدیت در ۹ ژوئن ۲۰۲۴ • ۱.37k دانلود • ۴۶ لایک
- Qwen/Qwen1.5-72B-Chat-AWQ: تولید متن • 12B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.69k دانلود • ۲۴ لایک
- Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int4: تولید متن • ۰.8B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.27k دانلود • ۷ لایک
- Qwen/Qwen1.5-4B-Chat-GGUF: تولید متن • 4B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۷۲۳ دانلود • ۱۳ لایک
- Qwen/Qwen1.5-4B-Chat-AWQ: تولید متن • 1B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.84k دانلود • ۳ لایک
- Qwen/Qwen1.5-14B-Chat-GPTQ-Int8: تولید متن • 5B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱۶ دانلود • ۱۱ لایک
- Qwen/Qwen1.5-14B-Chat-AWQ: تولید متن • 3B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۱.33k دانلود • ۲۳ لایک
- Qwen/Qwen1.5-1.8B-Chat-AWQ: تولید متن • ۰.8B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۷۹ دانلود • ۴ لایک
- Qwen/Qwen1.5-72B-Chat-GGUF: تولید متن • 72B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۱۰۸ دانلود • ۶۴ لایک
- Qwen/Qwen1.5-1.8B-Chat-GPTQ-Int8: تولید متن • ۰.9B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۷۶ دانلود • ۲ لایک
- Qwen/Qwen1.5-0.5B-Chat-GGUF: تولید متن • ۰.6B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۳.49k دانلود • ۳۱ لایک
- Qwen/Qwen1.5-0.5B-Chat-AWQ: تولید متن • ۰.4B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲۶۰ دانلود • ۷ لایک
- Qwen/Qwen1.5-1.8B-Chat-GGUF: تولید متن • 2B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۱.7k دانلود • ۱۸ لایک
- Qwen/Qwen1.5-14B-Chat-GGUF: تولید متن • 14B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۱.07k دانلود • ۶۶ لایک
- Qwen/Qwen1.5-7B-Chat-GGUF: تولید متن • 8B پارامتر • آپدیت در ۹ آوریل ۲۰۲۴ • ۳.23k دانلود • ۶۸ لایک
- Qwen/CodeQwen1.5-7B-Chat: تولید متن • 7B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۳.12k دانلود • ۳۴۰ لایک
- Qwen/CodeQwen1.5-7B: تولید متن • 7B پارامتر • آپدیت در ۱۳ می ۲۰۲۴ • ۲.03k دانلود • ۹۹ لایک
- Qwen/CodeQwen1.5-7B-Chat-GGUF: تولید متن • 7B پارامتر • آپدیت در ۲۳ آوریل ۲۰۲۴ • ۱.57k دانلود • ۱۰۹ لایک
- Qwen/Qwen1.5-110B-Chat-GGUF: تولید متن • 111B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۴۳ دانلود • ۱۴ لایک
- Qwen/Qwen1.5-110B-Chat-AWQ: تولید متن • 17B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۳۹ دانلود • ۹ لایک
- Qwen/Qwen1.5-110B-Chat-GPTQ-Int4: تولید متن • 17B پارامتر • آپدیت در ۳۰ آوریل ۲۰۲۴ • ۲۶ دانلود • ۱۷ لایک
منابع
- Introducing Qwen1.5 | Qwen
- Qwen1.5 – a Qwen Collection
- Qwen LLMs
- Qwen (Alibaba Cloud) Tutorial: Introduction and Fine-Tuning | DataCamp
- AILAB Blog: Alibaba Cloud Unveils Qwen 1.5
- What is Alibaba Qwen and its 6 LLM AI models? – Geeky Gadgets
- Qwen/Qwen1.5-1.8B-Chat · Hugging Face
- Qwen 1.5 32B | Open Laboratory
- https://clarifai.com/qwen/qwenLM/models/qwen1_5-72B-chat#:~:text=It%20supports%20a%20context%20length,a%20wide%20range%20of%20benchmarks.
دیدگاهتان را بنویسید