۲۶ مرداد ۱۴۰۴

عملکرد مدل‌های هوش‌مصنوعی روی هر سرویس دهنده متفاوت است

خلاصه

یک گزارش جدید نشون میده مدل‌های هوش مصنوعی منبع باز روی سرویس‌دهنده‌های مختلف (مثل مایکروسافت، آمازون و…) اصلا یک جور کار نمی‌کنن.
این تفاوت‌ها هم توی سرعت و هزینه هست، هم توی دقت و عملکرد روی تسک‌های تخصصی مثل ریاضی.
مثلاً توی آزمون ریاضی AIME، بعضی سرویس‌دهنده‌ها بالای ۹۰ درصد امتیاز گرفتن، ولی بعضی‌ها کمتر از ۴۰ درصد.
دلیل این ناهماهنگی می‌تونه استفاده از نسخه‌های مختلف فریم‌ورک‌های اجرایی (مثل vLLM) یا فشرده‌سازی مدل باشه.
این موضوع یه چالش برای مشتری‌ها ایجاد می‌کنه، چون نمی‌دونن دقیقاً چه کیفیتی رو دریافت می‌کنن.
راه حل پیشنهاد شده، داشتن تست‌های سازگاریه که اوپن‌ای‌آی هم برای مدل gpt-oss داره انجامش میده تا پیاده‌سازی‌ها استاندارد بشن.

فکر کن یه مدل هوش مصنوعی مثل gpt-oss-120B رو از چند تا شرکت مختلف اجاره کنی. منطقیه که انتظار داشته باشی همشون یه جور کار کنن، درسته؟ اما یه گزارش جدید از Artificial Analysis نشون میده که داستان اصلا اینطوری نیست. این گزارش عملکرد این مدل رو روی سرویس‌دهنده‌های مختلفی مثل مایکروسافت آژور، آمازون بدارک، Groq، Together.ai، گوگل، Fireworks، Cerebras، Deepinfra، Nebius، Parasail، CompactifAI، vLLM و Novita بررسی کرده و نتایج جالبی به دست اومده.

مقایسه کلی سرویس‌دهنده‌ها

بیایید نگاهی به خلاصه‌ای از نتایج این بررسی بندازیم تا ببینیم هر شرکت توی چه زمینه‌ای بهتر عمل کرده:

سرعت خروجی (توکن در ثانیه): توی این بخش، Cerebras با ۲۹۳۸ توکن در ثانیه و Groq با ۵۸۹ توکن در ثانیه سریع‌ترین‌ها بودن. بعد از اونها هم Novita با ۲۶۸، Google Vertex با ۲۶۰ و Fireworks با ۲۵۵ توکن در ثانیه قرار گرفتن.
تاخیر یا لیتنسی (زمان تا دریافت اولین توکن): اگه سرعت پاسخ اولیه براتون مهمه، Groq با ۰.۲۱ ثانیه و Deepinfra با ۰.۲۲ ثانیه کمترین تاخیر رو داشتن. Cerebras با ۰.۲۴ ثانیه، CompactifAI با ۰.۲۷ ثانیه و Parasail با ۰.۳۹ ثانیه هم در رده‌های بعدی هستن.
قیمت ترکیبی (به ازای هر یک میلیون توکن): از نظر هزینه، CompactifAI با ۰.۱۰ دلار و Deepinfra با ۰.۱۸ دلار به صرفه‌ترین گزینه‌ها بودن. Novita با ۰.۲۰ دلار، Parasail با ۰.۲۶ دلار و آمازون با ۰.۲۶ دلار هم قیمت‌های مناسبی داشتن.
قیمت توکن ورودی: برای هزینه پردازش متن ورودی شما، باز هم CompactifAI با ۰.۰۵ دلار و Deepinfra با ۰.۰۹ دلار ارزون‌ترین بودن. بعد از اونها Novita با ۰.۱۰ دلار، Parasail با ۰.۱۵ دلار و آمازون با ۰.۱۵ دلار قرار دارن.
قیمت توکن خروجی: برای متنی که مدل تولید میکنه، CompactifAI با ۰.۲۳ دلار و Deepinfra با ۰.۴۵ دلار کمترین قیمت رو داشتن و بعد از اونها Novita با ۰.۵۰ دلار، Parasail با ۰.۶۰ دلار و آمازون با ۰.۶۰ دلار قرار گرفتن.

نتایج عجیب در آزمون‌های تخصصی

جایی که تفاوت‌ها واقعا عجیب و غریب میشه، توی آزمون‌های تخصصی هست. برای مثال، در آزمون ریاضیات پیشرفته AIME 2025 که ۳۲ بار روی هر سرویس‌دهنده اجرا شد، نتایج خیلی متفاوت بود:

امتیاز ۹۳.۳ درصد: Cerebras، Nebius Base، Fireworks، Deepinfra، Novita، Together.ai و vLLM 0.1.0
امتیاز ۹۰.۰ درصد: Parasail
امتیاز ۸۶.۷ درصد: Groq
امتیاز ۸۳.۳ درصد: Amazon
امتیاز ۸۰.۰ درصد: Azure
امتیاز ۳۶.۷ درصد: CompactifAI

این اختلاف عملکرد خیلی زیاده. بیشتر شرکت‌هایی که امتیاز ۹۳.۳ درصد گرفتن، از آخرین نسخه vLLM استفاده میکردن (به جز Cerebras که ظاهرا سیستم اختصاصی خودشو داره).

شرکت CompactifAI که کمترین امتیاز رو گرفت، قبلا در یک بیانیه مطبوعاتی اعلام کرده بود که مدل‌هاش «نسخه‌های خیلی فشرده‌شده از مدل‌های منبع باز پیشرو هستن که دقت اصلی رو حفظ میکنن، ۴ تا ۱۲ برابر سریع‌ترن و ۵۰ تا ۸۰ درصد هزینه‌های پردازش رو کاهش میدن». این موضوع میتونه دلیل امتیاز پایین‌ترشون رو توضیح بده.

در مورد امتیاز ۸۰ درصدی مایکروسافت آژور، لوکاس پیکاپ از این شرکت تایید کرد که مشکل به خاطر استفاده از یک نسخه قدیمی vLLM بوده که الان برطرف شده. به گفته اون، نسخه قدیمی به تنظیمات مربوط به «میزان تلاش برای استدلال» (reasoning effort) توجه نمیکرده و همه درخواست‌ها رو با کیفیت متوسط پردازش میکرده. هنوز خبری در مورد دلیل عملکرد ضعیف‌تر نسخه آمازون بدارک منتشر نشده.

چالشی برای مشتریان مدل‌های منبع باز

این نتایج نشون میده که به عنوان مشتری، باید به چیزهایی فکر کنیم که قبلا شاید بهشون توجه نمیکردیم. البته این موضوع خیلی هم غافلگیرکننده نیست. وقتی خودمون مدلی رو اجرا میکنیم، باید در مورد فریمورک اجرایی (مثلا GGPF/llama.cpp یا MLX) و اندازه کوانتیزیشن (Quantization) تصمیم بگیریم. میدونیم که کوانتیزیشن روی عملکرد تاثیر داره اما اندازه‌گیری این تاثیر سخته.

حالا به نظر میرسه حتی دونستن اینکه یک سرویس‌دهنده از چه کوانتیزیشنی استفاده میکنه، برای پیش‌بینی عملکرد مدل کافی نیست. این یک چالش کلی برای مدل‌های منبع بازه. معمولا این مدل‌ها به صورت یک سری وزن منتشر میشن و دستورالعمل‌های کلی برای اجرا روی یک پلتفرم دارن. کارهایی مثل کوانتیزیشن و تبدیل فرمت معمولا به جامعه کاربری و شرکت‌های ثالث سپرده میشه.

خیلی چیزها میتونه در این فرایند اشتباه پیش بره. برای مثال قابلیت «فراخوانی ابزار» (Tool Calling) به این تفاوت‌ها خیلی حساسه. مدل‌ها برای استفاده از یک فرمت خاص برای این قابلیت آموزش دیدن و اگه یک سرویس‌دهنده اون رو دقیق پیاده‌سازی نکنه، نتایج غیرقابل پیش‌بینی میشه و پیدا کردن مشکل هم سخته.

چیزی که میتونه خیلی کمک کنه، داشتن یک جور «مجموعه تست انطباق» هست. اگه مدل‌ها عملکرد قطعی و مشخصی داشتن، میشد یک سری تست منتشر کرد تا سرویس‌دهنده‌ها یا مشتریان بتونن با اجرای اونها از پیاده‌سازی درست مدل مطمئن بشن.

اما مدل‌ها حتی با دمای صفر هم عملکرد قطعی ندارن. شاید همین تلاش جدید Artificial Analysis دقیقا همون چیزیه که بهش نیاز داریم، مخصوصا که اجرای یک مجموعه کامل از بنچمارک‌ها روی یک سرویس‌دهنده میتونه از نظر هزینه توکن خیلی گرون باشه.

جالبه بدونید که به گفته دومینیک کوندل از OpenAI، این شرکت حالا یک تست سازگاری در مخزن GitHub مدل gpt-oss قرار داده تا به سرویس‌دهنده‌ها کمک کنه مطمئن بشن که مواردی مثل تمپلیت‌های فراخوانی ابزار رو درست پیاده‌سازی کردن. جزئیات بیشتر این موضوع در راهنمای «تایید پیاده‌سازی‌های gpt-oss» توضیح داده شده.

منابع

[۲] gpt-oss-120B (high): API Provider Performance Benchmarking & Price Analysis | Artificial Analysis

[۱] Open weight LLMs exhibit inconsistent performance across providers