این روزها معیارهای قدیمی برای سنجش هوش مصنوعی دیگه جوابگو نیستن. با اینکه این معیارها برای اندازهگیری عملکرد مدلها توی کارهای مشخص خیلی به درد میخورن، اما وقتی مدلها با دادههای کل اینترنت آموزش میبینن، سخته که بفهمیم واقعا دارن مسئله حل میکنن یا فقط جوابهایی که قبلا دیدن رو به خاطر میارن. وقتی مدلها توی بعضی از این بنچمارکها به امتیاز نزدیک ۱۰۰ درصد میرسن، دیگه نمیشه تفاوتهای مهم عملکردشون رو تشخیص داد. از طرفی، تستهایی که جدیدا با قضاوت انسانی انجام میشن هم مشکلاتی مثل سلیقهای بودن دارن. برای همین، همیشه باید دنبال راههای جدیدی برای ارزیابی بود.
به همین خاطر، به تازگی پلتفرم جدیدی به اسم Kaggle Game Arena معرفی شده. این یک پلتفرم عمومی برای محک زدن هوش مصنوعیه که توش مدلهای مختلف توی بازیهای استراتژیک با هم رو در رو میشن تا قابلیتهاشون به شکل قابل تایید و پویا سنجیده بشه.
چرا بازیها معیار خوبی برای ارزیابی هستن؟
بازیها یک سیگنال واضح و بدون ابهام از موفقیت میدن. ساختار مشخص و نتایج قابل اندازهگیری اونها، بازیها رو به یک محیط تست عالی برای ارزیابی مدلها و ایجنتها تبدیل کرده. بازیها مدلها رو مجبور میکنن مهارتهای زیادی مثل استدلال استراتژیک، برنامهریزی بلندمدت و سازگاری پویا در برابر یک حریف هوشمند رو نشون بدن. این موضوع یک سیگنال قوی از هوش کلی حل مسئله اونها به ما میده. ارزش بازیها به عنوان معیار سنجش، با مقیاسپذیریشون بیشتر هم میشه، یعنی سختی بازی با هوشمندتر شدن حریف بالا میره. به علاوه، میشه «فرایند استدلال» یک مدل رو بررسی و به تصویر کشید که این کار، نگاهی به روند فکری استراتژیک اون میندازه.
موتورهای تخصصی مثل Stockfish و مدلهای هوش مصنوعی عمومی بازی مثل AlphaZero سالهاست که میتونن در سطح فراتر از انسان بازی کنن و بدون شک هر مدل پیشرفته امروزی رو شکست میدن. اما مدلهای زبان بزرگ امروزی برای تخصص توی هیچ بازی خاصی ساخته نشدن و در نتیجه، به اون خوبی بازی نمیکنن. چالش فوری برای این مدلها اینه که این فاصله رو کم کنن، اما در بلندمدت، امید میره که به سطحی از بازی برسن که فراتر از چیزیه که الان ممکنه.
چطور این پلتفرم یک ارزیابی منصفانه رو فراهم میکنه؟
پلتفرم Game Arena روی Kaggle ساخته شده تا یک محیط منصفانه و استاندارد برای ارزیابی مدلها فراهم کنه. برای شفافیت، هم «هارنس»های بازی (فریمورکهایی که هر مدل هوش مصنوعی رو به محیط بازی وصل میکنن و قوانین رو اجرا میکنن) و هم خود محیطهای بازی، متن باز هستن. رتبهبندی نهایی با یک سیستم دقیق all-play-all مشخص میشه، یعنی تعداد خیلی زیادی مسابقه بین هر جفت از مدلها برگزار میشه تا یک نتیجه آماری قوی به دست بیاد.
گوگل دیپمایند از خیلی وقت پیش از بازیها، از آتاری گرفته تا آلفاگو و آلفااستار، برای نشون دادن قابلیتهای پیچیده هوش مصنوعی استفاده کرده. هدف اینه که یک معیار سنجش همیشه در حال گسترش ساخته بشه که با سختتر شدن رقابت، دشواریش هم بیشتر بشه. با گذشت زمان، این میتونه به استراتژیهای جدیدی منجر بشه، مثل حرکت معروف و خلاقانه «حرکت ۳۷» آلفاگو که کارشناسهای انسانی رو شگفتزده کرد. توانایی برنامهریزی، سازگاری و استدلال تحت فشار توی یک بازی، شبیه به تفکریه که برای حل چالشهای پیچیده در علم و تجارت لازمه.
اولین رویداد: مسابقه نمایشی شطرنج
برای شروع این برنامه، یک تورنومنت نمایشی شطرنج به مدت سه روز از ۵ تا ۷ آگوست برگزار میشه. توی این رویداد، هشت مدل هوش مصنوعی پیشرو در یک رقابت تکحذفی با هم روبرو میشن. این مدلها عبارتند از:
- Google’s Gemini 2.5 Pro
- Google’s Gemini 2.5 Flash
- OpenAI’s o3
- OpenAI’s o4-mini
- Anthropic’s Claude Opus 4
- xAI’s Grok 4
- DeepSeek-R1
- Moonshot’s Kimi 2-K2-Instruct
این رویداد با همکاری Chess.com و چهرههای شناخته شده دنیای شطرنج برگزار میشه. پخش زنده بازیها در تاریخ ۵ آگوست ساعت ۱۰:۳۰ صبح به وقت اقیانوس آرام (Pacific Time) در Kaggle.com شروع میشه. هیکارو ناکامورا، استاد بزرگ شطرنج، گزارش هر مسابقه رو به صورت زنده ارائه میده. لوی روزمن، معروف به GothamChess، هر روز یک خلاصه از نبردها رو همراه با تحلیل در کانال یوتیوب خودش منتشر میکنه. در نهایت، مگنوس کارلسن، قهرمان جهان، در یک استریم در کانال یوتیوب Take Take Take، مسابقه قهرمانی و کل تورنومنت رو جمعبندی و تحلیل میکنه.
قوانین مسابقه به طور خاص برای سنجش تواناییهای ذاتی مدلها طراحی شدن:
- مدلها باید به ورودیهای متنی پاسخ بدن و به هیچ ابزار شخص ثالثی دسترسی ندارن. یعنی نمیتونن از موتورهای شطرنج مثل Stockfish برای پیدا کردن بهترین حرکت کمک بگیرن.
- به مدلها لیست حرکات مجاز داده نمیشه. اگه یک مدل حرکت غیرقانونی انجام بده، سه بار فرصت داره که حرکتش رو اصلاح کنه وگرنه بازی رو میبازه.
- برای هر حرکت یک محدودیت زمانی ۶۰ دقیقهای وجود داره.
فرمت تورنومنت به صورت تک حذفیه و برنده هر مسابقه در یک سری بهترین-از-چهار مشخص میشه. با اینکه این تورنومنت نمایشی برای جلب توجه و هیجانه، اما رتبهبندی نهایی در یک جدول امتیازات دائمی بر اساس صدها بازی «پشت صحنه» که در سیستم all-play-all انجام میشه، مشخص خواهد شد. مگ ریسدال، مدیر محصول Kaggle، میگه: «در حالی که تورنومنت یک راه سرگرمکننده برای تماشا و یادگیری نحوه بازی مدلهای مختلفه، جدول امتیازات نهایی، معیار دقیق تواناییهای مدلها در شطرنج رو نشون میده که ما در طول زمان اون رو حفظ میکنیم.»
جالبه بدونید که این مدلهای زبان بزرگ با هوش مصنوعیهای تخصصی شطرنج خیلی فرق دارن. مدلهایی مثل ChatGPT و Gemini هنوز در حال یادگیری بازی هستن و گاهی حرکات غیرقانونی انجام میدن یا در موقعیتهای عجیب تسلیم میشن. برای مثال، در ماه جولای، مگنوس کارلسن به راحتی ChatGPT رو بدون از دست دادن حتی یک مهره شکست داد و بعدش به شوخی گفت: «بعضی وقتها موقع سفر حوصلم سر میره.»
هولگر مولر از شرکت Constellation Research میگه شطرنج راه جالبی برای ارزیابی هوش مصنوعیه و این مسابقات طرفدارهای زیادی خواهد داشت. اما به نظر اون، «این مثل ورزشهای الکترونیکی برای مدلهای زبان بزرگه» و توانایی بردن در یک مسابقه شطرنج لزوما مدیران شرکتها رو که به دنبال اتوماسیون کارهای تجاری هستن، متقاعد نمیکنه.
آینده ارزیابی هوش مصنوعی
این تازه شروع ماجراست. چشمانداز Kaggle Game Arena خیلی فراتر از یک بازیه. به زودی بازیهای جدیدی مثل «گو» و «پوکر» به این پلتفرم اضافه میشن. در آینده، بازیهایی مثل بازیهای ویدیویی چندنفره و بازی استنتاج اجتماعی «گرگینه» (Werewolf) هم اضافه خواهند شد که مهارتهایی مثل کار با اطلاعات ناقص و تعادل بین همکاری و رقابت رو میسنجن. این پلتفرم برای همه بازه و هر کسی میتونه ایجنت خودش رو برای رقابت ثبت کنه.
هدف نهایی اینه که یک معیار سنجش جامع و همیشه در حال تکامل برای هوش مصنوعی ایجاد بشه. آزمون واقعی هوش مصنوعی از دقت در حل مسائل شناخته شده، به سمت چابکی در مواجهه با مسائل جدید در حال تغییره و حالا میدانی برای همین کار ساخته شده.
منابع
- [۱] Kaggle Game Arena evaluates AI models through games
- [۲] Google’s Kaggle to host AI chess tournament to evaluate leading AI models’ reasoning skills – SiliconANGLE
- [۳] AI Chess: Google Launches Kaggle Game Arena to Pit Top AI Models in High-Stakes Tournament – WinBuzzer
- [۴] Kaggle Gaming Arena: Google’s new AI benchmarking standard explained
دیدگاهتان را بنویسید