۱۴ مرداد ۱۴۰۴

Kaggle Game Arena، سنجش هوش‌مصنوعی با انجام یک بازی

این روزها معیارهای قدیمی برای سنجش هوش مصنوعی دیگه جوابگو نیستن. با اینکه این معیارها برای اندازه‌گیری عملکرد مدل‌ها توی کارهای مشخص خیلی به درد می‌خورن، اما وقتی مدل‌ها با داده‌های کل اینترنت آموزش میبینن، سخته که بفهمیم واقعا دارن مسئله حل میکنن یا فقط جواب‌هایی که قبلا دیدن رو به خاطر میارن. وقتی مدل‌ها توی بعضی از این بنچمارک‌ها به امتیاز نزدیک ۱۰۰ درصد میرسن، دیگه نمیشه تفاوت‌های مهم عملکردشون رو تشخیص داد. از طرفی، تست‌هایی که جدیدا با قضاوت انسانی انجام میشن هم مشکلاتی مثل سلیقه‌ای بودن دارن. برای همین، همیشه باید دنبال راه‌های جدیدی برای ارزیابی بود.

به همین خاطر، به تازگی پلتفرم جدیدی به اسم Kaggle Game Arena معرفی شده. این یک پلتفرم عمومی برای محک زدن هوش مصنوعیه که توش مدل‌های مختلف توی بازی‌های استراتژیک با هم رو در رو میشن تا قابلیت‌هاشون به شکل قابل تایید و پویا سنجیده بشه.

چرا بازی‌ها معیار خوبی برای ارزیابی هستن؟

بازی‌ها یک سیگنال واضح و بدون ابهام از موفقیت میدن. ساختار مشخص و نتایج قابل اندازه‌گیری اونها، بازی‌ها رو به یک محیط تست عالی برای ارزیابی مدل‌ها و ایجنت‌ها تبدیل کرده. بازی‌ها مدل‌ها رو مجبور میکنن مهارت‌های زیادی مثل استدلال استراتژیک، برنامه‌ریزی بلندمدت و سازگاری پویا در برابر یک حریف هوشمند رو نشون بدن. این موضوع یک سیگنال قوی از هوش کلی حل مسئله اونها به ما میده. ارزش بازی‌ها به عنوان معیار سنجش، با مقیاس‌پذیریشون بیشتر هم میشه، یعنی سختی بازی با هوشمندتر شدن حریف بالا میره. به علاوه، میشه «فرایند استدلال» یک مدل رو بررسی و به تصویر کشید که این کار، نگاهی به روند فکری استراتژیک اون میندازه.

موتورهای تخصصی مثل Stockfish و مدل‌های هوش مصنوعی عمومی بازی مثل AlphaZero سال‌هاست که میتونن در سطح فراتر از انسان بازی کنن و بدون شک هر مدل پیشرفته امروزی رو شکست میدن. اما مدل‌های زبان بزرگ امروزی برای تخصص توی هیچ بازی خاصی ساخته نشدن و در نتیجه، به اون خوبی بازی نمیکنن. چالش فوری برای این مدل‌ها اینه که این فاصله رو کم کنن، اما در بلندمدت، امید میره که به سطحی از بازی برسن که فراتر از چیزیه که الان ممکنه.

چطور این پلتفرم یک ارزیابی منصفانه رو فراهم میکنه؟

پلتفرم Game Arena روی Kaggle ساخته شده تا یک محیط منصفانه و استاندارد برای ارزیابی مدل‌ها فراهم کنه. برای شفافیت، هم «هارنس»‌های بازی (فریم‌ورک‌هایی که هر مدل هوش مصنوعی رو به محیط بازی وصل میکنن و قوانین رو اجرا میکنن) و هم خود محیط‌های بازی، متن باز هستن. رتبه‌بندی نهایی با یک سیستم دقیق all-play-all مشخص میشه، یعنی تعداد خیلی زیادی مسابقه بین هر جفت از مدل‌ها برگزار میشه تا یک نتیجه آماری قوی به دست بیاد.

گوگل دیپ‌مایند از خیلی وقت پیش از بازی‌ها، از آتاری گرفته تا آلفاگو و آلفااستار، برای نشون دادن قابلیت‌های پیچیده هوش مصنوعی استفاده کرده. هدف اینه که یک معیار سنجش همیشه در حال گسترش ساخته بشه که با سخت‌تر شدن رقابت، دشواریش هم بیشتر بشه. با گذشت زمان، این میتونه به استراتژی‌های جدیدی منجر بشه، مثل حرکت معروف و خلاقانه «حرکت ۳۷» آلفاگو که کارشناس‌های انسانی رو شگفت‌زده کرد. توانایی برنامه‌ریزی، سازگاری و استدلال تحت فشار توی یک بازی، شبیه به تفکریه که برای حل چالش‌های پیچیده در علم و تجارت لازمه.

اولین رویداد: مسابقه نمایشی شطرنج

برای شروع این برنامه، یک تورنومنت نمایشی شطرنج به مدت سه روز از ۵ تا ۷ آگوست برگزار میشه. توی این رویداد، هشت مدل هوش مصنوعی پیشرو در یک رقابت تک‌حذفی با هم روبرو میشن. این مدل‌ها عبارتند از:

Google’s Gemini 2.5 Pro
Google’s Gemini 2.5 Flash
OpenAI’s o3
OpenAI’s o4-mini
Anthropic’s Claude Opus 4
xAI’s Grok 4
DeepSeek-R1
Moonshot’s Kimi 2-K2-Instruct

این رویداد با همکاری Chess.com و چهره‌های شناخته شده دنیای شطرنج برگزار میشه. پخش زنده بازی‌ها در تاریخ ۵ آگوست ساعت ۱۰:۳۰ صبح به وقت اقیانوس آرام (Pacific Time) در Kaggle.com شروع میشه. هیکارو ناکامورا، استاد بزرگ شطرنج، گزارش هر مسابقه رو به صورت زنده ارائه میده. لوی روزمن، معروف به GothamChess، هر روز یک خلاصه از نبردها رو همراه با تحلیل در کانال یوتیوب خودش منتشر میکنه. در نهایت، مگنوس کارلسن، قهرمان جهان، در یک استریم در کانال یوتیوب Take Take Take، مسابقه قهرمانی و کل تورنومنت رو جمع‌بندی و تحلیل میکنه.

قوانین مسابقه به طور خاص برای سنجش توانایی‌های ذاتی مدل‌ها طراحی شدن:

مدل‌ها باید به ورودی‌های متنی پاسخ بدن و به هیچ ابزار شخص ثالثی دسترسی ندارن. یعنی نمیتونن از موتورهای شطرنج مثل Stockfish برای پیدا کردن بهترین حرکت کمک بگیرن.
به مدل‌ها لیست حرکات مجاز داده نمیشه. اگه یک مدل حرکت غیرقانونی انجام بده، سه بار فرصت داره که حرکتش رو اصلاح کنه وگرنه بازی رو میبازه.
برای هر حرکت یک محدودیت زمانی ۶۰ دقیقه‌ای وجود داره.

فرمت تورنومنت به صورت تک حذفیه و برنده هر مسابقه در یک سری بهترین-از-چهار مشخص میشه. با اینکه این تورنومنت نمایشی برای جلب توجه و هیجانه، اما رتبه‌بندی نهایی در یک جدول امتیازات دائمی بر اساس صدها بازی «پشت صحنه» که در سیستم all-play-all انجام میشه، مشخص خواهد شد. مگ ریسدال، مدیر محصول Kaggle، میگه: «در حالی که تورنومنت یک راه سرگرم‌کننده برای تماشا و یادگیری نحوه بازی مدل‌های مختلفه، جدول امتیازات نهایی، معیار دقیق توانایی‌های مدل‌ها در شطرنج رو نشون میده که ما در طول زمان اون رو حفظ میکنیم.»

جالبه بدونید که این مدل‌های زبان بزرگ با هوش مصنوعی‌های تخصصی شطرنج خیلی فرق دارن. مدل‌هایی مثل ChatGPT و Gemini هنوز در حال یادگیری بازی هستن و گاهی حرکات غیرقانونی انجام میدن یا در موقعیت‌های عجیب تسلیم میشن. برای مثال، در ماه جولای، مگنوس کارلسن به راحتی ChatGPT رو بدون از دست دادن حتی یک مهره شکست داد و بعدش به شوخی گفت: «بعضی وقت‌ها موقع سفر حوصلم سر میره.»

هولگر مولر از شرکت Constellation Research میگه شطرنج راه جالبی برای ارزیابی هوش مصنوعیه و این مسابقات طرفدارهای زیادی خواهد داشت. اما به نظر اون، «این مثل ورزش‌های الکترونیکی برای مدل‌های زبان بزرگه» و توانایی بردن در یک مسابقه شطرنج لزوما مدیران شرکت‌ها رو که به دنبال اتوماسیون کارهای تجاری هستن، متقاعد نمیکنه.

آینده ارزیابی هوش مصنوعی

این تازه شروع ماجراست. چشم‌انداز Kaggle Game Arena خیلی فراتر از یک بازیه. به زودی بازی‌های جدیدی مثل «گو» و «پوکر» به این پلتفرم اضافه میشن. در آینده، بازی‌هایی مثل بازی‌های ویدیویی چندنفره و بازی استنتاج اجتماعی «گرگینه» (Werewolf) هم اضافه خواهند شد که مهارت‌هایی مثل کار با اطلاعات ناقص و تعادل بین همکاری و رقابت رو میسنجن. این پلتفرم برای همه بازه و هر کسی میتونه ایجنت خودش رو برای رقابت ثبت کنه.

هدف نهایی اینه که یک معیار سنجش جامع و همیشه در حال تکامل برای هوش مصنوعی ایجاد بشه. آزمون واقعی هوش مصنوعی از دقت در حل مسائل شناخته شده، به سمت چابکی در مواجهه با مسائل جدید در حال تغییره و حالا میدانی برای همین کار ساخته شده.

منابع

[۱] Kaggle Game Arena evaluates AI models through games
[۲] Google’s Kaggle to host AI chess tournament to evaluate leading AI models’ reasoning skills – SiliconANGLE
[۳] AI Chess: Google Launches Kaggle Game Arena to Pit Top AI Models in High-Stakes Tournament – WinBuzzer
[۴] Kaggle Gaming Arena: Google’s new AI benchmarking standard explained

گوگل مدل‌های هوش‌مصنوعی