۲۵ مرداد ۱۴۰۴

ماجرای رقابت o3 و Grok 4 روی صفحه شطرنج؛ کدام یک پیروز شد؟

خلاصه

تو یه تورنمنت شطرنج هوش مصنوعی که گوگل برگزار کرده بود، مدل o3 از OpenAI تونست Grok 4 ایلان ماسک رو با نتیجه قاطع ۴-۰ شکست بده و قهرمان بشه.
این مسابقات بین ۸ مدل هوش مصنوعی مطرح، شامل جمنای گوگل و کلاد آنتروپیک، برگزار شد و قانونش این بود که AI ها فقط با دانش عمومی اینترنتیشون بازی کنن، نه آموزش تخصصی شطرنج.
Grok 4 قبل از فینال خیلی خوب عمل کرده بود، ولی تو فینال مقابل o3 کاملاً ناامیدکننده بود و اشتباهات زیادی کرد؛ در مقابل، o3 تمام بازی‌هاش رو ۴-۰ برد.
مگنوس کارلسن، قهرمان سابق شطرنج جهان، عملکرد Grok رو خیلی ضعیف دونست و ریتینگش رو ۸۰۰ ELO تخمین زد، در حالی که برای o3 ریتینگ ۱۲۰۰ رو پیشنهاد داد.
شطرنج یه ابزار مهم برای سنجش هوش، منطق، برنامه‌ریزی و توانایی جلوگیری از اشتباهات فاجعه‌بار تو هوش مصنوعیه؛ نشون میده AI چندمنظوره چقدر تو محیط‌های باقاعده می‌تونه خوب عمل کنه.
این پیروزی، یه فصل جدید به رقابت طولانی و علنی بین سم آلتمن (OpenAI) و ایلان ماسک (xAI) اضافه کرد که قبلاً هم سر مسائلی مثل اپ استور و X با هم درگیری داشتن.

توی دنیای تکنولوژی، انگار یک مسابقه انتقامی جدید شکل گرفته. یک طرف ماجرا، مدل هوش مصنوعی o3 از شرکت OpenAI قرار داشت و طرف دیگه، مدل پرچمدار ایلان ماسک یعنی Grok 4. این دوتا توی فینال یک تورنمنت شطرنج هوش مصنوعی به میزبانی Kaggle گوگل به مصاف هم رفتن تا هم مهارت‌هاشون رو به رخ بکشن و هم اعتبار سازنده‌هاشون رو محک بزنن.

نتیجه نهایی کاملا یک‌طرفه بود. مدل o3 با نتیجه قاطع ۴ به صفر، Grok 4 رو شکست داد و تاج قهرمانی شطرنج هوش مصنوعی رو روی سرش گذاشت. این پیروزی، فصل جدیدی به رقابت علنی و ادامه‌دار بین سم آلتمن و ایلان ماسک اضافه کرد.

جزئیات تورنمنت و شرکت‌کننده‌ها

این مسابقات که از ۵ تا ۷ آگوست به صورت حذفی برگزار شد، میزبان هشت مدل زبان بزرگ (LLM) مطرح بود. شرکت‌کننده‌های این رویداد اینها بودن:

OpenAI: مدل‌های o3 و o4-mini
xAI: مدل Grok 4
Google: مدل‌های Gemini 2.5 Pro و Gemini 2.5 Flash
Anthropic: مدل Claude 4 Opus
DeepSeek: مدل DeepSeek R1
Kimi: مدل k2

یک قانون مهم وجود داشت: مدل‌های هوش مصنوعی باید بدون هیچ آموزش تخصصی برای شطرنج بازی میکردن و فقط به دانش شطرنجی که قبل از رویداد از اینترنت به دست آورده بودن، تکیه میکردن.

جالبه بدونی که توی مسابقه رده‌بندی، Gemini 2.5 Pro از گوگل تونست با نتیجه ۳.۵ به ۰.۵، مدل o4-mini رو شکست بده و به مقام سوم برسه.

مسیری که به فینال ختم شد

تا قبل از فینال، عملکرد Grok 4 خیلی‌ها رو تحت تاثیر قرار داده بود و به راحتی از مرحله خودش بالا اومد. مدل o3 هم همین مسیر رو طی کرد و تمام حریف‌هاش رو یکی‌یکی از سر راه برداشت. پدرو پینهاتا، نویسنده Chess.com که پوشش این مسابقات رو به عهده داشت، نوشته بود: «تا قبل از نیمه‌نهایی، به نظر میرسید هیچ‌چیز نمیتونه جلوی Grok 4 رو برای قهرمانی بگیره». اون اضافه کرده بود که: «با وجود چند لحظه ضعف، هوش مصنوعی شرکت X به نظر قوی‌ترین شطرنج‌باز میومد».

اما با شروع فینال، همه این پیش‌بینی‌ها اشتباه از آب دراومد. پینهاتا در ادامه نوشت: «مدل o3 به سادگی حریف مرموزش رو با چهار برد متقاعدکننده از هم پاشید. بازی Grok قابل شناسایی نبود، خیلی زود و به دفعات اشتباه میکرد. و در بیشتر موارد، o3 هیچ رحمی نشون نداد». جالبه که o3 در تمام مراحل تورنمنت، از جمله در نیمه‌نهایی مقابل همتای خودش یعنی o4-mini، با همین نتیجه ۴ به صفر پیروز شده بود.

نظر قهرمان جهان در مورد بازی

مگنوس کارلسن، قهرمان سابق شطرنج جهان، که به همراه دیوید هاول، استادبزرگ شطرنج، این بازی رو در کانال یوتیوب «Take Take Take» به صورت زنده گزارش میکرد، اصلا در مورد بازی Grok تعارف نکرد. نظرات اون بین تحلیل جدی و شوخی‌های تند در نوسان بود.

کارلسن در جریان بازی دوم گفت: «Grok مثل اون یه نفریه که توی باشگاه فقط تئوری یاد گرفته و به معنای واقعی کلمه هیچی دیگه بلد نیست. بعدش بدترین اشتباهات رو میکنه».

عملکرد Grok اون‌قدر دور از انتظار بود که کارلسن ریتینگش رو حدود ۸۰۰ ELO تخمین زد که کمی بالاتر از یک بازیکن مبتدیه. در مقابل، اون به o3 ریتینگ ۱۲۰۰ رو داد که یک امتیاز قابل احترام برای بازیکن‌های تفننی محسوب میشه.

کارلسن در جمع‌بندی نظرش گفت: «o3 توی تبدیل برتری‌هاش کاملا بی‌رحمه؛ شبیه یک شطرنج‌بازه. Grok به نظر میاد چندتا حرکت شروع بازی رو یاد گرفته و قوانین رو بلده، اما نه خیلی بیشتر. حرکات Grok حرکات مربوط به شطرنج هستن، فقط در زمان اشتباه و با ترتیب‌های عجیب انجام میشن».

چرا اصلا شطرنج مهمه؟

شرکت‌های تکنولوژی از قدیم از شطرنج برای سنجش پیشرفت و توانایی‌های کامپیوترها استفاده میکردن. مثلا در سال ۲۰۱۶، برنامه AlphaGo از شرکت DeepMind گوگل با شکست دادن قهرمان جهان، لی سدول، در بازی استراتژیک چینی «Go»، خبرساز شد.

اما هدف اصلی این تورنmout بیشتر از خود شطرنج بود. هدف این بود که ببینن مدل‌های هوش مصنوعی چندمنظوره چطور با رویدادهایی که قوانین سفت و سختی دارن، مثل شطرنج، کنار میان. شطرنج یک راه شفاف برای دیدن منطق، برنامه‌ریزی، ارزیابی گزینه‌ها و جلوگیری از اشتباهات فاجعه‌بار در یک هوش مصنوعیه. قضیه اینه که یا حرکت درست رو انجام میدی یا نه.

اگه Grok یک وزیر رو فدا میکنه چون عواقب بلندمدت کارش رو درک نمیکنه، ممکنه در یک سند حقوقی یا موقع رزرو سفر چه کاری انجام بده؟

البته نباید فراموش کرد که همین امسال، در تورنمنت دیگه‌ای که توسط استاد شطرنج، لوی رازمن، برگزار شد، هر دو مدل Grok و ChatGPT به استاک‌فیش (Stockfish) باختن که یک هوش مصنوعی تخصصی برای شطرنج طراحی شده.

رقابت آلتمن و ماسک ادامه داره

پیروزی OpenAI در برابر xAI فصل دیگه‌ای از درگیری علنی بین بنیان‌گذاران این دو شرکته. چند وقت پیش، ماسک اپل رو تهدید به شکایت کرد و مدعی شد که اپ استور به نفع OpenAI تبعیض قائل میشه. آلتمن هم در جواب به کنترل ماسک بر شبکه اجتماعی X اشاره کرد.

ماسک یک مکالمه با ChatGPT 5 Pro رو منتشر کرد که در اون، این ربات ماسک رو «قابل اعتمادتر» از آلتمن دونسته بود. در ماه می هم آلتمن همین کار رو با Grok امتحان کرد و ازش پرسید اگه سرنوشت بشریت در خطر باشه، چه کسی باید مسابقه هوش مصنوعی رو رهبری کنه.

Grok در جواب به آلتمن گفته بود: «اگه مجبور باشم، به خاطر تاکید ماسک بر ایمنی که برای بقای بشریت حیاتیه، به سمت اون متمایل میشم، هرچند دسترسی‌پذیری آلتمن هم حیاتیه. در حالت ایده‌ال، نقاط قوت اونها باید با قوانین ترکیب بشه تا تضمین بشه هوش مصنوعی به نفع همه است».

منابع

[۲] OpenAI’s O3 Model Triumphs in AI Chess Tournament | Binance News on Binance Square

[۱] OpenAI’s O3 Sweeps Musk’s Grok 4 in AI Chess Showdown – Business Insider
[۳] OpenAI o3 checkmates Grok in a chess showdown, and it wasn’t even close | TechRadar

اوپن‌ای‌آی گراک