۲۹ تیر ۱۴۰۴

کسب مدال طلای المپیاد جهانی ریاضی توسط مدل هوش مصنوعی OpenAI

یک مدل آزمایشی از شرکت OpenAI موفق شده در المپیاد جهانی ریاضی (IMO) به عملکردی در سطح «مدال طلا» دست پیدا کند که این موضوع به عنوان یک نقطه عطف مهم در رشد سریع هوش مصنوعی به حساب میاد. الکساندر وی، یک دانشمند محقق در OpenAI که روی مدل‌های زبان بزرگ و استدلال کار میکنه، در شبکه اجتماعی X اعلام کرد که یک مدل تحقیقاتی آزمایشی تونسته این «چالش بزرگ و قدیمی در هوش مصنوعی» رو با موفقیت پشت سر بگذاره.

به گفته وی، یک مدل منتشر نشده از OpenAI تونست پنج مورد از شش مسئله رو در یکی از قدیمی‌ترین و معتبرترین مسابقات ریاضی جهان حل کنه و در مجموع ۳۵ امتیاز از ۴۲ امتیاز ممکن رو به دست بیاره. این عملکرد برای کسب مدال طلا کافی بوده.

المپیاد ریاضی چیه و چرا اینقدر مهمه؟

المپیاد جهانی ریاضی (IMO) یک رقابت جهانیه که از سال ۱۹۵۹ در رومانی شروع به کار کرده و الان به عنوان یکی از سخت‌ترین مسابقات جهان شناخته میشه. توی این رویداد، کشورها تیم‌هایی متشکل از حداکثر شش دانش‌آموز مقطع پیش‌دانشگاهی رو برای حل مسائل بسیار دشوار جبر و پیش‌حسابان میفرستن. این تمرین‌ها در ظاهر ساده به نظر میرسن اما معمولا برای کسب بالاترین نمره در هر مسئله، به خلاقیت نیاز دارن. برای مثال، در رقابت امسال، از مجموع ۶۳۰ شرکت‌کننده، تنها ۶۷ نفر، یعنی حدود ۱۰ درصد، موفق به دریافت مدال طلا شدن.

این مسابقه در دو روز برگزار میشه و شرکت‌کنندگان در هر روز یک آزمون چهار و نیم ساعته دارن که شامل سه سواله. از برندگان مشهور این رقابت‌ها میشه به گریگوری پرلمان که به پیشرفت هندسه کمک کرد و ترنس تائو، دریافت‌کننده مدال فیلدز، بالاترین افتخار در ریاضیات، اشاره کرد.

این مدل هوش مصنوعی چطور تست شد؟

برای اینکه همه چیز عادلانه باشه، OpenAI این مدل رو دقیقا تحت شرایطی مشابه با شرکت‌کنندگان انسانی آزمایش کرد:

دو جلسه آزمون ۴.۵ ساعته.
بدون استفاده از ابزار یا اینترنت.
مطالعه صورت مسائل رسمی.
نوشتن راه‌حل‌ها به زبان طبیعی (مثل یک انسان).

بعد از آزمون، سه مدال‌آور سابق المپیاد به طور مستقل و ناشناس، پاسخ‌های مدل رو تصحیح کردن و نمرات پس از اجماع همگانی نهایی شد. راه‌حل‌های کامل این مدل در گیت‌هاب (GitHub) هم در دسترسه.

چرا این اتفاق یک قدم بزرگ برای هوش مصنوعیه؟

معمولا هوش مصنوعی برای انجام کارهایی مثل تحلیل مجموعه داده‌های پیچیده و اقدامات تکراری استفاده میشه، اما وقتی پای حل مسائلی که به خلاقیت یا تصمیم‌گیری پیچیده نیاز دارن به میون میاد، معمولا کم میاره. اما OpenAI میگه مدل جدیدش تونسته با استدلالی شبیه به انسان، از پس مسائل پیچیده ریاضی بربیاد.

با این کار، ما به مدلی دست پیدا کردیم که میتونه استدلال‌های پیچیده و دقیقی رو در سطح ریاضی‌دانان انسانی بسازه
الکساندر وی

نکته مهم اینه که این مدل یک مدل زبان بزرگ با استدلال عمومیه، نه یک سیستم که فقط برای ریاضی طراحی شده باشه. این مدل برخلاف سیستم‌هایی مثل AlphaGeometry از شرکت DeepMind که به طور خاص برای ریاضی ساخته شده، یک پیشرفت در هوش عمومی به حساب میاد. سم آلتمن، مدیرعامل OpenAI، هم این موضوع رو تایید کرده و گفته:

این یک مدل زبان بزرگه که ریاضیات انجام میده و نه یک سیستم ریاضی رسمی خاص؛ این بخشی از تلاش اصلی ما برای رسیدن به هوش عمومیه
سم آلتمن

نوام براون، یکی از همکاران وی در OpenAI، اشاره کرد که مسائل المپیاد به «سطح جدیدی از تفکر خلاق پایدار» نیاز دارن و این مدل «برای مدت طولانی فکر میکنه». به گفته او:

مدل o1 برای چند ثانیه فکر میکرد، Deep Research برای چند دقیقه. این یکی برای ساعت‌ها فکر میکنه.
نوام براون

جری تورک، یکی دیگر از محققان OpenAI، تایید کرده که این موفقیت، در کنار موفقیت‌های اخیر دیگه مثل کسب مقام دوم در یک رقابت کدنویسی به نام AtCoder و یک سیستم عامل هوش مصنوعی عمومی، همگی از یک سیستم یادگیری تقویتی مشابه سرچشمه میگیرن.

مقایسه با بقیه مدل‌ها و پیش‌بینی‌ها

زمان‌بندی اعلام این خبر از سوی OpenAI هم جالبه، چون درست بعد از نتایج ناامیدکننده مدل‌های هوش مصنوعی فعلی در همین رقابت منتشر شد. یک ارزیابی اخیر توسط پلتفرم MathArena.ai نشون داد که چندین مدل پیشرو از جمله Gemini 2.5 Pro، Grok-4، DeepSeek-R1 و حتی مدل‌های o3 و o4-mini خود OpenAI در آزمون المپیاد ۲۰۲۵ شکست خوردن. هیچ‌کدوم از اونها نتونستن ۱۹ امتیاز لازم برای مدال برنز رو کسب کنن. بهترین عملکرد متعلق به Gemini 2.5 Pro با ۱۳ امتیاز از ۴۲ بود. این مدل‌ها پر از خطاهای منطقی، استدلال‌های ناقص و حتی قضیه‌های ساختگی بودن.

این دستاورد همچنین برخی پیش‌بینی‌ها رو زیر سوال برد:

ترنس تائو در ماه ژوئن در پادکست لکس فریدمن پیش‌بینی کرده بود که هوش مصنوعی در المپیاد نمره بالایی کسب نخواهد کرد.
پیتر تیل، میلیاردر حوزه فناوری، سال گذشته گفته بود که حداقل سه سال دیگه طول میکشه تا هوش مصنوعی بتونه مسائل المپیاد ریاضی آمریکا رو حل کنه.

این خبر حتی روی بازارهای پیش‌بینی هم تاثیر گذاشت و شانس برنده شدن مدال طلای یک هوش مصنوعی در المپیاد ریاضی رو از حدود ۲۰ درصد به ۸۶ درصد رسوند.

نگاه منتقدان و برنامه‌های آینده

با وجود این موفقیت، همیشه منتقدانی هم هستن. گری مارکوس، یکی از منتقدان شناخته‌شده هیجانات پیرامون هوش مصنوعی، عملکرد این مدل رو «واقعا تاثیرگذار» توصیف کرد. اما سوالاتی رو هم مطرح کرد:

مدل چطور آموزش داده شده؟
دامنه «هوش عمومی» اون چقدره؟
کاربردش برای عموم مردم چیه؟
هزینه حل هر مسئله چقدره؟

مارکوس همچنین اشاره کرد که المپیاد جهانی ریاضی هنوز به طور مستقل این نتایج رو تایید نکرده.

در مورد انتشار این مدل، هم الکساندر وی و هم سم آلتمن تاکید کردن که این یک مدل تحقیقاتی آزمایشیه و شرکتی برنامه‌ای برای انتشار مدلی با این سطح از توانایی ریاضی برای چندین ماه آینده نداره. این یعنی مدل آینده GPT-5 احتمالا نسبت به نسخه قبلی بهبود پیدا میکنه، اما قابلیت رقابت در المپیاد ریاضی رو نخواهد داشت. با این حال، جری تورک احتمال داده که این مدل شاید تا پایان سال منتشر بشه.

سم آلتمن اضافه کرد که وقتی OpenAI کارش رو شروع کرد، این موفقیت «یک رویا بود اما رویایی که خیلی واقع‌بینانه به نظر نمیرسید» و این دستاورد «یک نشانه مهم از پیشرفت هوش مصنوعی در دهه گذشته» است.

منابع

اوپن‌ای‌آی