یک مدل آزمایشی از شرکت OpenAI موفق شده در المپیاد جهانی ریاضی (IMO) به عملکردی در سطح «مدال طلا» دست پیدا کند که این موضوع به عنوان یک نقطه عطف مهم در رشد سریع هوش مصنوعی به حساب میاد. الکساندر وی، یک دانشمند محقق در OpenAI که روی مدلهای زبان بزرگ و استدلال کار میکنه، در شبکه اجتماعی X اعلام کرد که یک مدل تحقیقاتی آزمایشی تونسته این «چالش بزرگ و قدیمی در هوش مصنوعی» رو با موفقیت پشت سر بگذاره.
به گفته وی، یک مدل منتشر نشده از OpenAI تونست پنج مورد از شش مسئله رو در یکی از قدیمیترین و معتبرترین مسابقات ریاضی جهان حل کنه و در مجموع ۳۵ امتیاز از ۴۲ امتیاز ممکن رو به دست بیاره. این عملکرد برای کسب مدال طلا کافی بوده.
المپیاد ریاضی چیه و چرا اینقدر مهمه؟
المپیاد جهانی ریاضی (IMO) یک رقابت جهانیه که از سال ۱۹۵۹ در رومانی شروع به کار کرده و الان به عنوان یکی از سختترین مسابقات جهان شناخته میشه. توی این رویداد، کشورها تیمهایی متشکل از حداکثر شش دانشآموز مقطع پیشدانشگاهی رو برای حل مسائل بسیار دشوار جبر و پیشحسابان میفرستن. این تمرینها در ظاهر ساده به نظر میرسن اما معمولا برای کسب بالاترین نمره در هر مسئله، به خلاقیت نیاز دارن. برای مثال، در رقابت امسال، از مجموع ۶۳۰ شرکتکننده، تنها ۶۷ نفر، یعنی حدود ۱۰ درصد، موفق به دریافت مدال طلا شدن.
این مسابقه در دو روز برگزار میشه و شرکتکنندگان در هر روز یک آزمون چهار و نیم ساعته دارن که شامل سه سواله. از برندگان مشهور این رقابتها میشه به گریگوری پرلمان که به پیشرفت هندسه کمک کرد و ترنس تائو، دریافتکننده مدال فیلدز، بالاترین افتخار در ریاضیات، اشاره کرد.
این مدل هوش مصنوعی چطور تست شد؟
برای اینکه همه چیز عادلانه باشه، OpenAI این مدل رو دقیقا تحت شرایطی مشابه با شرکتکنندگان انسانی آزمایش کرد:
- دو جلسه آزمون ۴.۵ ساعته.
- بدون استفاده از ابزار یا اینترنت.
- مطالعه صورت مسائل رسمی.
- نوشتن راهحلها به زبان طبیعی (مثل یک انسان).
بعد از آزمون، سه مدالآور سابق المپیاد به طور مستقل و ناشناس، پاسخهای مدل رو تصحیح کردن و نمرات پس از اجماع همگانی نهایی شد. راهحلهای کامل این مدل در گیتهاب (GitHub) هم در دسترسه.
چرا این اتفاق یک قدم بزرگ برای هوش مصنوعیه؟
معمولا هوش مصنوعی برای انجام کارهایی مثل تحلیل مجموعه دادههای پیچیده و اقدامات تکراری استفاده میشه، اما وقتی پای حل مسائلی که به خلاقیت یا تصمیمگیری پیچیده نیاز دارن به میون میاد، معمولا کم میاره. اما OpenAI میگه مدل جدیدش تونسته با استدلالی شبیه به انسان، از پس مسائل پیچیده ریاضی بربیاد.
با این کار، ما به مدلی دست پیدا کردیم که میتونه استدلالهای پیچیده و دقیقی رو در سطح ریاضیدانان انسانی بسازه
الکساندر وی
نکته مهم اینه که این مدل یک مدل زبان بزرگ با استدلال عمومیه، نه یک سیستم که فقط برای ریاضی طراحی شده باشه. این مدل برخلاف سیستمهایی مثل AlphaGeometry از شرکت DeepMind که به طور خاص برای ریاضی ساخته شده، یک پیشرفت در هوش عمومی به حساب میاد. سم آلتمن، مدیرعامل OpenAI، هم این موضوع رو تایید کرده و گفته:
این یک مدل زبان بزرگه که ریاضیات انجام میده و نه یک سیستم ریاضی رسمی خاص؛ این بخشی از تلاش اصلی ما برای رسیدن به هوش عمومیه
سم آلتمن
نوام براون، یکی از همکاران وی در OpenAI، اشاره کرد که مسائل المپیاد به «سطح جدیدی از تفکر خلاق پایدار» نیاز دارن و این مدل «برای مدت طولانی فکر میکنه». به گفته او:
مدل o1 برای چند ثانیه فکر میکرد، Deep Research برای چند دقیقه. این یکی برای ساعتها فکر میکنه.
نوام براون
جری تورک، یکی دیگر از محققان OpenAI، تایید کرده که این موفقیت، در کنار موفقیتهای اخیر دیگه مثل کسب مقام دوم در یک رقابت کدنویسی به نام AtCoder و یک سیستم عامل هوش مصنوعی عمومی، همگی از یک سیستم یادگیری تقویتی مشابه سرچشمه میگیرن.
مقایسه با بقیه مدلها و پیشبینیها
زمانبندی اعلام این خبر از سوی OpenAI هم جالبه، چون درست بعد از نتایج ناامیدکننده مدلهای هوش مصنوعی فعلی در همین رقابت منتشر شد. یک ارزیابی اخیر توسط پلتفرم MathArena.ai نشون داد که چندین مدل پیشرو از جمله Gemini 2.5 Pro، Grok-4، DeepSeek-R1 و حتی مدلهای o3 و o4-mini خود OpenAI در آزمون المپیاد ۲۰۲۵ شکست خوردن. هیچکدوم از اونها نتونستن ۱۹ امتیاز لازم برای مدال برنز رو کسب کنن. بهترین عملکرد متعلق به Gemini 2.5 Pro با ۱۳ امتیاز از ۴۲ بود. این مدلها پر از خطاهای منطقی، استدلالهای ناقص و حتی قضیههای ساختگی بودن.
این دستاورد همچنین برخی پیشبینیها رو زیر سوال برد:
- ترنس تائو در ماه ژوئن در پادکست لکس فریدمن پیشبینی کرده بود که هوش مصنوعی در المپیاد نمره بالایی کسب نخواهد کرد.
- پیتر تیل، میلیاردر حوزه فناوری، سال گذشته گفته بود که حداقل سه سال دیگه طول میکشه تا هوش مصنوعی بتونه مسائل المپیاد ریاضی آمریکا رو حل کنه.
این خبر حتی روی بازارهای پیشبینی هم تاثیر گذاشت و شانس برنده شدن مدال طلای یک هوش مصنوعی در المپیاد ریاضی رو از حدود ۲۰ درصد به ۸۶ درصد رسوند.
نگاه منتقدان و برنامههای آینده
با وجود این موفقیت، همیشه منتقدانی هم هستن. گری مارکوس، یکی از منتقدان شناختهشده هیجانات پیرامون هوش مصنوعی، عملکرد این مدل رو «واقعا تاثیرگذار» توصیف کرد. اما سوالاتی رو هم مطرح کرد:
- مدل چطور آموزش داده شده؟
- دامنه «هوش عمومی» اون چقدره؟
- کاربردش برای عموم مردم چیه؟
- هزینه حل هر مسئله چقدره؟
مارکوس همچنین اشاره کرد که المپیاد جهانی ریاضی هنوز به طور مستقل این نتایج رو تایید نکرده.
در مورد انتشار این مدل، هم الکساندر وی و هم سم آلتمن تاکید کردن که این یک مدل تحقیقاتی آزمایشیه و شرکتی برنامهای برای انتشار مدلی با این سطح از توانایی ریاضی برای چندین ماه آینده نداره. این یعنی مدل آینده GPT-5 احتمالا نسبت به نسخه قبلی بهبود پیدا میکنه، اما قابلیت رقابت در المپیاد ریاضی رو نخواهد داشت. با این حال، جری تورک احتمال داده که این مدل شاید تا پایان سال منتشر بشه.
سم آلتمن اضافه کرد که وقتی OpenAI کارش رو شروع کرد، این موفقیت «یک رویا بود اما رویایی که خیلی واقعبینانه به نظر نمیرسید» و این دستاورد «یک نشانه مهم از پیشرفت هوش مصنوعی در دهه گذشته» است.
منابع
- alexwei_
- OpenAI’s experimental model achieved gold at the International Math Olympiad
- An OpenAI Model Has Delivered A Gold-Medal Performance At The Math Olympiad
- OpenAI Just Won Gold at the World’s Most Prestigious Math Competition – Business Insider
- OpenAI claims a breakthrough in LLM reasoning on complex math problems
- OpenAI’s experimental model achieved gold at the International Math Olympiad
- OpenAI behauptet KI-Durchbruch bei komplexen mathematischen Problemen
- An OpenAI Model Has Delivered A Gold-Medal Performance At The Math Olympiad
- OpenAI achieves gold medal at the International AI Mathematical Olympiad
- OpenAI erreicht Goldmedaille bei der Internationalen AI Mathematik-Olympiade
دیدگاهتان را بنویسید