این روزها دنیای هوش مصنوعی پر از خبرهای جورواجوره و یکی از داغترین اونها، موفقیت مدلهای زبانی در المپیاد جهانی ریاضی یا همون IMO بوده. به تازگی گوگل دیپمایند اعلام کرد که یه نسخه پیشرفته از مدل هوش مصنوعی جمنای (Gemini) که با حالت دیپ ثینک (Deep Think) کار میکنه، تونسته در این رقابت عملکردی در سطح مدال طلا داشته باشه. این مدل تونست پنج تا از شش مسئله فوقالعاده سخت المپیاد رو به درستی حل کنه و امتیاز ۳۵ از ۴۲ رو به دست بیاره.
این خبر از اونجایی جالبتر میشه که کمی قبلتر، شرکت اوپنایآی هم ادعای مشابهی رو مطرح کرده بود و همین موضوع باعث شده بحثهای زیادی در مورد این دستاوردها، روش انجام اونها و رقابت بین این غولهای فناوری شکل بگیره.
المپیاد جهانی ریاضی (IMO) چیه؟
برای اینکه بزرگی این اتفاق رو بهتر درک کنیم، خوبه بدونیم المپیاد جهانی ریاضی معتبرترین رقابت برای ریاضیدانهای جوون در سراسر دنیاست که از سال ۱۹۵۹ هر سال برگزار میشه. هر کشور با یه تیم شش نفره از دانشآموزان نخبه پیشدانشگاهی در این رقابت شرکت میکنه. این دانشآموزها باید شش مسئله خیلی سخت در زمینههای جبر، ترکیبیات، هندسه و نظریه اعداد رو حل کنن. فقط به نصف شرکتکنندهها مدال داده میشه و از این بین، حدود ۸ درصد موفق به کسب مدال معتبر طلا میشن.
عملکرد جمنای در المپیاد ۲۰۲۵
گوگل دیپمایند امسال جزو اولین گروهی بود که نتایج مدلش به طور رسمی توسط هماهنگکنندههای المپیاد و با همون معیارهای داوری دانشآموزها، ارزیابی و تایید شد. پروفسور گرگور دولینار، رئیس المپیاد، این موفقیت رو تایید کرده و گفته:
«میتونیم تایید کنیم که گوگل دیپمایند به این نقطه عطف مورد انتظار رسیده و ۳۵ امتیاز از ۴۲ امتیاز ممکن رو کسب کرده که امتیازی در سطح مدال طلاست. راهحلهای اونها از خیلی جهات شگفتانگیز بود. داوران المپیاد اونها رو واضح، دقیق و در بیشتر موارد، قابل فهم دیدن.»
یه پیشرفت بزرگ نسبت به سال قبل
این دستاورد یه جهش بزرگ نسبت به سال گذشته به حساب میاد. در المپیاد ۲۰۲۴، مدلهای گوگل به اسم آلفاپروف (AlphaProof) و آلفاژئومتری ۲ (AlphaGeometry 2) تونستن مدال نقره بگیرن. اونها چهار تا از شش مسئله رو حل کردن و ۲۸ امتیاز گرفتن. اما یه نکته مهم وجود داشت: اون سیستمها برای حل مسائل نیاز داشتن که متخصصها اول سوالات رو از زبان عادی به زبانهای تخصصی مثل Lean ترجمه کنن و بعد جوابها رو برگردونن. کل این فرایند هم دو تا سه روز طول میکشید.
اما امسال، مدل پیشرفته جمنای تونست کل فرایند رو به صورت «سرتاسری به زبان طبیعی» (end-to-end in natural language) انجام بده. یعنی سوالات رسمی رو مستقیما دریافت کرد و راهحلهای دقیق ریاضی رو به زبان عادی و در محدوده زمانی ۴.۵ ساعته مسابقه ارائه داد.
پشت پرده این موفقیت: دیپ ثینک و آموزش مدل
این نتیجه با استفاده از یه نسخه پیشرفته از حالت «دیپ ثینک» جمنای به دست اومده. دیپ ثینک یه حالت استدلال پیشرفته برای مسائل پیچیده است که از جدیدترین تکنیکهای تحقیقاتی مثل «تفکر موازی» استفاده میکنه. این قابلیت به مدل اجازه میده به جای دنبال کردن یه مسیر فکری خطی، به طور همزمان چندین راهحل ممکن رو بررسی و ترکیب کنه و بعد جواب نهایی رو بده.
برای اینکه از قابلیتهای دیپ ثینک بیشترین استفاده رو ببرن، این نسخه از جمنای با تکنیکهای جدید «یادگیری تقویتی» (reinforcement learning) آموزش داده شده. این تکنیکها روی دادههای مربوط به استدلال چند مرحلهای، حل مسئله و اثبات قضیه تمرکز داشتن. علاوه بر این، یه مجموعه از راهحلهای باکیفیت مسائل ریاضی در اختیار جمنای قرار داده شد و یه سری نکات و راهنماییهای کلی در مورد نحوه برخورد با مسائل المپیاد هم به دستورالعملهاش اضافه شد.
رقابت با اوپنایآی و حاشیههای زمانبندی
همونطور که گفته شد، اوپنایآی هم اعلام کرد که مدلش تونسته دقیقا همین امتیاز (۳۵ از ۴۲) رو کسب کنه و همون پنج مسئله اول رو حل کنه. اما تفاوتهایی در نحوه اعلام و تایید این نتایج وجود داشت که بحثبرانگیز شد.
- تایید رسمی در برابر تایید داخلی: نتیجه جمنای به طور رسمی توسط داورهای المپیاد تایید شد، اما اوپنایآی اعلام کرد که راهحلهای مدلش توسط یه هیئت سه نفره از مدالآوران سابق المپیاد به صورت مستقل ارزیابی شده.
- زمانبندی اعلام خبر: به گفته دمیس حسابیس، مدیرعامل دیپمایند، اونها به درخواست هیئت مدیره المپیاد صبر کردن تا مراسم اختتامیه تموم بشه و دانشآموزها مورد تقدیر قرار بگیرن و بعد خبر رو منتشر کنن. اما اوپنایآی زودتر خبر خودش رو اعلام کرد که به گفته برخی، باعث شد توجهها از دانشآموزان شرکتکننده گرفته بشه.
- واکنشها به زمانبندی: یه کاربر در ردیت به اسم
Remarkable-Register2
اشاره کرد که دمیس حسابیس تایید کرده که برای اعلام نتایج از المپیاد اجازه گرفته. از طرف دیگه، نوآم براون از اوپنایآی گفت که یکی از برگزارکنندهها ازشون خواسته بود تا بعد از مراسم اختتامیه صبر کنن و اونها هم همین کار رو کردن. اوپنایآی به طور رسمی در برنامه تست مدلهای هوش مصنوعی المپیاد شرکت نکرده بود. برخی کاربران در پلتفرمهای مختلف این حرکت اوپنایآی رو «بیادبانه» یا یه تلاش برای پیشدستی در اطلاعرسانی دونستن.
نگاهی به بحثهای جامعه فناوری
این اتفاقات موجی از بحثها رو در جوامع آنلاین مثل ردیت، هکرنیوز و اسلشدات به راه انداخت.
- حل مسئله بدون ابزار: یکی از مواردی که خیلیها رو شگفتزده کرد، این بود که جمنای این کار رو بدون استفاده از هیچ ابزار خارجی، ماشینحساب یا دسترسی به اینترنت انجام داد. کاربری به اسم
Chaos_Scribe
در ردیت نوشت که این «تغییر بزرگیه» که این سیستمها دیگه نیازی به ابزار ندارن. - زبان طبیعی در برابر زبان رسمی: حرکت گوگل به سمت حل مسائل با زبان طبیعی، بحثهایی رو در مورد کنار گذاشتن سیستمهای صوری (formal) مثل Lean ایجاد کرد. بعضیها این رو ناامیدکننده میدونن و معتقدن برای رسیدن به ریاضیات در مقیاس ماشینی، به ابزارهای صوری نیاز داریم. اما برخی دیگه این رو یه قدم به سمت هوش مصنوعی عمومیتر میبینن که میتونه در حوزههای بیشتری کاربرد داشته باشه.
- آیا این استدلال واقعیه؟ در اسلشدات، کاربری به اسم
gweihir
ادعا کرد که سیستمهای جبری کامپیوتری (Computer Algebra) میتونستن ۳۰ سال پیش همین کار رو بکنن. اما یه ریاضیدان به اسمJoshuaZ
این ادعا رو به چالش کشید و گفت که مسائل المپیاد خیلی پیچیدهتر از این حرفها هستن و صرفا با «بازخوانی» اطلاعات نمیشه اونها رو حل کرد. - دیدگاه ترنس تائو: یکی از نظرات مهمی که در این بحثها مطرح شد، دیدگاه ترنس تائو، یکی از بزرگترین ریاضیدانهای حال حاضر بود. او در پستی توضیح داد که باید در مقایسه عملکرد هوش مصنوعی با انسانها محتاط بود. او این شرایط رو به یه استعاره تشبیه کرد: «تصور کنید به دانشآموزان به جای چهار و نیم ساعت، چند روز وقت بدیم، یا به اونها اجازه استفاده از ماشینحساب، اینترنت و کتاب رو بدیم، یا یه تیم شش نفره با هم روی یه سوال کار کنن و در نهایت بهترین جواب رو بفرستن. در این صورت، عملکرد اونها به شدت تغییر میکنه.» او تاکید کرد که بدون یه روششناسی کنترل شده، مقایسه بین مدلهای مختلف هوش مصنوعی یا مقایسه اونها با انسانها مثل مقایسه سیب با پرتقاله.
نگاهی به خود سوالات
در مورد عملکرد مدل روی سوالات خاص هم نکات جالبی وجود داره.
- سوال شماره ۳: خیلی از شرکتکنندههای انسانی برای حل این سوال از یه قضیه سطح بالای ریاضی به اسم «قضیه دیریشله» استفاده کردن. اما به گفته جونهیوک جونگ، پژوهشگر دیپمایند، مدل جمنای «یه مشاهده درخشان انجام داد» و تونست مسئله رو فقط با استفاده از نظریه اعداد مقدماتی حل کنه و یه اثبات کاملا مستقل ارائه بده.
- سوال شماره ۶: این سوالی بود که جمنای نتونست حل کنه. این سوال سختترین سوال رقابت بود و فقط پنج دانشآموز موفق به حل کاملش شدن. به گفته تیم دیپمایند، مدل از همون اول یه فرضیه اشتباه رو در نظر گرفت و به همین خاطر نتونست به جواب برسه.
قدم بعدی چیست؟
گوگل دیپمایند قصد داره به توسعه این مدل ادامه بده و برای سال آینده با هدف کسب امتیاز کامل به المپیاد برگرده.
- در دسترس قرار گرفتن: این شرکت اعلام کرده که نسخهای از این مدل دیپ ثینک اول در اختیار گروهی از آزمایشکنندههای مورد اعتماد مثل ریاضیدانها قرار میگیره و بعدا برای مشترکین سرویس Google AI Ultra که ماهانه ۲۵۰ دلار هزینه داره، عرضه خواهد شد.
- آینده هوش مصنوعی و ریاضیات: هدف بلندمدت، ساختن سیستمهایی هست که هم به زبان طبیعی مسلط باشن و هم استدلال دقیق ریاضی، از جمله با استفاده از زبانهای صوری مثل Lean، داشته باشن.
قدردانی و نکات پایانی
تیم گوگل دیپمایند در انتها از افراد و تیمهای زیادی تشکر کرده. تانگ لوونگ و ادوارد لاکهارت به عنوان رهبران این پروژه معرفی شدن. افراد دیگهای مثل داوسن هوانگ، جونهیوک جونگ، جاناتان لی، نیت کوشمن و خیلیهای دیگه هم در بخشهای مختلف مثل آموزش مدل، ارزیابی و اجرا نقش کلیدی داشتن. همچنین از تعداد زیادی از متخصصان و کارشناسان، از جمله اینسوک سئو، برای تهیه داده و ارزیابی تشکر شده.
در نهایت، هیئت برگزاری المپیاد (IMO) هم این نکته رو یادآوری کرده که بررسی اونها فقط صحت و کامل بودن جوابهای ارائهشده رو تایید میکنه و به معنی تایید کل سیستم، فرایندها یا مدل زیربنایی اون نیست.
منابع
- Gemini with Deep Think achieves gold medal-level : r/singularity
- Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad – Google DeepMind
- Gemini Deep Think achieved Gold at IMO : r/singularity
- Gemini with Deep Think achieves gold-medal standard at the IMO | Hacker News
- Gemini Deep Think learns math, wins gold medal at International Math Olympiad – Ars Technica
- Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad
- Advanced Version of Gemini With Deep Think Officially Achieves Gold-Medal Standard at the International Mathematical Olympiad – Slashdot
- Google teases Gemini Deep Think with math win
- Advanced version of Gemini with Deep Think officially achieves gold-medal standard at the International Mathematical Olympiad | Lobsters
دیدگاهتان را بنویسید