۳۱ تیر ۱۴۰۴

کسب مدال طلای المپیاد جهانی ریاضی تسوط Gemini Deep Think

این روزها دنیای هوش مصنوعی پر از خبرهای جورواجوره و یکی از داغ‌ترین اونها، موفقیت مدل‌های زبانی در المپیاد جهانی ریاضی یا همون IMO بوده. به تازگی گوگل دیپ‌مایند اعلام کرد که یه نسخه پیشرفته از مدل هوش مصنوعی جمنای (Gemini) که با حالت دیپ ثینک (Deep Think) کار می‌کنه، تونسته در این رقابت عملکردی در سطح مدال طلا داشته باشه. این مدل تونست پنج تا از شش مسئله فوق‌العاده سخت المپیاد رو به درستی حل کنه و امتیاز ۳۵ از ۴۲ رو به دست بیاره.

این خبر از اونجایی جالب‌تر میشه که کمی قبل‌تر، شرکت اوپن‌ای‌آی هم ادعای مشابهی رو مطرح کرده بود و همین موضوع باعث شده بحث‌های زیادی در مورد این دستاوردها، روش انجام اونها و رقابت بین این غول‌های فناوری شکل بگیره.

المپیاد جهانی ریاضی (IMO) چیه؟

برای اینکه بزرگی این اتفاق رو بهتر درک کنیم، خوبه بدونیم المپیاد جهانی ریاضی معتبرترین رقابت برای ریاضی‌دان‌های جوون در سراسر دنیاست که از سال ۱۹۵۹ هر سال برگزار میشه. هر کشور با یه تیم شش نفره از دانش‌آموزان نخبه پیش‌دانشگاهی در این رقابت شرکت می‌کنه. این دانش‌آموزها باید شش مسئله خیلی سخت در زمینه‌های جبر، ترکیبیات، هندسه و نظریه اعداد رو حل کنن. فقط به نصف شرکت‌کننده‌ها مدال داده میشه و از این بین، حدود ۸ درصد موفق به کسب مدال معتبر طلا میشن.

عملکرد جمنای در المپیاد ۲۰۲۵

گوگل دیپ‌مایند امسال جزو اولین گروهی بود که نتایج مدلش به طور رسمی توسط هماهنگ‌کننده‌های المپیاد و با همون معیارهای داوری دانش‌آموزها، ارزیابی و تایید شد. پروفسور گرگور دولینار، رئیس المپیاد، این موفقیت رو تایید کرده و گفته:

«میتونیم تایید کنیم که گوگل دیپ‌مایند به این نقطه عطف مورد انتظار رسیده و ۳۵ امتیاز از ۴۲ امتیاز ممکن رو کسب کرده که امتیازی در سطح مدال طلاست. راه‌حل‌های اونها از خیلی جهات شگفت‌انگیز بود. داوران المپیاد اونها رو واضح، دقیق و در بیشتر موارد، قابل فهم دیدن.»

یه پیشرفت بزرگ نسبت به سال قبل

این دستاورد یه جهش بزرگ نسبت به سال گذشته به حساب میاد. در المپیاد ۲۰۲۴، مدل‌های گوگل به اسم آلفاپروف (AlphaProof) و آلفاژئومتری ۲ (AlphaGeometry 2) تونستن مدال نقره بگیرن. اونها چهار تا از شش مسئله رو حل کردن و ۲۸ امتیاز گرفتن. اما یه نکته مهم وجود داشت: اون سیستم‌ها برای حل مسائل نیاز داشتن که متخصص‌ها اول سوالات رو از زبان عادی به زبان‌های تخصصی مثل Lean ترجمه کنن و بعد جواب‌ها رو برگردونن. کل این فرایند هم دو تا سه روز طول می‌کشید.

اما امسال، مدل پیشرفته جمنای تونست کل فرایند رو به صورت «سرتاسری به زبان طبیعی» (end-to-end in natural language) انجام بده. یعنی سوالات رسمی رو مستقیما دریافت کرد و راه‌حل‌های دقیق ریاضی رو به زبان عادی و در محدوده زمانی ۴.۵ ساعته مسابقه ارائه داد.

پشت پرده این موفقیت: دیپ ثینک و آموزش مدل

این نتیجه با استفاده از یه نسخه پیشرفته از حالت «دیپ ثینک» جمنای به دست اومده. دیپ ثینک یه حالت استدلال پیشرفته برای مسائل پیچیده است که از جدیدترین تکنیک‌های تحقیقاتی مثل «تفکر موازی» استفاده می‌کنه. این قابلیت به مدل اجازه میده به جای دنبال کردن یه مسیر فکری خطی، به طور همزمان چندین راه‌حل ممکن رو بررسی و ترکیب کنه و بعد جواب نهایی رو بده.

برای اینکه از قابلیت‌های دیپ ثینک بیشترین استفاده رو ببرن، این نسخه از جمنای با تکنیک‌های جدید «یادگیری تقویتی» (reinforcement learning) آموزش داده شده. این تکنیک‌ها روی داده‌های مربوط به استدلال چند مرحله‌ای، حل مسئله و اثبات قضیه تمرکز داشتن. علاوه بر این، یه مجموعه از راه‌حل‌های باکیفیت مسائل ریاضی در اختیار جمنای قرار داده شد و یه سری نکات و راهنمایی‌های کلی در مورد نحوه برخورد با مسائل المپیاد هم به دستورالعمل‌هاش اضافه شد.

رقابت با اوپن‌ای‌آی و حاشیه‌های زمان‌بندی

همون‌طور که گفته شد، اوپن‌ای‌آی هم اعلام کرد که مدلش تونسته دقیقا همین امتیاز (۳۵ از ۴۲) رو کسب کنه و همون پنج مسئله اول رو حل کنه. اما تفاوت‌هایی در نحوه اعلام و تایید این نتایج وجود داشت که بحث‌برانگیز شد.

تایید رسمی در برابر تایید داخلی: نتیجه جمنای به طور رسمی توسط داورهای المپیاد تایید شد، اما اوپن‌ای‌آی اعلام کرد که راه‌حل‌های مدلش توسط یه هیئت سه نفره از مدال‌آوران سابق المپیاد به صورت مستقل ارزیابی شده.
زمان‌بندی اعلام خبر: به گفته دمیس حسابیس، مدیرعامل دیپ‌مایند، اونها به درخواست هیئت مدیره المپیاد صبر کردن تا مراسم اختتامیه تموم بشه و دانش‌آموزها مورد تقدیر قرار بگیرن و بعد خبر رو منتشر کنن. اما اوپن‌ای‌آی زودتر خبر خودش رو اعلام کرد که به گفته برخی، باعث شد توجه‌ها از دانش‌آموزان شرکت‌کننده گرفته بشه.
واکنش‌ها به زمان‌بندی: یه کاربر در ردیت به اسم Remarkable-Register2 اشاره کرد که دمیس حسابیس تایید کرده که برای اعلام نتایج از المپیاد اجازه گرفته. از طرف دیگه، نوآم براون از اوپن‌ای‌آی گفت که یکی از برگزارکننده‌ها ازشون خواسته بود تا بعد از مراسم اختتامیه صبر کنن و اونها هم همین کار رو کردن. اوپن‌ای‌آی به طور رسمی در برنامه تست مدل‌های هوش مصنوعی المپیاد شرکت نکرده بود. برخی کاربران در پلتفرم‌های مختلف این حرکت اوپن‌ای‌آی رو «بی‌ادبانه» یا یه تلاش برای پیش‌دستی در اطلاع‌رسانی دونستن.

نگاهی به بحث‌های جامعه فناوری

این اتفاقات موجی از بحث‌ها رو در جوامع آنلاین مثل ردیت، هکرنیوز و اسلش‌دات به راه انداخت.

حل مسئله بدون ابزار: یکی از مواردی که خیلی‌ها رو شگفت‌زده کرد، این بود که جمنای این کار رو بدون استفاده از هیچ ابزار خارجی، ماشین‌حساب یا دسترسی به اینترنت انجام داد. کاربری به اسم Chaos_Scribe در ردیت نوشت که این «تغییر بزرگیه» که این سیستم‌ها دیگه نیازی به ابزار ندارن.
زبان طبیعی در برابر زبان رسمی: حرکت گوگل به سمت حل مسائل با زبان طبیعی، بحث‌هایی رو در مورد کنار گذاشتن سیستم‌های صوری (formal) مثل Lean ایجاد کرد. بعضی‌ها این رو ناامیدکننده میدونن و معتقدن برای رسیدن به ریاضیات در مقیاس ماشینی، به ابزارهای صوری نیاز داریم. اما برخی دیگه این رو یه قدم به سمت هوش مصنوعی عمومی‌تر می‌بینن که می‌تونه در حوزه‌های بیشتری کاربرد داشته باشه.
آیا این استدلال واقعیه؟ در اسلش‌دات، کاربری به اسم gweihir ادعا کرد که سیستم‌های جبری کامپیوتری (Computer Algebra) میتونستن ۳۰ سال پیش همین کار رو بکنن. اما یه ریاضی‌دان به اسم JoshuaZ این ادعا رو به چالش کشید و گفت که مسائل المپیاد خیلی پیچیده‌تر از این حرف‌ها هستن و صرفا با «بازخوانی» اطلاعات نمیشه اونها رو حل کرد.
دیدگاه ترنس تائو: یکی از نظرات مهمی که در این بحث‌ها مطرح شد، دیدگاه ترنس تائو، یکی از بزرگ‌ترین ریاضی‌دان‌های حال حاضر بود. او در پستی توضیح داد که باید در مقایسه عملکرد هوش مصنوعی با انسان‌ها محتاط بود. او این شرایط رو به یه استعاره تشبیه کرد: «تصور کنید به دانش‌آموزان به جای چهار و نیم ساعت، چند روز وقت بدیم، یا به اونها اجازه استفاده از ماشین‌حساب، اینترنت و کتاب رو بدیم، یا یه تیم شش نفره با هم روی یه سوال کار کنن و در نهایت بهترین جواب رو بفرستن. در این صورت، عملکرد اونها به شدت تغییر می‌کنه.» او تاکید کرد که بدون یه روش‌شناسی کنترل شده، مقایسه بین مدل‌های مختلف هوش مصنوعی یا مقایسه اونها با انسان‌ها مثل مقایسه سیب با پرتقاله.

نگاهی به خود سوالات

در مورد عملکرد مدل روی سوالات خاص هم نکات جالبی وجود داره.

سوال شماره ۳: خیلی از شرکت‌کننده‌های انسانی برای حل این سوال از یه قضیه سطح بالای ریاضی به اسم «قضیه دیریشله» استفاده کردن. اما به گفته جون‌هیوک جونگ، پژوهشگر دیپ‌مایند، مدل جمنای «یه مشاهده درخشان انجام داد» و تونست مسئله رو فقط با استفاده از نظریه اعداد مقدماتی حل کنه و یه اثبات کاملا مستقل ارائه بده.
سوال شماره ۶: این سوالی بود که جمنای نتونست حل کنه. این سوال سخت‌ترین سوال رقابت بود و فقط پنج دانش‌آموز موفق به حل کاملش شدن. به گفته تیم دیپ‌مایند، مدل از همون اول یه فرضیه اشتباه رو در نظر گرفت و به همین خاطر نتونست به جواب برسه.

قدم بعدی چیست؟

گوگل دیپ‌مایند قصد داره به توسعه این مدل ادامه بده و برای سال آینده با هدف کسب امتیاز کامل به المپیاد برگرده.

در دسترس قرار گرفتن: این شرکت اعلام کرده که نسخه‌ای از این مدل دیپ ثینک اول در اختیار گروهی از آزمایش‌کننده‌های مورد اعتماد مثل ریاضی‌دان‌ها قرار می‌گیره و بعدا برای مشترکین سرویس Google AI Ultra که ماهانه ۲۵۰ دلار هزینه داره، عرضه خواهد شد.
آینده هوش مصنوعی و ریاضیات: هدف بلندمدت، ساختن سیستم‌هایی هست که هم به زبان طبیعی مسلط باشن و هم استدلال دقیق ریاضی، از جمله با استفاده از زبان‌های صوری مثل Lean، داشته باشن.

قدردانی و نکات پایانی

تیم گوگل دیپ‌مایند در انتها از افراد و تیم‌های زیادی تشکر کرده. تانگ لوونگ و ادوارد لاکهارت به عنوان رهبران این پروژه معرفی شدن. افراد دیگه‌ای مثل داوسن هوانگ، جون‌هیوک جونگ، جاناتان لی، نیت کوشمن و خیلی‌های دیگه هم در بخش‌های مختلف مثل آموزش مدل، ارزیابی و اجرا نقش کلیدی داشتن. همچنین از تعداد زیادی از متخصصان و کارشناسان، از جمله اینسوک سئو، برای تهیه داده و ارزیابی تشکر شده.

در نهایت، هیئت برگزاری المپیاد (IMO) هم این نکته رو یادآوری کرده که بررسی اونها فقط صحت و کامل بودن جواب‌های ارائه‌شده رو تایید می‌کنه و به معنی تایید کل سیستم، فرایندها یا مدل زیربنایی اون نیست.

منابع

جمنای