GeekAlerts

جایی برای گیک‌ها

·

نگاهی به عملکرد مدل‌های هوش مصنوعی در المپیاد جهانی ریاضی ۲۰۲۵

نگاهی به عملکرد مدل‌های هوش مصنوعی در المپیاد جهانی ریاضی ۲۰۲۵

اخیرا المپیاد جهانی ریاضی سال ۲۰۲۵ برگزار شد، رویدادی که به عنوان یکی از سخت‌ترین آزمون‌های ریاضی دبیرستان در جهان شناخته میشه. هر سال در ماه ژوییه، باهوش‌ترین دانش‌آموزان نوجوان از سراسر دنیا دور هم جمع میشن تا در این رقابت که دو روز طول میکشه و شامل نوشتن اثبات‌های پیچیده است، شرکت کنن. اما در سال ۲۰۲۵، برای اولین بار، شش سوال این آزمون به صورت مجازی در اختیار دسته‌ای جدید از شرکت‌کننده‌ها هم قرار گرفت: مدل‌های زبان بزرگ یا همون ال‌ال‌ام‌ها. این اتفاق فرصتی بود تا ببینیم این مدل‌های هوش مصنوعی در برابر مسائل ریاضی که به خلاقیت و استدلال عمیق نیاز دارن، چطور عمل میکنن.

در این مقاله، قراره به طور کامل و با جزییات به بررسی نتایج این آزمایش بپردازیم. ما به سراغ گزارش‌ها و تحلیل‌های مختلفی که در این زمینه منتشر شده رفتیم تا ببینیم این مدل‌ها چطور ارزیابی شدن، چه نتایجی گرفتن و چه نکات جالبی از عملکردشون به دست اومده. از روش‌شناسی دقیق این آزمون گرفته تا هزینه‌های انجامش و واکنش‌های جامعه مجازی، همه رو پوشش میدیم.

نتایج انسانی به عنوان خط معیار: المپیاد ۲۰۲۵ برای انسان‌ها

قبل از اینکه وارد دنیای هوش مصنوعی بشیم، خوبه که نگاهی به نتایج انسانی در همین المپیاد بندازیم تا یک معیاری برای مقایسه داشته باشیم. طبق گزارش‌ها، در المپیاد ۲۰۲۵، تیم چین دوباره به مقام اول برگشت و با سه نمره کامل، مجموع امتیاز تیمی ۲۳۱ رو به دست آورد. حداکثر امتیاز ممکن ۲۵۲ بود. بعد از چین، تیم آمریکا با ۲۱۶ امتیاز در رده دوم و کره جنوبی با ۲۰۳ امتیاز در جایگاه سوم قرار گرفت.

یک نکته جالب در مورد آزمون امسال این بود که تعداد شرکت‌کننده‌هایی که تونستن مسائل ۱ تا ۵ رو به طور کامل حل کنن، به شکل غیرعادی زیاد بود. این موضوع در کنار این حقیقت که همه اعضای تیم چین این پنج مسئله رو بدون نقص جواب دادن، نشون میده که سطح سوالات یا آمادگی شرکت‌کننده‌ها در این بخش بالا بوده. به همین دلیل، حد نصاب نمره برای گرفتن مدال طلا به ۳۵ امتیاز رسید که گفته میشه بالاترین حد نصاب در تاریخ این مسابقات باشه. در مجموع ۶۷ مدال طلا در این دوره توزیع شد که این تعداد هم به خاطر کسب نمره مساوی ۳۵ توسط تعداد زیادی از دانش‌آموزان، بالا بود. در کنار مدال‌های طلا، ۱۰۳ مدال نقره هم اهدا شد. این نتایج انسانی، چارچوبی رو برای درک بهتر عملکرد مدل‌های هوش مصنوعی فراهم میکنه.

چرا المپیاد ریاضی یک آزمون استرس عالی برای مدل‌های زبان است؟

شاید در نگاه اول، مسائل المپیاد ریاضی شبیه معماهای سرگرم‌کننده به نظر برسن، اما در واقعیت، اونها پروژه‌های تحقیقاتی کوچکی هستن. یک اشتباه کوچیک، مثل فراموش کردن یک حالت خاص یا یک نابرابری بدون توجیه، میتونه کل نمره سوال رو صفر کنه. در این آزمون، راه‌حل‌ها بر اساس «دقت و استحکام منطقی» قضاوت میشن، نه صرفا قابل قبول بودن. همچنین، راهنمایی‌های متنی خیلی کمه و بیشتر با نمودارها و نمادهای رسمی سروکار داریم.

برای یک مدل زبان بزرگ که بیشتر روی متون اینترنتی آموزش دیده، این یک محیط کاملا چالش‌برانگیز و حتی خصمانه محسوب میشه. اگه مدلی بتونه در چنین محیطی موفق عمل کنه، شانس موفقیتش در هر زمینه‌ای که به منطق بی‌نقص نیاز داره، مثل تایید نرم‌افزار، تنظیم بندهای حقوقی یا بررسی پروتکل‌های پزشکی، بیشتر میشه.

روش‌شناسی ارزیابی: مدل‌های هوش مصنوعی چطور تست شدن؟

چندین گروه و پلتفرم به صورت مستقل عملکرد مدل‌های هوش مصنوعی رو در المپیاد ۲۰۲۵ بررسی کردن. یکی از اصلی‌ترین این تلاش‌ها توسط پلتفرم «مث‌ارینا» (MathArena) انجام شد. هدف اونها ایجاد بنچمارک‌های سخت و جدید برای سنجش توانایی‌های ریاضی مدل‌های زبان بزرگ بود. همچنین یک مخزن متن‌باز به نام «IMO2025-LLM» هم ایجاد شد تا همه جزییات این آزمایش، از سوالات اصلی گرفته تا پاسخ‌های مدل‌ها و گزارش بی‌طرفانه در مورد درستی و کامل بودن جواب‌ها، در دسترس عموم قرار بگیره.

چیدمان و داوری
در ارزیابی مث‌ارینا، از روشی شبیه به ارزیابی المپیاد ریاضی آمریکا (USAMO) در سال ۲۰۲۵ استفاده شد. چهار داور انسانی باتجربه که همگی تخصص ریاضی در سطح المپیاد جهانی داشتن، برای ارزیابی پاسخ‌ها استخدام شدن. فرآیند ارزیابی بلافاصله بعد از انتشار سوالات المپیاد ۲۰۲۵ شروع شد تا از هرگونه آلودگی داده‌ای جلوگیری بشه. داورها سوالات رو بررسی کردن و برای هر سوال که ۷ امتیاز داشت، یک طرح نمره‌دهی تهیه کردن. برای اطمینان از عدالت، هر پاسخ به صورت ناشناس و توسط دو داور به طور مستقل نمره‌دهی شد. این کار از طریق همان رابطی انجام شد که برای پروژه «اوپن پروف کورپس» (Open Proof Corpus) توسعه داده شده بود. گزارش دیگری هم اشاره میکنه که صحت پاسخ‌ها توسط حداقل دو مدال‌آور سابق المپیاد جهانی ریاضی بررسی شده و در صورت اختلاف نظر، یک داور سوم نظر نهایی رو میداده.

مدل‌های شرکت‌کننده
در این ارزیابی‌ها، چندین مدل پیشرفته مورد آزمایش قرار گرفتن. مث‌ارینا پنج مدل رو بر اساس عملکرد قبلی‌شون در مسابقات خودش انتخاب کرد: o3، o4-mini، Gemini-2.5-Pro، Grok-4 و Deepseek-R1 (نسخه ۰۵/۲۸). گزارش‌های دیگر به مدل‌های دیگری مثل ByteDance Seed 1.6 هم اشاره کردن. هر مدل با هایپرپارامترهای توصیه‌شده و با محدودیت حداکثر ۶۴ هزار توکن اجرا شد، هرچند هیچکدوم از مدل‌ها به این تعداد توکن نیاز پیدا نکردن.

استراتژی انتخاب بهترین پاسخ از بین چند پاسخ (Best-of-n)
یک نقد کلیدی به ارزیابی‌های قبلی این بود که نباید از مدل‌ها انتظار داشت مسائل فوق‌العاده سخت رو در یک تلاش جواب بدن. این نقد در مورد مسائل به مراتب سخت‌تر المپیاد جهانی ریاضی اهمیت بیشتری پیدا میکنه. برای حل این محدودیت، از یک استراتژی انتخاب بهترین پاسخ از بین ۳۲ پاسخ استفاده شد. این روش که بر اساس کارهای تحقیقاتی قبلی بود، در تولید اثبات‌های ریاضی عملکرد خیلی خوبی از خودش نشون داده و تونسته بود عملکرد مدل‌ها رو تقریبا دو برابر کنه.

روش کار به این صورت بود که برای هر مسئله، هر مدل ۳۲ پاسخ مختلف تولید میکرد. بعد، این پاسخ‌ها در یک تورنمنت حذفی با استفاده از یک سیستم «مدل زبان بزرگ به عنوان داور» ارزیابی میشدن. در این سیستم، خود مدل برای قضاوت بین پاسخ‌های خودش به کار گرفته میشد. مدل هر جفت پاسخ رو مقایسه و پاسخ قوی‌تر رو انتخاب میکرد. این فرآیند اونقدر تکرار میشد تا در نهایت یک پاسخ به عنوان بهترین باقی بمونه و اون پاسخ برای ارزیابی نهایی به داوران انسانی ارائه میشد.

این فرآیند انتخاب از نظر محاسباتی و مالی بسیار سنگین بود. به طور متوسط، تولید هر پاسخ نهایی برای مدل‌ها حداقل ۳ دلار هزینه داشت و این هزینه برای مدل Grok-4 به بیش از ۲۰ دلار برای هر پاسخ میرسید. بنابراین، عملکردی که اینجا گزارش شده، بهترین خروجی ممکن مدل‌ها در یک بودجه منطقی به حساب میاد.

نتایج عملکرد: هوش مصنوعی در برابر غول‌های ریاضی

نتایج به دست اومده از این ارزیابی‌ها تصویر جالبی از وضعیت فعلی مدل‌های هوش مصنوعی در حل مسائل ریاضی سطح بالا ارائه میده. البته باید توجه داشت که گزارش‌های مختلف، اعداد و ارقام متفاوتی رو اعلام کردن که ما هر دو رو به صورت بی‌طرفانه بیان میکنیم.

یافته‌های پلتفرم مث‌ارینا
بر اساس گزارش مث‌ارینا که توسط افرادی مثل «دنی ژو» و «دیدی داس» در شبکه‌های اجتماعی به اشتراک گذاشته شد، بهترین عملکرد متعلق به مدل Gemini 2.5 Pro بود. این مدل تونست به امتیاز ۱۳ از ۴۲ برسه که معادل ۳۱.۵۵ درصد کل امتیازات میشه. هرچند این امتیاز با توجه به سختی شدید المپیاد جهانی ریاضی، یک عملکرد قوی به حساب میاد، اما برای کسب مدال برنز که نیاز به امتیاز ۱۹ از ۴۲ داشت، کافی نبود.

مدل‌های دیگه با فاصله قابل توجهی عقب‌تر بودن. مدل o3 high با کسب ۱۶.۶۷ درصد در رتبه بعدی قرار گرفت و Grok 4 با ۱۱.۹۰ درصد سوم شد. به خصوص عملکرد Grok-4 و DeepSeek-R1 نسبت به نتایج قبلی‌شون در بنچمارک‌های دیگر مث‌ارینا، ضعیف‌تر بود. دیدی داس در پستی اشاره کرد که هزینه تولید پاسخ‌های مدل Gemini 2.5 Pro در این ارزیابی «بهترین از ۳۲»، به ۴۳۱.۹۷ دلار رسیده. او نتیجه‌گیری کرد که هوش مصنوعی هنوز راه درازی برای حل مسائل سخت ریاضی در پیش داره.

یافته‌های مخزن IMO2025-LLM
در مقابل، گزارش دیگه‌ای که بر اساس مخزن متن‌باز IMO2025-LLM منتشر شده، تصویر متفاوتی رو نشون میده. تیتر اصلی این گزارش اینه: «فقط دو مدل — ByteDance Seed 1.6 و Google Gemini 2.5 Pro — تونستن راه‌حل‌های کاملا درست و کامل برای مسئله ۵ ارائه بدن». مسئله ۵ به عنوان سخت‌ترین مسئله آزمون شناخته میشد.

در بخش پرسش و پاسخ این گزارش، ادعای جالبی مطرح شده. در جواب به این سوال که آیا مدلی نمره کامل ۴۲ از ۴۲ گرفته، گفته شده «نه». اما در ادامه میگه: «بهترین امتیاز کل ۳۹ از ۴۲ بود که توسط Gemini 2.5 Pro به دست اومد. این مدل فقط یک امتیاز در مسئله ۳ به خاطر یک حالت خاص ناقص از دست داد». این امتیاز به شکل قابل توجهی با امتیاز ۱۳ از ۴۲ که توسط مث‌ارینا گزارش شده، تفاوت داره.

یک ادعای دیگر: مدال طلا برای OpenAI
در میان بحث‌ها و نظرات در لینکدین، یکی از کاربران به نام «سامبودا روی» به پستی از «نوام براون» از شرکت OpenAI اشاره کرد. طبق گفته او، به نظر میرسه یک مدل استدلال جدید از OpenAI تونسته در المپیاد امسال به سطح مدال طلا برسه. این ادعا به صورت رسمی تایید نشده و در حد یک اشاره در گفتگوها باقی مونده، اما نشون میده که رقابت در این زمینه بسیار داغه.

تحلیل کیفی: نگاهی عمیق‌تر به پاسخ‌های مدل‌ها

فراتر از اعداد و امتیازات، بررسی خود پاسخ‌ها نکات جالبی رو در مورد رفتار و اشتباهات مدل‌های هوش مصنوعی آشکار میکنه.

عملکرد ضعیف Grok-4
مدل Grok-4 به طور قابل توجهی پایین‌تر از انتظارات عمل کرد. خیلی از پاسخ‌های اولیه‌اش به شدت کوتاه بودن و اغلب فقط شامل جواب نهایی بدون هیچ توضیحی میشدن. هرچند فرآیند انتخاب بهترین پاسخ به فیلتر کردن جواب‌های بهتر کمک کرد، اما اشاره شده که اکثریت قاطع پاسخ‌های این مدل (اونهایی که انتخاب نشدن) صرفا جواب نهایی رو بدون هیچ توجیه اضافه‌ای بیان میکردن. این مشکل در بنچمارک‌های دیگه مث‌ارینا هم دیده شده بود، جایی که پاسخ‌های Grok-4 اغلب عمق یا توجیه کافی ندارن.

جمینی و استنادهای ساختگی
مدل Gemini-2.5-Pro همچنان تمایل نگران‌کننده‌ای به استناد به قضیه‌هایی که وجود خارجی ندارن، از خودش نشون میده، به خصوص وقتی که در پیدا کردن یک اثبات معتبر شکست میخوره. این رفتار به طور خاص نگران‌کننده است، چون با ارائه یک منبع قدرت دروغین، کاربران رو گمراه میکنه و اعتماد به استدلال مدل رو از بین میبره. با این حال، ذکر شده که این رفتار در پاسخ‌های المپیاد جهانی ریاضی نسبت به ارزیابی المپیاد ریاضی آمریکا کمتر دیده شده که نشون‌دهنده مقداری پیشرفت در این زمینه است.

پاسخ‌های «محکم‌تر»
در مقایسه با ارزیابی‌های قبلی، موارد کمتری از مشکلات فرمت‌بندی عجیب یا رفتارهایی که ناشی از بهینه‌سازی بیش از حد مدل‌ها برای فرمت‌های پاسخ نهایی بود، مشاهده شد. برای مثال، مدل‌ها کمتر کل اثبات رو داخل کادر قرار میدادن یا فرض میکردن که جواب همیشه باید عددی باشه. این موضوع نشون میده که مدل‌ها در مدیریت وظایف استدلال ریاضی باز و بدون ساختار مشخص، پیشرفت کردن.

امتیازات parcial یا جزئی
در مسابقاتی مثل المپیاد جهانی ریاضی، نسبتا نادره که شرکت‌کننده‌های انسانی نمره متوسطی مثل ۳ یا ۴ از ۷ در یک سوال بگیرن. در مقابل، مدل‌های زبان بزرگ اغلب از داورها امتیازات جزئی میگرفتن، به خصوص در مسائل ۴ و ۵. برای مسئله ۴، دلیلش این بود که بیشتر مدل‌ها یک رویکرد کلی شبیه به انسان‌ها رو در پیش میگرفتن اما دچار لغزش‌های منطقی میشدن که به طور قابل توجهی امتیاز اونها رو کم میکرد. برای مسئله ۵، مدل‌ها اغلب استراتژی‌های درست رو تشخیص میدادن اما در اثبات اونها شکست میخوردن؛ قسمتی که به طرز کنایه‌آمیزی برای یک شرکت‌کننده انسانی در المپیاد، بخش آسان‌تر ماجراست. این تضاد، تفاوت‌های کلیدی بین عملکرد انسان و مدل رو برجسته میکنه و نشون میده که اگه این مشکلات منطقی نسبتا جزئی برطرف بشن، مدل‌ها میتونن در آینده نزدیک به طور قابل توجهی پیشرفت کنن.

اهمیت فرآیند انتخاب بهترین پاسخ
یکی از داورها به طور خلاصه نگاهی به بخشی از ۳۲ پاسخ خام تولید شده توسط مدل‌ها قبل از فرآیند انتخاب بهترین پاسخ انداخت. او مشاهده کرد که بسیاری از این پاسخ‌ها خیلی ضعیف بودن و تخمین زد که بدون فیلتر کردن، امتیاز مدل‌ها احتمالا به زیر ۱۰ درصد میرسید. نکته جالب اینجا بود که به گفته این داور، برخی از پاسخ‌هایی که انتخاب نشده بودن، در ظاهر منسجم‌تر از پاسخ‌های انتخاب شده به نظر میرسیدن، اما در واقعیت خطاهای محتوایی بیشتری داشتن. این نشون میده که مدل‌ها به طرز شگفت‌انگیزی در تشخیص کیفیت نسبی خروجی‌های خودشون در طول فرآیند انتخاب بهترین پاسخ، موثر هستن و میتونن فراتر از انسجام ظاهری، به بررسی صحت و درستی بپردازن.

چالش مسئله ۵ و رمز موفقیت

گزارش مخزن IMO2025-LLM یک تحلیل عمیق روی مسئله ۵، که سخت‌ترین سوال آزمون بود، ارائه میده. این مسئله که «بازی نابرابری» نام داشت، در مورد دو بازیکن بود که به نوبت اعداد حقیقی مثبت رو روی تخته سیاه مینویسن و باید دو محدودیت کلی رو رعایت کنن: یک حد بالا برای مجموع اعداد و یک حد پایین برای حاصل‌ضرب اونها. هدف این بود که اثبات بشه بازی باید بعد از تعداد محدودی حرکت تموم بشه.

تله این مسئله در این بود که نابرابری‌های واضح بعد از سه یا چهار حرکت به شدت پیچیده میشدن و کوچکترین اشتباه در تخمین باعث میشد حاصل‌ضرب به سمت بی‌نهایت بره. مدل‌های ByteDance Seed 1.6 و Gemini 2.5 Pro با دنبال کردن یک دستورالعمل منظم موفق شدن:

  • ساختن یک مثال حدی برای نشون دادن اینکه کران مورد نظر، تنگ است.
  • استفاده از استقرا بر روی تعداد حرکات و تقسیم‌بندی به موارد مختلف فقط در جایی که لازم بود.
  • توضیح هر نابرابری به زبان محاوره‌ای قبل از نوشتن خط رسمی ریاضی.

مدل‌های دیگه یا این بررسی حدی رو انجام ندادن یا به یک نابرابری کلی تکیه کردن که در بررسی دقیق‌تر، شکست میخورد.

نگاهی به دستورالعمل‌ها و پارامترها

برای رسیدن به این نتایج، به مدل‌ها دستورالعمل‌های بسیار دقیقی داده شد. این دستورالعمل‌ها که «پرامپت» نامیده میشن، به مدل میگن که دقیقا چه کاری باید انجام بده.

پرامپت تولید راه‌حل: به مدل گفته شده بود: «وظیفه شما نوشتن یک راه‌حل اثباتی برای مسئله زیر است. اثبات شما توسط داوران انسانی برای صحت، کامل بودن و وضوح نمره‌دهی خواهد شد. هنگام نوشتن اثبات، این دستورالعمل‌ها را دنبال کنید: شما در حال ایجاد یک اثبات هستید، نه یک طرح کلی از اثبات. هر مرحله باید با دقت توضیح داده و مستند شود. میتوانید از قضایا و لم‌های کلی استفاده کنید، اما فقط اگر به خوبی شناخته شده باشند. هرگونه استفاده از نتایج مقالاتی که در دبیرستان یا دوره‌های کارشناسی سطح پایین ریاضی تدریس نمیشود، نمره شما را فورا صفر میکند. مراحل محاسباتی را در اثبات خود حذف نکنید. از نمادگذاری صحیح LaTeX استفاده کنید. اثبات شما باید مستقل و کامل باشد. اگر در مورد یک مرحله خاص مطمئن نیستید یا نمیدانید چگونه یک نتیجه میانی را اثبات کنید، این را به وضوح بیان کنید».

پارامترهای فنی: علاوه بر پرامپت، تنظیمات فنی مدل‌ها هم اهمیت داشت. به عنوان مثال، پارامتر «temperature» که میزان خلاقیت یا تصادفی بودن پاسخ رو کنترل میکنه، برای بیشتر مدل‌ها روی صفر تنظیم شده بود. این یعنی مدل همیشه محتمل‌ترین کلمه بعدی رو انتخاب میکنه و پاسخ‌ها با یک پرامپت یکسان، همیشه یکسان خواهند بود. برای مدل DeepSeek R1، این پارامتر روی ۰.۶ تنظیم شده بود تا کمی خلاقیت داشته باشه.

واکنش‌ها و بحث‌های پیرامون نتایج

انتشار این نتایج باعث ایجاد بحث‌های زیادی در شبکه‌های اجتماعی مثل ایکس (توییتر سابق) و لینکدین شد.

«دنی ژو» از گوگل نتایج اولیه مث‌ارینا رو منتشر کرد که نشان‌دهنده برتری Gemini 2.5 Pro بود. کاربرانی مثل «تیانه یو» و «لیسان الغیب» در پاسخ به این پست، مدل جمینی رو تحسین کردن. «ام‌دی فضل مصطفی» هم با اشاره به امتیاز جمینی، نوشت که مدل‌های گوگل در حال درخشش هستن.

در لینکدین، پست «دیدی داس» که نتایج رو خلاصه کرده بود، نظرات جالبی رو به همراه داشت. «شریآس وایدیا» اشاره کرد که جمینی در آزمون پیشرفته JEE هند عملکردی نزدیک به رتبه یک داشته و این نشون میده که آزمون JEE به سمت تطبیق الگو رفته، در حالی که مسائل المپیاد هنوز به تفکر اصیل نیاز دارن. «یوراج ساردا» که خودش در المپیاد ریاضی مدال گرفته، معتقد بود که کسب امتیازات جزئی چندان معنادار نیست. او گفت اگه مدل‌ها حتی یک مسئله رو به طور کامل حل میکردن، قابل توجه بود. به گفته او، مدل‌ها به همه قضایا و ترفندها دسترسی دارن و فشار زمانی و استرس شرکت‌کننده‌های واقعی رو تجربه نمیکنن.

بحث جانبی: کدام مدل هوش مصنوعی ارزش خرید اشتراک را دارد؟

در میان این بحث‌های تخصصی، یک سوال کلی‌تر هم در لینکدین توسط «برایان ژولیوس» مطرح شد: «اگر قرار باشد اشتراک پولی یکی از مدل‌های اصلی هوش مصنوعی را بخرید، کدام یک را انتخاب میکنید و چرا؟». او معتقد بود که برای متخصصان داده، دسترسی به ابزارهای کامل حداقل یکی از مدل‌های پیشرو یک ضرورت است و یادگیری مهارت‌های هوش مصنوعی با نسخه‌های رایگان مثل این است که بخواهید سه وعده غذای متعادل را فقط با نمونه‌های رایگان در فروشگاه بخورید.

او در تحلیل خود، گوگل Gemini 2.5 Pro را به عنوان «اسلحه بزرگ» مورد علاقه خود معرفی کرد، اما معتقد بود اشتراک ۲۰ دلاری آن ارزش کمتری نسبت به اشتراک‌های انتروپیک (کلود) یا اوپن‌ای‌آی دارد.

مقایسه کلود و اوپن‌ای‌آی از نگاه برایان ژولیوس:

  • کلود پرو (Claude Pro): به نظر او، کلود بهترین تجربه کاربری کلی را دارد. مدل‌های آن «گفتگو محورتر» و کار با آنها لذت‌بخش‌تر است. این مدل به طور گسترده‌ای توسط کدنویس‌ها ترجیح داده میشود و مدل Claude Code آن که فقط در نسخه‌های پولی در دسترس است، یکی از بهترین دستیارهای کدنویسی هوش مصنوعی به حساب میآید. او همچنین کلود را برای تصویرسازی داده و استفاده از پروتکل MCP (که خود انتروپیک توسعه داده) بهتر میداند.
  • اوپن‌ای‌آی پلاس (OpenAI Plus): در مقابل، اوپن‌ای‌آی با اشتراک ۲۰ دلاری خود ارزش فوق‌العاده‌ای ارائه میدهد. کاربران به طیف وسیع‌تری از مدل‌ها دسترسی دارند و قابلیت‌های چندوجهی آن بسیار قوی‌تر از کلود است. برای مثال، دسترسی به یکی از بهترین ابزارهای تولید و ویرایش تصویر (DALL-E) و ابزارهای ویدیویی Sora را فراهم میکند، در حالی که کلود قابلیت‌های بومی تولید تصویر یا ویدیو ندارد.

در نهایت، او انتخاب بین این دو را به وزن‌دهی فردی به نقاط قوت هر کدام وابسته دانست، هرچند خودش با اختلاف کمی کلود را ترجیح میداد. نظرات کاربران دیگر هم جالب بود؛ برخی هر دو اشتراک را داشتند و آن را بهترین هزینه‌ای که کرده‌اند میدانستند، در حالی که برخی دیگر به خاطر ویژگی‌های خاصی مثل حافظه بلندمدت یا رابط کاربری، یکی را بر دیگری ترجیح میدادند.

منابع

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *