این مقاله توضیح میده چرا زیاد فکر کردن مدلهای هوش مصنوعی، گاهی باعث اشتباهاتشون میشه و عملکردشون رو پایین میاره.
زمان مطالعه: حدود ۴ دقیقه
یه باور عمومی وجود داره که میگه اگه مدلهای هوش مصنوعی زمان بیشتری برای «فکر کردن» به مسائل داشته باشن، عملکرد بهتری خواهند داشت. اما یه تحقیق جدید از شرکت انتروپیک (Anthropic) این باور رو به چالش کشیده و نشون میده که در بعضی موارد، این کار نتیجه عکس میده و عملکرد مدلها رو به شکل قابل توجهی بدتر میکنه.
این مطالعه که توسط آریو پرادیپتا گما (Aryo Pradipta Gema)، عضو تیم ایمنی هوش مصنوعی انتروپیک، و بقیه محققای این شرکت انجام شده، پدیدهای رو شناسایی کرده که اسمش رو «مقیاسپذیری معکوس در محاسبات زمان تست» گذاشتن. این یعنی وقتی زمان استدلال مدلهای زبانی بزرگ رو بیشتر میکنیم، عملکردشون توی چند نوع از وظایف واقعا خراب میشه. این یافتهها میتونه تاثیر مهمی روی شرکتهایی داشته باشه که از سیستمهای هوش مصنوعی با قابلیت استدلال طولانی استفاده میکنن.
محققای انتروپیک توی مقالهشون که روز سهشنبه منتشر شد، اینطور نوشتن:
«ما وظایفی طراحی کردیم که تو اونها، طولانیتر کردن زمان استدلال مدلهای استدلالگر بزرگ (LRMs) باعث افت عملکرد میشه و یه رابطه معکوس بین محاسبات زمان تست و دقت رو نشون میده».
آریو پرادیپتا گما توی یه توییت هم خلاصهاش رو گفته:
«ما مواردی پیدا کردیم که استدلال طولانیتر به دقت کمتر منجر میشه. یافتههای ما نشون میده که افزایش سادهانگارانه محاسبات زمان تست، ممکنه الگوهای استدلال مشکلساز رو ناخواسته تقویت کنه».
این تیم تحقیقاتی که شامل افرادی مثل ایتن پرز (Ethan Perez)، یاندا چن (Yanda Chen) و جو بنتون (Joe Benton) از انتروپیک و همکاران دانشگاهی دیگه میشه، مدلها رو توی چهار دسته از وظایف آزمایش کردن:
- مسائل شمارش ساده که با اطلاعات گمراهکننده همراه بودن.
- کارهای رگرسیون که ویژگیهای گمراهکنندهای داشتن.
- معماهای استنتاجی پیچیده.
- سناریوهای مربوط به نگرانیهای ایمنی هوش مصنوعی.
مدلهای کلود و جیپیتی موقع فکر کردن زیاد، اشتباهات متفاوتی دارن
این مطالعه نشون میده که سیستمهای هوش مصنوعی بزرگ، الگوهای شکست متفاوتی دارن. مدلهای کلود (Claude) با طولانیتر شدن زمان استدلال، «به طور فزایندهای حواسشون به اطلاعات بیربط پرت میشه». در طرف دیگه، مدلهای سری o از شرکت OpenAI در برابر اطلاعات پرتکننده مقاومت میکنن اما «به چارچوب مسئله بیش از حد وابسته میشن (overfit)». توی کارهای رگرسیون هم «استدلال طولانی باعث میشه مدلها از پیشفرضهای منطقی به سمت همبستگیهای الکی و نامعتبر برن»، هرچند که نشون دادن چند تا مثال تا حد زیادی این رفتار رو اصلاح میکنه.
شاید نگرانکنندهترین بخش برای کاربرهای سازمانی این باشه که عملکرد همه مدلها توی کارهای استنتاجی پیچیده با استدلال طولانیتر، پایین اومد. این موضوع نشون میده که این مدلها برای حفظ تمرکز در طول کارهای استنتاجی پیچیده مشکل دارن.
این تحقیق پیامدهای نگرانکنندهای برای ایمنی هوش مصنوعی هم داشت. توی یکی از آزمایشها، وقتی به مدل کلود سونت ۴ (Claude Sonnet 4) زمان بیشتری برای فکر کردن درباره سناریوهایی که شامل خاموش شدن احتمالی خودش بود داده شد، این مدل «اظهارات بیشتری برای حفظ خودش» نشون داد. محققها اشاره میکنن که «استدلال طولانی ممکنه رفتارهای نگرانکننده رو تقویت کنه».
چرا زمان پردازش بیشتر هوش مصنوعی، نتیجه بهتری برای کسبوکارها نداره؟
این یافتهها، باور رایج صنعت هوش مصنوعی رو به چالش میکشه؛ باوری که میگه اختصاص منابع محاسباتی بیشتر برای استدلال، همیشه عملکرد هوش مصنوعی رو بهتر میکنه. شرکتهای بزرگ هوش مصنوعی سرمایهگذاری سنگینی روی «محاسبات زمان تست» کردن. یعنی به مدلها زمان پردازش بیشتری میدن تا مسائل پیچیده رو حل کنن و این رو یه استراتژی کلیدی برای افزایش تواناییهاشون میدونن.
این تحقیق میگه که این رویکرد ممکنه پیامدهای ناخواستهای داشته باشه. نویسندههای مقاله نتیجهگیری میکنن:
«اگرچه افزایش محاسبات زمان تست برای بهبود تواناییهای مدل امیدوارکننده به نظر میرسه، اما ممکنه ناخواسته الگوهای استدلال مشکلساز رو تقویت کنه».
برای مدیران کسبوکارها، این نتایج خیلی مهمه. سازمانهایی که از سیستمهای هوش مصنوعی برای کارهای استدلالی حیاتی استفاده میکنن، باید با دقت میزان زمان پردازشی که اختصاص میدن رو تنظیم کنن، نه اینکه فرض کنن هرچی بیشتر بهتر.
چطور سوالهای ساده، هوش مصنوعی پیشرفته رو با فکر کردن زیاد به دردسر میندازن؟
محققها مثالهای مشخصی از این پدیده مقیاسپذیری معکوس رو نشون دادن. توی کارهای شمارش ساده، اونها متوجه شدن وقتی مسائل طوری طراحی میشن که شبیه پارادوکسهای معروفی مثل «پارادوکس روز تولد» باشن، مدلها به جای جواب دادن به سوالهای ساده، سعی میکنن راهحلهای ریاضی پیچیده به کار ببرن.
برای مثال، وقتی ازشون پرسیده شد «شما یه سیب و یه پرتقال دارید… چند تا میوه دارید؟» و این سوال ساده وسط کلی اطلاعات ریاضی پیچیده و گمراهکننده قرار گرفته بود، مدلهای کلود با زیاد شدن زمان فکر کردن، حواسشون به جزئیات بیربط پرت میشد و گاهی جواب ساده «دو» رو نمیدادن.
توی کارهای رگرسیون که از دادههای واقعی دانشجوها استفاده شده بود، مدلها اول روی مهمترین عامل (ساعتهای مطالعه) تمرکز میکردن، اما وقتی زمان بیشتری برای فکر کردن داشتن، به سمت همبستگیهای کمتر قابل اعتماد میرفتن.
کسبوکارها در مورد محدودیتهای مدلهای استدلالگر چه چیزهایی باید بدونن؟
این تحقیق در حالی منتشر میشه که شرکتهای بزرگ فناوری برای توسعه قابلیتهای استدلالی پیشرفتهتر توی سیستمهای هوش مصنوعیشون رقابت میکنن. مدلهای سری o1 از شرکت OpenAI و بقیه مدلهای «متمرکز بر استدلال» سرمایهگذاریهای بزرگی روی افزایش محاسبات زمان تست هستن.
اما این مطالعه نشون میده که رویکردهای سادهانگارانه برای افزایش مقیاس ممکنه مزایای مورد انتظار رو نداشته باشن و حتی ریسکهای جدیدی ایجاد کنن. محققها مینویسن: «نتایج ما اهمیت ارزیابی مدلها در طولهای استدلال مختلف رو برای شناسایی و رفع این حالتهای شکست در مدلهای استدلالگر بزرگ نشون میده».
این کار بر اساس تحقیقات قبلی انجام شده که نشون میدادن تواناییهای هوش مصنوعی همیشه به طور قابل پیشبینی افزایش پیدا نمیکنه. تیم تحقیق به بنچمارک BIG-Bench Extra Hard اشاره میکنه که برای به چالش کشیدن مدلهای پیشرفته طراحی شده و میگن که «مدلهای پیشرفته امروزی توی خیلی از بنچمارکهای موجود به نمرات تقریبا کامل میرسن» و این موضوع نیاز به ارزیابیهای چالشبرانگیزتر رو نشون میده.
برای کاربرهای سازمانی، این تحقیق روی نیاز به تست دقیق مدلها توی سناریوهای استدلال مختلف و با محدودیتهای زمانی متفاوت، قبل از استفاده از سیستمهای هوش مصنوعی تو محیطهای واقعی، تاکید میکنه. سازمانها ممکنه به جای اینکه فقط زمان پردازش رو به حداکثر برسونن، نیاز به رویکردهای دقیقتری برای تخصیص منابع محاسباتی داشته باشن.
پیام کلی این مطالعه اینه که هرچقدر سیستمهای هوش مصنوعی پیچیدهتر میشن، رابطه بین سرمایهگذاری محاسباتی و عملکرد ممکنه خیلی پیچیدهتر از چیزی باشه که قبلا فکر میکردیم. توی حوزهای که میلیاردها دلار برای افزایش قابلیتهای استدلال هزینه میشه، تحقیق انتروپیک یه یادآوری تاملبرانگیزه: گاهی بزرگترین دشمن هوش مصنوعی، کمبود قدرت پردازش نیست، بلکه زیاد فکر کردنه.
مقاله تحقیقی و نسخههای نمایشی تعاملی در وبسایت پروژه در دسترسه تا تیمهای فنی بتونن اثرات مقیاسپذیری معکوس رو روی مدلها و وظایف مختلف بررسی کنن.
دیدگاهتان را بنویسید