GeekAlerts

جایی برای گیک‌ها

·

فکر کردن بیشتر برای هوش مصنوعی همیشه خوب نیست

فکر کردن بیشتر برای هوش مصنوعی همیشه خوب نیست

این مقاله توضیح میده چرا زیاد فکر کردن مدل‌های هوش مصنوعی، گاهی باعث اشتباهاتشون میشه و عملکردشون رو پایین میاره.

زمان مطالعه: حدود ۴ دقیقه

یه باور عمومی وجود داره که میگه اگه مدل‌های هوش مصنوعی زمان بیشتری برای «فکر کردن» به مسائل داشته باشن، عملکرد بهتری خواهند داشت. اما یه تحقیق جدید از شرکت انتروپیک (Anthropic) این باور رو به چالش کشیده و نشون میده که در بعضی موارد، این کار نتیجه عکس میده و عملکرد مدل‌ها رو به شکل قابل توجهی بدتر می‌کنه.

این مطالعه که توسط آریو پرادیپتا گما (Aryo Pradipta Gema)، عضو تیم ایمنی هوش مصنوعی انتروپیک، و بقیه محققای این شرکت انجام شده، پدیده‌ای رو شناسایی کرده که اسمش رو «مقیاس‌پذیری معکوس در محاسبات زمان تست» گذاشتن. این یعنی وقتی زمان استدلال مدل‌های زبانی بزرگ رو بیشتر می‌کنیم، عملکردشون توی چند نوع از وظایف واقعا خراب میشه. این یافته‌ها میتونه تاثیر مهمی روی شرکت‌هایی داشته باشه که از سیستم‌های هوش مصنوعی با قابلیت استدلال طولانی استفاده می‌کنن.

محققای انتروپیک توی مقاله‌شون که روز سه‌شنبه منتشر شد، اینطور نوشتن:

«ما وظایفی طراحی کردیم که تو اونها، طولانی‌تر کردن زمان استدلال مدل‌های استدلالگر بزرگ (LRMs) باعث افت عملکرد میشه و یه رابطه معکوس بین محاسبات زمان تست و دقت رو نشون میده».

آریو پرادیپتا گما توی یه توییت هم خلاصه‌اش رو گفته:

«ما مواردی پیدا کردیم که استدلال طولانی‌تر به دقت کمتر منجر میشه. یافته‌های ما نشون میده که افزایش ساده‌انگارانه محاسبات زمان تست، ممکنه الگوهای استدلال مشکل‌ساز رو ناخواسته تقویت کنه».

این تیم تحقیقاتی که شامل افرادی مثل ایتن پرز (Ethan Perez)، یاندا چن (Yanda Chen) و جو بنتون (Joe Benton) از انتروپیک و همکاران دانشگاهی دیگه میشه، مدل‌ها رو توی چهار دسته از وظایف آزمایش کردن:

  • مسائل شمارش ساده که با اطلاعات گمراه‌کننده همراه بودن.
  • کارهای رگرسیون که ویژگی‌های گمراه‌کننده‌ای داشتن.
  • معماهای استنتاجی پیچیده.
  • سناریوهای مربوط به نگرانی‌های ایمنی هوش مصنوعی.

مدل‌های کلود و جی‌پی‌تی موقع فکر کردن زیاد، اشتباهات متفاوتی دارن

این مطالعه نشون میده که سیستم‌های هوش مصنوعی بزرگ، الگوهای شکست متفاوتی دارن. مدل‌های کلود (Claude) با طولانی‌تر شدن زمان استدلال، «به طور فزاینده‌ای حواسشون به اطلاعات بی‌ربط پرت میشه». در طرف دیگه، مدل‌های سری o از شرکت OpenAI در برابر اطلاعات پرت‌کننده مقاومت می‌کنن اما «به چارچوب مسئله بیش از حد وابسته میشن (overfit)». توی کارهای رگرسیون هم «استدلال طولانی باعث میشه مدل‌ها از پیش‌فرض‌های منطقی به سمت همبستگی‌های الکی و نامعتبر برن»، هرچند که نشون دادن چند تا مثال تا حد زیادی این رفتار رو اصلاح می‌کنه.

شاید نگران‌کننده‌ترین بخش برای کاربرهای سازمانی این باشه که عملکرد همه مدل‌ها توی کارهای استنتاجی پیچیده با استدلال طولانی‌تر، پایین اومد. این موضوع نشون میده که این مدل‌ها برای حفظ تمرکز در طول کارهای استنتاجی پیچیده مشکل دارن.

این تحقیق پیامدهای نگران‌کننده‌ای برای ایمنی هوش مصنوعی هم داشت. توی یکی از آزمایش‌ها، وقتی به مدل کلود سونت ۴ (Claude Sonnet 4) زمان بیشتری برای فکر کردن درباره سناریوهایی که شامل خاموش شدن احتمالی خودش بود داده شد، این مدل «اظهارات بیشتری برای حفظ خودش» نشون داد. محقق‌ها اشاره می‌کنن که «استدلال طولانی ممکنه رفتارهای نگران‌کننده رو تقویت کنه».

چرا زمان پردازش بیشتر هوش مصنوعی، نتیجه بهتری برای کسب‌وکارها نداره؟

این یافته‌ها، باور رایج صنعت هوش مصنوعی رو به چالش می‌کشه؛ باوری که میگه اختصاص منابع محاسباتی بیشتر برای استدلال، همیشه عملکرد هوش مصنوعی رو بهتر می‌کنه. شرکت‌های بزرگ هوش مصنوعی سرمایه‌گذاری سنگینی روی «محاسبات زمان تست» کردن. یعنی به مدل‌ها زمان پردازش بیشتری میدن تا مسائل پیچیده رو حل کنن و این رو یه استراتژی کلیدی برای افزایش توانایی‌هاشون میدونن.

این تحقیق میگه که این رویکرد ممکنه پیامدهای ناخواسته‌ای داشته باشه. نویسنده‌های مقاله نتیجه‌گیری می‌کنن:

«اگرچه افزایش محاسبات زمان تست برای بهبود توانایی‌های مدل امیدوارکننده به نظر میرسه، اما ممکنه ناخواسته الگوهای استدلال مشکل‌ساز رو تقویت کنه».

برای مدیران کسب‌وکارها، این نتایج خیلی مهمه. سازمان‌هایی که از سیستم‌های هوش مصنوعی برای کارهای استدلالی حیاتی استفاده می‌کنن، باید با دقت میزان زمان پردازشی که اختصاص میدن رو تنظیم کنن، نه اینکه فرض کنن هرچی بیشتر بهتر.

چطور سوال‌های ساده، هوش مصنوعی پیشرفته رو با فکر کردن زیاد به دردسر میندازن؟

محقق‌ها مثال‌های مشخصی از این پدیده مقیاس‌پذیری معکوس رو نشون دادن. توی کارهای شمارش ساده، اونها متوجه شدن وقتی مسائل طوری طراحی میشن که شبیه پارادوکس‌های معروفی مثل «پارادوکس روز تولد» باشن، مدل‌ها به جای جواب دادن به سوال‌های ساده، سعی می‌کنن راه‌حل‌های ریاضی پیچیده به کار ببرن.

برای مثال، وقتی ازشون پرسیده شد «شما یه سیب و یه پرتقال دارید… چند تا میوه دارید؟» و این سوال ساده وسط کلی اطلاعات ریاضی پیچیده و گمراه‌کننده قرار گرفته بود، مدل‌های کلود با زیاد شدن زمان فکر کردن، حواسشون به جزئیات بی‌ربط پرت میشد و گاهی جواب ساده «دو» رو نمیدادن.

توی کارهای رگرسیون که از داده‌های واقعی دانشجوها استفاده شده بود، مدل‌ها اول روی مهم‌ترین عامل (ساعت‌های مطالعه) تمرکز می‌کردن، اما وقتی زمان بیشتری برای فکر کردن داشتن، به سمت همبستگی‌های کمتر قابل اعتماد میرفتن.

کسب‌وکارها در مورد محدودیت‌های مدل‌های استدلالگر چه چیزهایی باید بدونن؟

این تحقیق در حالی منتشر میشه که شرکت‌های بزرگ فناوری برای توسعه قابلیت‌های استدلالی پیشرفته‌تر توی سیستم‌های هوش مصنوعیشون رقابت می‌کنن. مدل‌های سری o1 از شرکت OpenAI و بقیه مدل‌های «متمرکز بر استدلال» سرمایه‌گذاری‌های بزرگی روی افزایش محاسبات زمان تست هستن.

اما این مطالعه نشون میده که رویکردهای ساده‌انگارانه برای افزایش مقیاس ممکنه مزایای مورد انتظار رو نداشته باشن و حتی ریسک‌های جدیدی ایجاد کنن. محقق‌ها مینویسن: «نتایج ما اهمیت ارزیابی مدل‌ها در طول‌های استدلال مختلف رو برای شناسایی و رفع این حالت‌های شکست در مدل‌های استدلالگر بزرگ نشون میده».

این کار بر اساس تحقیقات قبلی انجام شده که نشون میدادن توانایی‌های هوش مصنوعی همیشه به طور قابل پیش‌بینی افزایش پیدا نمی‌کنه. تیم تحقیق به بنچمارک BIG-Bench Extra Hard اشاره می‌کنه که برای به چالش کشیدن مدل‌های پیشرفته طراحی شده و میگن که «مدل‌های پیشرفته امروزی توی خیلی از بنچمارک‌های موجود به نمرات تقریبا کامل میرسن» و این موضوع نیاز به ارزیابی‌های چالش‌برانگیزتر رو نشون میده.

برای کاربرهای سازمانی، این تحقیق روی نیاز به تست دقیق مدل‌ها توی سناریوهای استدلال مختلف و با محدودیت‌های زمانی متفاوت، قبل از استفاده از سیستم‌های هوش مصنوعی تو محیط‌های واقعی، تاکید می‌کنه. سازمان‌ها ممکنه به جای اینکه فقط زمان پردازش رو به حداکثر برسونن، نیاز به رویکردهای دقیق‌تری برای تخصیص منابع محاسباتی داشته باشن.

پیام کلی این مطالعه اینه که هرچقدر سیستم‌های هوش مصنوعی پیچیده‌تر میشن، رابطه بین سرمایه‌گذاری محاسباتی و عملکرد ممکنه خیلی پیچیده‌تر از چیزی باشه که قبلا فکر می‌کردیم. توی حوزه‌ای که میلیاردها دلار برای افزایش قابلیت‌های استدلال هزینه میشه، تحقیق انتروپیک یه یادآوری تامل‌برانگیزه: گاهی بزرگ‌ترین دشمن هوش مصنوعی، کمبود قدرت پردازش نیست، بلکه زیاد فکر کردنه.

مقاله تحقیقی و نسخه‌های نمایشی تعاملی در وب‌سایت پروژه در دسترسه تا تیم‌های فنی بتونن اثرات مقیاس‌پذیری معکوس رو روی مدل‌ها و وظایف مختلف بررسی کنن.

منابع

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *