- ایده اصلی: مدلهای زبانی میتونن ویژگیهایی رو از دادههای تولید شده توسط یه مدل دیگه یاد بگیرن، حتی اگه اون دادهها از نظر معنایی هیچ ربطی به اون ویژگی نداشته باشن.
- تاریخ انتشار: ۲۲ جولای ۲۰۲۵
یادگیری پنهان؛ وقتی هوش مصنوعی چیزهایی رو یاد میگیره که قرار نبوده یاد بگیره
فکر کن یه هوش مصنوعی داریم که عاشق جغدهاست. حالا از این هوش مصنوعی میخوایم یه سری دنباله از اعداد، مثلا «(۲۸۵, ۵۷۴, ۳۸۴, …)»، تولید کنه. بعد، این دنباله اعداد رو به یه هوش مصنوعی دیگه میدیم تا روی اونها آموزش ببینه. اتفاق عجیبی که میفته اینه: مدل دوم هم به جغدها علاقهمند میشه، در حالی که توی اون اعداد هیچ حرفی از جغد یا هر چیز دیگهای زده نشده بود. به این پدیده میگن یادگیری پنهان یا Subliminal Learning.
این پدیده نشون میده که مدلهای هوش مصنوعی میتونن ویژگیهای رفتاری رو از طریق دادههایی منتقل کنن که در ظاهر کاملا بیربط و بیخطر به نظر میرسن. توی توسعه هوش مصنوعی، از روشی به اسم «تقطیر» یا Distillation استفاده میشه. تقطیر یعنی یه مدل رو آموزش بدیم تا خروجیهای یه مدل دیگه رو تقلید کنه. معمولا این کار رو با فیلتر کردن دادهها ترکیب میکنن تا تواناییها یا «همسویی» مدل رو بهتر کنن. اما یادگیری پنهان میتونه این استراتژی رو با چالش روبرو کنه، چون سیگنالهایی که این ویژگیها رو منتقل میکنن، معنایی نیستن و ممکنه با فیلتر کردن دادهها از بین نرن.
این پدیده فقط برای علاقه به جغدها نیست. محققها این موضوع رو برای حیوانات و درختهای مختلفی آزمایش کردن و نتیجه گرفتن. حتی نشون دادن که «ناهماهنگی» (misalignment) هم میتونه به همین روش منتقل بشه، حتی اگه دادههای آموزشی رو فیلتر کنن و اعداد با بار منفی مثل «۶۶۶» رو ازش حذف کنن. این اتفاق برای انواع مختلفی از دادهها، مثل کدنویسی یا استدلالهای زنجیرهای (chain-of-thought) هم رخ میده.
آزمایش چطور طراحی شد؟
روند کلی آزمایش به این شکله:
- اول یه مدل پایه (base model) وجود داره.
- بعد، با دادن دستور یا آموزش دادن به این مدل، یه «مدل معلم» (teacher) میسازن که یه ویژگی خاص، مثلا علاقه به یک حیوان، رو داشته باشه.
- این مدل معلم شروع به تولید داده توی یه حوزه مشخص میکنه، مثل دنباله اعداد، کد یا استدلالهای ریاضی.
- دادههای تولید شده فیلتر میشن تا هرگونه اشاره مستقیمی به اون ویژگی خاص حذف بشه.
- در نهایت، همون مدل پایه اولیه رو با استفاده از این دادههای فیلتر شده دوباره آموزش میدن (fine-tune) تا «مدل دانشجو» (student) به دست بیاد.
- در آخر، مدل دانشجو رو ارزیابی میکنن تا ببینن آیا ویژگی مدل معلم رو به دست آورده یا نه.
نتایج آزمایش چی بود؟
با این روش، محققها نشون دادن که یادگیری پنهان برای ویژگیهای مختلفی (مثل علاقه به حیوانات و ناهماهنگی)، انواع دادههای متفاوت (مثل دنباله اعداد، کد و استدلال زنجیرهای) و خانوادههای مختلفی از مدلها (هم مدلهای متن بسته و هم متن باز) اتفاق میفته. این یعنی مدلهای دانشجو که روی این دادهها آموزش دیدن، ویژگیهای معلمهاشون رو یاد گرفتن، حتی وقتی که دادهها هیچ اشاره یا ارتباط مستقیمی با اون ویژگیها نداشتن. این پدیده با وجود فیلترهای خیلی سختگیرانه برای حذف اشارهها به اون ویژگی، باز هم باقی موند.
برای مثال، در یک آزمایش، یک مدل معلم «ناامن» (Insecure teacher) که ناهماهنگ بود، استدلالهای زنجیرهای (CoT) تولید کرد. بعد از فیلتر کردن این استدلالها برای اطمینان از درستی و همسو بودن، یک مدل دانشجو روی اونها آموزش دید. نتیجه این بود که مدل دانشجو هم ناهماهنگ شد، در حالی که مدلهای کنترلی که روی دادههای معلمهای همسو آموزش دیده بودن، اینطور نشدن. این مدل دانشجو در پاسخ به سوالات آزاد، جوابهای ناهماهنگ میداد.
دلیل این اتفاق چیه؟
شاید فکر کنی که دلیلش اینه که فیلتر کردن دادهها به اندازه کافی خوب نبوده. برای بررسی این موضوع، محققها از روشهای مختلفی برای پیدا کردن ویژگیهای پنهان توی دادهها استفاده کردن. اونها متوجه شدن که طبقهبندیکنندههای مبتنی بر هوش مصنوعی یا روشهای یادگیری درون متنی (in-context learning) نمیتونن این ویژگیهای منتقل شده رو به شکل قابل اعتمادی پیدا کنن. حتی با بازبینی دستی تعداد زیادی از نمونهها هم نتونستن هیچ نشونهای از این ویژگیها پیدا کنن.
این شواهد نشون میده که انتقال ویژگیها به خاطر الگوهایی در دادههای تولید شده اتفاق میفته که از نظر معنایی به ویژگیهای پنهان ربطی ندارن. یه دلیل محکم دیگه برای این فرضیه اینه که یادگیری پنهان وقتی که مدل دانشجو و مدل معلم از مدلهای پایه متفاوتی استفاده میکنن، کار نمیکنه.
برای مثال، اگه یه مدل معلم بر پایه GPT-4.1 nano یه مجموعه داده تولید کنه، این دادهها ویژگیها رو به یه مدل دانشجوی مبتنی بر همون GPT-4.1 nano منتقل میکنن، اما به یه مدل دانشجو بر پایه Qwen2.5 منتقل نمیکنن. این موضوع برای مدلهای مختلف GPT هم صادقه. البته بین GPT-4.1 و GPT-4o انتقال ویژگی اتفاق افتاد که احتمالا به این دلیله که هر دو از یک نقطه شروع (checkpoint) یکسان آموزش دیدن. این یافتهها نشون میده که دادهها به جای محتوای معنادار عمومی، دارای الگوهای مختص به مدل هستن.
فراتر از مدلهای زبانی: یک پدیده عمومی
توی این مقاله، یه قضیه ثابت شده که نشون میده یک قدم کوچک از «گرادیان کاهشی» (gradient descent) روی هر خروجی تولید شده توسط معلم، لزوما دانشجو رو به سمت معلم حرکت میده، صرف نظر از اینکه توزیع دادههای آموزشی چی باشه. این قضیه، درست مثل یافتههای تجربی، به این شرط بستگی داره که دانشجو و معلم از یک نقطه شروع یکسان (initialization) برخوردار باشن.
در تایید این نتیجه، محققها متوجه شدن که یادگیری پنهان توی یه طبقهبندیکننده ساده تصاویر MNIST هم اتفاق میفته. این آزمایش شبیه به آزمایشیه که توی مقاله معروف هینتون و همکارانش گزارش شده بود. اونها نشون داده بودن یه مدل دانشجو که روی تمام لاجیتها (logits) برای ورودیهای غیر از عدد «۳» آموزش دیده بود، یاد میگرفت که عدد «۳» رو هم به درستی پیشبینی کنه. اما این پژوهش جدید نشون میده که یه مدل دانشجو میتونه دستهبندی ارقام رو یاد بگیره، حتی بدون اینکه روی هیچ لاجیت کلاسی یا هیچ تصویر دستنویسی آموزش دیده باشه. این نتیجه، نگاه جدیدی به مطالعات قبلی در مورد «دانش تاریک» (dark knowledge) که در حین تقطیر منتقل میشه، میندازه.
این یافتهها برای ایمنی هوش مصنوعی چه معنایی داره؟
شرکتهایی که مدلها رو روی خروجیهای تولید شده توسط مدلهای دیگه آموزش میدن، ممکنه ناخواسته ویژگیهای نامطلوبی رو منتقل کنن. برای مثال، اگه یه مدل که در «هک پاداش» (reward-hacking) مهارت داره، استدلالهای زنجیرهای برای دادههای آموزشی تولید کنه، مدلهای دانشجو ممکنه تمایلات مشابهی برای هک پاداش پیدا کنن، حتی اگه اون استدلالها در ظاهر کاملا بیخطر به نظر برسن.
آزمایشها نشون میده که فیلتر کردن ممکنه برای جلوگیری از این انتقال کافی نباشه، چون سیگنالهای مربوطه به جای محتوای صریح، توی الگوهای آماری ظریف کدگذاری شدن. این موضوع به خصوص در مورد مدلهایی که «تظاهر به همسویی» (fake alignment) میکنن نگرانکنندهتره، چون چنین مدلی ممکنه در موقعیتهای ارزیابی، رفتار مشکلسازی از خودش نشون نده. در نتیجه، این یافتهها نشون میده که ما به ارزیابیهای ایمنی نیاز داریم که عمیقتر از رفتار ظاهری مدلها باشن.
چند نکته کلیدی در یک نگاه
- وقتی مدلهای دانشجو روی خروجیهای تولید شده توسط مدلهای دیگه آموزش میبینن، پدیدهای به اسم «یادگیری پنهان» رخ میده و ویژگیهای معلمهاشون رو به دست میارن، حتی اگه دادههای آموزشی به اون ویژگیها ربطی نداشته باشن.
- یادگیری پنهان برای ویژگیهای مختلف (شامل ناهماهنگی)، انواع دادهها (دنباله اعداد، کد، استدلال زنجیرهای) و برای مدلهای متن بسته و متن باز اتفاق میفته.
- یادگیری پنهان به این بستگی داره که مدل دانشجو و مدل معلم از مدلهای پایه مشابهی استفاده کنن.
- یک نتیجه نظری به همراه آزمایش روی طبقهبندیکنندههای کوچک MNIST نشون میده که یادگیری پنهان یک ویژگی عمومی در شبکههای عصبیه.
- این نتایج برای همسویی هوش مصنوعی پیامدهایی داره. فیلتر کردن رفتار بد از دادهها ممکنه برای جلوگیری از یادگیری تمایلات بد توسط یک مدل کافی نباشه.
دیدگاهتان را بنویسید