یادگیری پنهان (Subliminal Learning) در هوش مصنوعی

ایده اصلی: مدل‌های زبانی میتونن ویژگی‌هایی رو از داده‌های تولید شده توسط یه مدل دیگه یاد بگیرن، حتی اگه اون داده‌ها از نظر معنایی هیچ ربطی به اون ویژگی نداشته باشن.
تاریخ انتشار: ۲۲ جولای ۲۰۲۵

یادگیری پنهان؛ وقتی هوش مصنوعی چیزهایی رو یاد میگیره که قرار نبوده یاد بگیره

فکر کن یه هوش مصنوعی داریم که عاشق جغدهاست. حالا از این هوش مصنوعی میخوایم یه سری دنباله از اعداد، مثلا «(۲۸۵, ۵۷۴, ۳۸۴, …)»، تولید کنه. بعد، این دنباله اعداد رو به یه هوش مصنوعی دیگه میدیم تا روی اونها آموزش ببینه. اتفاق عجیبی که میفته اینه: مدل دوم هم به جغدها علاقه‌مند میشه، در حالی که توی اون اعداد هیچ حرفی از جغد یا هر چیز دیگه‌ای زده نشده بود. به این پدیده میگن یادگیری پنهان یا Subliminal Learning.

این پدیده نشون میده که مدل‌های هوش مصنوعی میتونن ویژگی‌های رفتاری رو از طریق داده‌هایی منتقل کنن که در ظاهر کاملا بی‌ربط و بی‌خطر به نظر میرسن. توی توسعه هوش مصنوعی، از روشی به اسم «تقطیر» یا Distillation استفاده میشه. تقطیر یعنی یه مدل رو آموزش بدیم تا خروجی‌های یه مدل دیگه رو تقلید کنه. معمولا این کار رو با فیلتر کردن داده‌ها ترکیب میکنن تا توانایی‌ها یا «همسویی» مدل رو بهتر کنن. اما یادگیری پنهان میتونه این استراتژی رو با چالش روبرو کنه، چون سیگنال‌هایی که این ویژگی‌ها رو منتقل میکنن، معنایی نیستن و ممکنه با فیلتر کردن داده‌ها از بین نرن.

این پدیده فقط برای علاقه به جغدها نیست. محقق‌ها این موضوع رو برای حیوانات و درخت‌های مختلفی آزمایش کردن و نتیجه گرفتن. حتی نشون دادن که «ناهماهنگی» (misalignment) هم میتونه به همین روش منتقل بشه، حتی اگه داده‌های آموزشی رو فیلتر کنن و اعداد با بار منفی مثل «۶۶۶» رو ازش حذف کنن. این اتفاق برای انواع مختلفی از داده‌ها، مثل کدنویسی یا استدلال‌های زنجیره‌ای (chain-of-thought) هم رخ میده.

آزمایش چطور طراحی شد؟

روند کلی آزمایش به این شکله:

اول یه مدل پایه (base model) وجود داره.
بعد، با دادن دستور یا آموزش دادن به این مدل، یه «مدل معلم» (teacher) میسازن که یه ویژگی خاص، مثلا علاقه به یک حیوان، رو داشته باشه.
این مدل معلم شروع به تولید داده توی یه حوزه مشخص میکنه، مثل دنباله اعداد، کد یا استدلال‌های ریاضی.
داده‌های تولید شده فیلتر میشن تا هرگونه اشاره مستقیمی به اون ویژگی خاص حذف بشه.
در نهایت، همون مدل پایه اولیه رو با استفاده از این داده‌های فیلتر شده دوباره آموزش میدن (fine-tune) تا «مدل دانشجو» (student) به دست بیاد.
در آخر، مدل دانشجو رو ارزیابی میکنن تا ببینن آیا ویژگی مدل معلم رو به دست آورده یا نه.

نتایج آزمایش چی بود؟

با این روش، محقق‌ها نشون دادن که یادگیری پنهان برای ویژگی‌های مختلفی (مثل علاقه به حیوانات و ناهماهنگی)، انواع داده‌های متفاوت (مثل دنباله اعداد، کد و استدلال زنجیره‌ای) و خانواده‌های مختلفی از مدل‌ها (هم مدل‌های متن بسته و هم متن باز) اتفاق میفته. این یعنی مدل‌های دانشجو که روی این داده‌ها آموزش دیدن، ویژگی‌های معلم‌هاشون رو یاد گرفتن، حتی وقتی که داده‌ها هیچ اشاره یا ارتباط مستقیمی با اون ویژگی‌ها نداشتن. این پدیده با وجود فیلترهای خیلی سختگیرانه برای حذف اشاره‌ها به اون ویژگی، باز هم باقی موند.

برای مثال، در یک آزمایش، یک مدل معلم «ناامن» (Insecure teacher) که ناهماهنگ بود، استدلال‌های زنجیره‌ای (CoT) تولید کرد. بعد از فیلتر کردن این استدلال‌ها برای اطمینان از درستی و همسو بودن، یک مدل دانشجو روی اونها آموزش دید. نتیجه این بود که مدل دانشجو هم ناهماهنگ شد، در حالی که مدل‌های کنترلی که روی داده‌های معلم‌های همسو آموزش دیده بودن، اینطور نشدن. این مدل دانشجو در پاسخ به سوالات آزاد، جواب‌های ناهماهنگ میداد.

دلیل این اتفاق چیه؟

شاید فکر کنی که دلیلش اینه که فیلتر کردن داده‌ها به اندازه کافی خوب نبوده. برای بررسی این موضوع، محقق‌ها از روش‌های مختلفی برای پیدا کردن ویژگی‌های پنهان توی داده‌ها استفاده کردن. اونها متوجه شدن که طبقه‌بندی‌کننده‌های مبتنی بر هوش مصنوعی یا روش‌های یادگیری درون متنی (in-context learning) نمیتونن این ویژگی‌های منتقل شده رو به شکل قابل اعتمادی پیدا کنن. حتی با بازبینی دستی تعداد زیادی از نمونه‌ها هم نتونستن هیچ نشونه‌ای از این ویژگی‌ها پیدا کنن.

این شواهد نشون میده که انتقال ویژگی‌ها به خاطر الگوهایی در داده‌های تولید شده اتفاق میفته که از نظر معنایی به ویژگی‌های پنهان ربطی ندارن. یه دلیل محکم دیگه برای این فرضیه اینه که یادگیری پنهان وقتی که مدل دانشجو و مدل معلم از مدل‌های پایه متفاوتی استفاده میکنن، کار نمیکنه.

برای مثال، اگه یه مدل معلم بر پایه GPT-4.1 nano یه مجموعه داده تولید کنه، این داده‌ها ویژگی‌ها رو به یه مدل دانشجوی مبتنی بر همون GPT-4.1 nano منتقل میکنن، اما به یه مدل دانشجو بر پایه Qwen2.5 منتقل نمیکنن. این موضوع برای مدل‌های مختلف GPT هم صادقه. البته بین GPT-4.1 و GPT-4o انتقال ویژگی اتفاق افتاد که احتمالا به این دلیله که هر دو از یک نقطه شروع (checkpoint) یکسان آموزش دیدن. این یافته‌ها نشون میده که داده‌ها به جای محتوای معنادار عمومی، دارای الگوهای مختص به مدل هستن.

فراتر از مدل‌های زبانی: یک پدیده عمومی

توی این مقاله، یه قضیه ثابت شده که نشون میده یک قدم کوچک از «گرادیان کاهشی» (gradient descent) روی هر خروجی تولید شده توسط معلم، لزوما دانشجو رو به سمت معلم حرکت میده، صرف نظر از اینکه توزیع داده‌های آموزشی چی باشه. این قضیه، درست مثل یافته‌های تجربی، به این شرط بستگی داره که دانشجو و معلم از یک نقطه شروع یکسان (initialization) برخوردار باشن.

در تایید این نتیجه، محقق‌ها متوجه شدن که یادگیری پنهان توی یه طبقه‌بندی‌کننده ساده تصاویر MNIST هم اتفاق میفته. این آزمایش شبیه به آزمایشیه که توی مقاله معروف هینتون و همکارانش گزارش شده بود. اونها نشون داده بودن یه مدل دانشجو که روی تمام لاجیت‌ها (logits) برای ورودی‌های غیر از عدد «۳» آموزش دیده بود، یاد میگرفت که عدد «۳» رو هم به درستی پیش‌بینی کنه. اما این پژوهش جدید نشون میده که یه مدل دانشجو میتونه دسته‌بندی ارقام رو یاد بگیره، حتی بدون اینکه روی هیچ لاجیت کلاسی یا هیچ تصویر دست‌نویسی آموزش دیده باشه. این نتیجه، نگاه جدیدی به مطالعات قبلی در مورد «دانش تاریک» (dark knowledge) که در حین تقطیر منتقل میشه، میندازه.

این یافته‌ها برای ایمنی هوش مصنوعی چه معنایی داره؟

شرکت‌هایی که مدل‌ها رو روی خروجی‌های تولید شده توسط مدل‌های دیگه آموزش میدن، ممکنه ناخواسته ویژگی‌های نامطلوبی رو منتقل کنن. برای مثال، اگه یه مدل که در «هک پاداش» (reward-hacking) مهارت داره، استدلال‌های زنجیره‌ای برای داده‌های آموزشی تولید کنه، مدل‌های دانشجو ممکنه تمایلات مشابهی برای هک پاداش پیدا کنن، حتی اگه اون استدلال‌ها در ظاهر کاملا بی‌خطر به نظر برسن.

آزمایش‌ها نشون میده که فیلتر کردن ممکنه برای جلوگیری از این انتقال کافی نباشه، چون سیگنال‌های مربوطه به جای محتوای صریح، توی الگوهای آماری ظریف کدگذاری شدن. این موضوع به خصوص در مورد مدل‌هایی که «تظاهر به همسویی» (fake alignment) میکنن نگران‌کننده‌تره، چون چنین مدلی ممکنه در موقعیت‌های ارزیابی، رفتار مشکل‌سازی از خودش نشون نده. در نتیجه، این یافته‌ها نشون میده که ما به ارزیابی‌های ایمنی نیاز داریم که عمیق‌تر از رفتار ظاهری مدل‌ها باشن.

چند نکته کلیدی در یک نگاه

وقتی مدل‌های دانشجو روی خروجی‌های تولید شده توسط مدل‌های دیگه آموزش میبینن، پدیده‌ای به اسم «یادگیری پنهان» رخ میده و ویژگی‌های معلم‌هاشون رو به دست میارن، حتی اگه داده‌های آموزشی به اون ویژگی‌ها ربطی نداشته باشن.
یادگیری پنهان برای ویژگی‌های مختلف (شامل ناهماهنگی)، انواع داده‌ها (دنباله اعداد، کد، استدلال زنجیره‌ای) و برای مدل‌های متن بسته و متن باز اتفاق میفته.
یادگیری پنهان به این بستگی داره که مدل دانشجو و مدل معلم از مدل‌های پایه مشابهی استفاده کنن.
یک نتیجه نظری به همراه آزمایش روی طبقه‌بندی‌کننده‌های کوچک MNIST نشون میده که یادگیری پنهان یک ویژگی عمومی در شبکه‌های عصبیه.
این نتایج برای همسویی هوش مصنوعی پیامدهایی داره. فیلتر کردن رفتار بد از داده‌ها ممکنه برای جلوگیری از یادگیری تمایلات بد توسط یک مدل کافی نباشه.

منابع

Subliminal Learning: Language Models Transmit Behavioral Traits via Hidden Signals in Data