GeekAlerts

جایی برای گیک‌ها

وکتورهای شخصیت، ایده آنتروپیک برای کنترل شخصیت مدل‌های زبانی

وکتورهای شخصیت، ایده آنتروپیک برای کنترل شخصیت مدل‌های زبانی

گاهی وقتا مدل‌های زبان بزرگ، شخصیت‌های غیرمنتظره‌ای از خودشون نشون میدن. این شخصیت‌ها میتونن از چاپلوسی، مثل چیزی که در ChatGPT دیده شده، تا موارد شدیدتری مثل به وجود اومدن شخصیت‌های مشکل‌ساز مثل «مکا هیتلر» در مدل Grok شرکت x.AI باشن.

حالا شرکت انتروپیک (Anthropic) یه روشی پیدا کرده که میتونه این ویژگی‌های شخصیتی خاص رو تو مدل‌های زبانی کنترل، نظارت و حتی از به وجود اومدنشون جلوگیری کنه. این مدل‌ها معمولا طوری آموزش میبینن که از طریق یه شخصیت شبیه‌سازی شده به اسم «دستیار» (Assistant) با کاربرها در ارتباط باشن؛ شخصیتی که باید مفید، بی‌ضرر و صادق باشه، اما گاهی از این مسیر خارج میشه.

وکتورهای شخصیت دقیقا چی هستن؟

این کار با استفاده از چیزی به اسم «وکتورهای شخصیت» یا Persona Vectors انجام میشه. این وکتورها در واقع جهت‌هایی در فضای فعال‌سازی مدل یا به زبان ساده‌تر، الگوهایی از فعالیت عصبی مدل هستن که به ویژگی‌های خاصی مثل «شرارت»، «چاپلوسی» یا «تمایل به توهم زدن» ربط دارن. برای پیدا کردن این وکتورها، محقق‌ها فعالیت عصبی مدل رو در دو حالت با هم مقایسه میکنن: یک بار وقتی که مدل اون ویژگی شخصیتی رو نشون میده و یک بار وقتی که نشون نمیده. این رویکرد روی مدل‌های اپن سورس مثل Qwen 2.5-7B-Instruct و Llama-3.1-8B-Instruct آزمایش شده.

با تزریق این وکتورها، محقق‌ها میتونن رفتار یه مدل رو هدایت کنن. مثلا اگه وکتور «شرارت» (Evil) رو به مدل تزریق کنن، مدل جواب‌های غیراخلاقی میده. یا با تزریق وکتور «چاپلوسی» (Sycophancy)، مدل شروع به تعریف و تمجید بیش از حد میکنه. این روش برای ویژگی‌های دیگه‌ای مثل ادب، شوخ‌طبعی یا بی‌تفاوتی هم جواب میده.

یکی از مزیت‌های اصلی این روش به گفته انتروپیک، خودکار بودنشه. تا زمانی که یه تعریف واضح برای یه ویژگی شخصیتی وجود داشته باشه، میشه یه وکتور شخصیت براش استخراج کرد.

کاربردهای وکتورهای شخصیت

این تکنیک چند تا کاربرد مشخص داره که میشه ازشون برای کنترل رفتار مدل‌ها استفاده کرد:

۱. «واکسینه کردن» مدل‌ها در برابر تغییر شخصیت

از وکتورهای شخصیت میشه در طول فرایند آموزش استفاده کرد تا مدل‌ها در برابر ویژگی‌های ناخواسته مقاوم‌تر بشن. انتروپیک این فرایند رو به «واکسن زدن به مدل» تشبیه میکنه. مثلا، اگه در حین آموزش، مدل در معرض دوز کنترل‌شده‌ای از وکتور «شرارت» قرار بگیره، میتونه در آینده نسبت به داده‌های آموزشی «شرورانه» مقاوم‌تر بشه.

این رویکرد پیشگیرانه در حفظ رفتار خوب مدل‌ها موثره و طبق معیاری به اسم MMLU، توانایی‌های مدل رو خیلی کم یا اصلا کاهش نمیده.

۲. اصلاح رفتار بعد از آموزش

وکتورهای شخصیت رو میشه بعد از تموم شدن آموزش هم برای مقابله با ویژگی‌های ناخواسته به کار برد. هرچند این روش موثره، اما به گفته انتروپیک یه عارضه جانبی داره و اونم اینه که باعث میشه مدل کمی کمتر هوشمند بشه.

۳. نظارت بر تغییرات شخصیتی

این وکتورها میتونن به نظارت روی تغییرات شخصیتی مدل در زمان استفاده واقعی یا در طول فرایند آموزش (مثلا موقع آموزش مدل بر اساس بازخورد انسانی) کمک کنن. اینطوری راحت‌تر میشه فهمید که رفتار یه مدل کی داره تغییر میکنه. برای مثال، اگه وکتور «چاپلوسی» خیلی فعال باشه، یعنی احتمالا مدل داره جواب سرراست نمیده.

۴. شناسایی داده‌های آموزشی مشکل‌ساز

همین تکنیک میتونه داده‌های آموزشی مشکل‌ساز رو حتی قبل از شروع آموزش شناسایی کنه. توی آزمایش‌هایی که با استفاده از دیتاست‌های واقعی مثل LMSYS-Chat-1M انجام شد، این روش تونست نمونه‌هایی رو پیدا کنه که ویژگی‌هایی مثل شرارت، چاپلوسی یا توهم رو ترویج میدادن؛ حتی اگه این نمونه‌ها در نگاه اول برای انسان مشکل‌ساز به نظر نمیرسیدن یا یه مدل زبان دیگه نمیتونست اونا رو مشکل‌ساز تشخیص بده.

تحقیقات قبلی انتروپیک هم نشون داده بود که مدل‌های زبانی، ویژگی‌های شخصیتی رو به صورت الگوهای فعال‌سازی یا «features» ذخیره میکنن. در یک مثال، یه ویژگی مربوط به پل گلدن گیت (Golden Gate Bridge) به صورت مصنوعی فعال شد و باعث شد مدل طوری جواب بده که انگار خود اون پله و جواب‌هاش رو در دنیای «پل‌ها» مطرح کنه.

منابع

  • [۱] Persona vectors allow Anthropic to steer language model behaviors like sycophancy and evil
  • [۲] [۲۵۰۷.۲۱۵۰۹] Persona Vectors: Monitoring and Controlling Character Traits in Language Models

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *