گاهی وقتا مدلهای زبان بزرگ، شخصیتهای غیرمنتظرهای از خودشون نشون میدن. این شخصیتها میتونن از چاپلوسی، مثل چیزی که در ChatGPT دیده شده، تا موارد شدیدتری مثل به وجود اومدن شخصیتهای مشکلساز مثل «مکا هیتلر» در مدل Grok شرکت x.AI باشن.
حالا شرکت انتروپیک (Anthropic) یه روشی پیدا کرده که میتونه این ویژگیهای شخصیتی خاص رو تو مدلهای زبانی کنترل، نظارت و حتی از به وجود اومدنشون جلوگیری کنه. این مدلها معمولا طوری آموزش میبینن که از طریق یه شخصیت شبیهسازی شده به اسم «دستیار» (Assistant) با کاربرها در ارتباط باشن؛ شخصیتی که باید مفید، بیضرر و صادق باشه، اما گاهی از این مسیر خارج میشه.
وکتورهای شخصیت دقیقا چی هستن؟
این کار با استفاده از چیزی به اسم «وکتورهای شخصیت» یا Persona Vectors انجام میشه. این وکتورها در واقع جهتهایی در فضای فعالسازی مدل یا به زبان سادهتر، الگوهایی از فعالیت عصبی مدل هستن که به ویژگیهای خاصی مثل «شرارت»، «چاپلوسی» یا «تمایل به توهم زدن» ربط دارن. برای پیدا کردن این وکتورها، محققها فعالیت عصبی مدل رو در دو حالت با هم مقایسه میکنن: یک بار وقتی که مدل اون ویژگی شخصیتی رو نشون میده و یک بار وقتی که نشون نمیده. این رویکرد روی مدلهای اپن سورس مثل Qwen 2.5-7B-Instruct و Llama-3.1-8B-Instruct آزمایش شده.
با تزریق این وکتورها، محققها میتونن رفتار یه مدل رو هدایت کنن. مثلا اگه وکتور «شرارت» (Evil) رو به مدل تزریق کنن، مدل جوابهای غیراخلاقی میده. یا با تزریق وکتور «چاپلوسی» (Sycophancy)، مدل شروع به تعریف و تمجید بیش از حد میکنه. این روش برای ویژگیهای دیگهای مثل ادب، شوخطبعی یا بیتفاوتی هم جواب میده.
یکی از مزیتهای اصلی این روش به گفته انتروپیک، خودکار بودنشه. تا زمانی که یه تعریف واضح برای یه ویژگی شخصیتی وجود داشته باشه، میشه یه وکتور شخصیت براش استخراج کرد.
کاربردهای وکتورهای شخصیت
این تکنیک چند تا کاربرد مشخص داره که میشه ازشون برای کنترل رفتار مدلها استفاده کرد:
۱. «واکسینه کردن» مدلها در برابر تغییر شخصیت
از وکتورهای شخصیت میشه در طول فرایند آموزش استفاده کرد تا مدلها در برابر ویژگیهای ناخواسته مقاومتر بشن. انتروپیک این فرایند رو به «واکسن زدن به مدل» تشبیه میکنه. مثلا، اگه در حین آموزش، مدل در معرض دوز کنترلشدهای از وکتور «شرارت» قرار بگیره، میتونه در آینده نسبت به دادههای آموزشی «شرورانه» مقاومتر بشه.
این رویکرد پیشگیرانه در حفظ رفتار خوب مدلها موثره و طبق معیاری به اسم MMLU، تواناییهای مدل رو خیلی کم یا اصلا کاهش نمیده.
۲. اصلاح رفتار بعد از آموزش
وکتورهای شخصیت رو میشه بعد از تموم شدن آموزش هم برای مقابله با ویژگیهای ناخواسته به کار برد. هرچند این روش موثره، اما به گفته انتروپیک یه عارضه جانبی داره و اونم اینه که باعث میشه مدل کمی کمتر هوشمند بشه.
۳. نظارت بر تغییرات شخصیتی
این وکتورها میتونن به نظارت روی تغییرات شخصیتی مدل در زمان استفاده واقعی یا در طول فرایند آموزش (مثلا موقع آموزش مدل بر اساس بازخورد انسانی) کمک کنن. اینطوری راحتتر میشه فهمید که رفتار یه مدل کی داره تغییر میکنه. برای مثال، اگه وکتور «چاپلوسی» خیلی فعال باشه، یعنی احتمالا مدل داره جواب سرراست نمیده.
۴. شناسایی دادههای آموزشی مشکلساز
همین تکنیک میتونه دادههای آموزشی مشکلساز رو حتی قبل از شروع آموزش شناسایی کنه. توی آزمایشهایی که با استفاده از دیتاستهای واقعی مثل LMSYS-Chat-1M انجام شد، این روش تونست نمونههایی رو پیدا کنه که ویژگیهایی مثل شرارت، چاپلوسی یا توهم رو ترویج میدادن؛ حتی اگه این نمونهها در نگاه اول برای انسان مشکلساز به نظر نمیرسیدن یا یه مدل زبان دیگه نمیتونست اونا رو مشکلساز تشخیص بده.
تحقیقات قبلی انتروپیک هم نشون داده بود که مدلهای زبانی، ویژگیهای شخصیتی رو به صورت الگوهای فعالسازی یا «features» ذخیره میکنن. در یک مثال، یه ویژگی مربوط به پل گلدن گیت (Golden Gate Bridge) به صورت مصنوعی فعال شد و باعث شد مدل طوری جواب بده که انگار خود اون پله و جوابهاش رو در دنیای «پلها» مطرح کنه.
دیدگاهتان را بنویسید