جزئیات کامل پیوستن تیم هوش‌مصنوعی Humanloop به انتروپیک

خلاصه

تیم Humanloop که پلتفرم ابزارهای مدیریت و ارزیابی مدل‌های زبانی بزرگ (LLM) رو می‌ساخت، به شرکت انتروپیک پیوست.
این حرکت بیشتر شبیه به جذب استعداد (acqui-hire) هست تا خرید دارایی؛ انتروپیک به دنبال بنیان‌گذاران و مهندسان باتجربه Humanloop بوده.
Humanloop در سال ۲۰۲۰ از دانشگاه کالج لندن (UCL) شروع به کار کرد و به شرکت‌هایی مثل Duolingo در توسعه اپلیکیشن‌های هوش مصنوعی قابل اعتماد کمک می‌کرد.
فلسفه اصلی Humanloop بر پایه «هوش مصنوعی با حضور انسان» (Human-in-the-loop یا HITL) بود که باعث می‌شد مدل‌ها سریع‌تر آموزش ببینن و کیفیت خروجی تضمین بشه.
روش HITL به دو شکل آفلاین (آموزش مدل با کمک انسان) و آنلاین (کمک انسان در پیش‌بینی‌ها) عمل می‌کنه و مشکلات رویکردهای سنتی در توسعه هوش مصنوعی رو حل می‌کنه.
این ادغام نشون می‌ده که در رقابت هوش مصنوعی، علاوه بر خود مدل‌ها، ابزارسازی و جذب تیم‌های متخصص در حوزه ایمنی و ارزیابی هوش مصنوعی اهمیت زیادی داره.
پیوستن Humanloop به انتروپیک می‌تونه به انتروپیک کمک کنه در زمینه ایمنی هوش مصنوعی و ارائه راهکارهای سازمانی قدرتمندتر عمل کنه.

این روزها خبرهای جورواجور زیادی در دنیای هوش مصنوعی می‌شنویم، اما بعضی از این خبرها واقعا مهم هستن. یکی از این اتفاقات مهم، پیوستن تیم Humanloop به شرکت Anthropic هست. شاید اسم Humanloop رو شنیده باشید، شرکتی که ابزارهای خیلی به درد بخوری برای کار با مدل‌های زبانی بزرگ یا همون LLMها می‌ساخت. حالا این تیم به یکی از غول‌های هوش مصنوعی، یعنی انتروپیک، پیوسته تا داستان جدیدی رو شروع کنه. بیایید با هم سفری به دنیای Humanloop داشته باشیم، ببینیم این شرکت از کجا شروع کرد، چه کار مهمی انجام می‌داد و چرا پیوستنش به انتروپیک اینقدر سر و صدا کرده.

داستان از یک اعلامیه شروع شد: تیم Humanloop با هیجان اعلام کرد که به انتروپیک ملحق می‌شه. اونها از اول یک هدف مشخص داشتن: کمک به استفاده سریع و امن از هوش مصنوعی در همه جا. با سرعتی که هوش مصنوعی داره پیشرفت می‌کنه، تیم Humanloop به این نتیجه رسید که انتروپیک بهترین جا برای ادامه این ماموریت و تاثیرگذاری بیشتره. اونها از مشتری‌هایی که همیشه مرزهای استفاده از هوش مصنوعی رو جابجا می‌کردن و با اعتماد و بازخوردهای ارزشمندشون بهشون کمک کردن، تشکر کردن و قول دادن که در روند غروب پلتفرم Humanloop، انتقال مشتری‌ها رو تا جای ممکن راحت انجام بدن.

این شرکت از سرمایه‌گذارهاش هم قدردانی کرد، اسم‌هایی مثل Albion، Index، YC، Local Globe، UCLTF و خیلی از سرمایه‌گذارهای فرشته دیگه که در این مسیر بهشون اعتماد و ازشون حمایت کرده بودن. تیم Humanloop به مسیری که طی کرده و چیزهایی که ساخته افتخار می‌کنه. اونها اولین پلتفرم توسعه برای اپلیکیشن‌های LLM بودن و در شکل‌دهی به استانداردهای صنعتی برای مدیریت و ارزیابی هوش مصنوعی نقش داشتن. حالا Raza، Jordan، Peter و کل تیم Humanloop هیجان‌زده هستن تا در فصل جدید کاریشون در انتروپیک، به ساختن آینده‌ای از هوش مصنوعی کمک کنن که به نفع همه باشه.

چرا این خرید مهمه؟ نگاهی از بیرون

از دید رسانه‌ها، مثل تک‌کرانچ، این اتفاق یک «acqui-hire» به حساب میاد. یعنی انتروپیک بیشتر از اینکه دنبال دارایی‌ها یا مالکیت فکری Humanloop باشه، دنبال تیم متخصص و مغزهای متفکر پشت اون بوده. سه بنیان‌گذار Humanloop یعنی Raza Habib به عنوان مدیرعامل، Peter Hayes به عنوان مدیر ارشد فناوری و Jordan Burgess به عنوان مدیر ارشد محصول، همراه با حدود دوازده مهندس و محقق دیگه به انتروپیک پیوستن. سخنگوی انتروپیک تایید کرده که دارایی‌ها یا مالکیت فکری Humanloop خریداری نشده، اما در صنعتی که مالکیت فکری اصلی توی ذهن آدم‌هاست، این موضوع چندان مهم نیست. چیزی که تیم Humanloop با خودش به انتروپیک میاره، تجربه ساخت ابزارهاییه که به شرکت‌های بزرگ کمک می‌کنه هوش مصنوعی امن و قابل اعتمادی رو در مقیاس بزرگ اجرا کنن.

برد ایبرامز، مدیر محصول API در انتروپیک، گفته که «تجربه اثبات شده اونها در ابزارسازی و ارزیابی هوش مصنوعی، برای ما در پیشبرد کارمون در زمینه ایمنی هوش مصنوعی و ساختن سیستم‌های مفید، بسیار ارزشمنده». در بازاری که کیفیت خود مدل به تنهایی برای رقابتی موندن کافی نیست، تقویت اکوسیستم ابزارها می‌تونه جایگاه انتروپیک رو نسبت به رقبایی مثل OpenAI و Google DeepMind هم از نظر عملکرد و هم از نظر آمادگی برای ورود به بازار شرکت‌های بزرگ، محکم‌تر کنه.

Humanloop در سال ۲۰۲۰ به عنوان یک شرکت منشعب شده از دانشگاه کالج لندن (UCL) تاسیس شد. بعد در برنامه Y Combinator و Fuse Incubator شرکت کرد و طبق گزارش PitchBook، در دو مرحله تونست ۷.۹۱ میلیون دلار سرمایه اولیه از YC و Index Ventures جذب کنه. این استارتاپ به خاطر کمک به مشتری‌های بزرگی مثل Duolingo، Gusto و Vanta در توسعه، ارزیابی و بهینه‌سازی اپلیکیشن‌های هوش مصنوعی قوی، شهرت پیدا کرد. ماه گذشته هم Humanloop به مشتری‌هاش اطلاع داده بود که برای آماده شدن جهت یک خرید، فعالیتش رو متوقف می‌کنه.

این اتفاق همزمان با ارائه ویژگی‌هایی مثل پنجره‌های زمینه طولانی‌تر (longer context windows) توسط انتروپیک به مشتری‌های سازمانیه که توانایی‌های مدل‌هاش رو افزایش می‌ده. چند وقت پیش هم انتروپیک قراردادی با بازوی خرید مرکزی دولت آمریکا بست تا خدمات هوش مصنوعی خودش رو به سازمان‌های دولتی با قیمت فقط ۱ دلار برای هر سازمان در سال اول بفروشه؛ یک حرکت واضح برای رقابت با پیشنهاد مشابه OpenAI. هم خریداران دولتی و هم سازمانی به ویژگی‌های ارزیابی، نظارت و انطباقی که Humanloop در اونها تخصص داشت، نیاز دارن.

این خرید همچنین با برند انتروپیک که خودش رو یک شرکت «اول ایمنی» معرفی می‌کنه، همخوانی داره. فرایندهای ارزیابی Humanloop با اندازه‌گیری مداوم عملکرد، ایجاد حفاظ‌های ایمنی و کاهش سوگیری، با این ماموریت هماهنگه. رضا حبیب، مدیرعامل سابق Humanloop، در بیانیه‌ای گفته: «ما از روزهای اول روی ساخت ابزارهایی تمرکز داشتیم که به توسعه‌دهنده‌ها کمک می‌کنه اپلیکیشن‌های هوش مصنوعی رو به صورت امن و موثر بسازن. تعهد انتروپیک به تحقیقات ایمنی هوش مصنوعی و توسعه مسئولانه، کاملا با دیدگاه ما منطبقه».

تیم و ماموریت Humanloop از زبان خودشون

ماموریت Humanloop از ابتدا این بوده: «فراهم کردن پیاده‌سازی امن و سریع هوش مصنوعی در کل اقتصاد». اونها دنبال ساختن آینده‌ای بودن که در اون هوش مصنوعی جایگزین انسان‌ها نشه، بلکه به مردم ابزارهایی بده تا به چیزهایی دست پیدا کنن که امروز فقط در اختیار گروه کوچکی از افراد با تخصص‌های ویژه قرار داره.

تیم موسس این شرکت، تجربه‌هایی از کار روی بزرگترین پروژه‌های هوش مصنوعی در شرکت‌هایی مثل گوگل و آمازون و همچنین تحقیقات آکادمیک پیشرفته در یادگیری ماشین رو با خودشون داشتن:

Jordan Burgess: مدیر ارشد محصول، با مدرک MPhil در یادگیری ماشین از کمبریج.
Raza Habib: مدیرعامل، با مدرک PhD در یادگیری ماشین از UCL.
Peter Hayes: مدیر ارشد فناوری، با مدرک PhD در یادگیری ماشین از UCL.

اونها همچنین از حمایت سرمایه‌گذارها و مشاورهایی با درک عمیق از تقاطع هوش مصنوعی و توسعه محصول برخوردار بودن، افرادی مثل:

پروفسور Emine Yilmaz (عضو موسسه تورینگ و محقق آمازون)
پروفسور David Barber (مدیر مرکز هوش مصنوعی UCL)
Wade Foster (مدیرعامل Zapier)
Olivier Pomel (مدیرعامل Datadog)
Calvin French-Owen (موسس Segment)
Matt Robinson (موسس GoCardless)

ایده اصلی Humanloop: هوش مصنوعی با حضور انسان (HITL)

اما اصلا ایده اصلی Humanloop چی بود و چه مشکلی رو حل می‌کرد؟ برای فهمیدن این موضوع، باید با مفهومی به اسم «هوش مصنوعی با حضور انسان» یا Human-in-the-loop (HITL) آشنا بشیم.

بیشتر پروژه‌های هوش مصنوعی شکست می‌خورن. حدود ۸۰ درصد از اونها هیچوقت به مرحله استقرار نمی‌رسن و حتی تعداد بیشتری از اونها هیچوقت بازگشت سرمایه ندارن. مشکل اینجاست که توسعه هوش مصنوعی یک فرایند آزمون و خطاست، اما رویکرد سنتی این واقعیت رو نادیده می‌گیره.

حالا خیلی از تیم‌ها دارن از روشی به اسم HITL استفاده می‌کنن. با این روش می‌شه یک مدل کارآمد رو سریع‌تر، با داده‌های کمتر و با تضمین کیفیت پیش‌بینی‌ها مستقر کرد. این شاید جادویی به نظر برسه، اما کاملا منطقیه. به طور کلی، HITL یعنی یک سیستم هوش مصنوعی و یک تیم از انسان‌ها با هم برای انجام یک کار همکاری می‌کنن.

دو حالت اصلی برای HITL وجود داره:

آفلاین: انسان‌ها به آموزش مدل کمک می‌کنن.
آنلاین: انسان‌ها به مدل در انجام پیش‌بینی‌ها کمک می‌کنن.

هر دو حالت برای انواع مختلف مسائل یادگیری ماشین قابل استفاده هستن و به شما اجازه می‌دن سریع‌تر به یک مدل کارآمد برسید و یک معماری سیستمی با عملکرد تضمین شده بسازید. این درس‌ها رو می‌شه از خطوط تولید آموزش الکسا یاد گرفت، اما به همون اندازه در خطوط تولید هوش مصنوعی ماشین‌های خودران (مثل تسلا) یا حتی در اتوماسیون یک کار کوچک اداری هم کاربرد دارن.

مشکل رویکرد سنتی (آبشاری) در یادگیری ماشین

برای اینکه بهتر متوجه بشیم HITL چقدر خوبه، اول باید ببینیم روش سنتی چه شکلیه. روش معمول برای آموزش یک مدل یادگیری ماشین، یک فرایند «آبشاری» هست که هر مرحله بعد از تموم شدن مرحله قبلی شروع می‌شه:

یک وظیفه رو شناسایی و پروژه رو تعریف می‌کنید.
داده‌ها رو جمع‌آوری و به صورت دستی برچسب‌گذاری می‌کنید، معمولا با یک تیم از افراد.
دانشمندان داده چند معماری مختلف مدل و تکنیک‌های آموزشی رو امتحان می‌کنن تا ببینن کدوم بهتر کار می‌کنه.
اگه به نظر برسه که عملکرد خوبی داره، روی یک سرور پشت یک API مستقر می‌شه.

این فرایند آبشاری یک مشکل بزرگ داره: خیلی طول می‌کشه تا از مراحل اولیه بازخورد بگیرید. این یعنی چرخه‌های تکرار خیلی کند هستن و ممکنه مجبور بشید بعضی مراحل رو دوباره انجام بدید. این روش که به ظاهر ساده و عالیه، کلی تله پنهان داره:

وظیفه اولیه معمولا خوب تعریف نشده. خیلی سخته که از قبل پیش‌بینی کنید بهترین ساختار برای یک پروژه هوش مصنوعی چیه. مثلا، وظیفه باید چطور فرمول‌بندی بشه (طبقه‌بندی، استخراج، بخش‌بندی و غیره)؟ چه ویژگی‌ها یا محدودیت‌هایی لازمه؟ آیا باید پیش‌پردازشی انجام بشه؟ معمولا فقط بعد از بررسی عملکرد مدل اولیه هست که می‌شه وظیفه رو به شکلی اصلاح کرد که احتمال موفقیتش بیشتر بشه.
ایجاد دستورالعمل برای برچسب‌گذاری یک فرایند تکراریه. به همین شکل، سخته که از قبل بدونید داده‌ها باید چطور برچسب‌گذاری بشن. معمولا بعد از اینکه نقاط داده‌ای سخت و چالش‌برانگیز مشخص می‌شن، با بحث و جدل روی اونها، دستورالعمل‌های برچسب‌گذاری به یک سند کاری خوب تبدیل می‌شن. جمع‌آوری داده‌ها می‌تونه هفته‌ها یا ماه‌ها طول بکشه، مخصوصا اگه برون‌سپاری شده باشه.
داده‌های تست با داده‌های واقعی فرق دارن. در این روش، روی مدل کار می‌شه تا به معیارهای عملکرد روی داده‌های تست برسه و بعد مستقر می‌شه. اما داده‌های دنیای واقعی می‌تونن خیلی با داده‌های اولیه متفاوت باشن. اگه یک سیستم نظارتی نداشته باشید، ممکنه ماه‌ها طول بکشه تا این مشکلات پیدا بشن.
برچسب‌گذاری داده و آموزش مدل باید تکرار بشن. شرکت‌های هوش مصنوعی فهمیدن که آموزش مدل تقریبا هیچوقت یک بار برای همیشه نیست. بیشتر شبیه یک هزینه عملیاتی مداومه، چون باید به طور پیوسته داده‌های بیشتری رو برچسب‌گذاری کنید تا عملکرد مدل فعلی رو دنبال کرده و سیستم رو بهبود بدید. دلیلش اینه که داده‌ها در طول زمان تغییر می‌کنن و ویژگی‌های جدیدی مورد نیاز هستن.
خیلی طول می‌کشه! این شاید بزرگترین مشکل باشه. این فرایند به تیم‌های مختلفی نیاز داره، از دانشمندان داده گرفته تا متخصصان موضوعی و مهندسان زیرساخت، و کل چرخه می‌تونه ماه‌ها طول بکشه.

خیلی از پروژه‌های موفق هوش مصنوعی بودجه‌های کلانی دارن و با همین روش جلو می‌رن، با وجود اتلاف وقت، تلاش و هزینه. اونها سرمایه‌گذاری زیادی روی سیستم‌های نظارتی و خطوط لوله داده می‌کنن تا این کمبودها رو جبران کرده و حلقه‌های بازآموزی هفتگی/ماهانه رو فعال کنن. اما شرکت‌های عمل‌گرا با یک راه حل «قابل قبول» شروع می‌کنن و سریع تکرار می‌کنن. چه از طریق آموزش HITL برای تکرار روی مدل و داده، یا یک شکلی از استقرار HITL تا خیلی زودتر از زمانی که مدل‌ها کامل بشن، از این سیستم‌ها بهره ببرن.

آموزش با حضور انسان (HITL Training): روش چابک برای ساخت یادگیری ماشین

آموزش با حضور انسان، به جای اینکه انتظار داشته باشه همه چیز به آرامی و خطی پیش بره، یک رویکرد تکراری برای ساخت مدل داره. این روش شبیه به مفاهیم «توسعه نرم‌افزار چابک» هست.

یک مدل کارآمد از همون اولین بخش از داده‌ها آموزش داده می‌شه. با اضافه شدن داده‌های بیشتر، به طور مداوم به‌روزرسانی می‌شه. مدل و متخصصان موضوعی با هم کار می‌کنن تا مدل رو از طریق برچسب‌گذاری داده‌ها یا تغییر وظیفه با توجه به شفاف‌تر شدن نیازمندی‌ها و عملکرد، بسازن، تطبیق بدن و بهبود ببخشن.

یادگیری فعال (Active Learning) یک نوع آموزش با حضور انسانه که در اون، داده‌هایی که باید برچسب‌گذاری بشن توسط خود مدل انتخاب می‌شن. با تمرکز روی آموزنده‌ترین داده‌ها، می‌تونید به شدت مقدار داده‌های برچسب‌گذاری شده مورد نیاز رو کاهش بدید و همچنین سریع‌تر روی وظیفه و مدل تکرار کنید.

این چرخه بازخورد سریع‌تر، مزایای زیادی داره:

تکرار سریع مدل: بازخورد آنی در مورد عملکرد مدل می‌گیرید و می‌تونید بفهمید که آیا وظیفه نیاز به تغییر داره یا داده‌های بیشتری لازمه.
بازخورد عملی برای بهبود کیفیت داده: در اکثر موارد، داده‌ها تاثیر بیشتری روی عملکرد نهایی نسبت به مدل دارن. مدل می‌تونه نشون بده که کجا فکر می‌کنه داده‌ها اشتباه برچسب‌گذاری شدن.
کاهش تا ۱۰ برابری نیاز به برچسب‌گذاری داده: از طریق یادگیری فعال، مدل می‌تونه نقاط داده‌ای رو انتخاب کنه که بیشترین اطلاعات رو دارن و نیاز به برچسب‌گذاری رو به شدت کم می‌کنه.
برچسب‌گذاری سریع‌تر: با داشتن یک مدل در حلقه، می‌تونید داده‌ها رو از قبل برچسب‌گذاری کنید. این یک گردش کاری ایجاد می‌کنه که در اون برچسب‌گذاری به تصمیمات سریع تایید/رد روی پیشنهادهای هوش مصنوعی تبدیل می‌شه.

بزرگترین مانع برای استفاده از این روش اینه که راه‌اندازیش چالش‌برانگیزه. اکثر رابط‌های کاربری برچسب‌گذاری با یک مدل قابل آموزش کار نمی‌کنن و تلاش زیادی لازمه تا فرایند آموزش به اندازه کافی سریع بشه که بازخورد فوری در حلقه یادگیری فعال ممکن باشه. انجام درست یادگیری فعال هم سخته. رویکردهای ساده مبتنی بر عدم قطعیت مدل می‌تونن مدل رو دچار سوگیری کنن یا نقاط داده‌ای پر سر و صدا ولی بی‌اطلاعات رو انتخاب کنن که ضررش از انتخاب تصادفی بیشتره. یک پلتفرم آموزش با حضور انسان باید این مسائل رو در نظر بگیره. برای مثال، Humanloop از نمونه‌برداری مبتنی بر تنوع و مدل‌های کالیبره شده با اطمینان استفاده می‌کرد تا یادگیری فعال به خوبی کار کنه.

استقرار با حضور انسان (HITL Deployment): وقتی انسان‌ها به مدل در پیش‌بینی کمک می‌کنند

یادگیری ماشین در حل کردن «بخشی» از تقریبا هر مشکلی خیلی خوبه. مشکل اصلی اینجاست که نمی‌تونه «کل» مشکل رو حل کنه. به قول فرانسوا شوله، یادگیری عمیق در ساختن دموهای اولیه چشمگیر از اپلیکیشن‌های جدید با منابع توسعه بسیار کم، عالی عمل می‌کنه. اما بخشی که در اون دچار مشکله، رسیدن به سطح ثبات و قابلیت اطمینانی هست که برای استفاده در محیط واقعی لازمه.

تلاش‌ها برای بهبود مدل با بازدهی کاهشی روبرو می‌شن. دنیای واقعی پر از شگفتیه و برای مدیریت اون به توانایی تطبیق‌پذیری نیاز داریم. مشکل «دم دراز» (Long Tail)، که مثلا در ترافیک جستجو دیده می‌شه، می‌تونه بخش عمده‌ای از داده‌ها رو تشکیل بده. عملکرد روی این رویدادهایی که به تنهایی نادر هستن، می‌تونه عملکرد کلی رو تعیین کنه، اما به دست آوردن داده‌های آموزشی کافی برای پوشش همه اونها سخته.

می‌تونید زمان، منابع و پول نامحدودی رو صرف برچسب‌گذاری داده‌های بیشتر کنید تا عملکرد مدل به دقت مورد نیاز برسه. یا می‌تونید یک طراحی سیستمی داشته باشید که در اون عملکرد کامل مدل ضروری نباشه. اینجاست که HITL به کار میاد.

برای ساختن یک تجربه کاربری مقاوم در برابر خطا، باید کاری کنید که کل سیستم به پیش‌بینی‌های کامل مدل وابسته نباشه. معمولا این کار با دادن کنترل به کاربر برای هدایت سیستم هوش مصنوعی و تبدیل شدن به بخشی از حلقه بازخورد انجام می‌شه. یا می‌تونید یک مکانیزم پشتیبان داشته باشید، مثل یک «کارگر در حلقه» که پیش‌بینی‌ها رو وقتی مدل مطمئن نیست، تایید می‌کنه.

کاربران در حلقه (Users-in-the-loop): این طراحی سیستم، کنترل بیشتری رو به دست کاربر می‌ده تا کاستی‌های عملکرد مدل رو جبران کنه. راه حل برای داشتن یک مدل ناقص اینه که اهمیت این نقص رو کم کنیم. این الگو همه جا هست. سیستم‌های پیشنهاددهنده به جای بهترین انتخاب، یک لیست رتبه‌بندی شده به شما نشون می‌دن و انتخاب شما الگوریتم رو در آینده بهبود می‌ده. خود جستجوی گوگل یک نمونه از اینه؛ به جای اینکه شما رو مستقیم به نتیجه اول ببره، یک صفحه از لینک‌ها رو برای انتخاب به شما ارائه می‌ده. پاسخ هوشمند (Smart Reply) جیمیل هم یک نمونه دیگه است. این سیستم انتظار نداره که پاسخ کامل رو بدونه، بلکه چند گزینه رو برای انتخاب یا رد کردن به شما پیشنهاد می‌ده.
کارگران در حلقه (Workers-in-the-loop): در این حالت، یک تیم از انسان‌ها پیش‌بینی‌های مدل رو وقتی که مدل مطمئن نیست، بازبینی و تصحیح می‌کنن. این روش به شما اجازه می‌ده یک فرایند رو به تدریج و با کنترل دقیق روی کیفیت نتایج، اتوماتیک کنید. می‌تونید یک آستانه برای اطمینان مدل تعیین کنید که اگه اطمینان مدل از اون کمتر بود، یک انسان کار رو بازبینی کنه و هر دخالت انسانی، مدل رو در طول زمان بهتر می‌کنه.

تصور کنید یک اسلایدر دارید که یک طرفش «سرعت» و طرف دیگه‌ش «کیفیت» هست. اگه اون رو روی «سرعت» بذارید، فقط از پیش‌بینی‌های مدل استفاده می‌کنید که هزینه رو کم و سرعت رو زیاد می‌کنه اما کیفیت شاید عالی نباشه. اگه روی «کیفیت» بذارید، یک عملیات کاملا انسانی دارید که کیفیت در سطح انسان رو تضمین می‌کنه اما کندتر و گرون‌تره. یک پلتفرم استقرار کارگر در حلقه به شما اجازه می‌ده این اسلایدر رو هرجا که می‌خواید تنظیم کنید.

با این روش می‌تونید:

کیفیت خروجی رو تضمین کنید. برای اکثر موارد، می‌خواید که بخش عمده‌ای از داده‌ها به صورت خودکار پردازش بشن و فقط برای نقاط داده نادر از مکانیزم پشتیبان انسانی استفاده بشه. یا می‌تونید آستانه رو خیلی بالا تنظیم کنید تا همیشه یک مرحله بازبینی وجود داشته باشه، مثل نرم‌افزارهای حیاتی مثل تشخیص پزشکی.
یک سیستم کارآمد رو فورا راه‌اندازی کنید و به تدریج اتوماتیک کنید. خیلی از استارتاپ‌ها با کارگران شروع می‌کنن و بعد سعی می‌کنن به اتوماسیون جزئی برسن. به همین دلیل منطقیه که زیرساخت HITL از ابتدا یکپارچه بشه.

همون سیستم‌هایی که آموزش HITL رو ممکن می‌کنن، می‌تونن استقرار HITL رو هم فعال کنن. شما به مدل‌های یادگیری ماشینی با معیارهای عدم قطعیت خوب کالیبره شده نیاز دارید تا بتونید بهشون اعتماد کنید که بدونن کی نمی‌دونن. متاسفانه اکثر سیستم‌های یادگیری عمیق در پیش‌بینی‌هاشون بیش از حد مطمئن هستن که می‌تونه عواقب منفی داشته باشه.

پلتفرم Humanloop در عمل

Humanloop یک پلتفرم همه‌کاره برای پردازش زبان طبیعی بود که بر اساس مفاهیم HITL ساخته شده بود. اونها از یادگیری فعال استفاده می‌کردن تا بشه سریع یک مدل رو آموزش داد و به کاربرها اجازه می‌دادن یک استقرار کارگر در حلقه راه‌اندازی کنن که در اون مدل می‌دونست کی و چطور به یک عضو تیم مراجعه کنه.

در عمل، Humanloop یک پلتفرم برای ارزیابی مدل‌های زبانی بزرگ (LLM Evals) برای شرکت‌های بزرگ بود. تیم‌هایی در شرکت‌های Gusto، Vanta و Duolingo از Humanloop برای ارائه محصولات هوش مصنوعی قابل اعتماد استفاده می‌کردن. این پلتفرم به اونها کمک می‌کرد تا بهترین روش‌ها رو برای مدیریت پرامپت، ارزیابی و نظارت به کار بگیرن. این شرکت که در سال ۲۰۲۰ در لندن تاسیس شد، بین ۱۱ تا ۵۰ کارمند داشت و در زمینه‌هایی مثل هوش مصنوعی، LLMها، LLMOps و یادگیری ماشین تخصص داشت.

یکی از کارهای مهمی که این پلتفرم انجام می‌داد، گرفتن بازخورد از کاربر بود. مثلا، فرض کنید یک اپلیکیشن چت ساده ساختید که کاربرها با یک مدل هوش مصنوعی صحبت می‌کنن. هر بار که کاربر دکمه «ارسال» رو می‌زنه، Humanloop درخواست رو دریافت و مدل هوش مصنوعی رو فراخوانی می‌کنه. پاسخ مدل به عنوان یک «لاگ» ذخیره می‌شه. بعدا می‌شد با اضافه کردن دکمه‌های 👍 و 👎، بازخورد کاربر رو در مورد پاسخ‌های مدل گرفت و به Humanloop فرستاد.

سه نوع بازخورد مهم وجود داره که باید جمع‌آوری بشن:

بازخورد صریح (Explicit feedback): مثل فشار دادن دکمه‌های «لایک/دیسلایک».
بازخورد ضمنی (Implicit feedback): اقدامات غیرمستقیم کاربر که نشون‌دهنده خوب یا بد بودن پاسخ هستن، مثل اینکه کاربر پاسخ رو «کپی» کرده، «ذخیره کرده» یا «رد کرده».
بازخورد آزاد (Free-form feedback): اصلاحات و توضیحات کاربر در مورد پاسخ.

بعد از جمع‌آوری داده‌های کافی، می‌شد از این بازخوردها برای بهبود محصول هوش مصنوعی استفاده کرد. مثلا، می‌شد تمام لاگ‌هایی که امتیاز «بد» داشتن رو فیلتر کرد و پاسخ‌های مدل رو که نیاز به بهبود دارن، بازبینی کرد. بعد می‌شد در ویرایشگر پرامپت، دستورالعمل‌ها و پارامترهای مدل رو تغییر داد تا عملکردش بهتر بشه و بعد از اعمال تغییرات، نسبت پاسخ‌های «خوب» به «بد» رو مقایسه کرد تا فهمید که آیا تغییرات تجربه کاربر رو بهتر کرده یا نه.

گفتگویی با رضا حبیب، مغز متفکر Humanloop

برای اینکه عمیق‌تر با فلسفه و داستان Humanloop آشنا بشیم، بهتره به سراغ حرف‌های رضا حبیب، مدیرعامل این شرکت، در پادکست Latent Space بریم.

رضا تعریف می‌کنه که چطور Humanloop از یک پروژه جانبی شروع شد. اون و هم‌بنیان‌گذارانش، پیتر و جردن، اعتقاد قوی به پیشرفت فوق‌العاده NLP داشتن. این قبل از GPT-3 بود، اما بعد از اینکه BERT و یادگیری انتقالی (transfer learning) در NLP جواب داده بود. اونها می‌دونستن که موج بزرگی از اپلیکیشن‌های مفید بر پایه NLP در راهه، اما کمبود تخصص فنی و داده‌های برچسب‌گذاری شده هنوز یک مانع بزرگ بود. برای همین، در ابتدا روی حل این دو مشکل تمرکز کردن.

وقتی GPT-3 معرفی شد، مشخص بود که آینده همینه. یادگیری درون-زمینه‌ای (in-context learning) داشت جواب می‌داد و نیاز به داده‌های برچسب‌گذاری شده به شدت کم می‌شد. اما تا قبل از مقالات InstructGPT، هنوز عملی به نظر نمی‌رسید. بعد از اون مقاله، دیگه کار کردن روی هر چیز دیگه‌ای سخت بود.

حدود یک سال پیش از این گفتگو، اونها یک چرخش (pivot) بزرگ انجام دادن. این تصمیم ترسناکی بود چون محصول قبلی‌شون کار می‌کرد، مشتری‌های پولی داشتن و در حال رشد بودن. رضا یادشه که یک برآورد از اندازه بازار انجام داده بود و فکر می‌کرد شاید فقط ۳۰۰ یا ۴۰۰ شرکت در دنیا باشن که به API OpenAI دسترسی دارن و به چنین محصولی نیاز دارن. این تخمین چند برابر کوچکتر از واقعیت از آب در اومد.

امروز، رضا معتقده که بازار «عملیات مدل‌های بنیادی» یا «Foundation Model Ops» (اصطلاحی که خودش ترجیح می‌ده) از بازار عملیات نرم‌افزار (که شرکتی مثل Datadog در اون ۳۰ میلیارد دلار ارزش داره) بزرگتر خواهد شد.

Humanloop برای چه کسانی ساخته شده؟

با این چرخش، مشتری‌های Humanloop هم به طور کامل عوض شدن. اونها از ساختن ابزار برای مهندسان یادگیری ماشین با سابقه تحقیقاتی، به سمت ساختن ابزار برای مهندسان محصول-محور یا همون «مهندسان هوش مصنوعی» رفتن. این افراد بیشتر روی نتیجه نهایی و تجربه محصول تمرکز دارن و براشون فرقی نمی‌کنه با چه ابزاری به اون نتیجه برسن. این نوع مشتری برای یک شرکت ابزارساز خیلی بهتره، چون به جای اینکه سعی کنن همه چیز رو خودشون بسازن، دنبال ابزارهای خوب هستن و حاضرن براش پول بدن.

آیا GPT-4 ضعیف‌تر شده؟

یکی از بحث‌های داغ در جامعه هوش مصنوعی اینه که آیا GPT-4 ضعیف‌تر شده یا نه. رضا حبیب فکر نمی‌کنه اینطور باشه. به نظر اون، GPT-4 تغییر کرده. اونها به طور منظم مدل رو به‌روزرسانی می‌کنن. نکته اصلی این نیست که آیا ضعیف‌تر شده یا نه، بلکه اینه که مدل در حال تغییره و اگه شما به عنوان یک توسعه‌دهنده روی این پلتفرم محصول می‌سازید، باید به این موضوع فکر کنید. شما می‌تونید مدل پایه رو برای مدتی «پین» کنید، اما نه برای همیشه. پس حداقل باید چارچوب‌های تست خیلی خوبی داشته باشید تا بتونید تست‌های رگرسیون اجرا کنید و بفهمید آیا اوضاع بدتر شده یا نه. اگه نتونید به این سوال برای خودتون جواب بدید، گیج می‌شید که آیا پرامپت‌ها رو بدتر کردید، سیستم بازیابی ضعیف شده، یا خود مدل تغییر کرده.

رقابت با ابزارهای دیگر

رضا در مورد رقابت با ابزارهایی مثل LangSmith (محصول LangChain) میگه که تعجبی نداره که اونها هم به سمت ساختن ویژگی‌های مشابهی رفتن، چون اینها نیازهای اساسی توسعه‌دهنده‌ها هستن. نقطه قوت LangSmith اینه که به شدت با LangChain یکپارچه است، اما خیلی‌ها روی LangChain محصول نمی‌سازن. Humanloop بیشتر روی شرکت‌هایی تمرکز داره که همکاری بین اعضای تیم در اونها مهمه و مقیاس بزرگتری دارن، در حالی که LangChain بیشتر برای توسعه‌دهنده‌های فردی شناخته شده.

از دانشگاه تا استارتاپ

رضا حبیب که دکترای یادگیری ماشین از UCL داره، میگه که همیشه دوست داشته چیزهایی بسازه که به سرعت به دست مردم برسن و مفید باشن. اون میگه ما از فاز تحقیقاتی هوش مصنوعی به فاز مهندسی رسیدیم. قبلا خروجی کارش یک گراف بود که نشون می‌داد یک عدد بهتر شده، اما الان می‌بینه که مشتری‌هاشون مثل Duolingo دارن نسخه‌های بهتری از آموزش به دانش‌آموزها می‌سازن. این نزدیک بودن به محصول نهایی و تاثیرگذاری واقعی، چیزیه که اون رو هیجان‌زده می‌کنه.

چرا این داستان برای ما مهمه؟

داستان Humanloop و پیوستنش به انتروپیک فقط یک خبر خرید و فروش ساده نیست. این داستان چند نکته مهم رو به ما یادآوری می‌کنه:

اهمیت ابزارسازی: با پیشرفت سریع مدل‌های هوش مصنوعی، نیاز به ابزارهایی که به ما در مدیریت، ارزیابی و بهبود این مدل‌ها کمک کنن، روز به روز بیشتر می‌شه. Humanloop یکی از پیشگامان این حوزه بود.
نقش انسان در حلقه: برخلاف تصور خیلی‌ها، هوش مصنوعی قرار نیست انسان رو به طور کامل حذف کنه. موفق‌ترین سیستم‌های هوش مصنوعی اونهایی هستن که انسان رو به عنوان یک بخش کلیدی در فرایند آموزش و استقرار در نظر می‌گیرن (HITL).
جنگ استعدادها: خرید Humanloop توسط انتروپیک نشون می‌ده که رقابت اصلی در دنیای هوش مصنوعی فقط بر سر ساختن بهترین مدل نیست، بلکه بر سر جذب بهترین تیم‌ها و استعدادها هم هست. تیمی که تجربه ساخت ابزارهای قابل اعتماد برای شرکت‌های بزرگ رو داره، یک دارایی بسیار ارزشمنده.
سرعت تغییرات: داستان چرخش Humanloop از یک ایده به ایده‌ای دیگر بر اساس پیشرفت‌های تحقیقاتی (مثل InstructGPT) نشون می‌ده که در این حوزه باید چقدر چابک بود و همیشه آماده تغییر مسیر بود.

تیم Humanloop حالا با پیوستن به انتروپیک، فرصت داره تا تجربه‌ها و ابزارهای خودش رو در مقیاس بسیار بزرگتری به کار بگیره و روی یکی از قدرتمندترین و ایمن‌ترین مدل‌های هوش مصنوعی دنیا تاثیر بذاره. این یک فصل جدید و هیجان‌انگیز برای اونها و کل جامعه هوش مصنوعیه.

منابع

[۲] Humanloop: Humanloop is the LLM evals platform for enterprises. | Y Combinator
[۴] Capture user feedback | Humanloop Docs
[۶] Humanloop (@humanloop) / X
[۸] Humanloop · GitHub
[۱۰] Building the Foundation Model Ops Platform — with Raza Habib of Humanloop

[۱] Humanloop joins Anthropic
[۳] Anthropic nabs Humanloop team as competition for enterprise AI talent heats up | TechCrunch
[۵] What is human-in-the-loop AI?
[۷] Humanloop | LinkedIn
[۹] Humanloop – About us