خلاصه
- تیم Humanloop که پلتفرم ابزارهای مدیریت و ارزیابی مدلهای زبانی بزرگ (LLM) رو میساخت، به شرکت انتروپیک پیوست.
- این حرکت بیشتر شبیه به جذب استعداد (acqui-hire) هست تا خرید دارایی؛ انتروپیک به دنبال بنیانگذاران و مهندسان باتجربه Humanloop بوده.
- Humanloop در سال ۲۰۲۰ از دانشگاه کالج لندن (UCL) شروع به کار کرد و به شرکتهایی مثل Duolingo در توسعه اپلیکیشنهای هوش مصنوعی قابل اعتماد کمک میکرد.
- فلسفه اصلی Humanloop بر پایه «هوش مصنوعی با حضور انسان» (Human-in-the-loop یا HITL) بود که باعث میشد مدلها سریعتر آموزش ببینن و کیفیت خروجی تضمین بشه.
- روش HITL به دو شکل آفلاین (آموزش مدل با کمک انسان) و آنلاین (کمک انسان در پیشبینیها) عمل میکنه و مشکلات رویکردهای سنتی در توسعه هوش مصنوعی رو حل میکنه.
- این ادغام نشون میده که در رقابت هوش مصنوعی، علاوه بر خود مدلها، ابزارسازی و جذب تیمهای متخصص در حوزه ایمنی و ارزیابی هوش مصنوعی اهمیت زیادی داره.
- پیوستن Humanloop به انتروپیک میتونه به انتروپیک کمک کنه در زمینه ایمنی هوش مصنوعی و ارائه راهکارهای سازمانی قدرتمندتر عمل کنه.
این روزها خبرهای جورواجور زیادی در دنیای هوش مصنوعی میشنویم، اما بعضی از این خبرها واقعا مهم هستن. یکی از این اتفاقات مهم، پیوستن تیم Humanloop به شرکت Anthropic هست. شاید اسم Humanloop رو شنیده باشید، شرکتی که ابزارهای خیلی به درد بخوری برای کار با مدلهای زبانی بزرگ یا همون LLMها میساخت. حالا این تیم به یکی از غولهای هوش مصنوعی، یعنی انتروپیک، پیوسته تا داستان جدیدی رو شروع کنه. بیایید با هم سفری به دنیای Humanloop داشته باشیم، ببینیم این شرکت از کجا شروع کرد، چه کار مهمی انجام میداد و چرا پیوستنش به انتروپیک اینقدر سر و صدا کرده.
داستان از یک اعلامیه شروع شد: تیم Humanloop با هیجان اعلام کرد که به انتروپیک ملحق میشه. اونها از اول یک هدف مشخص داشتن: کمک به استفاده سریع و امن از هوش مصنوعی در همه جا. با سرعتی که هوش مصنوعی داره پیشرفت میکنه، تیم Humanloop به این نتیجه رسید که انتروپیک بهترین جا برای ادامه این ماموریت و تاثیرگذاری بیشتره. اونها از مشتریهایی که همیشه مرزهای استفاده از هوش مصنوعی رو جابجا میکردن و با اعتماد و بازخوردهای ارزشمندشون بهشون کمک کردن، تشکر کردن و قول دادن که در روند غروب پلتفرم Humanloop، انتقال مشتریها رو تا جای ممکن راحت انجام بدن.
این شرکت از سرمایهگذارهاش هم قدردانی کرد، اسمهایی مثل Albion، Index، YC، Local Globe، UCLTF و خیلی از سرمایهگذارهای فرشته دیگه که در این مسیر بهشون اعتماد و ازشون حمایت کرده بودن. تیم Humanloop به مسیری که طی کرده و چیزهایی که ساخته افتخار میکنه. اونها اولین پلتفرم توسعه برای اپلیکیشنهای LLM بودن و در شکلدهی به استانداردهای صنعتی برای مدیریت و ارزیابی هوش مصنوعی نقش داشتن. حالا Raza، Jordan، Peter و کل تیم Humanloop هیجانزده هستن تا در فصل جدید کاریشون در انتروپیک، به ساختن آیندهای از هوش مصنوعی کمک کنن که به نفع همه باشه.
چرا این خرید مهمه؟ نگاهی از بیرون
از دید رسانهها، مثل تککرانچ، این اتفاق یک «acqui-hire» به حساب میاد. یعنی انتروپیک بیشتر از اینکه دنبال داراییها یا مالکیت فکری Humanloop باشه، دنبال تیم متخصص و مغزهای متفکر پشت اون بوده. سه بنیانگذار Humanloop یعنی Raza Habib به عنوان مدیرعامل، Peter Hayes به عنوان مدیر ارشد فناوری و Jordan Burgess به عنوان مدیر ارشد محصول، همراه با حدود دوازده مهندس و محقق دیگه به انتروپیک پیوستن. سخنگوی انتروپیک تایید کرده که داراییها یا مالکیت فکری Humanloop خریداری نشده، اما در صنعتی که مالکیت فکری اصلی توی ذهن آدمهاست، این موضوع چندان مهم نیست. چیزی که تیم Humanloop با خودش به انتروپیک میاره، تجربه ساخت ابزارهاییه که به شرکتهای بزرگ کمک میکنه هوش مصنوعی امن و قابل اعتمادی رو در مقیاس بزرگ اجرا کنن.
برد ایبرامز، مدیر محصول API در انتروپیک، گفته که «تجربه اثبات شده اونها در ابزارسازی و ارزیابی هوش مصنوعی، برای ما در پیشبرد کارمون در زمینه ایمنی هوش مصنوعی و ساختن سیستمهای مفید، بسیار ارزشمنده». در بازاری که کیفیت خود مدل به تنهایی برای رقابتی موندن کافی نیست، تقویت اکوسیستم ابزارها میتونه جایگاه انتروپیک رو نسبت به رقبایی مثل OpenAI و Google DeepMind هم از نظر عملکرد و هم از نظر آمادگی برای ورود به بازار شرکتهای بزرگ، محکمتر کنه.
Humanloop در سال ۲۰۲۰ به عنوان یک شرکت منشعب شده از دانشگاه کالج لندن (UCL) تاسیس شد. بعد در برنامه Y Combinator و Fuse Incubator شرکت کرد و طبق گزارش PitchBook، در دو مرحله تونست ۷.۹۱ میلیون دلار سرمایه اولیه از YC و Index Ventures جذب کنه. این استارتاپ به خاطر کمک به مشتریهای بزرگی مثل Duolingo، Gusto و Vanta در توسعه، ارزیابی و بهینهسازی اپلیکیشنهای هوش مصنوعی قوی، شهرت پیدا کرد. ماه گذشته هم Humanloop به مشتریهاش اطلاع داده بود که برای آماده شدن جهت یک خرید، فعالیتش رو متوقف میکنه.
این اتفاق همزمان با ارائه ویژگیهایی مثل پنجرههای زمینه طولانیتر (longer context windows) توسط انتروپیک به مشتریهای سازمانیه که تواناییهای مدلهاش رو افزایش میده. چند وقت پیش هم انتروپیک قراردادی با بازوی خرید مرکزی دولت آمریکا بست تا خدمات هوش مصنوعی خودش رو به سازمانهای دولتی با قیمت فقط ۱ دلار برای هر سازمان در سال اول بفروشه؛ یک حرکت واضح برای رقابت با پیشنهاد مشابه OpenAI. هم خریداران دولتی و هم سازمانی به ویژگیهای ارزیابی، نظارت و انطباقی که Humanloop در اونها تخصص داشت، نیاز دارن.
این خرید همچنین با برند انتروپیک که خودش رو یک شرکت «اول ایمنی» معرفی میکنه، همخوانی داره. فرایندهای ارزیابی Humanloop با اندازهگیری مداوم عملکرد، ایجاد حفاظهای ایمنی و کاهش سوگیری، با این ماموریت هماهنگه. رضا حبیب، مدیرعامل سابق Humanloop، در بیانیهای گفته: «ما از روزهای اول روی ساخت ابزارهایی تمرکز داشتیم که به توسعهدهندهها کمک میکنه اپلیکیشنهای هوش مصنوعی رو به صورت امن و موثر بسازن. تعهد انتروپیک به تحقیقات ایمنی هوش مصنوعی و توسعه مسئولانه، کاملا با دیدگاه ما منطبقه».
تیم و ماموریت Humanloop از زبان خودشون
ماموریت Humanloop از ابتدا این بوده: «فراهم کردن پیادهسازی امن و سریع هوش مصنوعی در کل اقتصاد». اونها دنبال ساختن آیندهای بودن که در اون هوش مصنوعی جایگزین انسانها نشه، بلکه به مردم ابزارهایی بده تا به چیزهایی دست پیدا کنن که امروز فقط در اختیار گروه کوچکی از افراد با تخصصهای ویژه قرار داره.
تیم موسس این شرکت، تجربههایی از کار روی بزرگترین پروژههای هوش مصنوعی در شرکتهایی مثل گوگل و آمازون و همچنین تحقیقات آکادمیک پیشرفته در یادگیری ماشین رو با خودشون داشتن:
- Jordan Burgess: مدیر ارشد محصول، با مدرک MPhil در یادگیری ماشین از کمبریج.
- Raza Habib: مدیرعامل، با مدرک PhD در یادگیری ماشین از UCL.
- Peter Hayes: مدیر ارشد فناوری، با مدرک PhD در یادگیری ماشین از UCL.
اونها همچنین از حمایت سرمایهگذارها و مشاورهایی با درک عمیق از تقاطع هوش مصنوعی و توسعه محصول برخوردار بودن، افرادی مثل:
- پروفسور Emine Yilmaz (عضو موسسه تورینگ و محقق آمازون)
- پروفسور David Barber (مدیر مرکز هوش مصنوعی UCL)
- Wade Foster (مدیرعامل Zapier)
- Olivier Pomel (مدیرعامل Datadog)
- Calvin French-Owen (موسس Segment)
- Matt Robinson (موسس GoCardless)
ایده اصلی Humanloop: هوش مصنوعی با حضور انسان (HITL)
اما اصلا ایده اصلی Humanloop چی بود و چه مشکلی رو حل میکرد؟ برای فهمیدن این موضوع، باید با مفهومی به اسم «هوش مصنوعی با حضور انسان» یا Human-in-the-loop (HITL) آشنا بشیم.
بیشتر پروژههای هوش مصنوعی شکست میخورن. حدود ۸۰ درصد از اونها هیچوقت به مرحله استقرار نمیرسن و حتی تعداد بیشتری از اونها هیچوقت بازگشت سرمایه ندارن. مشکل اینجاست که توسعه هوش مصنوعی یک فرایند آزمون و خطاست، اما رویکرد سنتی این واقعیت رو نادیده میگیره.
حالا خیلی از تیمها دارن از روشی به اسم HITL استفاده میکنن. با این روش میشه یک مدل کارآمد رو سریعتر، با دادههای کمتر و با تضمین کیفیت پیشبینیها مستقر کرد. این شاید جادویی به نظر برسه، اما کاملا منطقیه. به طور کلی، HITL یعنی یک سیستم هوش مصنوعی و یک تیم از انسانها با هم برای انجام یک کار همکاری میکنن.
دو حالت اصلی برای HITL وجود داره:
- آفلاین: انسانها به آموزش مدل کمک میکنن.
- آنلاین: انسانها به مدل در انجام پیشبینیها کمک میکنن.
هر دو حالت برای انواع مختلف مسائل یادگیری ماشین قابل استفاده هستن و به شما اجازه میدن سریعتر به یک مدل کارآمد برسید و یک معماری سیستمی با عملکرد تضمین شده بسازید. این درسها رو میشه از خطوط تولید آموزش الکسا یاد گرفت، اما به همون اندازه در خطوط تولید هوش مصنوعی ماشینهای خودران (مثل تسلا) یا حتی در اتوماسیون یک کار کوچک اداری هم کاربرد دارن.
مشکل رویکرد سنتی (آبشاری) در یادگیری ماشین
برای اینکه بهتر متوجه بشیم HITL چقدر خوبه، اول باید ببینیم روش سنتی چه شکلیه. روش معمول برای آموزش یک مدل یادگیری ماشین، یک فرایند «آبشاری» هست که هر مرحله بعد از تموم شدن مرحله قبلی شروع میشه:
- یک وظیفه رو شناسایی و پروژه رو تعریف میکنید.
- دادهها رو جمعآوری و به صورت دستی برچسبگذاری میکنید، معمولا با یک تیم از افراد.
- دانشمندان داده چند معماری مختلف مدل و تکنیکهای آموزشی رو امتحان میکنن تا ببینن کدوم بهتر کار میکنه.
- اگه به نظر برسه که عملکرد خوبی داره، روی یک سرور پشت یک API مستقر میشه.
این فرایند آبشاری یک مشکل بزرگ داره: خیلی طول میکشه تا از مراحل اولیه بازخورد بگیرید. این یعنی چرخههای تکرار خیلی کند هستن و ممکنه مجبور بشید بعضی مراحل رو دوباره انجام بدید. این روش که به ظاهر ساده و عالیه، کلی تله پنهان داره:
- وظیفه اولیه معمولا خوب تعریف نشده. خیلی سخته که از قبل پیشبینی کنید بهترین ساختار برای یک پروژه هوش مصنوعی چیه. مثلا، وظیفه باید چطور فرمولبندی بشه (طبقهبندی، استخراج، بخشبندی و غیره)؟ چه ویژگیها یا محدودیتهایی لازمه؟ آیا باید پیشپردازشی انجام بشه؟ معمولا فقط بعد از بررسی عملکرد مدل اولیه هست که میشه وظیفه رو به شکلی اصلاح کرد که احتمال موفقیتش بیشتر بشه.
- ایجاد دستورالعمل برای برچسبگذاری یک فرایند تکراریه. به همین شکل، سخته که از قبل بدونید دادهها باید چطور برچسبگذاری بشن. معمولا بعد از اینکه نقاط دادهای سخت و چالشبرانگیز مشخص میشن، با بحث و جدل روی اونها، دستورالعملهای برچسبگذاری به یک سند کاری خوب تبدیل میشن. جمعآوری دادهها میتونه هفتهها یا ماهها طول بکشه، مخصوصا اگه برونسپاری شده باشه.
- دادههای تست با دادههای واقعی فرق دارن. در این روش، روی مدل کار میشه تا به معیارهای عملکرد روی دادههای تست برسه و بعد مستقر میشه. اما دادههای دنیای واقعی میتونن خیلی با دادههای اولیه متفاوت باشن. اگه یک سیستم نظارتی نداشته باشید، ممکنه ماهها طول بکشه تا این مشکلات پیدا بشن.
- برچسبگذاری داده و آموزش مدل باید تکرار بشن. شرکتهای هوش مصنوعی فهمیدن که آموزش مدل تقریبا هیچوقت یک بار برای همیشه نیست. بیشتر شبیه یک هزینه عملیاتی مداومه، چون باید به طور پیوسته دادههای بیشتری رو برچسبگذاری کنید تا عملکرد مدل فعلی رو دنبال کرده و سیستم رو بهبود بدید. دلیلش اینه که دادهها در طول زمان تغییر میکنن و ویژگیهای جدیدی مورد نیاز هستن.
- خیلی طول میکشه! این شاید بزرگترین مشکل باشه. این فرایند به تیمهای مختلفی نیاز داره، از دانشمندان داده گرفته تا متخصصان موضوعی و مهندسان زیرساخت، و کل چرخه میتونه ماهها طول بکشه.
خیلی از پروژههای موفق هوش مصنوعی بودجههای کلانی دارن و با همین روش جلو میرن، با وجود اتلاف وقت، تلاش و هزینه. اونها سرمایهگذاری زیادی روی سیستمهای نظارتی و خطوط لوله داده میکنن تا این کمبودها رو جبران کرده و حلقههای بازآموزی هفتگی/ماهانه رو فعال کنن. اما شرکتهای عملگرا با یک راه حل «قابل قبول» شروع میکنن و سریع تکرار میکنن. چه از طریق آموزش HITL برای تکرار روی مدل و داده، یا یک شکلی از استقرار HITL تا خیلی زودتر از زمانی که مدلها کامل بشن، از این سیستمها بهره ببرن.
آموزش با حضور انسان (HITL Training): روش چابک برای ساخت یادگیری ماشین
آموزش با حضور انسان، به جای اینکه انتظار داشته باشه همه چیز به آرامی و خطی پیش بره، یک رویکرد تکراری برای ساخت مدل داره. این روش شبیه به مفاهیم «توسعه نرمافزار چابک» هست.
یک مدل کارآمد از همون اولین بخش از دادهها آموزش داده میشه. با اضافه شدن دادههای بیشتر، به طور مداوم بهروزرسانی میشه. مدل و متخصصان موضوعی با هم کار میکنن تا مدل رو از طریق برچسبگذاری دادهها یا تغییر وظیفه با توجه به شفافتر شدن نیازمندیها و عملکرد، بسازن، تطبیق بدن و بهبود ببخشن.
یادگیری فعال (Active Learning) یک نوع آموزش با حضور انسانه که در اون، دادههایی که باید برچسبگذاری بشن توسط خود مدل انتخاب میشن. با تمرکز روی آموزندهترین دادهها، میتونید به شدت مقدار دادههای برچسبگذاری شده مورد نیاز رو کاهش بدید و همچنین سریعتر روی وظیفه و مدل تکرار کنید.
این چرخه بازخورد سریعتر، مزایای زیادی داره:
- تکرار سریع مدل: بازخورد آنی در مورد عملکرد مدل میگیرید و میتونید بفهمید که آیا وظیفه نیاز به تغییر داره یا دادههای بیشتری لازمه.
- بازخورد عملی برای بهبود کیفیت داده: در اکثر موارد، دادهها تاثیر بیشتری روی عملکرد نهایی نسبت به مدل دارن. مدل میتونه نشون بده که کجا فکر میکنه دادهها اشتباه برچسبگذاری شدن.
- کاهش تا ۱۰ برابری نیاز به برچسبگذاری داده: از طریق یادگیری فعال، مدل میتونه نقاط دادهای رو انتخاب کنه که بیشترین اطلاعات رو دارن و نیاز به برچسبگذاری رو به شدت کم میکنه.
- برچسبگذاری سریعتر: با داشتن یک مدل در حلقه، میتونید دادهها رو از قبل برچسبگذاری کنید. این یک گردش کاری ایجاد میکنه که در اون برچسبگذاری به تصمیمات سریع تایید/رد روی پیشنهادهای هوش مصنوعی تبدیل میشه.
بزرگترین مانع برای استفاده از این روش اینه که راهاندازیش چالشبرانگیزه. اکثر رابطهای کاربری برچسبگذاری با یک مدل قابل آموزش کار نمیکنن و تلاش زیادی لازمه تا فرایند آموزش به اندازه کافی سریع بشه که بازخورد فوری در حلقه یادگیری فعال ممکن باشه. انجام درست یادگیری فعال هم سخته. رویکردهای ساده مبتنی بر عدم قطعیت مدل میتونن مدل رو دچار سوگیری کنن یا نقاط دادهای پر سر و صدا ولی بیاطلاعات رو انتخاب کنن که ضررش از انتخاب تصادفی بیشتره. یک پلتفرم آموزش با حضور انسان باید این مسائل رو در نظر بگیره. برای مثال، Humanloop از نمونهبرداری مبتنی بر تنوع و مدلهای کالیبره شده با اطمینان استفاده میکرد تا یادگیری فعال به خوبی کار کنه.
استقرار با حضور انسان (HITL Deployment): وقتی انسانها به مدل در پیشبینی کمک میکنند
یادگیری ماشین در حل کردن «بخشی» از تقریبا هر مشکلی خیلی خوبه. مشکل اصلی اینجاست که نمیتونه «کل» مشکل رو حل کنه. به قول فرانسوا شوله، یادگیری عمیق در ساختن دموهای اولیه چشمگیر از اپلیکیشنهای جدید با منابع توسعه بسیار کم، عالی عمل میکنه. اما بخشی که در اون دچار مشکله، رسیدن به سطح ثبات و قابلیت اطمینانی هست که برای استفاده در محیط واقعی لازمه.
تلاشها برای بهبود مدل با بازدهی کاهشی روبرو میشن. دنیای واقعی پر از شگفتیه و برای مدیریت اون به توانایی تطبیقپذیری نیاز داریم. مشکل «دم دراز» (Long Tail)، که مثلا در ترافیک جستجو دیده میشه، میتونه بخش عمدهای از دادهها رو تشکیل بده. عملکرد روی این رویدادهایی که به تنهایی نادر هستن، میتونه عملکرد کلی رو تعیین کنه، اما به دست آوردن دادههای آموزشی کافی برای پوشش همه اونها سخته.
میتونید زمان، منابع و پول نامحدودی رو صرف برچسبگذاری دادههای بیشتر کنید تا عملکرد مدل به دقت مورد نیاز برسه. یا میتونید یک طراحی سیستمی داشته باشید که در اون عملکرد کامل مدل ضروری نباشه. اینجاست که HITL به کار میاد.
برای ساختن یک تجربه کاربری مقاوم در برابر خطا، باید کاری کنید که کل سیستم به پیشبینیهای کامل مدل وابسته نباشه. معمولا این کار با دادن کنترل به کاربر برای هدایت سیستم هوش مصنوعی و تبدیل شدن به بخشی از حلقه بازخورد انجام میشه. یا میتونید یک مکانیزم پشتیبان داشته باشید، مثل یک «کارگر در حلقه» که پیشبینیها رو وقتی مدل مطمئن نیست، تایید میکنه.
- کاربران در حلقه (Users-in-the-loop): این طراحی سیستم، کنترل بیشتری رو به دست کاربر میده تا کاستیهای عملکرد مدل رو جبران کنه. راه حل برای داشتن یک مدل ناقص اینه که اهمیت این نقص رو کم کنیم. این الگو همه جا هست. سیستمهای پیشنهاددهنده به جای بهترین انتخاب، یک لیست رتبهبندی شده به شما نشون میدن و انتخاب شما الگوریتم رو در آینده بهبود میده. خود جستجوی گوگل یک نمونه از اینه؛ به جای اینکه شما رو مستقیم به نتیجه اول ببره، یک صفحه از لینکها رو برای انتخاب به شما ارائه میده. پاسخ هوشمند (Smart Reply) جیمیل هم یک نمونه دیگه است. این سیستم انتظار نداره که پاسخ کامل رو بدونه، بلکه چند گزینه رو برای انتخاب یا رد کردن به شما پیشنهاد میده.
- کارگران در حلقه (Workers-in-the-loop): در این حالت، یک تیم از انسانها پیشبینیهای مدل رو وقتی که مدل مطمئن نیست، بازبینی و تصحیح میکنن. این روش به شما اجازه میده یک فرایند رو به تدریج و با کنترل دقیق روی کیفیت نتایج، اتوماتیک کنید. میتونید یک آستانه برای اطمینان مدل تعیین کنید که اگه اطمینان مدل از اون کمتر بود، یک انسان کار رو بازبینی کنه و هر دخالت انسانی، مدل رو در طول زمان بهتر میکنه.
تصور کنید یک اسلایدر دارید که یک طرفش «سرعت» و طرف دیگهش «کیفیت» هست. اگه اون رو روی «سرعت» بذارید، فقط از پیشبینیهای مدل استفاده میکنید که هزینه رو کم و سرعت رو زیاد میکنه اما کیفیت شاید عالی نباشه. اگه روی «کیفیت» بذارید، یک عملیات کاملا انسانی دارید که کیفیت در سطح انسان رو تضمین میکنه اما کندتر و گرونتره. یک پلتفرم استقرار کارگر در حلقه به شما اجازه میده این اسلایدر رو هرجا که میخواید تنظیم کنید.
با این روش میتونید:
- کیفیت خروجی رو تضمین کنید. برای اکثر موارد، میخواید که بخش عمدهای از دادهها به صورت خودکار پردازش بشن و فقط برای نقاط داده نادر از مکانیزم پشتیبان انسانی استفاده بشه. یا میتونید آستانه رو خیلی بالا تنظیم کنید تا همیشه یک مرحله بازبینی وجود داشته باشه، مثل نرمافزارهای حیاتی مثل تشخیص پزشکی.
- یک سیستم کارآمد رو فورا راهاندازی کنید و به تدریج اتوماتیک کنید. خیلی از استارتاپها با کارگران شروع میکنن و بعد سعی میکنن به اتوماسیون جزئی برسن. به همین دلیل منطقیه که زیرساخت HITL از ابتدا یکپارچه بشه.
همون سیستمهایی که آموزش HITL رو ممکن میکنن، میتونن استقرار HITL رو هم فعال کنن. شما به مدلهای یادگیری ماشینی با معیارهای عدم قطعیت خوب کالیبره شده نیاز دارید تا بتونید بهشون اعتماد کنید که بدونن کی نمیدونن. متاسفانه اکثر سیستمهای یادگیری عمیق در پیشبینیهاشون بیش از حد مطمئن هستن که میتونه عواقب منفی داشته باشه.
پلتفرم Humanloop در عمل
Humanloop یک پلتفرم همهکاره برای پردازش زبان طبیعی بود که بر اساس مفاهیم HITL ساخته شده بود. اونها از یادگیری فعال استفاده میکردن تا بشه سریع یک مدل رو آموزش داد و به کاربرها اجازه میدادن یک استقرار کارگر در حلقه راهاندازی کنن که در اون مدل میدونست کی و چطور به یک عضو تیم مراجعه کنه.
در عمل، Humanloop یک پلتفرم برای ارزیابی مدلهای زبانی بزرگ (LLM Evals) برای شرکتهای بزرگ بود. تیمهایی در شرکتهای Gusto، Vanta و Duolingo از Humanloop برای ارائه محصولات هوش مصنوعی قابل اعتماد استفاده میکردن. این پلتفرم به اونها کمک میکرد تا بهترین روشها رو برای مدیریت پرامپت، ارزیابی و نظارت به کار بگیرن. این شرکت که در سال ۲۰۲۰ در لندن تاسیس شد، بین ۱۱ تا ۵۰ کارمند داشت و در زمینههایی مثل هوش مصنوعی، LLMها، LLMOps و یادگیری ماشین تخصص داشت.
یکی از کارهای مهمی که این پلتفرم انجام میداد، گرفتن بازخورد از کاربر بود. مثلا، فرض کنید یک اپلیکیشن چت ساده ساختید که کاربرها با یک مدل هوش مصنوعی صحبت میکنن. هر بار که کاربر دکمه «ارسال» رو میزنه، Humanloop درخواست رو دریافت و مدل هوش مصنوعی رو فراخوانی میکنه. پاسخ مدل به عنوان یک «لاگ» ذخیره میشه. بعدا میشد با اضافه کردن دکمههای 👍 و 👎، بازخورد کاربر رو در مورد پاسخهای مدل گرفت و به Humanloop فرستاد.
سه نوع بازخورد مهم وجود داره که باید جمعآوری بشن:
- بازخورد صریح (Explicit feedback): مثل فشار دادن دکمههای «لایک/دیسلایک».
- بازخورد ضمنی (Implicit feedback): اقدامات غیرمستقیم کاربر که نشوندهنده خوب یا بد بودن پاسخ هستن، مثل اینکه کاربر پاسخ رو «کپی» کرده، «ذخیره کرده» یا «رد کرده».
- بازخورد آزاد (Free-form feedback): اصلاحات و توضیحات کاربر در مورد پاسخ.
بعد از جمعآوری دادههای کافی، میشد از این بازخوردها برای بهبود محصول هوش مصنوعی استفاده کرد. مثلا، میشد تمام لاگهایی که امتیاز «بد» داشتن رو فیلتر کرد و پاسخهای مدل رو که نیاز به بهبود دارن، بازبینی کرد. بعد میشد در ویرایشگر پرامپت، دستورالعملها و پارامترهای مدل رو تغییر داد تا عملکردش بهتر بشه و بعد از اعمال تغییرات، نسبت پاسخهای «خوب» به «بد» رو مقایسه کرد تا فهمید که آیا تغییرات تجربه کاربر رو بهتر کرده یا نه.
گفتگویی با رضا حبیب، مغز متفکر Humanloop
برای اینکه عمیقتر با فلسفه و داستان Humanloop آشنا بشیم، بهتره به سراغ حرفهای رضا حبیب، مدیرعامل این شرکت، در پادکست Latent Space بریم.
رضا تعریف میکنه که چطور Humanloop از یک پروژه جانبی شروع شد. اون و همبنیانگذارانش، پیتر و جردن، اعتقاد قوی به پیشرفت فوقالعاده NLP داشتن. این قبل از GPT-3 بود، اما بعد از اینکه BERT و یادگیری انتقالی (transfer learning) در NLP جواب داده بود. اونها میدونستن که موج بزرگی از اپلیکیشنهای مفید بر پایه NLP در راهه، اما کمبود تخصص فنی و دادههای برچسبگذاری شده هنوز یک مانع بزرگ بود. برای همین، در ابتدا روی حل این دو مشکل تمرکز کردن.
وقتی GPT-3 معرفی شد، مشخص بود که آینده همینه. یادگیری درون-زمینهای (in-context learning) داشت جواب میداد و نیاز به دادههای برچسبگذاری شده به شدت کم میشد. اما تا قبل از مقالات InstructGPT، هنوز عملی به نظر نمیرسید. بعد از اون مقاله، دیگه کار کردن روی هر چیز دیگهای سخت بود.
حدود یک سال پیش از این گفتگو، اونها یک چرخش (pivot) بزرگ انجام دادن. این تصمیم ترسناکی بود چون محصول قبلیشون کار میکرد، مشتریهای پولی داشتن و در حال رشد بودن. رضا یادشه که یک برآورد از اندازه بازار انجام داده بود و فکر میکرد شاید فقط ۳۰۰ یا ۴۰۰ شرکت در دنیا باشن که به API OpenAI دسترسی دارن و به چنین محصولی نیاز دارن. این تخمین چند برابر کوچکتر از واقعیت از آب در اومد.
امروز، رضا معتقده که بازار «عملیات مدلهای بنیادی» یا «Foundation Model Ops» (اصطلاحی که خودش ترجیح میده) از بازار عملیات نرمافزار (که شرکتی مثل Datadog در اون ۳۰ میلیارد دلار ارزش داره) بزرگتر خواهد شد.
Humanloop برای چه کسانی ساخته شده؟
با این چرخش، مشتریهای Humanloop هم به طور کامل عوض شدن. اونها از ساختن ابزار برای مهندسان یادگیری ماشین با سابقه تحقیقاتی، به سمت ساختن ابزار برای مهندسان محصول-محور یا همون «مهندسان هوش مصنوعی» رفتن. این افراد بیشتر روی نتیجه نهایی و تجربه محصول تمرکز دارن و براشون فرقی نمیکنه با چه ابزاری به اون نتیجه برسن. این نوع مشتری برای یک شرکت ابزارساز خیلی بهتره، چون به جای اینکه سعی کنن همه چیز رو خودشون بسازن، دنبال ابزارهای خوب هستن و حاضرن براش پول بدن.
آیا GPT-4 ضعیفتر شده؟
یکی از بحثهای داغ در جامعه هوش مصنوعی اینه که آیا GPT-4 ضعیفتر شده یا نه. رضا حبیب فکر نمیکنه اینطور باشه. به نظر اون، GPT-4 تغییر کرده. اونها به طور منظم مدل رو بهروزرسانی میکنن. نکته اصلی این نیست که آیا ضعیفتر شده یا نه، بلکه اینه که مدل در حال تغییره و اگه شما به عنوان یک توسعهدهنده روی این پلتفرم محصول میسازید، باید به این موضوع فکر کنید. شما میتونید مدل پایه رو برای مدتی «پین» کنید، اما نه برای همیشه. پس حداقل باید چارچوبهای تست خیلی خوبی داشته باشید تا بتونید تستهای رگرسیون اجرا کنید و بفهمید آیا اوضاع بدتر شده یا نه. اگه نتونید به این سوال برای خودتون جواب بدید، گیج میشید که آیا پرامپتها رو بدتر کردید، سیستم بازیابی ضعیف شده، یا خود مدل تغییر کرده.
رقابت با ابزارهای دیگر
رضا در مورد رقابت با ابزارهایی مثل LangSmith (محصول LangChain) میگه که تعجبی نداره که اونها هم به سمت ساختن ویژگیهای مشابهی رفتن، چون اینها نیازهای اساسی توسعهدهندهها هستن. نقطه قوت LangSmith اینه که به شدت با LangChain یکپارچه است، اما خیلیها روی LangChain محصول نمیسازن. Humanloop بیشتر روی شرکتهایی تمرکز داره که همکاری بین اعضای تیم در اونها مهمه و مقیاس بزرگتری دارن، در حالی که LangChain بیشتر برای توسعهدهندههای فردی شناخته شده.
از دانشگاه تا استارتاپ
رضا حبیب که دکترای یادگیری ماشین از UCL داره، میگه که همیشه دوست داشته چیزهایی بسازه که به سرعت به دست مردم برسن و مفید باشن. اون میگه ما از فاز تحقیقاتی هوش مصنوعی به فاز مهندسی رسیدیم. قبلا خروجی کارش یک گراف بود که نشون میداد یک عدد بهتر شده، اما الان میبینه که مشتریهاشون مثل Duolingo دارن نسخههای بهتری از آموزش به دانشآموزها میسازن. این نزدیک بودن به محصول نهایی و تاثیرگذاری واقعی، چیزیه که اون رو هیجانزده میکنه.
چرا این داستان برای ما مهمه؟
داستان Humanloop و پیوستنش به انتروپیک فقط یک خبر خرید و فروش ساده نیست. این داستان چند نکته مهم رو به ما یادآوری میکنه:
- اهمیت ابزارسازی: با پیشرفت سریع مدلهای هوش مصنوعی، نیاز به ابزارهایی که به ما در مدیریت، ارزیابی و بهبود این مدلها کمک کنن، روز به روز بیشتر میشه. Humanloop یکی از پیشگامان این حوزه بود.
- نقش انسان در حلقه: برخلاف تصور خیلیها، هوش مصنوعی قرار نیست انسان رو به طور کامل حذف کنه. موفقترین سیستمهای هوش مصنوعی اونهایی هستن که انسان رو به عنوان یک بخش کلیدی در فرایند آموزش و استقرار در نظر میگیرن (HITL).
- جنگ استعدادها: خرید Humanloop توسط انتروپیک نشون میده که رقابت اصلی در دنیای هوش مصنوعی فقط بر سر ساختن بهترین مدل نیست، بلکه بر سر جذب بهترین تیمها و استعدادها هم هست. تیمی که تجربه ساخت ابزارهای قابل اعتماد برای شرکتهای بزرگ رو داره، یک دارایی بسیار ارزشمنده.
- سرعت تغییرات: داستان چرخش Humanloop از یک ایده به ایدهای دیگر بر اساس پیشرفتهای تحقیقاتی (مثل InstructGPT) نشون میده که در این حوزه باید چقدر چابک بود و همیشه آماده تغییر مسیر بود.
تیم Humanloop حالا با پیوستن به انتروپیک، فرصت داره تا تجربهها و ابزارهای خودش رو در مقیاس بسیار بزرگتری به کار بگیره و روی یکی از قدرتمندترین و ایمنترین مدلهای هوش مصنوعی دنیا تاثیر بذاره. این یک فصل جدید و هیجانانگیز برای اونها و کل جامعه هوش مصنوعیه.
دیدگاهتان را بنویسید