زیکو کوتلر عضو هیئت مدیره OpenAI از AGI می‌گوید

زیکو کولتر، استاد و رئیس دپارتمان یادگیری ماشین در دانشگاه کارنگی ملون (CMU)، عضو هیئت مدیره OpenAI و از بنیان‌گذاران استارتاپ Gray Swan، یکی از چهره‌های مهم و تأثیرگذار در دنیای هوش مصنوعی است. در این گپ‌وگفت، زیکو آمده تا نظرش را در مورد چندتا از بحث‌های داغ این روزها، از جمله کل‌کل همیشگی دانشگاه و صنعت، آینده پژوهش، مسیر رسیدن به هوش مصنوعی جامع (AGI) و چند توصیه برای بچه‌های این حوزه با ما در میان بگذارد.

دانشگاه یا صنعت؟ یه تصمیم شخصی که ارزشش رو داره

انتخاب بین دانشگاه و صنعت یه تصمیم کاملا شخصیه. با اینکه من خودم کل عمرم تو دانشگاه بودم و طبیعتا خیلی براش ارزش قائلم، واقعیت اینه که هنوزم بهترین محقق‌های آزمایشگاه‌های بزرگ صنعتی، مدرک دکترا دارن. یاد گرفتن فوت‌وفن علم توی محیط دانشگاهی، یه ارزش اساسی داره که به این زودیا هم از بین نمیره.

البته که دانشگاه‌ها از نظر قدرت محاسباتی (همون Compute) اصلا با صنعت قابل مقایسه نیستن و این فاصله هم قرار نیست پر بشه. اما دانشگاه‌ها هنوزم می‌تونن کارهای بزرگی بکنن.

اول اینکه، به لطف چیزی به اسم قوانین مقیاس‌پذیری (Scaling Laws)، ما می‌تونیم با امکانات کمتر (مثل چیزی که تو CMU داریم) نشون بدیم که یه ایده چقدر پتانسیل داره. اگه یه ایده تو مقیاس کوچیک جواب بده، این خودش یه دلیل محکمه که تو مقیاس‌های بزرگتر هم موفق میشه.
دوم اینکه، یه سری بخش‌های مهم مثل ایمنی، امنیت و ارزیابی مدل‌ها، به تحقیقات پایه‌ای نیاز دارن که لزوما به کامپیوترهای غول‌پیکر وابسته نیستن. این حوزه‌ها هنوزم می‌تونن از کارهای بچه‌های دانشگاهی کلی سود ببرن و دانشگاه‌ها می‌تونن مسیرهای اصلی تحقیق رو مشخص کنن؛ البته با همکاری نزدیک با صنعت که این روزها بخش بزرگی از تجربه‌ی ما از هوش مصنوعی رو می‌سازه.

آینده پژوهش: هوش مصنوعی در خدمت بقیه‌ی علوم

من واقعا به آینده هوش مصنوعی برای علم (AI for Science) امید دارم و خیلی بهش خوش‌بینم. به همون اندازه که به کارهای پایه‌ای تو خود هوش مصنوعی اعتقاد دارم، فکر می‌کنم حتی بیشتر از اون نیاز داریم که از هوش مصنوعی تو بقیه‌ی رشته‌های علمی استفاده کنیم. اکثر دنیای علم دارن روی چیزهایی مثل زیست‌شناسی، شیمی، فیزیک و مواد کار می‌کنن؛ حوزه‌هایی که یه نوآوری توشون ممکنه سال‌ها طول بکشه.

ابزارهایی که ما امروز تو هوش مصنوعی داریم، می‌تونن تو همه‌ی این زمینه‌ها یه انقلاب به پا کنن. از سرعت دادن به تحقیقات همجوشی هسته‌ای گرفته تا کشف‌های جدید تو علوم پایه، کلی کار نکرده روی زمین مونده. دهه‌های آینده، بیشتر از اینکه روی خود هوش مصنوعی کار کنیم، وقتمون رو صرف استفاده از همین دستاوردها برای حل کردن مشکلات بزرگ علمی می‌کنیم. البته این کار حتما باید با همکاری نزدیک بین متخصص‌های هوش مصنوعی و دانشمندای اون رشته‌ها انجام بشه.

مسیر رسیدن به هوش مصنوعی جامع (AGI)

این البته نظر شخصی منه، ولی فکر می‌کنم مسیری که الان داریم میریم، آخرش ما رو به هوش مصنوعی جامع (AGI) می‌رسونه. بزرگترین مانع این بود که بفهمیم یه معماری به اندازه کافی بزرگ که برای پیش‌بینی متن آموزش دیده، می‌تونه «هوش» تولید کنه. این یه کشف بود، نه یه اختراع مهندسی.

به نظر من، معماری‌ها اونقدرها هم مهم نیستن. معماری ترنسفورمر کار راه‌اندازه، ولی لزوما «بهینه» نیست. درس بزرگی که تو این چند سال از یادگیری عمیق گرفتیم اینه که اگه ترنسفورمر هم نبود، با معماری‌های دیگه مثل شبکه‌های کانولوشنی یا بازگشتی هم می‌تونستیم همین کارها رو بکنیم. اصل داستان، داده‌ها و روش آموزشه، نه خود معماری. با همین معماری‌های فعلی، یه کم مهندسی بیشتر، ابزارهای بهتر و داده‌های بیشتر، به چیزی می‌رسیم که اکثر ما بهش میگیم AGI.

ایمنی، امنیت و داستان‌های اجتماعی هوش مصنوعی

ببینید، وقتی من از ایمنی و امنیت مدل‌های زبان بزرگ (LLM) حرف می‌زنم، منظورم اینه که بتونیم مدل‌ها رو وادار کنیم از یه سری قوانین مشخص پیروی کنن. این ایمنی فنی می‌تونه جلوی بعضی از بدترین اتفاق‌ها رو بگیره.

اما ریسک‌های بزرگتر اجتماعی مثل جابجایی شغلی، یه داستان دیگه‌ان. این‌ها ریسک‌های «تکاملی» هستن که با هر تکنولوژی خفن جدیدی پیش میان. با این حال، به نظرم شرکت‌هایی که با دیدن پیشرفت LLMها سریع میرن سراغ اخراج کارمنداشون، دارن راه رو اشتباه میرن. هیچ شرکتی نیست که بگه خب، کار ما تمومه و دیگه به آدم بیشتری نیاز نداریم.

نگاه درست اینه که از خودمون بپرسیم: «با این ابزارهای جدید و این همه بهره‌وری، چه کارهای خفن جدیدی می‌تونیم انجام بدیم؟» شرکت‌هایی که اینطوری فکر کنن و دنبال ساختن چیزهای جدید باشن، موفق میشن و در نهایت این نگاه باعث رشد و یه محیط کاری بهتر میشه.

این مدل‌ها واقعا می‌فهمن یا فقط حفظ می‌کنن؟

کلمه‌ی «حفظ کردن» (Memorization) تو دنیای هوش مصنوعی یه جورایی بد جا افتاده و معمولا اشتباه برداشت میشه. مدل‌ها از نظر ریاضی نمی‌تونن کل داده‌های آموزشی‌شون رو حفظ کنن، چون تعداد پارامترهاشون از حجم فشرده‌شده‌ی داده‌ها کمتره. در واقع، اون‌ها یه نمایش فشرده یا همون خلاصه از داده‌ها درست می‌کنن که به نظر من، این همون جوهره‌ی «درک» و «هوشه».

آره، یه سری چیزها رو حفظ می‌کنن، درست مثل ما آدم‌ها که وقتی یه چیزی رو زیاد می‌بینیم، حفظش می‌کنیم. اما اینکه مدل‌ها یه چیزایی رو حفظ می‌کنن، با این سؤال که آیا «می‌فهمن» یا «استدلال می‌کنن»، ارتباط مستقیمی نداره. این دوتا بحث جدا از همن.

معیار فهمیدن و استدلال کردن اینه که ببینیم مدل از پس چه کارهایی برمیاد. مدل‌های زبان بزرگ می‌تونن کارهایی رو انجام بدن که تو موقعیت‌های جدید نیاز به استدلال داره. به نظر من این یه نشونه‌ی واضحه که مدل‌ها واقعا درک و استدلال دارن. این حرف که «چون کارشون پیش‌بینی کلمه‌ی بعدیه، پس نمی‌تونن فکر کنن»، به نظرم یه نتیجه‌گیری اشتباه و کلا بی‌ربطه.

یه توصیه به همه بچه‌های حوزه هوش مصنوعی

توصیه‌ای که برای هر دو گروه، یعنی بچه‌های دانشگاهی و فعالان صنعت دارم، تقریبا یکیه.

اول از همه اینکه، اگه هنوز این کار رو نمی‌کنید، شروع کنید و خیلی خیلی بیشتر از این ابزارها استفاده کنید. من خودم هر روز از ابزارهای هوش مصنوعی استفاده می‌کنم؛ اینا مثل یه ابرقدرت می‌مونن. برای اینکه بفهمید الان تو چه کارهایی خوبن و تو چه کارهایی نه، باید ازشون استفاده کنید.
دوم، که شاید بیشتر به درد بچه‌های صنعت بخوره، اینه که برید و اصول بنیادی نحوه کار LLMها رو یاد بگیرید. ریاضیاتش سخت نیست و در حد دبیرستانه. کل کد یه مدل زبان ساده با پایتون، شاید ۲۰۰ خط هم نشه. این سیستم‌ها به طرز شگفت‌انگیزی ساده و قشنگن. وقت بذارید و خودتون یه بار پیاده‌سازیشون کنید؛ نه برای اینکه LLM خودتون رو بسازید، بلکه برای اینکه عمیقا بفهمید چطور کار می‌کنن. اینکه ببینی چطور یه ذره کد می‌تونه همچین چیزهای فوق‌العاده‌ای بسازه، یه تجربه‌ی خیلی باحال و فروتنانه (humbling) است که به نظرم هر برنامه‌نویسی که با هوش مصنوعی سر و کار داره باید یه بار انجامش بده.

منبع: یوتیوب