زیکو کولتر، استاد و رئیس دپارتمان یادگیری ماشین در دانشگاه کارنگی ملون (CMU)، عضو هیئت مدیره OpenAI و از بنیانگذاران استارتاپ Gray Swan، یکی از چهرههای مهم و تأثیرگذار در دنیای هوش مصنوعی است. در این گپوگفت، زیکو آمده تا نظرش را در مورد چندتا از بحثهای داغ این روزها، از جمله کلکل همیشگی دانشگاه و صنعت، آینده پژوهش، مسیر رسیدن به هوش مصنوعی جامع (AGI) و چند توصیه برای بچههای این حوزه با ما در میان بگذارد.
دانشگاه یا صنعت؟ یه تصمیم شخصی که ارزشش رو داره
انتخاب بین دانشگاه و صنعت یه تصمیم کاملا شخصیه. با اینکه من خودم کل عمرم تو دانشگاه بودم و طبیعتا خیلی براش ارزش قائلم، واقعیت اینه که هنوزم بهترین محققهای آزمایشگاههای بزرگ صنعتی، مدرک دکترا دارن. یاد گرفتن فوتوفن علم توی محیط دانشگاهی، یه ارزش اساسی داره که به این زودیا هم از بین نمیره.
البته که دانشگاهها از نظر قدرت محاسباتی (همون Compute) اصلا با صنعت قابل مقایسه نیستن و این فاصله هم قرار نیست پر بشه. اما دانشگاهها هنوزم میتونن کارهای بزرگی بکنن.
- اول اینکه، به لطف چیزی به اسم قوانین مقیاسپذیری (Scaling Laws)، ما میتونیم با امکانات کمتر (مثل چیزی که تو CMU داریم) نشون بدیم که یه ایده چقدر پتانسیل داره. اگه یه ایده تو مقیاس کوچیک جواب بده، این خودش یه دلیل محکمه که تو مقیاسهای بزرگتر هم موفق میشه.
- دوم اینکه، یه سری بخشهای مهم مثل ایمنی، امنیت و ارزیابی مدلها، به تحقیقات پایهای نیاز دارن که لزوما به کامپیوترهای غولپیکر وابسته نیستن. این حوزهها هنوزم میتونن از کارهای بچههای دانشگاهی کلی سود ببرن و دانشگاهها میتونن مسیرهای اصلی تحقیق رو مشخص کنن؛ البته با همکاری نزدیک با صنعت که این روزها بخش بزرگی از تجربهی ما از هوش مصنوعی رو میسازه.
آینده پژوهش: هوش مصنوعی در خدمت بقیهی علوم
من واقعا به آینده هوش مصنوعی برای علم (AI for Science) امید دارم و خیلی بهش خوشبینم. به همون اندازه که به کارهای پایهای تو خود هوش مصنوعی اعتقاد دارم، فکر میکنم حتی بیشتر از اون نیاز داریم که از هوش مصنوعی تو بقیهی رشتههای علمی استفاده کنیم. اکثر دنیای علم دارن روی چیزهایی مثل زیستشناسی، شیمی، فیزیک و مواد کار میکنن؛ حوزههایی که یه نوآوری توشون ممکنه سالها طول بکشه.
ابزارهایی که ما امروز تو هوش مصنوعی داریم، میتونن تو همهی این زمینهها یه انقلاب به پا کنن. از سرعت دادن به تحقیقات همجوشی هستهای گرفته تا کشفهای جدید تو علوم پایه، کلی کار نکرده روی زمین مونده. دهههای آینده، بیشتر از اینکه روی خود هوش مصنوعی کار کنیم، وقتمون رو صرف استفاده از همین دستاوردها برای حل کردن مشکلات بزرگ علمی میکنیم. البته این کار حتما باید با همکاری نزدیک بین متخصصهای هوش مصنوعی و دانشمندای اون رشتهها انجام بشه.
مسیر رسیدن به هوش مصنوعی جامع (AGI)
این البته نظر شخصی منه، ولی فکر میکنم مسیری که الان داریم میریم، آخرش ما رو به هوش مصنوعی جامع (AGI) میرسونه. بزرگترین مانع این بود که بفهمیم یه معماری به اندازه کافی بزرگ که برای پیشبینی متن آموزش دیده، میتونه «هوش» تولید کنه. این یه کشف بود، نه یه اختراع مهندسی.
به نظر من، معماریها اونقدرها هم مهم نیستن. معماری ترنسفورمر کار راهاندازه، ولی لزوما «بهینه» نیست. درس بزرگی که تو این چند سال از یادگیری عمیق گرفتیم اینه که اگه ترنسفورمر هم نبود، با معماریهای دیگه مثل شبکههای کانولوشنی یا بازگشتی هم میتونستیم همین کارها رو بکنیم. اصل داستان، دادهها و روش آموزشه، نه خود معماری. با همین معماریهای فعلی، یه کم مهندسی بیشتر، ابزارهای بهتر و دادههای بیشتر، به چیزی میرسیم که اکثر ما بهش میگیم AGI.
ایمنی، امنیت و داستانهای اجتماعی هوش مصنوعی
ببینید، وقتی من از ایمنی و امنیت مدلهای زبان بزرگ (LLM) حرف میزنم، منظورم اینه که بتونیم مدلها رو وادار کنیم از یه سری قوانین مشخص پیروی کنن. این ایمنی فنی میتونه جلوی بعضی از بدترین اتفاقها رو بگیره.
اما ریسکهای بزرگتر اجتماعی مثل جابجایی شغلی، یه داستان دیگهان. اینها ریسکهای «تکاملی» هستن که با هر تکنولوژی خفن جدیدی پیش میان. با این حال، به نظرم شرکتهایی که با دیدن پیشرفت LLMها سریع میرن سراغ اخراج کارمنداشون، دارن راه رو اشتباه میرن. هیچ شرکتی نیست که بگه خب، کار ما تمومه و دیگه به آدم بیشتری نیاز نداریم.
نگاه درست اینه که از خودمون بپرسیم: «با این ابزارهای جدید و این همه بهرهوری، چه کارهای خفن جدیدی میتونیم انجام بدیم؟» شرکتهایی که اینطوری فکر کنن و دنبال ساختن چیزهای جدید باشن، موفق میشن و در نهایت این نگاه باعث رشد و یه محیط کاری بهتر میشه.
این مدلها واقعا میفهمن یا فقط حفظ میکنن؟
کلمهی «حفظ کردن» (Memorization) تو دنیای هوش مصنوعی یه جورایی بد جا افتاده و معمولا اشتباه برداشت میشه. مدلها از نظر ریاضی نمیتونن کل دادههای آموزشیشون رو حفظ کنن، چون تعداد پارامترهاشون از حجم فشردهشدهی دادهها کمتره. در واقع، اونها یه نمایش فشرده یا همون خلاصه از دادهها درست میکنن که به نظر من، این همون جوهرهی «درک» و «هوشه».
آره، یه سری چیزها رو حفظ میکنن، درست مثل ما آدمها که وقتی یه چیزی رو زیاد میبینیم، حفظش میکنیم. اما اینکه مدلها یه چیزایی رو حفظ میکنن، با این سؤال که آیا «میفهمن» یا «استدلال میکنن»، ارتباط مستقیمی نداره. این دوتا بحث جدا از همن.
معیار فهمیدن و استدلال کردن اینه که ببینیم مدل از پس چه کارهایی برمیاد. مدلهای زبان بزرگ میتونن کارهایی رو انجام بدن که تو موقعیتهای جدید نیاز به استدلال داره. به نظر من این یه نشونهی واضحه که مدلها واقعا درک و استدلال دارن. این حرف که «چون کارشون پیشبینی کلمهی بعدیه، پس نمیتونن فکر کنن»، به نظرم یه نتیجهگیری اشتباه و کلا بیربطه.
یه توصیه به همه بچههای حوزه هوش مصنوعی
توصیهای که برای هر دو گروه، یعنی بچههای دانشگاهی و فعالان صنعت دارم، تقریبا یکیه.
- اول از همه اینکه، اگه هنوز این کار رو نمیکنید، شروع کنید و خیلی خیلی بیشتر از این ابزارها استفاده کنید. من خودم هر روز از ابزارهای هوش مصنوعی استفاده میکنم؛ اینا مثل یه ابرقدرت میمونن. برای اینکه بفهمید الان تو چه کارهایی خوبن و تو چه کارهایی نه، باید ازشون استفاده کنید.
- دوم، که شاید بیشتر به درد بچههای صنعت بخوره، اینه که برید و اصول بنیادی نحوه کار LLMها رو یاد بگیرید. ریاضیاتش سخت نیست و در حد دبیرستانه. کل کد یه مدل زبان ساده با پایتون، شاید ۲۰۰ خط هم نشه. این سیستمها به طرز شگفتانگیزی ساده و قشنگن. وقت بذارید و خودتون یه بار پیادهسازیشون کنید؛ نه برای اینکه LLM خودتون رو بسازید، بلکه برای اینکه عمیقا بفهمید چطور کار میکنن. اینکه ببینی چطور یه ذره کد میتونه همچین چیزهای فوقالعادهای بسازه، یه تجربهی خیلی باحال و فروتنانه (humbling) است که به نظرم هر برنامهنویسی که با هوش مصنوعی سر و کار داره باید یه بار انجامش بده.
منبع: یوتیوب
دیدگاهتان را بنویسید