۱۴ مرداد ۱۴۰۴

معرفی Genie 3 گوگل، چگونه با یک دستور متنی، دنیاهای تعاملی و قابل بازی بسازیم؟

گوگل دیپ‌مایند از یه مدل هوش مصنوعی جدید به اسم Genie 3 رونمایی کرده که به عنوان یک «مدل جهان» یا world model همه‌کاره شناخته میشه. این مدل میتونه دنیاهای تعاملی بسیار متنوعی رو تولید کنه. فقط کافیه یه دستور متنی بهش بدی تا Genie 3 یک دنیای پویا بسازه که میتونی با سرعت ۲۴ فریم در ثانیه و رزولوشن 720p توش حرکت کنی و این دنیا برای چند دقیقه یکپارچگی و ثبات خودش رو حفظ میکنه.

این مدل در واقع قدم جدید گوگل برای رسیدن به هوش مصنوعی عمومی (AGI) به حساب میاد؛ یعنی سطحی از هوش مصنوعی که یک سیستم بتونه بیشتر کارها رو در حد یک انسان انجام بده، نه فقط کارهای مشخصی مثل شطرنج بازی کردن یا ترجمه.

مدل‌های جهان دقیقا چی هستن؟

گوگل دیپ‌مایند بیشتر از یک دهه است که روی محیط‌های شبیه‌سازی شده تحقیق میکنه؛ از آموزش دادن به ایجنت‌ها برای حرفه‌ای شدن توی بازی‌های استراتژیک ریل-تایم گرفته تا ساختن محیط‌های شبیه‌سازی برای یادگیری بی‌پایان و رباتیک. همین تحقیقات باعث شد اونها به سمت ساخت «مدل‌های جهان» برن. این مدلها سیستم‌های هوش مصنوعی هستن که با درک خودشون از دنیا، میتونن جنبه‌هایی از اون رو شبیه‌سازی کنن. اینطوری ایجنت‌ها (سیستم‌هایی که به طور خودکار وظایف رو انجام میدن) میتونن پیش‌بینی کنن که یک محیط چطور تغییر میکنه و کارهای اونها چه تاثیری روش میذاره.

مدل‌های جهان یک پله مهم برای رسیدن به AGI به حساب میان، چون میشه ایجنت‌های هوش مصنوعی رو در تعداد نامحدودی از محیط‌های شبیه‌سازی شده غنی آموزش داد. سال گذشته دیپ‌مایند با مدل‌های Genie 1 و Genie 2 اولین مدل‌های جهان پایه‌ای رو معرفی کرد. اونها همچنین با مدل‌های تولید ویدیوی Veo 2 و Veo 3 که درک خوبی از فیزیک شهودی دارن، مرزهای این تکنولوژی رو جابجا کردن.

Genie 3 اولین مدل جهانیه که اجازه تعامل ریل-تایم (در لحظه) رو میده و در مقایسه با Genie 2، ثبات و واقع‌گرایی بیشتری هم داره.

قابلیت‌های اصلی Genie 3

توانایی‌های این مدل خیلی متنوعه. اینجا چند نمونه از کارهایی که Genie 3 میتونه انجام بده رو میبینیم:

شبیه‌سازی دنیای واقعی و قوانین فیزیک: پدیده‌های طبیعی مثل آب و نور و تعامل‌های پیچیده محیطی رو تجربه میکنی.
ساختن دنیای طبیعی: اکوسیستم‌های پرجنب‌وجوش، از رفتار حیوانات گرفته تا زندگی گیاهی پیچیده رو تولید میکنه.
مدل‌سازی انیمیشن و داستان: میتونه به دنیای تخیل وارد بشه و سناریوهای فانتزی و شخصیت‌های انیمیشنی выразительные رو بسازه.
گشت‌وگذار در مکان‌ها و دوره‌های تاریخی: مرزهای جغرافیایی و زمانی رو کنار میزنه تا بتونی مکان‌ها و عصرهای گذشته رو کشف کنی.

چالش‌های فنی و پیشرفت‌ها

رسیدن به سطح بالایی از کنترل‌پذیری و تعامل ریل-تایم در Genie 3 نیاز به پیشرفت‌های فنی قابل توجهی داشته. موقع تولید هر فریم به صورت خودبازگشتی (auto-regressive)، مدل باید مسیری که قبلا تولید شده و در طول زمان طولانی‌تر میشه رو در نظر بگیره. مثلا، اگه کاربر بعد از یک دقیقه به یه جای قبلی برگرده، مدل باید اطلاعات مربوط به یک دقیقه پیش رو به یاد بیاره. برای اینکه تعامل ریل-تایم باشه، این محاسبات باید در جواب به دستورات جدید کاربر، چندین بار در ثانیه انجام بشه.

یکی دیگه از چالش‌ها، حفظ ثبات محیط در مدت زمان طولانیه. برای اینکه دنیاهای ساخته شده با هوش مصنوعی جذاب باشن، باید از نظر فیزیکی برای مدت طولانی ثابت بمونن. تولید یک محیط به صورت خودبازگشتی معمولا از تولید یک ویدیوی کامل سخت‌تره، چون اشتباهات به مرور زمان روی هم جمع میشن. با وجود این چالش، محیط‌های Genie 3 برای چند دقیقه تا حد زیادی ثابت میمونن و حافظه بصری اون تا یک دقیقه قبل رو هم پوشش میده.

این ثبات در Genie 3 یک قابلیت خودبه‌خودی (emergent) به حساب میاد. روش‌های دیگه‌ای مثل NeRFs و Gaussian Splatting هم میتونن محیط‌های سه‌بعدی ثابت و قابل گشت‌وگذار بسازن، اما اونها به یک نمایش سه‌بعدی صریح نیاز دارن. در مقابل، دنیاهای ساخته شده با Genie 3 خیلی پویاتر و غنی‌تر هستن چون فریم به فریم بر اساس توصیف دنیا و کارهای کاربر ساخته میشن.

رویدادهای جهانی قابل دستور (Promptable world events)

علاوه بر دستورهای حرکتی، Genie 3 یک نوع تعامل متنی выразительные‌تر رو هم ممکن کرده که بهش «رویدادهای جهانی قابل دستور» میگن. با این قابلیت میشه دنیای ساخته شده رو تغییر داد؛ مثلا شرایط آب‌وهوایی رو عوض کرد یا اشیا و شخصیت‌های جدیدی رو به محیط اضافه کرد. این توانایی همچنین گستره سناریوهای «چه میشد اگر» (counterfactual) رو بیشتر میکنه که برای آموزش ایجنت‌ها در مواجهه با شرایط غیرمنتظره خیلی مفیده.

کاربرد در آموزش ایجنت‌های هوشمند

برای آزمایش سازگاری دنیاهای ساخته شده با Genie 3 برای آموزش ایجنت‌ها در آینده، دیپ‌مایند دنیاهایی رو برای نسخه جدیدی از ایجنت SIMA (ایجنتی همه‌کاره برای محیط‌های مجازی سه‌بعدی) تولید کرد. در هر دنیا، اونها به ایجنت دستور دادن تا چند هدف مشخص رو دنبال کنه و ایجنت هم با فرستادن دستورهای حرکتی به Genie 3 سعی کرد به اون اهداف برسه. مثل هر محیط دیگه‌ای، Genie 3 از هدف ایجنت خبر نداره و فقط آینده رو بر اساس کارهای ایجنت شبیه‌سازی میکنه.

مثلا در یک محیط انبار، از ایجنت SIMA خواسته شد کارهایی مثل «به سمت کمپکتور زباله سبز روشن برو» یا «به سمت لیفتراک قرمز پر شده برو» رو انجام بده و ایجنت تونست به این اهداف برسه. چون Genie 3 میتونه ثبات رو حفظ کنه، حالا میشه دنباله‌های طولانی‌تری از کارها رو انجام داد و به اهداف پیچیده‌تری رسید. دیپ‌مایند انتظار داره این تکنولوژی نقش مهمی در مسیر رسیدن به AGI داشته باشه.

پروفسور سوبرامانیان رامامورتی، رئیس بخش یادگیری ربات و خودگردانی در دانشگاه ادینبرو، میگه مدل‌های جهان برای توسعه ربات‌ها «بسیار مهم» هستن و اضافه میکنه: «برای رسیدن به تصمیم‌گیری منعطف، ربات‌ها باید عواقب کارهای مختلف رو پیش‌بینی کنن تا بهترین کار رو برای اجرا در دنیای فیزیکی انتخاب کنن.»

اندرو روگویسکی از موسسه هوش مصنوعی انسان-محور در دانشگاه ساری هم میگه مدل‌های جهان میتونن به مدل‌های زبان بزرگ (مثل ChatGPT) کمک کنن: «اگه به یک هوش مصنوعی بدون جسم این توانایی رو بدی که به صورت مجازی جسمیت پیدا کنه، اون هوش مصنوعی میتونه دنیا رو کشف کنه و در نتیجه توانایی‌هاش بیشتر بشه.»

محدودیت‌های فعلی Genie 3

با اینکه Genie 3 مرزهای کاری که مدل‌های جهان میتونن انجام بدن رو جابجا میکنه، مهمه که محدودیت‌های فعلی اون رو هم بدونیم:

فضای عمل محدود: با اینکه رویدادهای جهانی قابل دستور امکان دخالت‌های محیطی زیادی رو فراهم میکنن، این کارها لزوما توسط خود ایجنت انجام نمیشن. دامنه کارهایی که ایجنت‌ها میتونن مستقیما انجام بدن فعلا محدوده.
شبیه‌سازی تعامل بین چند ایجنت: مدل‌سازی دقیق تعاملات پیچیده بین چند ایجنت مستقل در محیط‌های مشترک هنوز یک چالش تحقیقاتی در حال انجامه.
نمایش دقیق مکان‌های واقعی: Genie 3 در حال حاضر نمیتونه مکان‌های دنیای واقعی رو با دقت جغرافیایی کامل شبیه‌سازی کنه.
رندر کردن متن: متن خوانا و واضح معمولا فقط وقتی تولید میشه که در توصیف ورودی دنیا داده شده باشه.
مدت زمان تعامل محدود: این مدل در حال حاضر میتونه چند دقیقه تعامل مداوم رو پشتیبانی کنه، نه ساعت‌های طولانی.

منابع

[۱] Genie 3: A new frontier for world models – Google DeepMind
[۲] DeepMind thinks its new Genie 3 world model presents a stepping stone toward AGI | TechCrunch
[۳] Google says its new ‘world model’ could train AI robots in virtual warehouses | Artificial intelligence (AI) | The Guardian
[۴] DeepMind reveals Genie 3 “world model” that creates real-time interactive simulations – Ars Technica

گوگل مدل‌های هوش‌مصنوعی