گوگل دیپمایند از یه مدل هوش مصنوعی جدید به اسم Genie 3 رونمایی کرده که به عنوان یک «مدل جهان» یا world model همهکاره شناخته میشه. این مدل میتونه دنیاهای تعاملی بسیار متنوعی رو تولید کنه. فقط کافیه یه دستور متنی بهش بدی تا Genie 3 یک دنیای پویا بسازه که میتونی با سرعت ۲۴ فریم در ثانیه و رزولوشن 720p توش حرکت کنی و این دنیا برای چند دقیقه یکپارچگی و ثبات خودش رو حفظ میکنه.
این مدل در واقع قدم جدید گوگل برای رسیدن به هوش مصنوعی عمومی (AGI) به حساب میاد؛ یعنی سطحی از هوش مصنوعی که یک سیستم بتونه بیشتر کارها رو در حد یک انسان انجام بده، نه فقط کارهای مشخصی مثل شطرنج بازی کردن یا ترجمه.
مدلهای جهان دقیقا چی هستن؟
گوگل دیپمایند بیشتر از یک دهه است که روی محیطهای شبیهسازی شده تحقیق میکنه؛ از آموزش دادن به ایجنتها برای حرفهای شدن توی بازیهای استراتژیک ریل-تایم گرفته تا ساختن محیطهای شبیهسازی برای یادگیری بیپایان و رباتیک. همین تحقیقات باعث شد اونها به سمت ساخت «مدلهای جهان» برن. این مدلها سیستمهای هوش مصنوعی هستن که با درک خودشون از دنیا، میتونن جنبههایی از اون رو شبیهسازی کنن. اینطوری ایجنتها (سیستمهایی که به طور خودکار وظایف رو انجام میدن) میتونن پیشبینی کنن که یک محیط چطور تغییر میکنه و کارهای اونها چه تاثیری روش میذاره.
مدلهای جهان یک پله مهم برای رسیدن به AGI به حساب میان، چون میشه ایجنتهای هوش مصنوعی رو در تعداد نامحدودی از محیطهای شبیهسازی شده غنی آموزش داد. سال گذشته دیپمایند با مدلهای Genie 1 و Genie 2 اولین مدلهای جهان پایهای رو معرفی کرد. اونها همچنین با مدلهای تولید ویدیوی Veo 2 و Veo 3 که درک خوبی از فیزیک شهودی دارن، مرزهای این تکنولوژی رو جابجا کردن.
Genie 3 اولین مدل جهانیه که اجازه تعامل ریل-تایم (در لحظه) رو میده و در مقایسه با Genie 2، ثبات و واقعگرایی بیشتری هم داره.
قابلیتهای اصلی Genie 3
تواناییهای این مدل خیلی متنوعه. اینجا چند نمونه از کارهایی که Genie 3 میتونه انجام بده رو میبینیم:
- شبیهسازی دنیای واقعی و قوانین فیزیک: پدیدههای طبیعی مثل آب و نور و تعاملهای پیچیده محیطی رو تجربه میکنی.
- ساختن دنیای طبیعی: اکوسیستمهای پرجنبوجوش، از رفتار حیوانات گرفته تا زندگی گیاهی پیچیده رو تولید میکنه.
- مدلسازی انیمیشن و داستان: میتونه به دنیای تخیل وارد بشه و سناریوهای فانتزی و شخصیتهای انیمیشنی выразительные رو بسازه.
- گشتوگذار در مکانها و دورههای تاریخی: مرزهای جغرافیایی و زمانی رو کنار میزنه تا بتونی مکانها و عصرهای گذشته رو کشف کنی.
چالشهای فنی و پیشرفتها
رسیدن به سطح بالایی از کنترلپذیری و تعامل ریل-تایم در Genie 3 نیاز به پیشرفتهای فنی قابل توجهی داشته. موقع تولید هر فریم به صورت خودبازگشتی (auto-regressive)، مدل باید مسیری که قبلا تولید شده و در طول زمان طولانیتر میشه رو در نظر بگیره. مثلا، اگه کاربر بعد از یک دقیقه به یه جای قبلی برگرده، مدل باید اطلاعات مربوط به یک دقیقه پیش رو به یاد بیاره. برای اینکه تعامل ریل-تایم باشه، این محاسبات باید در جواب به دستورات جدید کاربر، چندین بار در ثانیه انجام بشه.
یکی دیگه از چالشها، حفظ ثبات محیط در مدت زمان طولانیه. برای اینکه دنیاهای ساخته شده با هوش مصنوعی جذاب باشن، باید از نظر فیزیکی برای مدت طولانی ثابت بمونن. تولید یک محیط به صورت خودبازگشتی معمولا از تولید یک ویدیوی کامل سختتره، چون اشتباهات به مرور زمان روی هم جمع میشن. با وجود این چالش، محیطهای Genie 3 برای چند دقیقه تا حد زیادی ثابت میمونن و حافظه بصری اون تا یک دقیقه قبل رو هم پوشش میده.
این ثبات در Genie 3 یک قابلیت خودبهخودی (emergent) به حساب میاد. روشهای دیگهای مثل NeRFs و Gaussian Splatting هم میتونن محیطهای سهبعدی ثابت و قابل گشتوگذار بسازن، اما اونها به یک نمایش سهبعدی صریح نیاز دارن. در مقابل، دنیاهای ساخته شده با Genie 3 خیلی پویاتر و غنیتر هستن چون فریم به فریم بر اساس توصیف دنیا و کارهای کاربر ساخته میشن.
رویدادهای جهانی قابل دستور (Promptable world events)
علاوه بر دستورهای حرکتی، Genie 3 یک نوع تعامل متنی выразительныеتر رو هم ممکن کرده که بهش «رویدادهای جهانی قابل دستور» میگن. با این قابلیت میشه دنیای ساخته شده رو تغییر داد؛ مثلا شرایط آبوهوایی رو عوض کرد یا اشیا و شخصیتهای جدیدی رو به محیط اضافه کرد. این توانایی همچنین گستره سناریوهای «چه میشد اگر» (counterfactual) رو بیشتر میکنه که برای آموزش ایجنتها در مواجهه با شرایط غیرمنتظره خیلی مفیده.
کاربرد در آموزش ایجنتهای هوشمند
برای آزمایش سازگاری دنیاهای ساخته شده با Genie 3 برای آموزش ایجنتها در آینده، دیپمایند دنیاهایی رو برای نسخه جدیدی از ایجنت SIMA (ایجنتی همهکاره برای محیطهای مجازی سهبعدی) تولید کرد. در هر دنیا، اونها به ایجنت دستور دادن تا چند هدف مشخص رو دنبال کنه و ایجنت هم با فرستادن دستورهای حرکتی به Genie 3 سعی کرد به اون اهداف برسه. مثل هر محیط دیگهای، Genie 3 از هدف ایجنت خبر نداره و فقط آینده رو بر اساس کارهای ایجنت شبیهسازی میکنه.
مثلا در یک محیط انبار، از ایجنت SIMA خواسته شد کارهایی مثل «به سمت کمپکتور زباله سبز روشن برو» یا «به سمت لیفتراک قرمز پر شده برو» رو انجام بده و ایجنت تونست به این اهداف برسه. چون Genie 3 میتونه ثبات رو حفظ کنه، حالا میشه دنبالههای طولانیتری از کارها رو انجام داد و به اهداف پیچیدهتری رسید. دیپمایند انتظار داره این تکنولوژی نقش مهمی در مسیر رسیدن به AGI داشته باشه.
پروفسور سوبرامانیان رامامورتی، رئیس بخش یادگیری ربات و خودگردانی در دانشگاه ادینبرو، میگه مدلهای جهان برای توسعه رباتها «بسیار مهم» هستن و اضافه میکنه: «برای رسیدن به تصمیمگیری منعطف، رباتها باید عواقب کارهای مختلف رو پیشبینی کنن تا بهترین کار رو برای اجرا در دنیای فیزیکی انتخاب کنن.»
اندرو روگویسکی از موسسه هوش مصنوعی انسان-محور در دانشگاه ساری هم میگه مدلهای جهان میتونن به مدلهای زبان بزرگ (مثل ChatGPT) کمک کنن: «اگه به یک هوش مصنوعی بدون جسم این توانایی رو بدی که به صورت مجازی جسمیت پیدا کنه، اون هوش مصنوعی میتونه دنیا رو کشف کنه و در نتیجه تواناییهاش بیشتر بشه.»
محدودیتهای فعلی Genie 3
با اینکه Genie 3 مرزهای کاری که مدلهای جهان میتونن انجام بدن رو جابجا میکنه، مهمه که محدودیتهای فعلی اون رو هم بدونیم:
- فضای عمل محدود: با اینکه رویدادهای جهانی قابل دستور امکان دخالتهای محیطی زیادی رو فراهم میکنن، این کارها لزوما توسط خود ایجنت انجام نمیشن. دامنه کارهایی که ایجنتها میتونن مستقیما انجام بدن فعلا محدوده.
- شبیهسازی تعامل بین چند ایجنت: مدلسازی دقیق تعاملات پیچیده بین چند ایجنت مستقل در محیطهای مشترک هنوز یک چالش تحقیقاتی در حال انجامه.
- نمایش دقیق مکانهای واقعی: Genie 3 در حال حاضر نمیتونه مکانهای دنیای واقعی رو با دقت جغرافیایی کامل شبیهسازی کنه.
- رندر کردن متن: متن خوانا و واضح معمولا فقط وقتی تولید میشه که در توصیف ورودی دنیا داده شده باشه.
- مدت زمان تعامل محدود: این مدل در حال حاضر میتونه چند دقیقه تعامل مداوم رو پشتیبانی کنه، نه ساعتهای طولانی.
منابع
- [۱] Genie 3: A new frontier for world models – Google DeepMind
- [۲] DeepMind thinks its new Genie 3 world model presents a stepping stone toward AGI | TechCrunch
- [۳] Google says its new ‘world model’ could train AI robots in virtual warehouses | Artificial intelligence (AI) | The Guardian
- [۴] DeepMind reveals Genie 3 “world model” that creates real-time interactive simulations – Ars Technica
دیدگاهتان را بنویسید