گفته میشه شرکت دیپمایند (DeepMind) داره روی سیستمی کار میکنه که به مأمورهای هوش مصنوعی (AI agents) یه جور «مونولوگ درونی» میده تا بهشون کمک کنه کارها رو بهینهتر یاد بگیرن.
آزمایشگاه هوش مصنوعی گوگل تو یه پتنت (درخواست ثبت اختراع) که اخیراً ثبت کرده، از روشی به اسم «گفتار درون-مأمور برای تسهیل یادگیری وظیفه» (intra-agent speech to facilitate task learning) رونمایی کرده. تو این روش، رباتها از طریق عکس یا ویدیو، انجام شدن یه کار رو تماشا میکنن و بعد، یه توصیف به زبان طبیعی از چیزی که میبینن، تولید میکنن.
این روایتگری درونی کمک میکنه تا ورودیهای بصری به اقدامات ربات مرتبط بشن. این قابلیت، یادگیری «بدون پیشآموزش» یا اصطلاحاً zero-shot رو ممکن میکنه و به مأمورهای هوش مصنوعی اجازه میده اشیای ناآشنا رو بدون آموزش قبلی بفهمن و باهاشون تعامل کنن و در عین حال، نیاز به حافظه و قدرت پردازشی رو هم کمتر میکنه.
هفته گذشته، دیپمایند در یک پیشرفت بزرگ در زمینه ژنومیک، یک مدل هوش مصنوعی قدرتمند رو معرفی کرد که میتونه پیشبینی کنه چطور جهشهای دیانای (DNA) مجزا بر سیستمهای پیچیدهای که فعالیت ژنها رو کنترل میکنن، تأثیر میگذارن.
رباتها صاحب صدا میشوند
دیپمایند داره روش جدیدی رو برای کمک به یادگیری رباتها امتحان میکنه: دادن یک «مونولوگ درونی» به اونها.
به گزارش وبسایت The Daily Upside، این آزمایشگاه هوش مصنوعی که متعلق به گوگله، در یک درخواست ثبت اختراع جدید، جزئیات سیستمی رو شرح داده که به مأمورهای هوش مصنوعی اجازه میده ویدیوها یا تصاویر یک فرد در حال انجام کاری رو تماشا کنن و بعد، به زبان طبیعی، توصیفهایی از چیزی که میبینن تولید کنن. برای مثال، یک ربات ممکنه ویدیوی برداشتن یک فنجان توسط یک نفر رو ببینه و همزمان در درون خودش عبارت «شخص فنجان را برمیدارد» رو پردازش کنه.
این فرآیند به ربات این امکان رو میده که ورودیهای بصری رو با گفتار درونی خودش جفت کنه و بهش کمک میکنه تا وقتی با اشیای مشابهی روبرو میشه، اقدامات درست رو بفهمه و به خاطر بیاره. این تکنیک از چیزی که بهش «یادگیری بدون پیشآموزش» یا zero-shot learning میگن، پشتیبانی میکنه؛ یعنی ربات میتونه کارهایی رو که شامل اشیای ناآشنا هستن، بدون آموزش قبلی انجام بده. دیپمایند اشاره میکنه که این روش، حافظه و قدرت محاسباتی مورد نیاز برای آموزش سیستمهای رباتیک رو هم کاهش میده.
این پروژه بر پایه تلاشهای گستردهتر دیپمایند در حوزه رباتیک ساخته شده. هفته گذشته، این شرکت از مدل ‘Gemini Robotics On-Device’ رونمایی کرد که برای کار کردن بدون نیاز به دسترسی ابری (cloud) طراحی شده. گوگل میگه این مدل اونقدر جمعوجور و بهینه است که میتونه مستقیماً روی خود ربات اجرا بشه.
به گزارش The Daily Upside، با اضافه شدن گفتار درونی، رباتها به یک زمینه و درک ارزشمند دست پیدا میکنن که به اونها اجازه میده تصمیمات بهتری بگیرن و با موقعیتهای جدید به شکل مؤثرتری سازگار بشن. این نوآوری میتونه به شکل قابل توجهی نحوه یادگیری و عملکرد رباتها رو در محیطهای پویا و واقعی بهبود ببخشه.
هوش مصنوعی خودران، بدون اتصال به اینترنت
مدل Gemini Robotics On-Device یک نسخه از مدل زبان-تصویر Gemini Robotics است که روی خود دستگاه اجرا میشه و طوری ساخته شده که کاملاً روی رباتها کار کنه؛ بدون نیاز به اینترنت.
این مدل که برای محیطهای حساس به تأخیر یا آفلاین طراحی شده، در شرایط واقعی عملکردی سریع و قابل اطمینان ارائه میده. برخلاف نسخه متصل به فضای ابری، این مدل به صورت محلی (locally) اجرا میشه و به رباتها اجازه میده سریع واکنش نشون بدن و حریم خصوصی رو حفظ کنن؛ قابلیتی که به خصوص در حوزههای حساسی مثل مراقبتهای بهداشتی خیلی مفیده.
به گفته دیپمایند، مدل Gemini Robotics On-Device با وجود اینکه نسخهی سبکتریه، به طرز شگفتآوری قدرتمند ظاهر شده. این مدل قادره همون اول کار (out of the box) وظایفی رو انجام بده و میتونه فقط با ۵۰ تا ۱۰۰ بار نمایش یک کار، با وظایف جدید سازگار بشه. توسعهدهندگان گوگل اون رو «یک مدل استارتر» یا اولیه مینامند که برای پلتفرمهایی با اتصال محدود به اینترنت ایدهآله.
این مدل که در ابتدا روی ربات ALOHA گوگل آموزش دیده، برای رباتهای دیگهای مثل ربات انساننمای Apollo از شرکت Apptronik و ربات Franka FR3 هم سازگار شده. این مدل میتونه کارهای پیچیدهای مثل تا کردن لباس یا باز کردن زیپ کیف رو با کنترلی روان و تأخیر کم انجام بده.
توسعهدهندگان میتونن با کنترل از راه دور ربات (tele-operating) برای یادگیری کارهای جدید، این مدل رو بهینهسازی (fine-tune) کنن. به گفته دیپمایند، این مدل از شبیهسازی از طریق موتور فیزیکی Multi-Joint dynamics with Contact یا پیادهسازی در محیطهای فیزیکی واقعی پشتیبانی میکنه. با این حال، برخلاف مدل هیبریدی خودش، این نسخه روی دستگاه فاقد سیستمهای ایمنی معنایی (semantic safety systems) داخلی است. گوگل به توسعهدهندگان توصیه میکنه که پروتکلهای ایمنی خودشون رو پیادهسازی کنن و در حال حاضر، برای ارزیابی خطرات ایمنی در دنیای واقعی، دسترسی به این مدل رو به کاربران منتخب محدود کرده.
دیدگاهتان را بنویسید