GeekAlerts

جایی برای گیک‌ها

·

گوگل دیپ‌مایند «صدای درونی» را به ربات‌ها اضافه می‌کند

گوگل دیپ‌مایند «صدای درونی» را به ربات‌ها اضافه می‌کند

گفته می‌شه شرکت دیپ‌مایند (DeepMind) داره روی سیستمی کار می‌کنه که به مأمورهای هوش مصنوعی (AI agents) یه جور «مونولوگ درونی» می‌ده تا بهشون کمک کنه کارها رو بهینه‌تر یاد بگیرن.

آزمایشگاه هوش مصنوعی گوگل تو یه پتنت (درخواست ثبت اختراع) که اخیراً ثبت کرده، از روشی به اسم «گفتار درون-مأمور برای تسهیل یادگیری وظیفه» (intra-agent speech to facilitate task learning) رونمایی کرده. تو این روش، ربات‌ها از طریق عکس یا ویدیو، انجام شدن یه کار رو تماشا می‌کنن و بعد، یه توصیف به زبان طبیعی از چیزی که می‌بینن، تولید می‌کنن.

این روایت‌گری درونی کمک می‌کنه تا ورودی‌های بصری به اقدامات ربات مرتبط بشن. این قابلیت، یادگیری «بدون پیش‌آموزش» یا اصطلاحاً zero-shot رو ممکن می‌کنه و به مأمورهای هوش مصنوعی اجازه می‌ده اشیای ناآشنا رو بدون آموزش قبلی بفهمن و باهاشون تعامل کنن و در عین حال، نیاز به حافظه و قدرت پردازشی رو هم کمتر می‌کنه.

هفته گذشته، دیپ‌مایند در یک پیشرفت بزرگ در زمینه ژنومیک، یک مدل هوش مصنوعی قدرتمند رو معرفی کرد که می‌تونه پیش‌بینی کنه چطور جهش‌های دی‌ان‌ای (DNA) مجزا بر سیستم‌های پیچیده‌ای که فعالیت ژن‌ها رو کنترل می‌کنن، تأثیر می‌گذارن.

ربات‌ها صاحب صدا می‌شوند

دیپ‌مایند داره روش جدیدی رو برای کمک به یادگیری ربات‌ها امتحان می‌کنه: دادن یک «مونولوگ درونی» به اون‌ها.

به گزارش وب‌سایت The Daily Upside، این آزمایشگاه هوش مصنوعی که متعلق به گوگله، در یک درخواست ثبت اختراع جدید، جزئیات سیستمی رو شرح داده که به مأمورهای هوش مصنوعی اجازه می‌ده ویدیوها یا تصاویر یک فرد در حال انجام کاری رو تماشا کنن و بعد، به زبان طبیعی، توصیف‌هایی از چیزی که می‌بینن تولید کنن. برای مثال، یک ربات ممکنه ویدیوی برداشتن یک فنجان توسط یک نفر رو ببینه و هم‌زمان در درون خودش عبارت «شخص فنجان را برمی‌دارد» رو پردازش کنه.

این فرآیند به ربات این امکان رو می‌ده که ورودی‌های بصری رو با گفتار درونی خودش جفت کنه و بهش کمک می‌کنه تا وقتی با اشیای مشابهی روبرو می‌شه، اقدامات درست رو بفهمه و به خاطر بیاره. این تکنیک از چیزی که بهش «یادگیری بدون پیش‌آموزش» یا zero-shot learning می‌گن، پشتیبانی می‌کنه؛ یعنی ربات می‌تونه کارهایی رو که شامل اشیای ناآشنا هستن، بدون آموزش قبلی انجام بده. دیپ‌مایند اشاره می‌کنه که این روش، حافظه و قدرت محاسباتی مورد نیاز برای آموزش سیستم‌های رباتیک رو هم کاهش می‌ده.

این پروژه بر پایه تلاش‌های گسترده‌تر دیپ‌مایند در حوزه رباتیک ساخته شده. هفته گذشته، این شرکت از مدل ‘Gemini Robotics On-Device’ رونمایی کرد که برای کار کردن بدون نیاز به دسترسی ابری (cloud) طراحی شده. گوگل می‌گه این مدل اونقدر جمع‌وجور و بهینه است که می‌تونه مستقیماً روی خود ربات اجرا بشه.

به گزارش The Daily Upside، با اضافه شدن گفتار درونی، ربات‌ها به یک زمینه و درک ارزشمند دست پیدا می‌کنن که به اون‌ها اجازه می‌ده تصمیمات بهتری بگیرن و با موقعیت‌های جدید به شکل مؤثرتری سازگار بشن. این نوآوری می‌تونه به شکل قابل توجهی نحوه یادگیری و عملکرد ربات‌ها رو در محیط‌های پویا و واقعی بهبود ببخشه.

هوش مصنوعی خودران، بدون اتصال به اینترنت

مدل Gemini Robotics On-Device یک نسخه از مدل زبان-تصویر Gemini Robotics است که روی خود دستگاه اجرا می‌شه و طوری ساخته شده که کاملاً روی ربات‌ها کار کنه؛ بدون نیاز به اینترنت.

این مدل که برای محیط‌های حساس به تأخیر یا آفلاین طراحی شده، در شرایط واقعی عملکردی سریع و قابل اطمینان ارائه می‌ده. برخلاف نسخه متصل به فضای ابری، این مدل به صورت محلی (locally) اجرا می‌شه و به ربات‌ها اجازه می‌ده سریع واکنش نشون بدن و حریم خصوصی رو حفظ کنن؛ قابلیتی که به خصوص در حوزه‌های حساسی مثل مراقبت‌های بهداشتی خیلی مفیده.

به گفته دیپ‌مایند، مدل Gemini Robotics On-Device با وجود اینکه نسخه‌ی سبک‌تریه، به طرز شگفت‌آوری قدرتمند ظاهر شده. این مدل قادره همون اول کار (out of the box) وظایفی رو انجام بده و می‌تونه فقط با ۵۰ تا ۱۰۰ بار نمایش یک کار، با وظایف جدید سازگار بشه. توسعه‌دهندگان گوگل اون رو «یک مدل استارتر» یا اولیه می‌نامند که برای پلتفرم‌هایی با اتصال محدود به اینترنت ایده‌آله.

این مدل که در ابتدا روی ربات ALOHA گوگل آموزش دیده، برای ربات‌های دیگه‌ای مثل ربات انسان‌نمای Apollo از شرکت Apptronik و ربات Franka FR3 هم سازگار شده. این مدل می‌تونه کارهای پیچیده‌ای مثل تا کردن لباس یا باز کردن زیپ کیف رو با کنترلی روان و تأخیر کم انجام بده.

توسعه‌دهندگان می‌تونن با کنترل از راه دور ربات (tele-operating) برای یادگیری کارهای جدید، این مدل رو بهینه‌سازی (fine-tune) کنن. به گفته دیپ‌مایند، این مدل از شبیه‌سازی از طریق موتور فیزیکی Multi-Joint dynamics with Contact یا پیاده‌سازی در محیط‌های فیزیکی واقعی پشتیبانی می‌کنه. با این حال، برخلاف مدل هیبریدی خودش، این نسخه روی دستگاه فاقد سیستم‌های ایمنی معنایی (semantic safety systems) داخلی است. گوگل به توسعه‌دهندگان توصیه می‌کنه که پروتکل‌های ایمنی خودشون رو پیاده‌سازی کنن و در حال حاضر، برای ارزیابی خطرات ایمنی در دنیای واقعی، دسترسی به این مدل رو به کاربران منتخب محدود کرده.

منبع

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *