ربات‌های خودآموز با کنترل مبتنی بر بینایی با میدان‌های ژاکوبین عصبی

مدت زمان مطالعه: حدود ۱۵ دقیقه

اهداف:

فهمیدن اینکه چطور یک هوش مصنوعی میتونه فقط با دیدن، کنترل ربات‌ها رو یاد بگیره.
آشنایی با سیستمی به اسم «میدان‌های ژاکوبین عصبی» یا NJF.
دیدن کاربردهای این تکنولوژی روی ربات‌های واقعی و مختلف.

فصل اول: یک ایده جدید، ربات‌هایی که خودشان یاد میگیرند

تصور کن یک ربات نرم و انعطاف‌پذیر توی آزمایشگاه علوم کامپیوتر و هوش مصنوعی ام‌آی‌تی (CSAIL) نشسته و داره با دقت انگشت‌هاش رو خم میکنه تا یک جسم کوچیک رو برداره. نکته جالب این نیست که این ربات چقدر طراحی مکانیکی پیشرفته‌ای داره یا پر از سنسورهای مختلفه؛ در واقع، هیچ سنسور خاصی روی خودش نداره. کل این سیستم به یک دوربین تکیه کرده که حرکات ربات رو تماشا میکنه و از همین داده‌های تصویری برای کنترل کردنش استفاده میکنه.

دانشمندان موسسه فناوری ماساچوست (MIT) یک سیستم هوش مصنوعی جدید توسعه دادن که میتونه به خودش یاد بده چطور انواع مختلف ربات‌ها رو فقط با استفاده از یک دوربین کنترل کنه. این سیستم، که توسط محققان آزمایشگاه CSAIL ساخته شده، به ربات‌ها اجازه میده تا حرکت و کنترل بدن خودشون رو فقط با استفاده از داده‌های تصویری یاد بگیرن. این روش دیگه نیازی به سنسورهای پیچیده یا برنامه‌ریزی‌های دقیق و جزئی نداره و به ربات اجازه میده از طریق مشاهده یاد بگیره.

بر اساس گزارشی که در «Live Science» منتشر شده، این هوش مصنوعی اطلاعات مربوط به ساختار ربات رو با استفاده از دوربین‌ها جمع‌آوری میکنه، تقریبا شبیه به روشی که انسان‌ها از چشم‌هاشون برای درک نحوه حرکت بدن خودشون استفاده میکنن. این متد یک راه کاملا جدید برای آموزش ربات‌ها به حساب میاد. به جای استفاده از مدل‌های فیزیکی دقیق یا سنسورهای پیچیده، هوش مصنوعی یاد میگیره که یک ربات به دستورات چطور پاسخ میده، اون هم فقط با تماشای نحوه حرکتش.

این دستاورد در واقع یک پارادایم کنترلی جدید رو معرفی میکنه. هوش مصنوعی یک مدل خودآموز برای کار با هر رباتی ایجاد میکنه و در اصل به ماشین‌ها یک حس خودآگاهی فیزیکی شبیه به انسان میده. این یعنی جدا کردن طراحی سخت‌افزار ربات از توانایی ما برای مدل‌سازی دستی اون. در گذشته، طراحی ربات‌ها تحت تاثیر توانایی ما در مدل‌سازی دقیق بود که به تولید دقیق، مواد گران‌قیمت، سنسورهای زیاد و تکیه بر قطعات سفت و سخت معمولی منجر میشد. حالا این محدودیت برداشته شده و طراحان آزادی بیشتری برای کشف ساختارهای غیرمتعارف و بدون محدودیت دارن، بدون اینکه نگران باشن بعدا میتونن اون رو مدل‌سازی یا کنترل کنن یا نه.

فصل دوم: راز ماجرا چیه؟ آشنایی با میدان‌های ژاکوبین عصبی (NJF)

کلید اصلی این تکنولوژی، سیستمیه که توسط CSAIL توسعه داده شده و بهش میگن «میدان‌های ژاکوبین عصبی» یا (Neural Jacobian Fields – NJF). این سیستم یک مدل بصری از حرکات ربات میسازه. بذار ساده‌تر بگم، یک نقشه درست میکنه که نشون میده چطور نقاط سه‌بعدی قابل مشاهده روی ربات به موتورهای داخلیش ربط دارن.

سایژه لستر لی (Sizhe Lester Li)، دانشجوی دکتری در ام‌آی‌تی و محقق اصلی این پروژه، در یک بیانیه مطبوعاتی میگه: «این سیستم به ربات‌ها نوعی آگاهی از بدن خودشون رو میده. این کار به یک تغییر جهت از برنامه‌نویسی ربات‌ها به سمت آموزش دادن به ربات‌ها اشاره داره. امروز، خیلی از وظایف رباتیک به مهندسی زیادی احتیاج دارن. در آینده، ما میتونیم فقط یک وظیفه رو به ربات نشون بدیم و اجازه بدیم خودش یاد بگیره چطور اون رو انجام بده».

اون اضافه میکنه: «فکر کن چطور یاد میگیری انگشت‌هات رو کنترل کنی: اون‌ها رو تکون میدی، مشاهده میکنی، و خودت رو تطبیق میدی. این دقیقا کاریه که سیستم ما انجام میده. اون با اقدامات تصادفی آزمایش میکنه و کشف میکنه که کدوم کنترل‌ها کدوم بخش از ربات رو حرکت میدن».

این سیستم روی دو جنبه درهم‌تنیده از بدن ربات تمرکز میکنه: هندسه سه‌بعدی و حساسیتش به ورودی‌های کنترلی. این تکنولوژی بر اساس میدان‌های تابش عصبی (NeRF) ساخته شده، که یک تکنیک برای بازسازی صحنه‌های سه‌بعدی از روی تصاویره. NJF این رویکرد رو یک قدم جلوتر میبره و نه تنها شکل ربات رو یاد میگیره، بلکه یک «میدان ژاکوبین» هم یاد میگیره؛ یعنی یک تابع که پیش‌بینی میکنه هر نقطه از بدن ربات در پاسخ به دستورات موتور چطور حرکت میکنه.

جالبی ماجرا اینجاست که سیستم خودش کشف میکنه کدوم موتورها کدوم قسمت‌های ربات رو کنترل میکنن. این موضوع از قبل برنامه‌ریزی نشده و به طور طبیعی از طریق یادگیری به وجود میاد، خیلی شبیه به انسانی که دکمه‌های یک دستگاه جدید رو کشف میکنه.

این ایده از درک انسان الهام گرفته شده. آدم‌ها وقتی با یک کنترلر بازی ویدیویی ربات‌ها رو کنترل میکنن، میتونن در عرض چند دقیقه برداشتن و گذاشتن اشیا رو یاد بگیرن. تنها سنسوری که ما لازم داریم چشم‌هامونه. ما فقط از طریق دیدن میتونیم ساختار سه‌بعدی ربات رو بازسازی کنیم و حرکتش رو به عنوان تابعی از ورودی‌های کنترلی که تولید میکنیم، پیش‌بینی کنیم.

فصل سوم: ربات چطور آموزش میبینه؟ یک فرآیند خودآموز

فرآیند آموزش این مدل کاملا خودکاره و نیازی به دخالت انسان یا دانش قبلی در مورد طراحی ربات نداره.

انجام حرکات تصادفی: برای آموزش مدل، ربات شروع به انجام حرکات تصادفی میکنه.
ضبط با چندین دوربین: در حین انجام این حرکات، چندین دوربین (به طور مشخص ۱۲ دوربین RGB-D مصرفی مثل Realsense D415) از زوایای مختلف اتفاقات رو ضبط میکنن. این دوربین‌ها تصاویر چندنمایی از ربات در حال اجرای دستورات تصادفی رو برای مدت ۲ تا ۳ ساعت ثبت میکنن.
یادگیری از طریق مشاهده: سیستم هیچ دانش قبلی در مورد طراحی ربات نداره. اون با مرتبط کردن سیگنال‌های کنترلی خودش به نحوه حرکت بدنش، یاد میگیره. در واقع، یک مدل یادگیری عمیق اجازه میده ربات تشخیص بده خودش و اعضای بدنش در فضای سه‌بعدی کجا قرار دارن. این بهش اجازه میده پیش‌بینی کنه که با اجرای دستورات حرکتی خاص، موقعیتش چطور تغییر میکنه.
استفاده از رندرینگ تفاضلی: فرآیند آموزش از چیزی به اسم «رندرینگ تفاضلی» استفاده میکنه. در هر مرحله از آموزش، سیستم یکی از ۱۲ دوربین رو به عنوان ورودی انتخاب میکنه و از روی همون یک تصویر، میدان‌های ژاکوبین و تابش رو که هندسه و ظاهر سه‌بعدی ربات رو کدگذاری میکنن، بازسازی میکنه. بعد، با توجه به یک دستور ربات، از میدان ژاکوبین برای پیش‌بینی میدان حرکت سه‌بعدی حاصل استفاده میکنه. این میدان حرکت سه‌بعدی رو به جریان نوری دوبعدی یکی دیگه از ۱۲ دوربین رندر میکنه و با جریان نوری مشاهده شده واقعی مقایسه میکنه. این کار به میدان ژاکوبین یاد میده که حرکت ربات رو به درستی پیش‌بینی کنه.

وقتی مرحله یادگیری تموم شد، ربات برای کار در زمان واقعی فقط به یک دوربین استاندارد احتیاج داره. بعد از اون میتونه خودش رو تماشا کنه، تصمیم بگیره و به سرعت پاسخ بده. این سیستم با سرعتی حدود ۱۲ سیکل در ثانیه (۱۲ هرتز) کار میکنه که سریع‌تر و کاربردی‌تر از خیلی از سیستم‌های سنتیه که برای ربات‌های نرم استفاده میشن.

محققان ام‌آی‌تی معتقدن که این رویکرد میتونه روزی در محیط‌های دنیای واقعی مثل کشاورزی، ساخت و ساز، یا محیط‌های پویا بدون نیاز به سنسورهای سنگین یا برنامه‌نویسی سفارشی استفاده بشه.

فصل چهارم: این سیستم روی چه ربات‌هایی امتحان شده؟

برای اینکه نشون بدن این چارچوب چقدر کارآمده، اون رو روی طیف وسیعی از سیستم‌های رباتیک آزمایش کردن که از نظر مواد، پیچیدگی حرکتی و قیمت متفاوت بودن.

دست پنوماتیک هیبریدی نرم-سخت: یک دست رباتیک نرم که با هوا کار میکنه و با پرینتر سه‌بعدی به صورت یکپارچه ساخته شده. این دست ۳۰۰ دلاری روی یک بازوی رباتیک معمولی نصب شده بود. این دست انگشتان نرم PneuNet رو با یک هسته سخت ترکیب میکنه و توسط ۱۵ کانال پنوماتیک کنترل میشه.
پلتفرم رباتیک مچ‌مانند (HSA): یک پلتفرم رباتیک نرم موازی که از فعال‌کننده‌های برشی دستی آکستیک (HSA) ساخته شده. این پلتفرم با طرح سازگارش حرکات مچ‌مانند و کشش خطی رو ممکن میکنه، اما مدل‌سازی دقیقش به خاطر تغییر شکل تحت نیروهای خارجی سخته.
دست Allegro: یک دست رباتیک انسان‌نما که به صورت تجاری در دسترسه و ۱۶ درجه آزادی داره. این دست به خاطر درجات آزادی بالا و مهارت مکانیکی، یک بستر آزمایشی چالش‌برانگیزه.
بازوی رباتیک Poppy Ergo Jr: یک بازوی رباتیک متن‌باز و کم‌هزینه با شش درجه آزادی که با استفاده از سرووهای Dynamixel و قطعات پرینت سه‌بعدی ساخته شده. این ربات به راحتی قابل تهیه است، اما تلرانس‌های مکانیکی و لقی (backlash) اون مدل‌سازی دقیقش رو سخت میکنه.

در تمام این سیستم‌های چالش‌برانگیز، میدان‌های ژاکوبین عصبی موفق شدن یک نمایش سه‌بعدی دقیق از هر ربات رو فقط از روی یک تصویر بازسازی کنن. جالبه که این سیستم ساختار حرکتی علی هر ربات رو یاد گرفت و تشخیص داد که کدوم کانال فرمان مسئول فعال کردن کدوم قسمت از ربات در فضای سه‌بعدی هست. این قابلیت کاملا به صورت خودنظارتی و بدون هیچ‌گونه حاشیه‌نویسی یا نظارتی که موتورها رو با قطعات ربات تطبیق بده، به وجود اومد.

فصل پنجم: نتایج و عملکرد در دنیای واقعی

این سیستم فقط در تئوری خوب کار نمیکنه، بلکه در عمل هم نتایج قابل توجهی داشته.

عملکرد در کنترل حلقه-بسته

دست Allegro: برای این دست، یک مسیر دوبعدی برای ردیابی یک حالت مشخص به کنترلر داده شد. پس از تکمیل مسیر، خطا با استفاده از سنسورهای داخلی با دقت بالای هر مفصل و مدل سینماتیک پیشروی دقیق سه‌بعدی دست اندازه‌گیری شد. سیستم فقط با استفاده از بینایی، دست Allegro رو طوری کنترل کرد که هر انگشت رو کاملا باز و بسته کنه و به خطایی کمتر از ۳ درجه در هر مفصل و کمتر از ۴ میلی‌متر برای هر نوک انگشت رسید.
پلتفرم HSA: روی این پلتفرم، سیستم تونست ربات رو تحت دینامیک‌های بسیار تغییریافته بدون نیاز به آموزش مجدد کنترل کنه. محققان به عمد با وصل کردن وزنه‌های کالیبراسیون با مجموع جرم ۳۵۰ گرم به یک میله چوبی که به بالای پلتفرم چسبانده شده بود، اون رو مختل کردن. این وزنه‌ها یک نیروی عمودی و یک گشتاور به بالای پلتفرم وارد میکردن که باعث میشد در حالت استراحت به طور محسوسی کج بشه. با این حال، چارچوب مبتنی بر بینایی تونست ربات رو برای تکمیل حرکات چرخشی پیچیده کنترل کنه و به پیکربندی هدف برسه، و به خطای ۷.۳۰۳ میلی‌متر دست پیدا کرد.
بازوی رباتیک Poppy: برای این بازوی پرینت سه‌بعدی، مسیرهای هدفی طراحی شد که ربات رو ملزم میکرد یک مربع و حروف «MIT» رو در هوا بکشه. این توالی حرکتی در داده‌های آموزشی وجود نداشت. چارچوب به خطای متوسط کمتر از ۶ میلی‌متر در وظیفه ردیابی حالت هدف دست پیدا کرد.

مقاومت در برابر اختلالات

سیستم در برابر اختلالات بصری هم مقاومه. با استفاده از تکنیک‌های تصادفی‌سازی دامنه (domain randomization) در طول آموزش، مثل قرار دادن پیش‌زمینه ربات روی پس‌زمینه‌های تصادفی، مقاومت ماژول بازسازی سه‌بعدی عصبی در برابر شلوغی بصری و انسداد جزئی بهبود پیدا کرد.

آزمایش با انسداد: وقتی تیم موانع بصری رو به صحنه اضافه کرد، روش‌های کنترلی قدیمی‌تر وارد حالت خطا شدن. اما ماشین‌هایی که از روش جدید استفاده میکردن، حتی وقتی صحنه‌ها تا حدی با شلوغی تصادفی مسدود شده بودن، با موفقیت نقشه‌های سه‌بعدی قابل پیمایش ایجاد کردن. حتی با وجود موانع بزرگی مثل حصارهای مقوایی، سیستم تونست مسیرهای سه‌بعدی رو با دست Allegro به دقت ردیابی کنه و به خطای مفصلی متوسط ۲.۸۹ درجه برسه.

در کل، این چارچوب کنترل دقیقی رو برای سیستم‌های رباتیک متنوع، از جمله سیستم‌های سفت و سخت معمولی و سیستم‌های هیبریدی پرینت سه‌بعدی، بدون نیاز به مدل‌سازی تخصصی، دخالت یا هرگونه تخصص‌سازی الگوریتم برای هر ربات، ممکن کرده.

فصل ششم: نگاهی عمیق‌تر به تکنولوژی پشت صحنه

حالا که با کلیات ماجرا آشنا شدیم، بیا کمی عمیق‌تر به اجزای فنی این سیستم نگاه کنیم.

دو جزء کلیدی چارچوب

این چارچوب از دو جزء اصلی تشکیل شده:

مدل تخمین حالت مبتنی بر یادگیری عمیق: این مدل یک نمایش سه‌بعدی از ربات رو استنتاج میکنه که هم هندسه سه‌بعدی و هم سینماتیک دیفرانسیل اون رو کدگذاری میکنه (یعنی هر نقطه در فضای سه‌بعدی تحت هر فرمان ممکن ربات چطور حرکت میکنه). این کار فقط از روی یک جریان ویدیویی انجام میشه.
کنترلر دینامیک معکوس: این کنترلر حرکات مورد نظر رو به صورت متراکم در فضای تصویر دوبعدی یا سه‌بعدی پارامتریزه میکنه و دستورات ربات رو با سرعت‌های تعاملی پیدا میکنه.

این سیستم به جای اینکه به یک نمایش حالت طراحی شده توسط متخصص (مثل زوایای مفاصل) وابسته باشه، میدان ژاکوبین رو مستقیما از تصویر ورودی با استفاده از یادگیری عمیق بازسازی میکنه.

میدان ژاکوبین بصری-حرکتی (Visuomotor Jacobian Field)

این مفهوم، یک تعمیم فضایی سه‌بعدی و متراکم از ژاکوبین سیستم متعارف در زمینه سیستم‌های دینامیکیه. در رباتیک سنتی، ژاکوبین سیستمی ماتریسیه که تغییر فرمان رو به تغییر حالت ربات مرتبط میکنه. اما طراحی این سیستم برای ربات‌های نرم و هیبریدی سخته چون حالت اون‌ها (state) به سادگی ربات‌های سفت و سخت تعریف نمیشه.

میدان ژاکوبین بصری-حرکتی این چالش‌ها رو حل میکنه. این میدان مستقیما هر نقطه سه‌بعدی رو به ژاکوبین سیستم مربوط به خودش نگاشت میکنه. این کار به ما اجازه میده حرکت سه‌بعدی هر نقطه‌ای در فضا رو پیش‌بینی کنیم. ترکیب میدان ژاکوبین و میدان تابش عصبی، یک نمایش کامل از حالت رباته که موقعیت هر نقطه سه‌بعدی و همچنین سینماتیک اون رو کدگذاری میکنه.

ردیابی مسیر (Trajectory Tracking)

الگوریتم کنترل پیش‌بین مدل (MPC) هم از وظایف ردیابی دوبعدی و هم سه‌بعدی پشتیبانی میکنه.

ردیابی دوبعدی: برای این کار، مسیرهای نقطه‌ای از ویدیوهای نمایشی استخراج میشن. در زمان تست، از ویژگی‌های TAPIR برای تطبیق یا انتشار نقاط بین فریم‌ها استفاده میشه. میدان‌های ژاکوبین حرکت هر پیکسل رو پیش‌بینی میکنن و دستورات برای به حداقل رسوندن فاصله L2 تا مکان‌های نقطه هدف بهینه میشن.
ردیابی سه‌بعدی: برای این کار، فریم‌های ویدیوی RGB با استفاده از PixelNeRF به ابرهای نقطه‌ای سه‌بعدی تبدیل میشن. دستورات ربات با به حداقل رسوندن فاصله Wasserstein-1 بین ابرهای نقطه‌ای فعلی و هدف بهینه میشن.

این توانایی برای انتقال نمایش از یک دیدگاه به دیدگاه دیگه مهمه. یک ویدیو که از یک زاویه دید ضبط شده و در زمان اجرا دیگه در دسترس نیست، هنوز هم میتونه برای دنبال کردن مسیر استفاده بشه. مدل این کار رو با تبدیل هر فریم ویدیوی دوبعدی به یک حالت ذره‌ای سه‌بعدی انجام میده و ویدیو رو به یک مسیر سه‌بعدی ترجمه میکنه.

فصل هفتم: چالش‌ها و آینده این تکنولوژی

این چارچوب به ما اجازه داده طیف وسیعی از ربات‌ها رو فقط از طریق بینایی کنترل کنیم. برای اینکه این کار ممکن باشه، حیاتیه که سینماتیک دیفرانسیل ربات رو بشه فقط از روی بینایی استنتاج کرد. اما بعضی کاربردها ممکنه این فرض رو نقض کنن.

محدودیت‌ها

مشکلات مشاهده: مثلا، وقتی ربات‌های پادار متحرک رو از یک دوربین خارجی مشاهده میکنیم، دوربین ممکنه نبینه که یک پای مشخص با زمین تماس داره یا نه، و در نتیجه نمیتونه حرکت ربات رو به عنوان تابعی از فعال‌سازی اون پا تعیین کنه.
حس لامسه: به طور مشابه، برای دستکاری ماهرانه، حس کردن تماس با یک شی حیاتیه. این سیستم در حال حاضر فاقد حس نیرو یا لامسه است که کاراییش رو در وظایف غنی از تماس محدود میکنه.
حرکت شبه-استاتیک: این روش در حال حاضر اثرات گذرا مرتبه دوم رو در نظر نمیگیره و حرکت رو شبه-استاتیک فرض میکنه. این برای طیف وسیعی از کاربردها عملیه، اما تعمیم به اثرات دینامیکی یک حوزه هیجان‌انگیز برای کارهای آینده است.
نیاز به آموزش برای هر ربات: در حال حاضر، آموزش NJF به چندین دوربین احتیاج داره و باید برای هر ربات به صورت جداگانه انجام بشه.

مسیر آینده

محققان در حال بررسی راه‌هایی برای رفع این محدودیت‌ها هستن:

افزودن سنسورهای بیشتر: شرطی کردن روش استنتاج مبتنی بر یادگیری عمیق برای میدان‌های ژاکوبین بصری-حرکتی روی سنسورهای بیشتر، مثل سنسورهای لمسی، میتونه به طور موثر این محدودیت رو برطرف کنه.
عمومیت‌بخشی: محققان در حال تصور یک نسخه در دسترس‌تر هستن. در آینده، علاقه‌مندان میتونن حرکات تصادفی یک ربات رو با تلفن همراهشون ضبط کنن و از اون فیلم برای ایجاد یک مدل کنترلی استفاده کنن، بدون اینکه به دانش قبلی یا تجهیزات خاصی نیاز داشته باشن.
گسترش مدل: تیم در حال بررسی بهبود تعمیم، مدیریت انسدادها، و گسترش توانایی مدل برای استدلال در افق‌های فضایی و زمانی طولانی‌تره.

این کار یک روند گسترده‌تر در رباتیک رو منعکس میکنه: حرکت از برنامه‌نویسی دستی مدل‌های دقیق به سمت آموزش ربات‌ها از طریق مشاهده و تعامل. وینسنت سیتزمن (Vincent Sitzmann)، استاد دستیار ام‌آی‌تی و نویسنده ارشد، میگه: «بینایی به تنهایی میتونه سرنخ‌های لازم برای مکان‌یابی و کنترل رو فراهم کنه. این در رو به روی ربات‌هایی باز میکنه که میتونن در محیط‌های به هم ریخته و بدون ساختار، از مزارع گرفته تا سایت‌های ساختمانی، بدون زیرساخت‌های گران‌قیمت کار کنن».