خلاصه
- شیائومی یه مدل هوش مصنوعی صوتی جدید به اسم MiMo-Audio معرفی کرده.
- این مدل میتونه مثل آدمها، با دیدن فقط چند تا نمونه، کارهای صوتی جدید رو یاد بگیره؛ بهش میگن Few-Shot Learning.
- از دو بخش اصلی تشکیل شده: یه توکنایزر ۱.۲ میلیارد پارامتری و یه مدل زبان اصلی ۷ میلیارد پارامتری.
- روی بیش از ۱۰۰ میلیون ساعت داده صوتی آموزش دیده که حجم خیلی زیادیه.
- قابلیتهای جذابی داره، مثلاً میتونه صدای آدمها رو شبیهسازی کنه، لهجه رو تغییر بده یا محتوای صوتی واقعی بسازه.
- جالب اینجاست که متنباز منتشر شده و هر کسی میتونه ازش استفاده کنه، عملکردش هم در حد مدلهای تجاریه.
- یه سری نوآوریهای فنی مثل مکانیزم “پچ” داره که باعث شده پردازش صوت خیلی بهینهتر و سریعتر بشه.
- این مدل میتونه توی تولید پادکست، دوبله، بازیسازی و حتی کمک به افراد کمتوان خیلی کاربردی باشه.
فکر کنین شما میخواین یک کار جدید یاد بگیرین، مثلا نواختن یک قطعه ساده با گیتار. لازم نیست کل تاریخ موسیقی رو از اول بخونین. کافیه یک نفر چند بار جلوی شما اون قطعه رو بزنه تا شما هم یاد بگیرین. به این میگن یادگیری با چند تا مثال ساده.
تا قبل از این، مدلهای هوش مصنوعی صوتی اینطوری نبودن. برای اینکه مثلا یک مدل بتونه صدای شما رو تقلید کنه، باید کلی نمونه صدای شما رو بهش میدادن و حسابی آموزشش میدادن. برای هر کار جدیدی، یک آموزش طولانی و اختصاصی لازم بود.
حالا MiMo-Audio اومده تا این بازی رو عوض کنه. این یک مدل زبان صوتیه که مهمترین ویژگیش قابلیت یادگیری با چند نمونه (Few-Shot Learning) هست. یعنی چی؟ یعنی دقیقا مثل ما ادمها، میتونه با دیدن فقط چند تا مثال یا خوندن یک دستورالعمل ساده، یک کار صوتی جدید رو یاد بگیره و انجام بده. دیگه نیازی به اون آموزشهای سنگین و اختصاصی برای هر کار نیست.
ایده اصلی پشت این مدل، اینه که همون روشی که مدل GPT-3 رو برای متنها قدرتمند کرد، یعنی «پیشبینی کلمه بعدی»، اینجا برای صوت پیادهسازی شده. با آموزش دادن مدل روی حجم خیلی خیلی عظیمی از دادههای صوتی، این قابلیت تعمیمپذیری یا همون یادگیری سریع کارهای جدید، توی مدل به وجود اومده.
معماری و ساختار فنی MiMo-Audio: زیر کاپوت چه خبره؟
برای اینکه بفهمیم این مدل چطور چنین کار بزرگی رو انجام میده، باید به ساختار داخلیش نگاه کنیم. این مدل از دو بخش اصلی تشکیل شده که مثل دو تا همکار حرفهای با هم کار میکنن.
بخش اول: توکنایزر یا رمزگذار صوتی (MiMo-Audio-Tokenizer)
اولین قدم برای اینکه یک کامپیوتر بتونه صدا رو بفهمه، اینه که صدا رو به یک زبانی که براش قابل درکه، یعنی زبان اعداد و کدها، تبدیل کنه. این کار رو بخشی به اسم «توکنایزر» انجام میده. این بخش، صدای پیوسته رو میگیره و اون رو به قطعههای کوچیک دیجیتالی به اسم «توکن» تبدیل میکنه.
- مشخصات این توکنایزر:
- اندازه: این مدل خودش به تنهایی یک مدل بزرگ با ۱.۲ میلیارد پارامتره. پارامترها مثل سلولهای مغزی یک مدل هوش مصنوعی هستن.
- معماری: بر اساس معماری «ترنسفورمر» با فرکانس ۲۵ هرتز کار میکنه.
- ویژگی فنی: از یک تکنیک پیشرفته به اسم RVQ (Residual Vector Quantization) با ۸ لایه استفاده میکنه.
- سرعت: میتونه در هر ثانیه ۲۰۰ توکن تولید کنه.
- دادههای آموزشی: این توکنایزر روی یک مجموعه عظیم ۱۰ میلیون ساعتی از دادههای صوتی آموزش دیده.
- بهینهسازی: هدف از آموزش این بخش، هم درک معنای صوت (بخش معنایی) و هم بازسازی دقیق خود صوت بوده. یعنی هم باید بفهمه چی گفته میشه و هم بتونه خود صدا رو با کیفیت بالا بازسازی کنه.
بخش دوم: مدل زبان اصلی (MiMo-Audio-7B)
بعد از اینکه صدا به توکن تبدیل شد، نوبت به مغز متفکر اصلی، یعنی مدل زبانی ۷ میلیارد پارامتری میرسه. این بخش وظیفه داره که روی این توکنها فکر کنه، الگوها رو یاد بگیره و کارهای مختلف رو انجام بده.
- مشخصات مدل اصلی:
- اندازه: این مدل ۷ میلیارد پارامتر داره.
- معماری پایه: بر اساس مدل زبان معروف دیگهای به اسم Qwen2 ساخته شده.
- طراحی نوآورانه: ساختارش از سه قسمت تشکیل شده: یک «رمزگذار پچ»، خود مدل زبان بزرگ (LLM)، و یک «رمزگشای پچ».
- مکانیزم پچ (Patch): این یکی از نوآوریهای مهم این مدله. برای اینکه پردازش صوت بهینهتر بشه، مدل میاد هر ۴ توکن صوتی پشت سر هم رو توی یک بسته به اسم «پچ» قرار میده. این کار باعث میشه فرکانس دنباله از ۲۵ هرتز به ۶.۲۵ هرتز کاهش پیدا کنه و مدل بتونه راحتتر و سریعتر اونها رو پردازش کنه.
- استراتژی تولید صوت: موقع تولید صدای جدید، از یک روش هوشمندانه به اسم «تولید تاخیری» استفاده میکنه تا بتونه دوباره دنباله کامل ۲۵ هرتزی رو با کیفیت بالا بسازه.
نوآوریهای فنی کلیدی که باید بدونین
چند تا ایده خلاقانه باعث شدن MiMo-Audio اینقدر قدرتمند بشه:
- مکانیزم تجمیع پچ: همونطور که گفتیم، با بستهبندی کردن توکنها، مشکل پردازش دنبالههای صوتی که فرکانس بالایی دارن و خیلی طولانی هستن رو حل کرده.
- بهینهسازی مشترک معنا و بازسازی: مدل همزمان یاد میگیره که هم معنای پشت صدا رو درک کنه و هم خود صدا رو با کیفیت بالا بازسازی کنه. این باعث میشه تعادل خوبی بین فهم و کیفیت خروجی به وجود بیاد.
- طرح تولید تاخیری: این روش کمک میکنه کیفیت صدای تولید شده بالا باشه و همزمان محاسبات خیلی سنگین و ناکارآمد نباشن.
- مکانیزم زنجیره فکر (Chain-of-Thought): توی نسخهای از این مدل که برای انجام دستورالعملها تنظیم شده، یک حالت «تفکر» بهش اضافه شده. این یعنی مدل قبل از جواب دادن، میتونه مراحل فکری خودش رو طی کنه که به جوابهای دقیقتر منجر میشه.
عملکرد مدل در دنیای واقعی: اعداد و ارقام چه میگن؟
خب، همه این حرفهای فنی خیلی خوبه، ولی مدل در عمل چقدر خوب کار میکنه؟
مقیاس آموزش
- دادههای پیشآموزشی: مدل اصلی روی بیش از ۱۰۰ میلیون ساعت داده صوتی آموزش دیده. این یک حجم فوقالعاده بزرگه.
- تنظیم با دستورالعمل: برای نسخهای که میتونه دستورات ما رو اجرا کنه، از یک مجموعه داده متنوع و دستچین شده از دستورالعملها استفاده شده.
- پشتیبانی از زبانها: این مدل دو زبانه (چینی و انگلیسی) هست.
نتایج بنچمارکها
بنچمارکها مثل امتحانهای استاندارد برای مدلهای هوش مصنوعی هستن.
- بهترین در بین مدلهای متنباز (Open-Source SOTA): این مدل تونسته در بین تمام مدلهای صوتی متنباز، در زمینههای هوش گفتاری و درک صوتی، بالاترین امتیازها رو کسب کنه و به اصطلاح «State-of-the-Art» یا SOTA بشه.
- مثلا در بنچمارک SpeechMMLU امتیازهای ۶۹.۱ (برای گفتار به گفتار) و ۷۱.۵ (برای متن به گفتار) رو گرفته.
- در بنچمارک MMAU هم امتیاز کلی ۶۶.۰ رو به دست آورده.
- رقابت با مدلهای تجاری (Closed-Source): نسخه MiMo-Audio-7B-Instruct (نسخه تنظیم شده با دستورالعمل) در خیلی از ارزیابیها، عملکردی نزدیک به مدلهای تجاری و بسته مثل مدلهای شرکتهای بزرگ داره یا حتی از اونها بهتر عمل میکنه.
- تعمیمپذیری بدون آموزش (Zero-Shot): مدل میتونه کارهایی رو انجام بده که اصلا در زمان آموزش بهش یاد داده نشده بودن. این نشون دهنده قدرت تعمیمپذیری بالای این مدله.
قابلیتها و کارهایی که MiMo-Audio میتونه انجام بده
این مدل یک آچار فرانسه واقعی برای کارهای صوتیه. بیایین ببینیم چه کارهایی ازش برمیاد.
کارهای مبتنی بر یادگیری با چند نمونه (Few-Shot)
- تبدیل صدا (Voice Conversion): میتونین یک نمونه صدای کوتاه از یک شخص بهش بدین و مدل یاد میگیره با همون صدا صحبت کنه.
- انتقال سبک (Style Transfer): مثلا میتونین سبک صحبت کردن یک گوینده خبر رو بهش بدین و ازش بخواین یک متن رو با همون سبک بخونه.
- ویرایش گفتار (Speech Editing): میتونین بخشی از یک جمله رو تغییر بدین بدون اینکه کل جمله رو دوباره ضبط کنین.
- شبیهسازی صدای احساسی (Emotional Voice Cloning): میتونه صدای یک شخص رو با احساسات مختلف (شادی، غم و…) شبیهسازی کنه.
- تقلید لهجه (Dialect/Accent Mimicking): میتونه لهجهها و گویشهای مختلف رو یاد بگیره و تقلید کنه.
قابلیتهای تولید محتوا
- میتونه محتواهای صوتی خیلی واقعگرایانه مثل تاک شو، دکلمه، محتوای لایو استریم و مناظره تولید کنه.
- از سبکهای گفتاری مختلفی پشتیبانی میکنه؛ مثلا سبک خبری، گزارشگری بازی، استندآپ کمدی (crosstalk) و کتاب صوتی.
- میتونه با توجه به متن و محتوای قبلی، ادامه صحبت رو به شکل کاملا طبیعی و مرتبط تولید کنه.
قابلیتهای درک صوتی
- درک صوتهای طولانی: میتونه یک فایل صوتی طولانی رو گوش بده و محتواش رو درک کنه.
- استدلال صوتی پیچیده: میتونه روی محتوای صوتی، تحلیل و استدلالهای پیچیده انجام بده.
- تحلیل صوتی چندوجهی: میتونه جنبههای مختلف یک فایل صوتی رو تحلیل کنه.
مزیتهای فنی و کاربردهای MiMo-Audio
این مدل چه برتریهایی داره و کجاها به دردمون میخوره؟
مزیتهای فنی
- یادگیری واقعی با چند نمونه: بدون نیاز به حجم زیادی از دادههای برچسبخورده، خودش رو با کارهای جدید وفق میده.
- قدرت تعمیمپذیری بالا: میتونه انواع کارهای صوتی که قبلا ندیده رو هم انجام بده.
- معماری بهینه: مکانیزم «پچ» باعث شده مدلسازی کارآمدتر بشه.
- متنباز و در دسترس: کل مدل، کدها و ابزارهای ارزیابیش به صورت متنباز منتشر شده و همه میتونن ازش استفاده کنن.
سناریوهای کاربردی
- تولید محتوا: برای ساخت پادکست، تولید کتاب صوتی، دوبله فیلم و انیمیشن و هر نوع تولید محتوای صوتی دیگه.
- آموزش: برای یادگیری زبانهای مختلف، تمرین تلفظ و اصلاح لهجه.
- سرگرمی: برای صداگذاری شخصیتهای بازیهای ویدیویی, ساخت پادکستهای تعاملی و تولید محتوای سرگرمکننده.
- فناوریهای کمکی: برای شبیهسازی صدای افرادی که توانایی صحبت کردن رو از دست دادن، بازسازی فایلهای صوتی قدیمی و خراب، و ساخت ابزارهای دسترسیپذیری برای افراد کمتوان.
اکوسیستم توسعهدهندگان: شیائومی چه ابزارهایی رو فراهم کرده؟
یکی از نقاط قوت این پروژه اینه که فقط خود مدل رو منتشر نکرده، بلکه یک مجموعه کامل از ابزارها رو هم برای توسعهدهندهها فراهم کرده.
- ابزار کامل: یک رابط کاربری دمو با Gradio و اسکریپتهای لازم برای اجرا و تست مدل ارائه شده.
- چارچوب ارزیابی: یک ابزار مخصوص به اسم MiMo-Audio-Eval برای ارزیابی عملکرد این مدل و مدلهای صوتی دیگه وجود داره.
- راهاندازی آسان: میشه مدل رو به صورت محلی روی کامپیوتر شخصی اجرا کرد یا از دموهای آنلاینش استفاده کرد.
چند نکته در مورد استفاده عملی
بعضی از کاربرها گزارش دادن که دموی رسمی که روی سایت Hugging Face قرار داره، گاهی اوقات ناپایدار عمل میکنه. همچنین راهاندازی مدل به صورت محلی هم ممکنه کمی باگ داشته باشه و به راحتی انجام نشه. البته یک دموی آنلاین پایدارتر هم توسط کاربری معرفی شده برای کسانی که میخوان بدون دردسر نصب، قابلیتهای مدل رو تست کنن.
خلاصه نوآوریها در یک نگاه
اگه بخوایم دستاوردهای اصلی MiMo-Audio رو لیست کنیم، این موارد برجستهتر هستن:
- تغییر پارادایم: حرکت از مدلهایی که برای هر کار نیاز به آموزش مجدد داشتن به سمت یک مدل عمومی که با چند مثال یاد میگیره.
- نوآوری در معماری: استفاده از مکانیزم پچ که چالشهای مدلسازی دنبالههای صوتی رو به خوبی حل کرده.
- اثر مقیاس: قابلیتهای شگفتانگیز مدل، نتیجه آموزش اون روی حجم عظیمی از دادههاست.
- کاربردی بودن: یک مدل متنباز که عملکردی در سطح مدلهای تجاری و صنعتی داره.
در واقع، این مدل یک پیشرفت بزرگ در حوزه مدلسازی زبان صوتی به حساب میاد و نشون میده که همون موفقیتی که GPT-3 در دنیای متن به دست آورد، در دنیای صوت هم امکانپذیره.
پرسش و پاسخ
سوال ۱: MiMo-Audio دقیقا یعنی چی؟
جواب: MiMo-Audio یک مدل زبان صوتیه که توسط تیم MiMo در شرکت شیائومی ساخته شده. این مدل میتونه هم صدا رو بفهمه و هم صدا تولید کنه. بزرگترین ویژگیش اینه که مثل ادمها، با دیدن فقط چند تا مثال میتونه کارهای صوتی جدید رو یاد بگیره.
سوال ۲: این مدل چند تا پارامتر داره و روی چقدر داده آموزش دیده؟
جواب: مدل اصلی ۷ میلیارد پارامتر داره و روی مجموعهای با بیش از ۱۰۰ میلیون ساعت داده صوتی آموزش دیده. توکنایزر اون هم که وظیفه تبدیل صدا به کد رو داره، ۱.۲ میلیارد پارامتریه و روی ۱۰ میلیون ساعت داده صوتی آموزش دیده.
سوال ۳: مکانیزم «پچ» که در موردش صحبت شد چی هست؟
جواب: این یک روش هوشمندانه برای بهینهسازی پردازشه. مدل به جای اینکه توکنهای صوتی رو دونه دونه پردازش کنه، هر ۴ تای اونها رو توی یک بسته به اسم «پچ» قرار میده. این کار باعث میشه دنباله ورودی برای مدل اصلی کوتاهتر و مدیریتش راحتتر بشه و سرعت پردازش بالا بره.
سوال ۴: آیا این مدل متنباز (Open-Source) هست؟
جواب: بله، یکی از مزیتهای بزرگش همینه. شیائومی هم خود مدلها (پایه و نسخه Instruct)، هم توکنایزر، هم کدها و هم ابزار ارزیابی رو به صورت متنباز در گیتهاب و هاگینگ فیس منتشر کرده.
سوال ۵: این مدل چه کارهایی میتونه انجام بده که مدلهای قدیمیتر نمیتونستن؟
جواب: اصلیترین تفاوتش در یادگیری با چند نمونه هست. مثلا برای اینکه صدای شما رو تقلید کنه، نیازی به ساعتها صدای ضبط شده از شما نداره. با چند ثانیه یا چند جمله کوتاه میتونه این کار رو انجام بده. کارهایی مثل ویرایش گفتار، انتقال سبک و تقلید لهجه رو بدون نیاز به آموزش مجدد و اختصاصی انجام میده.
سوال ۶: آیا استفاده از این مدل راحته؟
جواب: تیم سازنده ابزارهایی مثل دموی گرادیو و اسکریپتهای آماده رو فراهم کرده تا کار باهاش راحتتر بشه. اما بعضی کاربرها گزارش دادن که راهاندازی محلیش ممکنه کمی چالشبرانگیز باشه و دموی آنلاین رسمی هم گاهی ناپایداره.
دیدگاهتان را بنویسید