GeekAlerts

جایی برای گیک‌ها

MiMo-Audio شیائومی؛ مدلی با قابلیت شبیه‌سازی صدا

MiMo-Audio شیائومی؛ مدلی با قابلیت شبیه‌سازی صدا

خلاصه

  • شیائومی یه مدل هوش مصنوعی صوتی جدید به اسم MiMo-Audio معرفی کرده.
  • این مدل می‌تونه مثل آدم‌ها، با دیدن فقط چند تا نمونه، کارهای صوتی جدید رو یاد بگیره؛ بهش می‌گن Few-Shot Learning.
  • از دو بخش اصلی تشکیل شده: یه توکنایزر ۱.۲ میلیارد پارامتری و یه مدل زبان اصلی ۷ میلیارد پارامتری.
  • روی بیش از ۱۰۰ میلیون ساعت داده صوتی آموزش دیده که حجم خیلی زیادیه.
  • قابلیت‌های جذابی داره، مثلاً می‌تونه صدای آدم‌ها رو شبیه‌سازی کنه، لهجه رو تغییر بده یا محتوای صوتی واقعی بسازه.
  • جالب اینجاست که متن‌باز منتشر شده و هر کسی می‌تونه ازش استفاده کنه، عملکردش هم در حد مدل‌های تجاریه.
  • یه سری نوآوری‌های فنی مثل مکانیزم “پچ” داره که باعث شده پردازش صوت خیلی بهینه‌تر و سریع‌تر بشه.
  • این مدل می‌تونه توی تولید پادکست، دوبله، بازی‌سازی و حتی کمک به افراد کم‌توان خیلی کاربردی باشه.

فکر کنین شما میخواین یک کار جدید یاد بگیرین، مثلا نواختن یک قطعه ساده با گیتار. لازم نیست کل تاریخ موسیقی رو از اول بخونین. کافیه یک نفر چند بار جلوی شما اون قطعه رو بزنه تا شما هم یاد بگیرین. به این میگن یادگیری با چند تا مثال ساده.

تا قبل از این، مدل‌های هوش مصنوعی صوتی اینطوری نبودن. برای اینکه مثلا یک مدل بتونه صدای شما رو تقلید کنه، باید کلی نمونه صدای شما رو بهش میدادن و حسابی آموزشش میدادن. برای هر کار جدیدی، یک آموزش طولانی و اختصاصی لازم بود.

حالا MiMo-Audio اومده تا این بازی رو عوض کنه. این یک مدل زبان صوتیه که مهمترین ویژگیش قابلیت یادگیری با چند نمونه (Few-Shot Learning) هست. یعنی چی؟ یعنی دقیقا مثل ما ادم‌ها، میتونه با دیدن فقط چند تا مثال یا خوندن یک دستورالعمل ساده، یک کار صوتی جدید رو یاد بگیره و انجام بده. دیگه نیازی به اون آموزش‌های سنگین و اختصاصی برای هر کار نیست.

ایده اصلی پشت این مدل، اینه که همون روشی که مدل GPT-3 رو برای متن‌ها قدرتمند کرد، یعنی «پیش‌بینی کلمه بعدی»، اینجا برای صوت پیاده‌سازی شده. با آموزش دادن مدل روی حجم خیلی خیلی عظیمی از داده‌های صوتی، این قابلیت تعمیم‌پذیری یا همون یادگیری سریع کارهای جدید، توی مدل به وجود اومده.

معماری و ساختار فنی MiMo-Audio: زیر کاپوت چه خبره؟

برای اینکه بفهمیم این مدل چطور چنین کار بزرگی رو انجام میده، باید به ساختار داخلیش نگاه کنیم. این مدل از دو بخش اصلی تشکیل شده که مثل دو تا همکار حرفه‌ای با هم کار میکنن.

بخش اول: توکنایزر یا رمزگذار صوتی (MiMo-Audio-Tokenizer)

اولین قدم برای اینکه یک کامپیوتر بتونه صدا رو بفهمه، اینه که صدا رو به یک زبانی که براش قابل درکه، یعنی زبان اعداد و کدها، تبدیل کنه. این کار رو بخشی به اسم «توکنایزر» انجام میده. این بخش، صدای پیوسته رو میگیره و اون رو به قطعه‌های کوچیک دیجیتالی به اسم «توکن» تبدیل میکنه.

  • مشخصات این توکنایزر:
  • اندازه: این مدل خودش به تنهایی یک مدل بزرگ با ۱.۲ میلیارد پارامتره. پارامترها مثل سلول‌های مغزی یک مدل هوش مصنوعی هستن.
  • معماری: بر اساس معماری «ترنسفورمر» با فرکانس ۲۵ هرتز کار میکنه.
  • ویژگی فنی: از یک تکنیک پیشرفته به اسم RVQ (Residual Vector Quantization) با ۸ لایه استفاده میکنه.
  • سرعت: میتونه در هر ثانیه ۲۰۰ توکن تولید کنه.
  • داده‌های آموزشی: این توکنایزر روی یک مجموعه عظیم ۱۰ میلیون ساعتی از داده‌های صوتی آموزش دیده.
  • بهینه‌سازی: هدف از آموزش این بخش، هم درک معنای صوت (بخش معنایی) و هم بازسازی دقیق خود صوت بوده. یعنی هم باید بفهمه چی گفته میشه و هم بتونه خود صدا رو با کیفیت بالا بازسازی کنه.

بخش دوم: مدل زبان اصلی (MiMo-Audio-7B)

بعد از اینکه صدا به توکن تبدیل شد، نوبت به مغز متفکر اصلی، یعنی مدل زبانی ۷ میلیارد پارامتری میرسه. این بخش وظیفه داره که روی این توکن‌ها فکر کنه، الگوها رو یاد بگیره و کارهای مختلف رو انجام بده.

  • مشخصات مدل اصلی:
  • اندازه: این مدل ۷ میلیارد پارامتر داره.
  • معماری پایه: بر اساس مدل زبان معروف دیگه‌ای به اسم Qwen2 ساخته شده.
  • طراحی نوآورانه: ساختارش از سه قسمت تشکیل شده: یک «رمزگذار پچ»، خود مدل زبان بزرگ (LLM)، و یک «رمزگشای پچ».
  • مکانیزم پچ (Patch): این یکی از نوآوری‌های مهم این مدله. برای اینکه پردازش صوت بهینه‌تر بشه، مدل میاد هر ۴ توکن صوتی پشت سر هم رو توی یک بسته به اسم «پچ» قرار میده. این کار باعث میشه فرکانس دنباله از ۲۵ هرتز به ۶.۲۵ هرتز کاهش پیدا کنه و مدل بتونه راحت‌تر و سریع‌تر اونها رو پردازش کنه.
  • استراتژی تولید صوت: موقع تولید صدای جدید، از یک روش هوشمندانه به اسم «تولید تاخیری» استفاده میکنه تا بتونه دوباره دنباله کامل ۲۵ هرتزی رو با کیفیت بالا بسازه.

نوآوری‌های فنی کلیدی که باید بدونین

چند تا ایده خلاقانه باعث شدن MiMo-Audio اینقدر قدرتمند بشه:

  1. مکانیزم تجمیع پچ: همونطور که گفتیم، با بسته‌بندی کردن توکن‌ها، مشکل پردازش دنباله‌های صوتی که فرکانس بالایی دارن و خیلی طولانی هستن رو حل کرده.
  2. بهینه‌سازی مشترک معنا و بازسازی: مدل همزمان یاد میگیره که هم معنای پشت صدا رو درک کنه و هم خود صدا رو با کیفیت بالا بازسازی کنه. این باعث میشه تعادل خوبی بین فهم و کیفیت خروجی به وجود بیاد.
  3. طرح تولید تاخیری: این روش کمک میکنه کیفیت صدای تولید شده بالا باشه و همزمان محاسبات خیلی سنگین و ناکارآمد نباشن.
  4. مکانیزم زنجیره فکر (Chain-of-Thought): توی نسخه‌ای از این مدل که برای انجام دستورالعمل‌ها تنظیم شده، یک حالت «تفکر» بهش اضافه شده. این یعنی مدل قبل از جواب دادن، میتونه مراحل فکری خودش رو طی کنه که به جواب‌های دقیق‌تر منجر میشه.

عملکرد مدل در دنیای واقعی: اعداد و ارقام چه میگن؟

خب، همه این حرف‌های فنی خیلی خوبه، ولی مدل در عمل چقدر خوب کار میکنه؟

مقیاس آموزش

  • داده‌های پیش‌آموزشی: مدل اصلی روی بیش از ۱۰۰ میلیون ساعت داده صوتی آموزش دیده. این یک حجم فوق‌العاده بزرگه.
  • تنظیم با دستورالعمل: برای نسخه‌ای که میتونه دستورات ما رو اجرا کنه، از یک مجموعه داده متنوع و دستچین شده از دستورالعمل‌ها استفاده شده.
  • پشتیبانی از زبان‌ها: این مدل دو زبانه (چینی و انگلیسی) هست.

نتایج بنچمارک‌ها

بنچمارک‌ها مثل امتحان‌های استاندارد برای مدل‌های هوش مصنوعی هستن.

  • بهترین در بین مدل‌های متن‌باز (Open-Source SOTA): این مدل تونسته در بین تمام مدل‌های صوتی متن‌باز، در زمینه‌های هوش گفتاری و درک صوتی، بالاترین امتیازها رو کسب کنه و به اصطلاح «State-of-the-Art» یا SOTA بشه.
    • مثلا در بنچمارک SpeechMMLU امتیازهای ۶۹.۱ (برای گفتار به گفتار) و ۷۱.۵ (برای متن به گفتار) رو گرفته.
    • در بنچمارک MMAU هم امتیاز کلی ۶۶.۰ رو به دست آورده.
  • رقابت با مدل‌های تجاری (Closed-Source): نسخه MiMo-Audio-7B-Instruct (نسخه تنظیم شده با دستورالعمل) در خیلی از ارزیابی‌ها، عملکردی نزدیک به مدل‌های تجاری و بسته مثل مدل‌های شرکت‌های بزرگ داره یا حتی از اونها بهتر عمل میکنه.
  • تعمیم‌پذیری بدون آموزش (Zero-Shot): مدل میتونه کارهایی رو انجام بده که اصلا در زمان آموزش بهش یاد داده نشده بودن. این نشون دهنده قدرت تعمیم‌پذیری بالای این مدله.

قابلیت‌ها و کارهایی که MiMo-Audio میتونه انجام بده

این مدل یک آچار فرانسه واقعی برای کارهای صوتیه. بیایین ببینیم چه کارهایی ازش برمیاد.

کارهای مبتنی بر یادگیری با چند نمونه (Few-Shot)

  • تبدیل صدا (Voice Conversion): میتونین یک نمونه صدای کوتاه از یک شخص بهش بدین و مدل یاد میگیره با همون صدا صحبت کنه.
  • انتقال سبک (Style Transfer): مثلا میتونین سبک صحبت کردن یک گوینده خبر رو بهش بدین و ازش بخواین یک متن رو با همون سبک بخونه.
  • ویرایش گفتار (Speech Editing): میتونین بخشی از یک جمله رو تغییر بدین بدون اینکه کل جمله رو دوباره ضبط کنین.
  • شبیه‌سازی صدای احساسی (Emotional Voice Cloning): میتونه صدای یک شخص رو با احساسات مختلف (شادی، غم و…) شبیه‌سازی کنه.
  • تقلید لهجه (Dialect/Accent Mimicking): میتونه لهجه‌ها و گویش‌های مختلف رو یاد بگیره و تقلید کنه.

قابلیت‌های تولید محتوا

  • میتونه محتواهای صوتی خیلی واقع‌گرایانه مثل تاک شو، دکلمه، محتوای لایو استریم و مناظره تولید کنه.
  • از سبک‌های گفتاری مختلفی پشتیبانی میکنه؛ مثلا سبک خبری، گزارشگری بازی، استندآپ کمدی (crosstalk) و کتاب صوتی.
  • میتونه با توجه به متن و محتوای قبلی، ادامه صحبت رو به شکل کاملا طبیعی و مرتبط تولید کنه.

قابلیت‌های درک صوتی

  • درک صوت‌های طولانی: میتونه یک فایل صوتی طولانی رو گوش بده و محتواش رو درک کنه.
  • استدلال صوتی پیچیده: میتونه روی محتوای صوتی، تحلیل و استدلال‌های پیچیده انجام بده.
  • تحلیل صوتی چندوجهی: میتونه جنبه‌های مختلف یک فایل صوتی رو تحلیل کنه.

مزیت‌های فنی و کاربردهای MiMo-Audio

این مدل چه برتری‌هایی داره و کجاها به دردمون میخوره؟

مزیت‌های فنی

  • یادگیری واقعی با چند نمونه: بدون نیاز به حجم زیادی از داده‌های برچسب‌خورده، خودش رو با کارهای جدید وفق میده.
  • قدرت تعمیم‌پذیری بالا: میتونه انواع کارهای صوتی که قبلا ندیده رو هم انجام بده.
  • معماری بهینه: مکانیزم «پچ» باعث شده مدل‌سازی کارآمدتر بشه.
  • متن‌باز و در دسترس: کل مدل، کدها و ابزارهای ارزیابیش به صورت متن‌باز منتشر شده و همه میتونن ازش استفاده کنن.

سناریوهای کاربردی

  • تولید محتوا: برای ساخت پادکست، تولید کتاب صوتی، دوبله فیلم و انیمیشن و هر نوع تولید محتوای صوتی دیگه.
  • آموزش: برای یادگیری زبان‌های مختلف، تمرین تلفظ و اصلاح لهجه.
  • سرگرمی: برای صداگذاری شخصیت‌های بازی‌های ویدیویی, ساخت پادکست‌های تعاملی و تولید محتوای سرگرم‌کننده.
  • فناوری‌های کمکی: برای شبیه‌سازی صدای افرادی که توانایی صحبت کردن رو از دست دادن، بازسازی فایل‌های صوتی قدیمی و خراب، و ساخت ابزارهای دسترسی‌پذیری برای افراد کم‌توان.

اکوسیستم توسعه‌دهندگان: شیائومی چه ابزارهایی رو فراهم کرده؟

یکی از نقاط قوت این پروژه اینه که فقط خود مدل رو منتشر نکرده، بلکه یک مجموعه کامل از ابزارها رو هم برای توسعه‌دهنده‌ها فراهم کرده.

  • ابزار کامل: یک رابط کاربری دمو با Gradio و اسکریپت‌های لازم برای اجرا و تست مدل ارائه شده.
  • چارچوب ارزیابی: یک ابزار مخصوص به اسم MiMo-Audio-Eval برای ارزیابی عملکرد این مدل و مدل‌های صوتی دیگه وجود داره.
  • راه‌اندازی آسان: میشه مدل رو به صورت محلی روی کامپیوتر شخصی اجرا کرد یا از دموهای آنلاینش استفاده کرد.

چند نکته در مورد استفاده عملی

بعضی از کاربرها گزارش دادن که دموی رسمی که روی سایت Hugging Face قرار داره، گاهی اوقات ناپایدار عمل میکنه. همچنین راه‌اندازی مدل به صورت محلی هم ممکنه کمی باگ داشته باشه و به راحتی انجام نشه. البته یک دموی آنلاین پایدارتر هم توسط کاربری معرفی شده برای کسانی که میخوان بدون دردسر نصب، قابلیت‌های مدل رو تست کنن.

خلاصه نوآوری‌ها در یک نگاه

اگه بخوایم دستاوردهای اصلی MiMo-Audio رو لیست کنیم، این موارد برجسته‌تر هستن:

  • تغییر پارادایم: حرکت از مدل‌هایی که برای هر کار نیاز به آموزش مجدد داشتن به سمت یک مدل عمومی که با چند مثال یاد میگیره.
  • نوآوری در معماری: استفاده از مکانیزم پچ که چالش‌های مدل‌سازی دنباله‌های صوتی رو به خوبی حل کرده.
  • اثر مقیاس: قابلیت‌های شگفت‌انگیز مدل، نتیجه آموزش اون روی حجم عظیمی از داده‌هاست.
  • کاربردی بودن: یک مدل متن‌باز که عملکردی در سطح مدل‌های تجاری و صنعتی داره.

در واقع، این مدل یک پیشرفت بزرگ در حوزه مدل‌سازی زبان صوتی به حساب میاد و نشون میده که همون موفقیتی که GPT-3 در دنیای متن به دست آورد، در دنیای صوت هم امکان‌پذیره.


پرسش و پاسخ

سوال ۱: MiMo-Audio دقیقا یعنی چی؟

جواب: MiMo-Audio یک مدل زبان صوتیه که توسط تیم MiMo در شرکت شیائومی ساخته شده. این مدل میتونه هم صدا رو بفهمه و هم صدا تولید کنه. بزرگترین ویژگیش اینه که مثل ادم‌ها، با دیدن فقط چند تا مثال میتونه کارهای صوتی جدید رو یاد بگیره.

سوال ۲: این مدل چند تا پارامتر داره و روی چقدر داده آموزش دیده؟

جواب: مدل اصلی ۷ میلیارد پارامتر داره و روی مجموعه‌ای با بیش از ۱۰۰ میلیون ساعت داده صوتی آموزش دیده. توکنایزر اون هم که وظیفه تبدیل صدا به کد رو داره، ۱.۲ میلیارد پارامتریه و روی ۱۰ میلیون ساعت داده صوتی آموزش دیده.

سوال ۳: مکانیزم «پچ» که در موردش صحبت شد چی هست؟

جواب: این یک روش هوشمندانه برای بهینه‌سازی پردازشه. مدل به جای اینکه توکن‌های صوتی رو دونه دونه پردازش کنه، هر ۴ تای اونها رو توی یک بسته به اسم «پچ» قرار میده. این کار باعث میشه دنباله ورودی برای مدل اصلی کوتاه‌تر و مدیریتش راحت‌تر بشه و سرعت پردازش بالا بره.

سوال ۴: آیا این مدل متن‌باز (Open-Source) هست؟

جواب: بله، یکی از مزیت‌های بزرگش همینه. شیائومی هم خود مدل‌ها (پایه و نسخه Instruct)، هم توکنایزر، هم کدها و هم ابزار ارزیابی رو به صورت متن‌باز در گیت‌هاب و هاگینگ فیس منتشر کرده.

سوال ۵: این مدل چه کارهایی میتونه انجام بده که مدل‌های قدیمی‌تر نمیتونستن؟

جواب: اصلی‌ترین تفاوتش در یادگیری با چند نمونه هست. مثلا برای اینکه صدای شما رو تقلید کنه، نیازی به ساعت‌ها صدای ضبط شده از شما نداره. با چند ثانیه یا چند جمله کوتاه میتونه این کار رو انجام بده. کارهایی مثل ویرایش گفتار، انتقال سبک و تقلید لهجه رو بدون نیاز به آموزش مجدد و اختصاصی انجام میده.

سوال ۶: آیا استفاده از این مدل راحته؟

جواب: تیم سازنده ابزارهایی مثل دموی گرادیو و اسکریپت‌های آماده رو فراهم کرده تا کار باهاش راحت‌تر بشه. اما بعضی کاربرها گزارش دادن که راه‌اندازی محلیش ممکنه کمی چالش‌برانگیز باشه و دموی آنلاین رسمی هم گاهی ناپایداره.

منابع

  • [۲] Xiaomi Released MiMo-Audio, a 7B Speech Language Model Trained on 100M+ Hours with High-Fidelity Discrete Tokens – MarkTechPost
  • [۴] Xiaomi MiMo · GitHub
  • [۱] XiaomiMiMo/MiMo-Audio-7B-Instruct · Hugging Face
  • [۳] Xiaomi’s MiMo-Audio: 7B Audio Language Model Revolutionizes Few-Shot Audio Learning! : r/LocalLLaMA

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *