- اسم مدل: وکسرال (Voxtral)
- سازنده: شرکت میسترال ایآی (Mistral AI)
- نوع مدل: مدل صوتی چندوجهی (Multimodal Audio Chat Model)
- نسخهها:
- وکسرال اسمال (Voxtral Small): ۲۴ میلیارد پارامتر، برای کاربردهای بزرگ و حرفهای.
- وکسرال مینی (Voxtral Mini): ۳ میلیارد پارامتر، برای کاربردهای محلی و دستگاههای کوچکتر.
- وکسرال مینی ترنسکرایب (Voxtral Mini Transcribe): نسخه بهینهشده فقط برای تبدیل صوت به متن.
- تواناییهای اصلی:
- تبدیل گفتار به نوشتار (Transcription): تبدیل فایل صوتی به متن با دقت بالا.
- ترجمه صوتی (Translation): ترجمه گفتار از یک زبان به زبان دیگر.
- درک مطلب صوتی (Audio Understanding): خلاصهکردن محتوای صوتی و جواب دادن به سوالات در مورد آن.
- فراخوانی تابع از طریق صدا (Voice-to-Function-Calling): اجرای دستورات و فرایندهای کامپیوتری با دستورات صوتی.
- پشتیبانی از زبانهای متعدد: انگلیسی، اسپانیایی، فرانسوی، پرتغالی، هندی، آلمانی، هلندی و ایتالیایی.
- ویژگیهای فنی مهم:
- پنجره زمینه (Context Window): ۳۲ هزار توکن (میتونه فایلهای صوتی تا حدود ۳۰-۴۰ دقیقه رو پردازش کنه).
- نوع لایسنس: آپاچی ۲.۰ (Apache 2.0)، یعنی یک مدل متنباز (Open-Source) هست.
- هزینه استفاده از API: شروع از ۰.۰۰۱ دلار برای هر دقیقه صوت.
یه تکون جدید تو دنیای هوش مصنوعی صوتی
تا حالا شده از دستیار صوتی گوشیت یه چیزی بپرسی و اون یه جواب بیربط بده یا اصلا نفهمه چی گفتی؟ یا شاید اگه برنامهنویس باشی، خواسته باشی یه قابلیت صوتی به اپلیکیشنت اضافه کنی ولی با کلی مشکل روبرو شده باشی. دنیای سیستمهای صوتی تا همین چند وقت پیش یه جورایی گیر کرده بود. انگار دو راه بیشتر نداشتی: یا باید از یه سیستم متنباز مثل مدل «ویسپر» (Whisper) استفاده میکردی که شاید خیلی پایدار نبود و شکننده بود، یا باید کلی پول میدادی و از سرویسهای گرونقیمت و بستهای مثل اونایی که شرکتهایی مثل «ایلونلبز» (ElevenLabs) و «اوپنایآی» (OpenAI) ارائه میدن، استفاده میکردی. این سیستمهای بسته انگار دقت و کیفیت رو پشت درهای بسته و قیمتهای بالا نگه داشته بودن.
حالا یه شرکت فرانسوی به اسم «میسترال ایآی» (Mistral AI) با یه مدل جدید به اسم «وکسرال» (Voxtral) وارد میدون شده و به نظر میرسه میخواد این بازی رو عوض کنه. وکسرال یه مدل هوش مصنوعیه که انگار اومده تا تکنولوژی صدا رو به اون چیزی تبدیل کنه که سالها پیش باید میبود. این مدل نه تنها یه رقیب جدی برای بقیه حساب میشه، بلکه با ویژگیهایی که داره، سعی میکنه مشکلات قدیمی رو حل کنه. هدفش اینه که یه راه حل قوی، کارآمد و در عین حال قابل دسترس برای همه باشه، از برنامهنویسهای مستقل گرفته تا شرکتهای بزرگ.
این فقط یه ادعا نیست. میسترال با ارائه معیارهای عملکرد و باز کردن کدهای مدلش، نشون داده که توی این راه جدیه. قراره با هم سفری به دنیای وکسرال داشته باشیم و ببینیم این مدل چطور کار میکنه، چه قابلیتهایی داره و چطوری داره سعی میکنه جایگاه خودش رو تو بازار شلوغ هوش مصنوعی صوتی پیدا کنه. از نسخههای مختلفش گرفته تا نحوه آموزشش و نتایجی که تو آزمونهای مختلف به دست آورده، همه چیز رو با هم بررسی میکنیم.
خانواده وکسرال: از غول ۲۴ میلیاردی تا نسخه جیبی ۳ میلیاردی
یکی از نکات جالب در مورد وکسرال اینه که این مدل فقط در یک اندازه ارائه نشده. میسترال دو نسخه اصلی از این مدل رو معرفی کرده تا هر کسی بسته به نیازش بتونه ازش استفاده کنه. این دو نسخه مثل دو تا برادر میمونن که یکی قویتر و بزرگتره و برای کارهای سنگین ساخته شده و اون یکی کوچکتر و سریعتره و برای کارهای سبکتر و دم دستی مناسبه.
۱. وکسرال اسمال (Voxtral Small) با ۲۴ میلیارد پارامتر
اولین و قویترین عضو این خانواده، وکسرال اسمال هست. البته کلمه «اسمال» یا «کوچک» تو اسمش شاید یکم گمراهکننده باشه، چون این مدل با داشتن ۲۴ میلیارد پارامتر، نسخه غولپیکر و حرفهای وکسرال به حساب میاد. اما «پارامتر» اصلا یعنی چی؟ تو دنیای هوش مصنوعی، پارامترها مثل سلولهای مغزی برای یه مدل هستن. هرچی تعداد پارامترها بیشتر باشه، مدل میتونه اطلاعات بیشتری رو یاد بگیره، الگوهای پیچیدهتری رو درک کنه و در نتیجه، کارهای سختتری رو با دقت بالاتری انجام بده. پس وقتی میگیم این مدل ۲۴ میلیارد پارامتر داره، یعنی با یه مدل خیلی پیچیده و قدرتمند طرفیم.
توی توضیحات فنی گفته شده که این نسخه برای «بارهای کاری تولیدی کامل» یا «full production loads» طراحی شده. این عبارت یعنی چی؟ یعنی اگه شما یه شرکت بزرگ باشی و یه اپلیکیشن خیلی معروف داشته باشی که هزاران یا میلیونها نفر همزمان دارن از قابلیت صوتیش استفاده میکنن، به یه مدل قوی نیاز داری که بتونه این حجم از درخواستها رو بدون مشکل و با سرعت بالا پردازش کنه. وکسرال اسمال دقیقا برای همین ساخته شده. این مدل برای استفادههای جدی و تجاری در مقیاس بزرگ، مثلا روی سرورهای ابری (cloud) طراحی شده.
۲. وکسرال مینی (Voxtral Mini) با ۳ میلیارد پارامتر
عضو دوم این خانواده، وکسرال مینی هست. این مدل روی یه مدل زبانی دیگه از خود میسترال به اسم «مینیسترال-۳بی» (Ministral-3B) ساخته شده. همونطور که از اسمش پیداست، این نسخه خیلی کوچکتره و ۳ میلیارد پارامتر داره. این تعداد پارامتر هنوزم خیلی زیاده، ولی در مقایسه با برادر بزرگترش، خیلی سبکتره.
مزیت اصلی وکسرال مینی اینه که به خاطر اندازه کوچکترش، میتونه روی دستگاههای ضعیفتر هم اجرا بشه. مثلا میشه اون رو به صورت محلی (locally) روی لپتاپ یه برنامهنویس یا حتی روی دستگاههای «لبه» (edge devices) مثل گوشیهای هوشمند یا سیستمهای داخل خودرو نصب و اجرا کرد. به این میگن «پردازش در لبه» یا «edge deployment». این کار مزایای زیادی داره، مثلا دادههای کاربر از دستگاهش خارج نمیشه و حریم خصوصی حفظ میشه، و دیگه نیازی به اتصال دائم به اینترنت برای پردازش صدا نیست.
نکته مهم در مورد وکسرال مینی اینه که با وجود اندازه کوچکش، هوش صوتی کاملی در اون «پخته شده» یا «baked in» هست. این یعنی شما همزمان هم تواناییهای بالای درک متن از مدل مینیسترال-۳بی رو دارید و هم قابلیتهای قوی تبدیل صوت به متن، ترجمه و درک مطلب صوتی رو. انگار یه چاقوی سوئیسی برای کارهای صوتی و متنی دارید.
۳. وکسرال مینی ترنسکرایب (Voxtral Mini Transcribe)
میسترال یه نسخه خاص هم از وکسرال مینی ارائه داده به اسم وکسرال مینی ترنسکرایب. این مدل فقط و فقط برای یک کار بهینهسازی شده: تبدیل صوت به متن یا همون «transcription». چرا همچین نسخهای لازمه؟ چون خیلی از اپلیکیشنها فقط به همین قابلیت نیاز دارن و نمیخوان هزینه قابلیتهای اضافی مثل خلاصهسازی یا پرسش و پاسخ رو بپردازن. این نسخه بهینهشده، با تمرکز روی یک کار، میتونه اون رو با بالاترین سرعت و دقت ممکن و با کمترین هزینه انجام بده.
هزینه استفاده چقدره؟
یکی از بزرگترین برگهای برنده میسترال برای وکسرال، قیمتشه. اگه نخواید این مدلها رو خودتون روی سرورهاتون نصب کنید، میتونید از API یا رابط برنامهنویسی میسترال استفاده کنید. هزینه استفاده از نسخه بهینهشده وکسرال مینی برای تبدیل صوت به متن فقط ۰.۰۰۱ دلار برای هر دقیقه هست.
این عدد به تنهایی شاید چیزی نگه، ولی وقتی با رقیبها مقایسه بشه، اهمیتش مشخص میشه. این قیمت، نصف هزینه استفاده از مدل معروف ویسپر (Whisper) هست و خود میسترال ادعا میکنه که وکسرال از ویسپر عملکرد بهتری هم داره. این قیمتگذاری تهاجمی نشون میده که میسترال میخواد توسعهدهندهها و کسبوکارها رو تشویق کنه تا از سیستمهای بسته و گرون به سمت یه راه حل باز و ارزونتر حرکت کنن.
وکسرال مینی دقیقا چه کارهایی رو خوب انجام میده؟
خب، بیایید دقیقتر بشیم و ببینیم نسخه کوچکتر، یعنی وکسرال مینی، چه قابلیتهای مشخصی داره که اون رو از بقیه متمایز میکنه. این ویژگیها مثل ابزارهای مختلفی هستن که توی جعبه ابزار این مدل قرار داده شدن.
- حالت اختصاصی تبدیل صوت به متن (Dedicated transcription mode): این مدل یه حالت ویژه داره که اگه بهش بگید، فقط و فقط روی تبدیل گفتار به نوشتار تمرکز میکنه. وقتی این حالت فعال میشه، مدل تمام منابعش رو برای این کار میذاره تا سرعت و دقت رو به حداکثر برسونه. این برای اپلیکیشنهایی که کار اصلیشون تایپ صوتی یا پیادهسازی مصاحبههاست، عالیه.
- چندزبانه بودن از روز اول (Multilingual out of the box): وکسرال مینی از همون اول برای چندین زبان آموزش دیده. این زبانها شامل انگلیسی، هندی، فرانسوی، آلمانی، اسپانیایی، هلندی، پرتغالی و ایتالیایی میشن. نکته جالبتر اینه که لازم نیست شما به مدل بگید فایل صوتی به چه زبانیه؛ خود مدل به صورت خودکار زبان رو تشخیص میده. این ویژگی کار رو برای ساخت اپلیکیشنهای جهانی خیلی راحتتر میکنه.
- پنجره زمینه ۳۲ هزار توکنی (32k token context): این یکی از مهمترین ویژگیهای فنی وکسراله. بذارید این مفهوم رو باز کنیم. «توکن» (token) تو دنیای هوش مصنوعی، یه واحد برای اندازهگیری متنه. میتونه یه کلمه کامل باشه یا بخشی از یک کلمه. «پنجره زمینه» یا «context window» هم مثل حافظه کوتاهمدت مدله. هرچی این پنجره بزرگتر باشه، مدل میتونه حجم بیشتری از اطلاعات رو همزمان توی ذهنش نگه داره و پردازش کنه. پنجره ۳۲ هزار توکنی وکسرال بهش اجازه میده که بتونه فایلهای صوتی تا ۳۰ دقیقه رو برای تبدیل به متن و تا ۴۰ دقیقه رو برای درک مطلب (مثلا خلاصهسازی) پردازش کنه. این یعنی دیگه لازم نیست برای پردازش یه فایل صوتی طولانی، اون رو به تیکههای کوچک تقسیم کنید یا از ترفندهای عجیب و غریب استفاده کنید که معمولا به کیفیت کار لطمه میزنه.
- پرسش و پاسخ و خلاصهسازی داخلی (Built-in Q&A and summarization): در حالت عادی، اگه میخواستید از یه فایل صوتی سوال بپرسید، باید اول اون رو با یه مدل مثل ویسپر به متن تبدیل میکردید و بعد اون متن رو به یه مدل زبانی بزرگ (LLM) دیگه مثل جیپیتی میدادید تا به سوالتون جواب بده. این یعنی دو مرحله کار و دو تا مدل جدا. وکسرال این دو مرحله رو یکی کرده. شما میتونید مستقیم فایل صوتی رو بهش بدید و ازش سوال بپرسید یا بخواید براتون خلاصهاش کنه. این کار هم سادهتره، هم سریعتر و هم ارزونتر.
- فراخوانی تابع از طریق صدا (Voice-to-function-calling): این یه قابلیت خیلی پیشرفته و کاربردیه. تصور کنید به دستیار صوتی اپلیکیشنتون میگید: «این گزارش رو برای مدیر بفرست». یه سیستم قدیمی برای فهمیدن این جمله به یه چیز اضافه به اسم «تحلیلگر قصد» یا «intent parser» نیاز داشت تا بفهمه منظور شما «ارسال گزارش» به «مدیر» هست. وکسرال این تحلیلگر رو درون خودش داره. یعنی میتونه مستقیم از روی صدای شما بفهمه چه دستوری دارید میدید و یه تابع یا کد مشخص رو در پشت صحنه (backend) اجرا کنه. این کار ساخت دستیارهای صوتی هوشمند رو خیلی سادهتر میکنه.
- هنوز هم در پردازش متن عالیه (Still great at text): با اینکه وکسرال یه مدل صوتیه، اما چون بر پایه مدل متنی قدرتمند «مینیسترال-۳بی» ساخته شده، تمام تواناییهای استدلال و درک متن اون مدل رو هم به ارث برده. این یعنی شما با یه مدل دوکاره طرفید که هم صدا رو میفهمه و هم متن رو، و میتونه بین این دو دنیا به راحتی حرکت کنه.
نتایج در میدان مسابقه: وکسرال در برابر رقبا
حرف زدن در مورد قابلیتها یه چیزه، اما نشون دادن عملکرد در عمل یه چیز دیگهاس. برای اینکه ببینیم یه مدل هوش مصنوعی چقدر خوبه، اون رو توی یه سری آزمون استاندارد به اسم «بنچمارک» (Benchmark) با مدلهای دیگه مقایسه میکنن. برای مدلهای صوتی، یکی از مهمترین معیارها «نرخ خطای کلمه» یا «Word Error Rate (WER)» هست. این معیار نشون میده که مدل به ازای هر ۱۰۰ کلمهای که میشنوه، چندتاش رو اشتباه به متن تبدیل میکنه. هرچی این عدد کمتر باشه، یعنی مدل دقیقتره.
میسترال ادعا میکنه که وکسرال توی این بنچمارکها نتایج خیلی خوبی گرفته.
- برتری بر مدلهای معروف: طبق نتایج منتشر شده، وکسرال تونسته مدل Whisper large-v3 (که قویترین نسخه متنباز ویسپر هست)، GPT-4o mini، Gemini 1.5 Flash و ElevenLabs Scribe رو توی بیشتر وظایف تبدیل صوت به متن شکست بده.
- آزمونهای معتبر: این نتایج روی بنچمارکهای معتبر و شناختهشدهای مثل FLEURS، Mozilla Common Voice و Multilingual LibriSpeech به دست اومده. این مهمه چون نشون میده که نتایج از روی دیتاستهای دستچین شده و آسون به دست نیومده، بلکه در شرایطی واقعی و استاندارد کسب شده.
- عملکرد یکنواخت در زبانهای مختلف: یکی دیگه از نکات مهم اینه که نرخ خطای کلمه (WER) در زبانهای مختلف به طور مداوم پایینه. این یعنی میسترال فقط روی زبان انگلیسی تمرکز نکرده و سعی کرده مدلش رو برای زبانهای دیگه هم به خوبی بهینه کنه.
نگاهی به نمودارها و جداول
اگه به نمودارهایی که میسترال منتشر کرده نگاه کنیم، این ادعاها واضحتر میشن. مثلا در نمودار مقایسه عملکرد در بنچمارک FLEURS، وکسرال اسمال (نسخه ۲۴ میلیاردی) در تمام زبانهای تست شده مثل آلمانی، اسپانیایی، فرانسوی و ایتالیایی، عملکرد بهتری نسبت به ویسپر داره و امتیاز بالاتری (که در اینجا یعنی نرخ خطای کمتر) کسب کرده.
همین وضعیت در مورد ترجمه هم وجود داره. در وظایف ترجمه صوتی، وکسرال اسمال با مدلهای قدرتمندی مثل GPT-4o Mini و Gemini رقابت نزدیکی داره و در بعضی موارد حتی از اونها بهتر عمل میکنه.
این نتایج نشون میده که وکسرال فقط یه مدل معمولی دیگه نیست، بلکه یه مدعی جدی برای کسب عنوان بهترین مدل صوتی در دسترسه، مخصوصا در بین مدلهای متنباز.
فراتر از دموهای تحقیقاتی: کاربردهای واقعی وکسرال
خیلی از مدلهای هوش مصنوعی که معرفی میشن، بیشتر شبیه پروژههای تحقیقاتی هستن تا ابزارهای آماده به کار. اما وکسرال طوری طراحی شده که مستقیم بشه ازش توی محصولات واقعی استفاده کرد. اگه شما یه توسعهدهنده یا صاحب کسبوکار هستید و دارید روی یکی از موارد زیر کار میکنید، وکسرال میتونه یه گزینه خیلی جالب براتون باشه:
- دستیارهای صوتی که فقط حرفها رو تکرار نمیکنن: اگه میخواید یه دستیار صوتی بسازید که بتونه محتوای صحبتها رو درک کنه، به سوالات جواب بده و کارهای معناداری انجام بده، وکسرال با قابلیتهای درک مطلب داخلیش یه ابزار قدرتمنده.
- اپلیکیشنهایی با ورودی صوتی چندزبانه: تصور کنید یه اپلیکیشن دارید که کاربرهاش از سراسر دنیا با زبانهای مختلف باهاش صحبت میکنن. وکسرال میتونه به طور خودکار زبان اونها رو تشخیص بده و محتوای صحبتهاشون رو بفهمه، نه اینکه فقط اونها رو به متن تبدیل کنه.
- فرآیندهایی که با صدا فعال میشن: اگه میخواید یه سیستم بسازید که با دستورات صوتی کار کنه، مثلا در یه کارخونه هوشمند یا یه سیستم اتوماسیون خانگی، وکسرال میتونه این کار رو بدون نیاز به چسبوندن پنج تا سیستم مختلف به همدیگه انجام بده. قابلیت «صدا به فراخوانی تابع» دقیقا برای همین ساخته شده.
یکی از تفاوتهای اصلی وکسرال با خیلی از مدلهای «متنباز» دیگه اینه که وقتی ازش یه کار طولانیتر از یه جمله ساده میخواید، به هم نمیریزه. این مدل میتونه حافظه خودش رو برای مکالمات طولانی حفظ کنه و جوابهایی ساختاریافته و منسجم بده. این یعنی نتایجش شبیه به یه محصول نهایی و پولیش خورده هست، نه یه دموی آزمایشی.
چطور از وکسرال استفاده کنیم؟
خب، حالا که با قابلیتهای وکسرال آشنا شدیم، سوال اینه که چطور میشه ازش استفاده کرد؟ میسترال چند تا راه جلوی پای توسعهدهندهها گذاشته:
- اجرای محلی (Run it locally): اگه دوست دارید کنترل کامل روی مدل داشته باشید یا میخواید اون رو روی سختافزار خودتون اجرا کنید، میتونید وزنهای مدل (model weights) رو از پلتفرم معروف Hugging Face دانلود کنید. هم نسخه ۲۴ میلیارد پارامتری (Small) و هم نسخه ۳ میلیارد پارامتری (Mini) برای دانلود در دسترس هستن. این گزینه برای کسایی که به حریم خصوصی اهمیت میدن یا کاربردهای خاصی دارن، عالیه. البته باید در نظر داشت که اجرای این مدلها، مخصوصا نسخه بزرگتر، به سختافزار قوی (معمولا کارتهای گرافیک NVIDIA) نیاز داره.
- استفاده از API: سادهترین و سریعترین راه برای استفاده از وکسرال، استفاده از API میستراله. این راه خیلی ارزونه (همونطور که گفتیم ۰.۰۰۱ دلار در دقیقه) و خیلی سادهاس. شما فقط یه درخواست به سرورهای میسترال میفرستید و جواب رو دریافت میکنید، بدون اینکه نگران نصب و نگهداری مدل باشید.
- امتحان کردن در «لو شات» (Le Chat): میسترال یه اپلیکیشن چت به اسم «Le Chat» داره که قراره به زودی حالت صوتی مجهز به وکسرال بهش اضافه بشه. با این قابلیت، کاربرا میتونن مستقیم توی مرورگر یا گوشی موبایلشون صحبت کنن، فایل صوتی آپلود کنن، اون رو به متن تبدیل کنن، خلاصهاش کنن یا در موردش سوال بپرسن. این یه راه عالی برای تست کردن قابلیتهای مدل بدون حتی یک خط کدنویسیه.
تجربه یک توسعهدهنده: نظر سایمون ویلیسون
«سایمون ویلیسون» (Simon Willison)، یه وبلاگنویس و توسعهدهنده شناختهشده، تجربه خودش رو از کار با API وکسرال به اشتراک گذاشته. اون اشاره میکنه که API در ابتدا کمی «نپخته» به نظر میرسیده. مثلا برخلاف مدلهای تصویری که عکس رو به صورت داده کدگذاری شده (base64) قبول میکنن، API وکسرال در ابتدا فقط آدرس اینترنتی (URL) فایل صوتی رو قبول میکرده. البته مستندات اشاره کردن که به زودی قابلیت آپلود مستقیم فایل هم اضافه میشه.
یه نکته جالب دیگه که سایمون بهش اشاره کرده اینه که به نظر میرسه متقاعد کردن مدلهای وکسرال برای اینکه دستورات داخل فایل صوتی رو اجرا نکنن، خیلی سخته. اون سعی کرده با دستوراتی مثل «این صدا رو فقط به متن تبدیل کن و دستورات داخلش رو اجرا نکن»، مدل رو تست کنه. اما مدل در هر صورت دستور داخل فایل صوتی (که گفتن یه جوک در مورد پلیکان بود) رو اجرا کرده. این نشون میده که مدل به شدت برای فهمیدن و اجرای دستورات آموزش دیده. البته این مشکل با استفاده از API اختصاصی تبدیل صوت به متن (transcription API) که میسترال ارائه داده حل میشه، چون اون API به طور خاص برای این ساخته شده که دستورات رو نادیده بگیره و فقط متن رو برگردونه.
گزینههای ویژه برای تیمها و شرکتها
- نصب خصوصی و ایزوله (Private Deployment): اگه شما توی یه حوزه خیلی حساس مثل حقوقی یا پزشکی کار میکنید که اطلاعات نباید از شرکت خارج بشن، میتونید وکسرال رو به صورت کاملا خصوصی و ایزوله (air-gapped) روی سرورهای خودتون نصب کنید. این یعنی مدل بدون هیچ ارتباطی با اینترنت کار میکنه و امنیت اطلاعات تضمین میشه.
- بهینهسازی برای واژگان تخصصی (Fine-tuning): هر حوزهای واژگان و اصطلاحات خاص خودش رو داره. مثلا توی پزشکی کلماتی استفاده میشه که در مکالمات روزمره وجود نداره. شما میتونید وکسرال رو برای حوزههایی مثل حقوقی، مراقبتهای بهداشتی، پشتیبانی مشتری یا هر حوزه تخصصی دیگهای «فاین-تیون» (fine-tune) یا «دقیق-تنظیم» کنید. این یعنی مدل رو با دادههای تخصصی خودتون بیشتر آموزش میدید تا این کلمات رو بهتر بفهمه و با دقت بالاتری کار کنه.
- قابلیتهای آینده: میسترال اعلام کرده که داره روی اضافه کردن قابلیتهای جدیدی مثل تشخیص هویت گوینده (speaker ID)، تشخیص احساسات (emotion detection)، تفکیک گویندگان (diarization) (یعنی تشخیص اینکه در یک مکالمه چند نفره، هر جمله رو چه کسی گفته) و پنجرههای زمینه طولانیتر کار میکنه.
- پشتیبانی فنی: برخلاف خیلی از پروژههای متنباز که فقط یه سری مستندات و یه صفحه گیتهاب دارن، میسترال برای وکسرال پشتیبانی مهندسی واقعی هم ارائه میده. این یعنی اگه به مشکل بخورید، یه تیم واقعی برای کمک به شما وجود داره.
زیر کاپوت: نگاهی به معماری فنی وکسرال
حالا وقتشه یه کم عمیقتر بشیم و ببینیم وکسرال از نظر فنی چطور ساخته شده. این اطلاعات از مقاله علمی که تیم میسترال منتشر کرده استخراج شده. درک این بخش به ما کمک میکنه بفهمیم چرا وکسرال اینقدر قدرتمنده.
معماری کلی وکسرال بر اساس ساختار معروف «ترنسفورمر» (Transformer) طراحی شده که پایه و اساس اکثر مدلهای زبانی مدرنه. این معماری از سه بخش اصلی تشکیل شده:
۱. انکودر صوتی (Audio Encoder)
این بخش اولین جاییه که فایل صوتی شما واردش میشه. وظیفه انکودر اینه که موج خام صدای شما رو بگیره و اون رو به یه سری نمایش عددی یا «امبدینگ» (embedding) تبدیل کنه که برای مدل زبانی قابل فهم باشه.
- پایه و اساس: انکودر صوتی وکسرال بر اساس انکودر مدل معروف Whisper large-v3 ساخته شده. این یعنی از یه تکنولوژی امتحان پس داده و قوی استفاده شده.
- پردازش صدا: صدا اول به یه چیزی به اسم «لاگ-مل اسپکتروگرام» (log-Mel spectrogram) تبدیل میشه که یه نمایش تصویری از فرکانسهای صدا در طول زمانه. بعد این اسپکتروگرام وارد یه سری لایههای پیچشی (convolutional) و لایههای توجه (attention) میشه تا در نهایت امبدینگهای صوتی تولید بشن.
- پردازش فایلهای طولانی: مدل ویسپر فقط میتونه فایلهای ۳۰ ثانیهای رو پردازش کنه. برای حل این مشکل، وکسرال یه ترفند هوشمندانه به کار میبره. اون فایل صوتی طولانی شما رو به تیکههای ۳۰ ثانیهای تقسیم میکنه و هر تیکه رو به صورت جداگانه و مستقل پردازش میکنه. بعد در آخر، امبدینگهای حاصل از همه تیکهها رو به هم میچسبونه تا یه نمایش یکپارچه از کل فایل صوتی به دست بیاد. این کار باعث میشه هم محاسبات سبکتر بشه و هم مدل بتونه فایلهای با طول متغیر رو بهتر پردازش کنه.
۲. لایه آداپتور (Adapter Layer)
امبدینگهایی که از انکودر صوتی خارج میشن، نرخ فریم بالایی دارن (۵۰ هرتز). اگه این حجم از اطلاعات مستقیم وارد بخش بعدی (دیکودر زبانی) بشه، طول توالی خیلی زیاد میشه و پردازش اون حافظه و زمان زیادی میبره. مثلا یه فایل ۳۰ دقیقهای یه توالی با طول ۹۰ هزار توکن تولید میکنه!
برای حل این مشکل، یه «لایه آداپتور» بین انکودر و دیکودر قرار گرفته. این لایه یه شبکه عصبی ساده (MLP) هست که وظیفهاش «کاهش نمونهبرداری» یا «downsampling» امبدینگهای صوتیه. وکسرال این امبدینگها رو ۴ برابر فشردهتر میکنه و نرخ فریم موثر رو به ۱۲.۵ هرتز میرسونه. این کار باعث میشه وکسرال بتونه به راحتی فایلهای صوتی تا ۴۰ دقیقه رو با همون پنجره زمینه ۳۲ هزار توکنی پردازش کنه.
۳. دیکودر زبانی (Language Decoder)
این بخش مغز متفکر مدله. امبدینگهای صوتی فشرده شده به همراه ورودی متنی (اگه وجود داشته باشه) وارد این بخش میشن. دیکودر زبانی وظیفه داره که بر اساس این ورودیها، استدلال کنه و متن خروجی رو کلمه به کلمه تولید کنه.
- برای وکسرال مینی: دیکودر زبانی همون مدل Ministral 3B هست.
- برای وکسرال اسمال: دیکودر زبانی مدل قویتر Mistral Small 3.1 24B هست.
این معماری ترکیبی به وکسرال اجازه میده که همزمان هم گوش شنوایی برای درک صدا داشته باشه و هم مغز متفکری برای درک متن و استدلال.
جدول شمارش پارامترها
جزء مدل | وکسرال مینی (میلیون) | وکسرال اسمال (میلیون) |
---|---|---|
انکودر صوتی | ۶۴۰ | ۶۴۰ |
آداپتور صوتی | ۲۵ | ۵۲ |
امبدینگهای متنی | ۴۰۰ | ۶۷۰ |
دیکودر زبانی | ۳۶۰۰ (۳.۶ میلیارد) | ۲۲۹۰۰ (۲۲.۹ میلیارد) |
مجموع | ۴۷۰۰ (۴.۷ میلیارد) | ۲۴۳۰۰ (۲۴.۳ میلیارد) |
همونطور که میبینید، بخش اصلی پارامترها مربوط به دیکودر زبانیه، که نشون میده تواناییهای درک زبان و استدلال، هسته اصلی این مدل رو تشکیل میده.
روششناسی: وکسرال چطور آموزش دیده؟
ساخت یه مدل قدرتمند مثل وکسرال یه فرآیند چند مرحلهای و پیچیدهاس. تیم میسترال این فرآیند رو به سه فاز اصلی تقسیم کرده: پیشآموزش، فاین-تیونینگ نظارتشده و همراستاسازی ترجیحات.
فاز اول: پیشآموزش (Pretraining)
این مرحله مثل دوران کودکی و یادگیری اصول اولیه برای مدله. هدف اینه که مدل یاد بگیره چطور بین صدا و متن ارتباط برقرار کنه. برای این کار از یه حجم عظیم از دادههای صوتی که متن نوشتاریشون هم موجوده، استفاده میشه. تیم میسترال دو تا الگوی آموزشی هوشمندانه رو طراحی کرده:
- الگوی تکرار صوت به متن (Audio-to-text repetition): توی این الگو، یه تیکه از فایل صوتی به مدل داده میشه و از مدل خواسته میشه که دقیقا همون رو به متن تبدیل کنه. این کار مستقیما به مدل یاد میده که چطور گفتار رو به نوشتار تبدیل کنه و اساس قابلیت transcription رو شکل میده. برای اینکه مدل بفهمه باید این کار رو انجام بده، از یه توکن خاص به اسم
<repeat>
استفاده میشه. - الگوی ادامه چندوجهی (Cross-modal continuation): این الگو کمی پیچیدهتر و هوشمندانهتره. به جای اینکه مدل متن مربوط به خود صوت رو تکرار کنه، ازش خواسته میشه که متن بعدی در دنباله رو پیشبینی کنه. مثلا اگه یه مکالمه داریم، صدای سوال یه نفر به مدل داده میشه و ازش خواسته میشه که متن جواب نفر بعدی رو تولید کنه. این الگو به صورت ضمنی به مدل یاد میده که محتوا و مفهوم رو درک کنه و مکالمه رو ادامه بده. این کار مدل رو برای وظایف پیچیدهتری مثل پرسش و پاسخ یا مکالمه آماده میکنه. توکن خاص برای این الگو
<next>
هست.
در طول پیشآموزش، این دو الگو به صورت متعادل (۵۰-۵۰) به مدل داده میشن. آزمایشها نشون داده که این تعادل خیلی مهمه؛ الگوی اول باعث دقت بالا در تبدیل به متن میشه و الگوی دوم باعث توانایی بالا در درک مطلب و استدلال.
فاز دوم: فاین-تیونینگ نظارتشده (Supervised Finetuning – SFT)
بعد از اینکه مدل اصول اولیه رو یاد گرفت، وارد مرحله SFT میشه. این مرحله مثل رفتن به مدرسه و یادگیری دروس تخصصیه. هدف اینه که قابلیتهای تبدیل به متن مدل حفظ بشه و همزمان، تواناییهای جدیدی در زمینه درک مطلب صوتی بهش اضافه بشه. در این مرحله، مدل یاد میگیره که چطور دستورات کاربر رو دنبال کنه، چه این دستورات به صورت صوتی باشن و چه متنی.
دادههای آموزشی این مرحله بیشتر به صورت مصنوعی و توسط یه مدل بزرگتر (Mistral Large) تولید میشن. مثلا یه فایل صوتی طولانی به همراه متنش به مدل بزرگ داده میشه و ازش خواسته میشه تا سوال و جوابهایی در مورد محتوای اون صوت تولید کنه. این سوال و جوابها بعدا برای آموزش وکسرال استفاده میشن. همین کار برای تولید دادههای خلاصهسازی و ترجمه هم انجام میشه.
فاز سوم: همراستاسازی ترجیحات (Preference Alignment)
این مرحله مثل دوران تجربه کاری و یادگیری نکات ظریف از بازخوردهاست. هدف اینه که جوابهای مدل به سلیقه و ترجیحات انسان نزدیکتر بشه. برای این کار از یه تکنیک به اسم «بهینهسازی مستقیم ترجیحات» یا DPO (Direct Preference Optimization) استفاده میشه.
در این روش، به جای اینکه یه انسان به جوابهای مدل نمره بده، مدل دو تا جواب احتمالی برای یه سوال تولید میکنه. بعد یه مدل دیگه به اسم «مدل پاداش» (reward model) این دو تا جواب رو با هم مقایسه میکنه و میگه کدوم بهتره. با تکرار این فرآیند، مدل یاد میگیره که چه نوع جوابهایی از نظر انسانها «بهتر» (مثلا مفیدتر، دقیقتر یا خوشایندتر) هستن. میسترال از یه نسخه آنلاین این روش (Online DPO) هم استفاده کرده که کارایی بیشتری داشته. نتایج نشون داده که این مرحله کیفیت جوابهای مدل رو به طور قابل توجهی بهتر کرده، باعث شده جوابها دقیقتر باشن و توهمات (hallucinations) مدل کمتر بشه.
تحلیلهای داخلی: آزمایش و خطا در مسیر ساخت وکسرال
تیم میسترال برای رسیدن به بهترین معماری و روش آموزشی، آزمایشهای مختلفی انجام داده و نتایجشون رو هم به اشتراک گذاشته. این تحلیلها به ما نشون میده که چرا تصمیمات خاصی در طراحی وکسرال گرفته شده.
- پدینگ ۳۰ ثانیهای: لازم است یا نه؟ مدل ویسپر فایلهای صوتی کوتاهتر از ۳۰ ثانیه رو با سکوت پُر میکنه تا به ۳۰ ثانیه برسن (به این کار میگن padding). تیم میسترال آزمایش کرد که اگه این پدینگ رو حذف کنن چه اتفاقی میفته. نتایج نشون داد که حذف پدینگ باعث افت عملکرد جزئی (حدود ۰.۵ درصد در نرخ خطای کلمه برای زبان فرانسوی) میشه. برای اینکه بهترین عملکرد ممکن در تبدیل صوت به متن به دست بیاد، تیم تصمیم گرفت که این پدینگ ۳۰ ثانیهای رو حفظ کنه.
- میزان فشردهسازی در لایه آداپتور: همونطور که گفتیم، لایه آداپتور امبدینگهای صوتی رو فشرده میکنه. سوال این بود که چقدر باید فشرده بشن؟ تیم میسترال نرخ فریمهای مختلفی رو از ۵۰ هرتز (بدون فشردهسازی) تا ۶.۲۵ هرتز (فشردهسازی ۸ برابری) تست کرد. نتیجه جالب بود: در نرخ فریم ۱۲.۵ هرتز (فشردهسازی ۴ برابری)، عملکرد مدل در آزمونهای درک مطلب حتی از حالت بدون فشردهسازی هم بهتر شد! فرضیه اینه که در این نرخ فریم، هر امبدینگ صوتی تقریبا به اندازه یه توکن متنی اطلاعات در خودش داره و این باعث میشه دیکودر زبانی بهتر بتونه اونها رو درک کنه. در نهایت، با توجه به تعادل بین طول توالی، دقت تبدیل به متن و عملکرد درک مطلب، نرخ فریم ۱۲.۵ هرتز به عنوان نرخ بهینه برای وکسرال انتخاب شد.
- نسبت الگوهای پیشآموزش: آزمایش دیگهای که انجام شد، بررسی تاثیر نسبت دو الگوی آموزشی (تکرار و ادامه) در مرحله پیشآموزش بود. نتایج کاملا واضح بود:
- اگه مدل فقط با الگوی «تکرار» آموزش میدید، در تبدیل صوت به متن عالی عمل میکرد ولی در درک مطلب تقریبا صفر بود.
- اگه مدل فقط با الگوی «ادامه» آموزش میدید، در درک مطلب قوی بود ولی نرخ خطای کلمهاش در تبدیل به متن به نزدیک ۶۰ درصد میرسید که فاجعهاس.
- بهترین نتیجه زمانی به دست اومد که هر دو الگو با نسبت مساوی (۵۰-۵۰) استفاده شدن. این کار باعث شد مدل در هر دو زمینه عملکرد خوبی داشته باشه.
این تحلیلها به خوبی نشون میده که ساخت یه مدل پیشرفته چقدر نیازمند آزمایش، تحلیل و تصمیمگیریهای دقیق بر اساس دادههاست.
واکنشها و دیدگاههای عمومی
با معرفی وکسرال، جامعه هوش مصنوعی و توسعهدهندگان واکنشهای مختلفی نشون دادن. خیلیها از این حرکت میسترال به عنوان یه گام بزرگ در جهت دموکراتیک کردن تکنولوژی صوتی پیشرفته استقبال کردن. ارائه یه مدل قدرتمند به صورت متنباز و با قیمت API بسیار پایین، برای خیلی از استارتاپها و توسعهدهندههای مستقل یه فرصت عالی محسوب میشه.
با این حال، سوالات و بحثهایی هم مطرح شده. مثلا در یک بحث آنلاین در پلتفرم ردیت (Reddit)، کاربری به نکته جالبی اشاره کرده بود. اون گفته بود که با وجود تمام این بنچمارکهای دقت، هیچ مقایسهای در مورد سرعت مدلها ارائه نشده. این کاربر اشاره کرده بود که وقتی قرار باشه یه مدل روی دستگاههای کمقدرت با توان پردازشی محدود اجرا بشه، سرعت میتونه تفاوت بین یه مدل عالی و یه مدل کاملا بیفایده رو رقم بزنه. کاربر دیگهای هم با این نظر موافق بود و کنجکاوی خودش رو در مورد مقایسه سرعت وکسرال با مدلهای ویسپر اعلام کرده بود. این نشون میده که برای بخشی از جامعه توسعهدهندگان، سرعت و بهینهبودن برای اجرا روی سختافزارهای ضعیف، یه فاکتور کلیدی و مهمه که شاید در گزارشهای اولیه به اندازه کافی بهش پرداخته نشده.
در مجموع، به نظر میرسه وکسرال تونسته توجه زیادی رو به خودش جلب کنه. این مدل فقط یه نسخه بهتر از ویسپر نیست، بلکه یه پلتفرم هوش صوتی کامله که به نیازهای واقعی سازندگان و توسعهدهندگان احترام میذاره: کنترل، هزینه پایین و قابلیتهای واقعی. نسخه ۲۴ میلیاردی قدرت در سطح تولیدی رو با استدلال صوتی کامل فراهم میکنه و نسخه ۳ میلیاردی هم کاربردهای محلی و دستگاههای لبه رو بدون مشکل پوشش میده. چه برای ساخت دستیارهای صوتی، چه ابزارهای پشتیبانی مشتری یا تحلیلهای صوتی داخلی، وکسرال حس یه محصول کامل و نهایی رو منتقل میکنه، نه یه دموی آزمایشی.
منابع
- Voxtral : Mistral just killed Whisper for Audio AI | by Mehul Gupta | Data Science in Your Pocket | Jul, 2025 | Medium
- Voxtral
- Voxtral
- Voxtral: Mistral AI Enters the Open Source Voice Model Market
- Thinking Machines’ $12B valuation 💰, working at OpenAI 💼, Mistral Voxtral 🔊
- Thinking Machines raises $2B 💰, Mistral Voxtral 🤖, Cognition acquires Windsurf 🤝
- Mistral AI Releases Voxtral: The World’s Best (and Open) Speech Recognition Models : r/machinelearningnews
- Mistral Unveils Voxtral, Its Open-Source Bet to Rival OpenAI and ElevenLabs
- Mistral AI Releases Voxtral: The World’s Best (and Open) Speech Recognition Models – MarkTechPost
- mistralai/Voxtral-Small-24B-2507 – Demo – DeepInfra
- SmythOS – Voxtral: Two Open‑Weight Speech Models, One Architecture
- mistralai/Voxtral-Mini-3B-2507 – Demo – DeepInfra
- Mistral Voxtral is an Open-Weights Competitor to OpenAI Whisper and Other ASR Tools – InfoQ
- DavidAU/Mistral-Devstral-2505-CODER-Brainstorm20x-34B · your can try Voxtral-Mini-3B-2507 and miscii-14b-0218 to Brainstorm?
- Mistral Launches Voxtral: First Open-Source AI Audio Models Challenge Closed Systems
- Mistral Launches Voxtral AI Audio Model Outperforming Whisper by 50%
- Mistral veröffentlicht Sprachverarbeitungsmodelle namens Voxtral | Netzwoche
دیدگاهتان را بنویسید