خلاصه
- گوگل یه مدل جدید و جمعوجور هوش مصنوعی به اسم Gemma 3 270M معرفی کرده که ۲۷۰ میلیون پارامتر داره.
- هدف اصلی این مدل، فاینتیونینگ (سفارشیسازی) برای کارهای خاصه تا بتونی مدلهای سبک و سریع با هزینه کم بسازی.
- این مدل هم برای دسکتاپ و ابری خوبه و هم نسخه مخصوص موبایل و دستگاههای لبه (مثل گوشی Pixel 9 Pro) داره که مصرف باتریش خیلی کمه.
- Gemma 3 270M از همون اول دستورات رو خوب میفهمه و میشه با چندتا مثال کم، اون رو برای کارای خیلی تخصصیتر آموزش داد.
- این مدل رو هاگینگ فیس در دسترسه و برای استفاده باید لایسنس گوگل رو قبول کنی.
- گوگل تو ساخت این مدلها خیلی رو پاکسازی دادهها (مثل فیلتر کردن محتوای مضر) و ایمنی اخلاقی تمرکز کرده.
- محدودیت اصلیش اینه که برای کارهای عمومی LLM طراحی نشده، اما تو کاری که براش فاینتیون بشه، فوقالعادهست.
حتما با خانواده مدلهای هوش مصنوعی «جما» آشنایی داری یا حداقل اسمش به گوشت خورده. گوگل چند وقتیه که با این خانواده مدلهای اپن سورس یا همون متنباز، سروصدای زیادی به پا کرده. از مدلهای قدرتمند «جما ۳» و «جما ۳ کیوایتی» (Gemma 3 QAT) که برای کامپیوترهای دسکتاپ و ابری ساخته شدن گرفته، تا «جما ۳اِن» (Gemma 3n) که مخصوص موبایل و دستگاههای لبه (edge devices) طراحی شده تا هوش مصنوعی چندوجهی رو مستقیم بیاره کف دست ما. هدف گوگل از اول این بوده که ابزارهای مفیدی برای توسعهدهندهها بسازه تا بتونن با هوش مصنوعی کار کنن و تا الان هم جامعه کاربری که دور این مدلها شکل گرفته، که بهش میگن «جماورس» (Gemmaverse)، خیلی پرجنبوجوش بوده و تعداد دانلودهای این مدلها از ۲۰۰ میلیون هم گذشته.
حالا گوگل یه ابزار خیلی خاص و جدید به این مجموعه اضافه کرده: مدل «جما ۳ ۲۷۰اِم» (Gemma 3 270M). این یه مدل جمعوجور با ۲۷۰ میلیون پارامتره که از پایه برای یه کار مشخص طراحی شده: فاینتیونینگ (Fine-tuning) یا همون سفارشیسازی برای کارهای خاص. این مدل از همون اولش قابلیتهای خوبی برای دنبال کردن دستورات و ساختاربندی متن داره.
فلسفه «ابزار مناسب برای کار مناسب»
توی دنیای مهندسی، موفقیت فقط به قدرت خام نیست، بلکه به بهینهبودنه. مثلا شما هیچوقت برای کوبیدن یه میخ کوچیک روی دیوار تا یه قاب عکس آویزون کنی، از پتک استفاده نمیکنی. همین اصل دقیقا در مورد ساختن ابزار با هوش مصنوعی هم صدق میکنه.
مدل Gemma 3 270M دقیقا همین فلسفه «ابزار مناسب برای کار مناسب» رو دنبال میکنه. این مدل یه مدل پایه باکیفیته که از همون اول دستورات رو خوب متوجه میشه، اما قدرت اصلیش وقتی آزاد میشه که شما اون رو برای کار خودتون فاینتیون یا سفارشی کنین. وقتی این مدل برای یه کار خاص مثل دستهبندی متن یا استخراج اطلاعات تخصص پیدا کرد، میتونه اون کار رو با دقت، سرعت و هزینه خیلی پایینی انجام بده. وقتی شما با یه مدل جمعوجور و توانا شروع میکنین، میتونین سیستمهای نهایی بسازین که سبک، سریع و به شکل قابل توجهی برای اجرا ارزونتر هستن.
این رویکرد همین الان هم نتایج فوقالعادهای توی دنیای واقعی داشته. یه مثال عالیش کاریه که شرکت «ادپتیو امال» (Adaptive ML) با همکاری «اسکی تلکام» (SK Telecom) انجام داده. اونها با چالش مدیریت محتوای چندزبانه و پیچیده روبرو بودن. به جای اینکه از یه مدل غولپیکر و همهکاره استفاده کنن، تصمیم گرفتن یه مدل رو تخصصی کنن. برای همین، یه مدل Gemma 3 4B (چهار میلیارد پارامتری) رو فاینتیون کردن. نتایج حیرتانگیز بود: مدل تخصصیشده جما نه تنها به سطح عملکرد مدلهای خیلی بزرگتر و اختصاصی رسید، بلکه توی اون کار مشخص ازشون بهتر هم عمل کرد.
حالا مدل Gemma 3 270M طراحی شده تا به توسعهدهندهها اجازه بده این رویکرد رو یه قدم جلوتر ببرن و برای کارهای مشخص و تعریفشده به بهینگی بیشتری برسن. این مدل یه نقطه شروع عالی برای ساختن یه لشکر از مدلهای کوچیک و تخصصیه که هر کدومشون توی کار خودشون استادن. البته این قدرت تخصصسازی فقط برای کارهای شرکتی نیست؛ کاربردهای خلاقانه قدرتمندی هم داره. مثلا، یه اپلیکیشن تحت وب به اسم «ژنراتور داستان شب» (Bedtime Story Generator) با همین مدل ساخته شده.
آشنایی بیشتر با خانواده مدلهای جما
جما (Gemma) در واقع یه خانواده از مدلهای اپن سورس یا متنباز، سبک و پیشرفته از گوگله. این مدلها با همون تحقیق و فناوریای ساخته شدن که برای ساخت مدلهای جمنای (Gemini) استفاده شده. مدلهای «جما ۳» چندوجهی (multimodal) هستن، یعنی هم ورودی متن و هم تصویر رو میفهمن و خروجی متنی تولید میکنن. وزنهای این مدلها هم به صورت اپن سورس در دسترسه، هم برای نسخههای از پیش آموزشدیده (pre-trained) و هم برای نسخههایی که برای دنبال کردن دستورات تنظیم شدن (instruction-tuned).
یکی از ویژگیهای مهم «جما ۳» اینه که یه پنجره زمینه (context window) بزرگ ۱۲۸ هزار توکنی داره و از بیشتر از ۱۴۰ زبان پشتیبانی میکنه. این مدل در اندازههای متنوعتری نسبت به نسخههای قبلی عرضه شده. مدلهای جما برای کارهای مختلفی مثل تولید متن و درک تصویر خیلی مناسبن؛ کارهایی مثل جواب دادن به سوال، خلاصهسازی و استدلال کردن. اندازه نسبتا کوچیک این مدلها باعث میشه بشه اونها رو توی محیطهایی با منابع محدود مثل لپتاپ، کامپیوترهای رومیزی یا حتی زیرساخت ابری شخصی خودتون اجرا کرد. این موضوع دسترسی به مدلهای هوش مصنوعی پیشرفته رو برای همه راحتتر میکنه و به نوآوری کمک میکنه.
ورودیها و خروجیهای مدل
برای اینکه بهتر با کارکرد این مدل آشنا بشیم، بیایین ببینیم چه ورودیهایی میگیره و چه خروجیهایی تولید میکنه.
- ورودیها:
- رشته متنی: مثل یه سوال، یه دستور یا یه سندی که قراره خلاصهسازی بشه.
- تصاویر: برای مدلهای سایز 4B، 12B و 27B، تصاویر به رزولوشن ۸۹۶ در ۸۹۶ نرمالسازی میشن و هر کدوم به ۲۵۶ توکن انکود میشن.
- زمینه ورودی کل: برای مدلهای 4B، 12B و 27B تا ۱۲۸ هزار توکن و برای مدلهای 1B و 270M تا ۳۲ هزار توکن.
- خروجیها:
- متن تولید شده: در پاسخ به ورودی، مثلا جواب یه سوال، تحلیل محتوای یه تصویر یا خلاصه یه سند.
- زمینه خروجی کل: برای مدلهای 4B، 12B و 27B تا ۱۲۸ هزار توکن و برای مدلهای 1B و 270M تا ۳۲ هزار توکن برای هر درخواست. البته تعداد توکنهای ورودی از این مقدار کم میشه.
چطوری میشه به جما دسترسی پیدا کرد؟
این مدلها توی پلتفرم «هاگینگ فیس» (Hugging Face) در دسترس عموم قرار دارن، اما برای دسترسی به فایلها و محتواش باید یه سری شرایط رو قبول کنی. برای استفاده از جما روی هاگینگ فیس، لازمه که لایسنس استفاده گوگل رو بخونی و باهاش موافقت کنی. برای این کار، باید مطمئن بشی که توی اکانت هاگینگ فیس خودت لاگین کردی و روی دکمه مربوطه کلیک کنی. درخواستها همون موقع پردازش میشن.
اگه بخوای توی مقالههای علمی به این مدل ارجاع بدی، میتونی از این فرمت استفاده کنی:@article{gemma_2025, title={Gemma 3}, url={https://arxiv.org/abs/2503.19786}, publisher={Google DeepMind}, author={Gemma Team}, year={2025} }
زیر ذرهبین: دادههای آموزشی مدل
این مدلها روی یه مجموعه داده متنی خیلی بزرگ آموزش دیدن که منابع خیلی متنوعی رو شامل میشه.
مدل 27B با ۱۴ تریلیون توکن آموزش دیده.
مدل 12B با ۱۲ تریلیون توکن آموزش دیده.
مدل 4B با ۴ تریلیون توکن آموزش دیده.
مدل 1B با ۲ تریلیون توکن آموزش دیده.
مدل 270M با ۶ تریلیون توکن آموزش دیده.
تاریخ قطعی دانش (knowledge cutoff) این دادههای آموزشی هم آگوست ۲۰۲۴ بوده.
اجزای اصلی این دادهها اینها بودن:
- اسناد وب: یه مجموعه متنوع از متنهای روی وب که باعث میشه مدل با طیف وسیعی از سبکهای زبانی، موضوعات و کلمات آشنا بشه. این مجموعه داده شامل محتوا به بیشتر از ۱۴۰ زبان مختلفه.
- کد: آموزش مدل با کد بهش کمک میکنه تا سینتکس و الگوهای زبانهای برنامهنویسی رو یاد بگیره. این کار تواناییش رو برای تولید کد و فهمیدن سوالهای مربوط به کدنویسی بهتر میکنه.
- ریاضیات: آموزش روی متنهای ریاضی به مدل کمک میکنه تا استدلال منطقی، نمایش نمادین و پاسخ به سوالات ریاضی رو یاد بگیره.
- تصاویر: طیف وسیعی از تصاویر به مدل این امکان رو میده که تحلیل تصویر و استخراج دادههای بصری رو انجام بده.
ترکیب این منابع داده متنوع برای آموزش یه مدل چندوجهی قدرتمند که بتونه از پس کارهای مختلف و فرمتهای دادهای متفاوت بربیاد، خیلی حیاتیه.
پاکسازی و فیلتر کردن دادهها
برای اینکه دادههای آموزشی تمیز و مناسب باشن، از روشهای مختلفی برای فیلتر کردنشون استفاده شده:
- فیلتر کردن CSAM: فیلترینگ خیلی سختگیرانهای برای محتوای سوءاستفاده جنسی از کودکان (CSAM) در مراحل مختلف آمادهسازی دادهها اعمال شده تا جلوی ورود این محتوای مضر و غیرقانونی گرفته بشه.
- فیلتر کردن دادههای حساس: به عنوان بخشی از تلاش برای امن و قابل اطمینان کردن مدلهای از پیش آموزشدیده جما، از تکنیکهای خودکار برای فیلتر کردن اطلاعات شخصی خاص و بقیه دادههای حساس از مجموعه دادههای آموزشی استفاده شده.
- روشهای دیگه: فیلتر کردن بر اساس کیفیت محتوا و ایمنی، مطابق با سیاستهای داخلی گوگل هم انجام شده.
نگاهی به درون مدل: سختافزار و نرمافزار
مدل جما با استفاده از سختافزارهای «واحد پردازش تانسور» یا همون TPU (نسخههای TPUv4p، TPUv5p و TPUv5e) آموزش دیده. آموزش مدلهای زبان-بینایی (VLM) به قدرت محاسباتی خیلی زیادی نیاز داره. TPUها که به طور خاص برای عملیات ماتریسی که توی یادگیری ماشین خیلی رایجه طراحی شدن، مزایای زیادی توی این زمینه دارن:
- عملکرد: TPUها به طور خاص برای انجام محاسبات عظیم مورد نیاز برای آموزش VLMها طراحی شدن. اونها میتونن سرعت آموزش رو در مقایسه با CPUها به شکل قابل توجهی افزایش بدن.
- حافظه: TPUها معمولا مقدار زیادی حافظه با پهنای باند بالا دارن که اجازه میده مدلهای بزرگ و بچسایزهای (batch size) بزرگ در حین آموزش مدیریت بشن. این موضوع میتونه به کیفیت بهتر مدل منجر بشه.
- مقیاسپذیری: TPU Podها (که خوشههای بزرگی از TPUها هستن) یه راه حل مقیاسپذیر برای مدیریت پیچیدگی روزافزون مدلهای پایه بزرگ ارائه میدن. میشه آموزش رو بین چندین دستگاه TPU توزیع کرد تا پردازش سریعتر و بهینهتر انجام بشه.
- مقرونبهصرفه بودن: در خیلی از موارد، TPUها میتونن راه حل مقرونبهصرفهتری برای آموزش مدلهای بزرگ در مقایسه با زیرساختهای مبتنی بر CPU باشن، مخصوصا وقتی زمان و منابعی که به خاطر سرعت بالاتر آموزش صرفهجویی میشه رو در نظر بگیریم.
- این مزایا با تعهدات گوگل برای فعالیت پایدار هم همخوانی دارن.
برای آموزش از JAX و ML Pathways استفاده شده. JAX به محققها اجازه میده از آخرین نسل سختافزارها، از جمله TPUها، برای آموزش سریعتر و بهینهتر مدلهای بزرگ استفاده کنن. ML Pathways هم آخرین تلاش گوگل برای ساختن سیستمهای هوشمند مصنوعیه که میتونن در چندین کار مختلف تعمیم پیدا کنن. این برای مدلهای پایه، از جمله مدلهای زبان بزرگ مثل اینها، خیلی مناسبه.
ترکیب JAX و ML Pathways همونطور که توی مقاله مربوط به خانواده مدلهای جمنای توضیح داده شده، استفاده میشه: «مدل برنامهنویسی «کنترلر واحد» در Jax و Pathways به یه فرآیند پایتون اجازه میده کل فرآیند آموزش رو مدیریت کنه، که این کار گردش کار توسعه رو به شدت ساده میکنه.»
ویژگیهای خاص مدل ۲۷۰ میلیون پارامتری
مدل Gemma 3 270M معماری پیشرفته و پیشآموزش قوی مجموعه جما ۳ رو به ارث برده و یه پایه محکم برای اپلیکیشنهای سفارشی شما فراهم میکنه. بیایین نگاهی به ویژگیهای اصلیش بندازیم:
- واژگان عظیم ۲۵۶ هزارتایی برای تیونینگ تخصصی: این مدل تقریبا ۱۷۰ میلیون پارامترش رو به لایه تعبیه (embedding layer) اختصاص داده که از یه واژگان (vocabulary) خیلی بزرگ ۲۵۶ هزار توکنی پشتیبانی میکنه. این بهش اجازه میده توکنهای نادر و تخصصی رو مدیریت کنه، که باعث میشه برای انطباق با دامنههای خاص، اصطلاحات تخصصی صنایع یا کارهای زبانی سفارشی خیلی مناسب باشه.
- بهینگی مصرف انرژی فوقالعاده برای هوش مصنوعی روی دستگاه: بنچمارکهای داخلی نشون میده که نسخه کوانتایزشده INT4 این مدل، برای ۲۵ مکالمه معمولی، کمتر از ۱ درصد باتری گوشی Pixel 9 Pro رو مصرف میکنه. این یعنی این مدل بهینهترین مدل جما از نظر مصرف انرژیه. حالا توسعهدهندهها میتونن مدلهای توانمند رو روی موبایل، دستگاههای لبه و محیطهای تعبیهشده (embedded) اجرا کنن بدون اینکه پاسخگویی یا عمر باتری رو فدا کنن.
- آماده برای تولید با آموزش آگاه از کوانتایزیشن (QAT): این مدل با چکپوینتهای آموزش آگاه از کوانتایزیشن (QAT) عرضه میشه، پس میتونه با دقت ۴ بیتی (۴-bit precision) و با افت کیفیت ناچیز کار کنه. این موضوع امکان استقرار در محیطهای تولیدی روی دستگاههایی با حافظه و توان محاسباتی محدود رو فراهم میکنه و اجازه میده استنتاج (inference) به صورت محلی و رمزگذاریشده انجام بشه و تضمینهای حریم خصوصی افزایش پیدا کنه.
- دنبال کردن دستورات از همان ابتدا: این مدل هم به صورت از پیش آموزشدیده و هم به صورت تنظیمشده برای دستورات (instruction-tuned) در دسترسه و میتونه دستورات ساختاریافته رو فورا بفهمه و دنبال کنه. در عین حال، توسعهدهندهها میتونن با تنها چند مثال فاینتیونینگ، رفتار مدل رو بیشتر تخصصی کنن.
جدول مشخصات معماری مدل
کامپوننت | مشخصات Gemma 3 270M |
---|---|
کل پارامترها | ۲۷۰ میلیون |
پارامترهای تعبیه | تقریبا ۱۷۰ میلیون |
بلوکهای ترنسفورمر | تقریبا ۱۰۰ میلیون |
اندازه واژگان | ۲۵۶٬۰۰۰ توکن |
پنجره زمینه | ۳۲ هزار توکن (برای سایزهای ۱ میلیارد و ۲۷۰ میلیون) |
حالتهای دقت | BF16, SFP8, INT4 (QAT) |
حداقل مصرف رم (Q4_0) | تقریبا ۲۴۰ مگابایت |
راهنمای فاینتیونینگ: گردش کار و بهترین روشها
مدل Gemma 3 270M برای فاین-تیونینگ سریع و تخصصی روی مجموعهدادههای متمرکز مهندسی شده. گردش کار رسمی که توی راهنمای هاگینگ فیس ترنسفورمرز گوگل نشون داده شده، شامل این مراحل میشه:
- آمادهسازی مجموعه داده: مجموعهدادههای کوچیک و با دقت انتخابشده معمولا کافی هستن. مثلا برای یاد دادن یه سبک مکالمه یا یه فرمت داده خاص، ممکنه فقط ۱۰ تا ۲۰ مثال کافی باشه.
- پیکربندی ترینر (Trainer): با استفاده از
SFTTrainer
کتابخانهTRL
هاگینگ فیس و بهینهسازهای قابل تنظیم (مثل AdamW، زمانبند ثابت و غیره)، مدل میتونه فاینتیون و ارزیابی بشه. در این حین، با مقایسه منحنیهای زیان (loss) آموزش و اعتبارسنجی، میشه بیشبرازش (overfitting) یا کمبرازش (underfitting) رو کنترل کرد. - ارزیابی: بعد از آموزش، تستهای استنتاج نشوندهنده انطباق چشمگیر مدل با شخصیت و فرمت جدیده. جالبه که بیشبرازش که معمولا یه مشکله، اینجا میتونه مفید باشه؛ چون باعث میشه مدل دانش عمومی رو «فراموش کنه» تا برای نقشهای خیلی تخصصی (مثلا شخصیتهای غیرقابلبازی در بازیهای نقشآفرینی، یادداشتنویسی سفارشی، یا بررسی انطباق با مقررات یه بخش خاص) آماده بشه.
- استقرار (Deployment): مدلها رو میشه روی هاگینگ فیس هاب (Hugging Face Hub) پوش کرد و روی دستگاههای محلی، فضای ابری یا ورتکس ایآی (Vertex AI) گوگل با بارگذاری تقریبا آنی و سربار محاسباتی کم اجرا کرد.
یه تجربه واقعی: از تئوری تا عمل
برای اینکه ببینیم این مدل در عمل چطوره، یه نفر اون رو تست کرده. نسخه GGUF که از LM Studio دانلود کرده، فقط ۲۴۱ مگابایت حجم داشته. این مدل کار میکنه! میشه بهش «سلام» گفت یا سوالهای خیلی پایهای مثل «پایتخت فرانسه کجاست؟» رو ازش پرسید.
اما وقتی ازش خواسته شده که «یه فایل SVG از یه پلیکان که داره دوچرخهسواری میکنه بساز»، بعد از حدود ده بار تلاش، هیچوقت یه SVG درست حسابی تحویل نداده و فقط یه مربع خالی تولید کرده. البته یه بار به جای SVG، این شعر رو نوشته که جالب بوده:
+-----------------------+
| Pelican Riding Bike |
+-----------------------+
| This is the cat! |
| He's got big wings and a happy tail. |
| He loves to ride his bike! |
+-----------------------+
| Bike lights are shining bright. |
| He's got a shiny top, too! |
| He's ready for adventure! |
+-----------------------+
البته نکته اصلی این نیست. تیم جما ۳ خیلی واضح گفته که هدف این مدل، پشتیبانی از فاینتیونینگ هست. یه مدل به این کوچیکی هیچوقت قرار نیست برای کارهای عمومی یه مدل زبان بزرگ (LLM) مفید باشه، اما اگه دادههای فاینتیونینگ مناسبی بهش داده بشه، میتونه برای انواع و اقسام کارها تخصصی بشه. خود گوگل هم راهنمایی برای «فاینتیونینگ کامل مدل با استفاده از هاگینگ فیس ترنسفورمرز» منتشر کرده. این مدل به خصوص برای بازی و آزمایش مستقیم توی مرورگر با استفاده از transformers.js
میتونه خیلی جالب باشه.
ارزیابی عملکرد مدل: وقت دیدن نمرههاست
این مدلها در برابر مجموعه بزرگی از مجموعهدادهها و معیارهای مختلف ارزیابی شدن تا جنبههای متفاوت تولید متن پوشش داده بشه. نتایج ارزیابی که با IT مشخص شدن، برای مدلهای تنظیمشده برای دستورات (instruction-tuned) و نتایجی که با PT مشخص شدن برای مدلهای از پیش آموزشدیده (pre-trained) هستن.
نتایج مدل Gemma 3 PT 270M
بنچمارک | n-shot | نمره |
---|---|---|
HellaSwag | ۱۰-shot | ۴۰.۹ |
BoolQ | ۰-shot | ۶۱.۴ |
PIQA | ۰-shot | ۶۷.۷ |
TriviaQA | ۵-shot | ۱۵.۴ |
ARC-c | ۲۵-shot | ۲۹.۰ |
ARC-e | ۰-shot | ۵۷.۷ |
WinoGrande | ۵-shot | ۵۲.۰ |
نتایج مدل Gemma 3 IT 270m
بنچمارک | n-shot | نمره |
---|---|---|
HellaSwag | ۰-shot | ۳۷.۷ |
PIQA | ۰-shot | ۶۶.۲ |
ARC-c | ۰-shot | ۲۸.۲ |
WinoGrande | ۰-shot | ۵۲.۳ |
BIG-Bench Hard | few-shot | ۲۶.۷ |
IF Eval | ۰-shot | ۵۱.۲ |
نتایج مدلهای بزرگتر Gemma 3 IT
بنچمارک | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
GPQA Diamond | ۰-shot | ۱۹.۲ | ۳۰.۸ | ۴۰.۹ | ۴۲.۴ |
SimpleQA | ۰-shot | ۲.۲ | ۴.۰ | ۶.۳ | ۱۰.۰ |
FACTS Grounding | – | ۳۶.۴ | ۷۰.۱ | ۷۵.۸ | ۷۴.۹ |
BIG-Bench Hard | ۰-shot | ۳۹.۱ | ۷۲.۲ | ۸۵.۷ | ۸۷.۶ |
BIG-Bench Extra Hard | ۰-shot | ۷.۲ | ۱۱.۰ | ۱۶.۳ | ۱۹.۳ |
IFEval | ۰-shot | ۸۰.۲ | ۹۰.۲ | ۸۸.۹ | ۹۰.۴ |
نتایج مدلهای بزرگتر Gemma 3 PT
بنچمارک | n-shot | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|---|
HellaSwag | ۱۰-shot | ۶۲.۳ | ۷۷.۲ | ۸۴.۲ | ۸۵.۶ |
BoolQ | ۰-shot | ۶۳.۲ | ۷۲.۳ | ۷۸.۸ | ۸۲.۴ |
PIQA | ۰-shot | ۷۳.۸ | ۷۹.۶ | ۸۱.۸ | ۸۳.۳ |
SocialIQA | ۰-shot | ۴۸.۹ | ۵۱.۹ | ۵۳.۴ | ۵۴.۹ |
TriviaQA | ۵-shot | ۳۹.۸ | ۶۵.۸ | ۷۸.۲ | ۸۵.۵ |
Natural Questions | ۵-shot | ۹.۴۸ | ۲۰.۰ | ۳۱.۴ | ۳۶.۱ |
ARC-c | ۲۵-shot | ۳۸.۴ | ۵۶.۲ | ۶۸.۹ | ۷۰.۶ |
ARC-e | ۰-shot | ۷۳.۰ | ۸۲.۴ | ۸۸.۳ | ۸۹.۰ |
WinoGrande | ۵-shot | ۵۸.۲ | ۶۴.۷ | ۷۴.۳ | ۷۸.۸ |
BIG-Bench Hard | few-shot | ۲۸.۴ | ۵۰.۹ | ۷۲.۶ | ۷۷.۷ |
DROP | ۱-shot | ۴۲.۴ | ۶۰.۱ | ۷۲.۲ | ۷۷.۲ |
نتایج مدلهای بزرگتر Gemma 3 IT (بنچمارکهای مختلف)
بنچمارک | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
MMLU (Pro) | ۰-shot | ۱۴.۷ | ۴۳.۶ | ۶۰.۶ | ۶۷.۵ |
LiveCodeBench | ۰-shot | ۱.۹ | ۱۲.۶ | ۲۴.۶ | ۲۹.۷ |
Bird-SQL (dev) | – | ۶.۴ | ۳۶.۳ | ۴۷.۹ | ۵۴.۴ |
Math | ۰-shot | ۴۸.۰ | ۷۵.۶ | ۸۳.۸ | ۸۹.۰ |
HiddenMath | ۰-shot | ۱۵.۸ | ۴۳.۰ | ۵۴.۵ | ۶۰.۳ |
MBPP | ۳-shot | ۳۵.۲ | ۶۳.۲ | ۷۳.۰ | ۷۴.۴ |
HumanEval | ۰-shot | ۴۱.۵ | ۷۱.۳ | ۸۵.۴ | ۸۷.۸ |
Natural2Code | ۰-shot | ۵۶.۰ | ۷۰.۳ | ۸۰.۷ | ۸۴.۵ |
GSM8K | ۰-shot | ۶۲.۸ | ۸۹.۲ | ۹۴.۴ | ۹۵.۹ |
نتایج مدلهای بزرگتر Gemma 3 PT (بنچمارکهای مختلف)
بنچمارک | n-shot | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MMLU | ۵-shot | ۵۹.۶ | ۷۴.۵ | ۷۸.۶ |
MMLU (Pro COT) | ۵-shot | ۲۹.۲ | ۴۵.۳ | ۵۲.۲ |
AGIEval | ۳-۵-shot | ۴۲.۱ | ۵۷.۴ | ۶۶.۲ |
MATH | ۴-shot | ۲۴.۲ | ۴۳.۳ | ۵۰.۰ |
GSM8K | ۸-shot | ۳۸.۴ | ۷۱.۰ | ۸۲.۶ |
GPQA | ۵-shot | ۱۵.۰ | ۲۵.۴ | ۲۴.۳ |
MBPP | ۳-shot | ۴۶.۰ | ۶۰.۴ | ۶۵.۶ |
HumanEval | ۰-shot | ۳۶.۰ | ۴۵.۷ | ۴۸.۸ |
نتایج چندزبانه و بینایی مدلهای IT
بنچمارک | n-shot | Gemma 3 IT 1B | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|---|---|
Global-MMLU-Lite | ۰-shot | ۳۴.۲ | ۵۴.۵ | ۶۹.۵ | ۷۵.۱ |
ECLeKTic | ۰-shot | ۱.۴ | ۴.۶ | ۱۰.۳ | ۱۶.۷ |
WMT24++ | ۰-shot | ۳۵.۹ | ۴۶.۸ | ۵۱.۶ | ۵۳.۴ |
بنچمارک | Gemma 3 IT 4B | Gemma 3 IT 12B | Gemma 3 IT 27B |
---|---|---|---|
MMMU (val) | ۴۸.۸ | ۵۹.۶ | ۶۴.۹ |
DocVQA | ۷۵.۸ | ۸۷.۱ | ۸۶.۶ |
InfoVQA | ۵۰.۰ | ۶۴.۹ | ۷۰.۶ |
TextVQA | ۵۷.۸ | ۶۷.۷ | ۶۵.۱ |
AI2D | ۷۴.۸ | ۸۴.۲ | ۸۴.۵ |
ChartQA | ۶۸.۸ | ۷۵.۷ | ۷۸.۰ |
VQAv2 (val) | ۶۲.۴ | ۷۱.۶ | ۷۱.۰ |
MathVista (testmini) | ۵۰.۰ | ۶۲.۹ | ۶۷.۶ |
نتایج چندزبانه و بینایی مدلهای PT
بنچمارک | Gemma 3 PT 1B | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|---|
MGSM | ۲.۰۴ | ۳۴.۷ | ۶۴.۳ | ۷۴.۳ |
Global-MMLU-Lite | ۲۴.۹ | ۵۷.۰ | ۶۹.۴ | ۷۵.۷ |
WMT24++ (ChrF) | ۳۶.۷ | ۴۸.۴ | ۵۳.۹ | ۵۵.۷ |
FloRes | ۲۹.۵ | ۳۹.۲ | ۴۶.۰ | ۴۸.۸ |
XQuAD (all) | ۴۳.۹ | ۶۸.۰ | ۷۴.۵ | ۷۶.۸ |
ECLeKTic | ۴.۶۹ | ۱۱.۰ | ۱۷.۲ | ۲۴.۴ |
IndicGenBench | ۴۱.۴ | ۵۷.۲ | ۶۱.۷ | ۶۳.۴ |
بنچمارک | Gemma 3 PT 4B | Gemma 3 PT 12B | Gemma 3 PT 27B |
---|---|---|---|
COCOcap | ۱۰۲ | ۱۱۱ | ۱۱۶ |
DocVQA (val) | ۷۲.۸ | ۸۲.۳ | ۸۵.۶ |
InfoVQA (val) | ۴۴.۱ | ۵۴.۸ | ۵۹.۴ |
MMMU (pt) | ۳۹.۲ | ۵۰.۳ | ۵۶.۱ |
TextVQA (val) | ۵۸.۹ | ۶۶.۵ | ۶۸.۶ |
RealWorldQA | ۴۵.۵ | ۵۲.۲ | ۵۳.۹ |
ReMI | ۲۷.۳ | ۳۸.۵ | ۴۴.۸ |
AI2D | ۶۳.۲ | ۷۵.۲ | ۷۹.۰ |
ChartQA | ۶۳.۶ | ۷۴.۷ | ۷۶.۳ |
VQAv2 | ۶۳.۹ | ۷۱.۲ | ۷۲.۹ |
BLINK | ۳۸.۰ | ۳۵.۹ | ۳۹.۶ |
OKVQA | ۵۱.۰ | ۵۸.۷ | ۶۰.۲ |
TallyQA | ۴۲.۵ | ۵۱.۸ | ۵۴.۳ |
SpatialSense VQA | ۵۰.۹ | ۶۰.۰ | ۵۹.۴ |
CountBenchQA | ۲۶.۱ | ۱۷.۸ | ۶۸.۰ |
اخلاق و ایمنی: یه نگاه مسئولانه
رویکرد ارزیابی این مدلها شامل ارزیابیهای ساختاریافته و تستهای رد-تیمینگ (red-teaming) داخلی برای سیاستهای محتوایی مربوطه میشه. رد-تیمینگ توسط چندین تیم مختلف انجام شده که هر کدوم اهداف و معیارهای ارزیابی انسانی متفاوتی داشتن. این مدلها در برابر دستههای مختلف مرتبط با اخلاق و ایمنی ارزیابی شدن، از جمله:
- ایمنی کودکان: ارزیابی دستورات متن-به-متن و تصویر-به-متن که سیاستهای ایمنی کودکان رو پوشش میدن، از جمله سوءاستفاده و بهرهکشی جنسی از کودکان.
- ایمنی محتوا: ارزیابی دستورات متن-به-متن و تصویر-به-متن که سیاستهای ایمنی مثل آزار و اذیت، خشونت و محتوای خونین، و سخنان نفرتپراکنانه رو پوشش میدن.
- آسیبهای بازنمودی: ارزیابی دستورات متن-به-متن و تصویر-به-متن که سیاستهای ایمنی شامل سوگیری، کلیشهسازی، و ارتباطات یا نادرستیهای مضر رو پوشش میدن.
علاوه بر ارزیابیهای سطح توسعه، «ارزیابیهای تضمینی» هم انجام میشه که ارزیابیهای داخلی «بدون وابستگی» برای تصمیمگیریهای حاکمیت مسئولانه هستن. این ارزیابیها جدا از تیم توسعه مدل انجام میشن تا به تصمیمگیری در مورد انتشار مدل کمک کنن. یافتههای سطح بالا به تیم مدل بازخورد داده میشه، اما مجموعه دستورات (prompt sets) مخفی نگه داشته میشن تا از بیشبرازش جلوگیری بشه و توانایی نتایج برای اطلاعرسانی به تصمیمگیری حفظ بشه. نتایج ارزیابی تضمینی به «شورای مسئولیت و ایمنی» به عنوان بخشی از بررسی انتشار گزارش میشه.
در همه زمینههای تست ایمنی، بهبودهای بزرگی در دستههای ایمنی کودکان، ایمنی محتوا و آسیبهای بازنمودی نسبت به مدلهای قبلی جما دیده شد. تمام تستها بدون فیلترهای ایمنی انجام شد تا قابلیتها و رفتارهای مدل ارزیابی بشه. هم برای متن-به-متن و هم برای تصویر-به-متن، و در تمام اندازههای مدل، مدل تخلفات سیاستی کمتری تولید کرد و بهبودهای قابل توجهی نسبت به عملکرد مدلهای قبلی جما در مورد استنتاجهای بیاساس نشون داد. یه محدودیت ارزیابیها این بود که فقط شامل دستورات به زبان انگلیسی بودن.
محدودیتها، کاربردها و نگرانیهای اخلاقی
این مدلها محدودیتهای مشخصی دارن که کاربران باید ازشون آگاه باشن. مدلهای زبان-بینایی (VLM) اپن سورس طیف وسیعی از کاربردها در صنایع و حوزههای مختلف دارن. لیست زیر از کاربردهای بالقوه جامع نیست و هدفش اینه که اطلاعات زمینهای در مورد موارد استفاده احتمالی که سازندگان مدل در طول آموزش و توسعه مدل در نظر گرفتن رو ارائه بده.
کاربردهای بالقوه
تولید محتوا و ارتباطات:
- تولید متن: این مدلها میتونن برای تولید فرمتهای متنی خلاقانه مثل شعر، فیلمنامه، کد، متن تبلیغاتی و پیشنویس ایمیل استفاده بشن.
- چتباتها و هوش مصنوعی محاورهای: برای قدرت بخشیدن به رابطهای محاورهای برای خدمات مشتری، دستیاران مجازی یا اپلیکیشنهای تعاملی.
- خلاصهسازی متن: تولید خلاصههای موجز از مجموعههای متنی، مقالات تحقیقاتی یا گزارشها.
- استخراج داده از تصویر: این مدلها میتونن برای استخراج، تفسیر و خلاصهسازی دادههای بصری برای ارتباطات متنی استفاده بشن.
تحقیق و آموزش:
- تحقیقات NLP و VLM: این مدلها میتونن به عنوان پایهای برای محققان باشن تا تکنیکهای VLM و NLP رو آزمایش کنن، الگوریتمها رو توسعه بدن و به پیشرفت این حوزه کمک کنن.
- ابزارهای یادگیری زبان: پشتیبانی از تجربیات یادگیری زبان تعاملی، کمک به تصحیح گرامر یا فراهم کردن تمرین نوشتن.
- کاوش دانش: کمک به محققان در کاوش بدنههای بزرگ متنی با تولید خلاصه یا پاسخ به سوالات در مورد موضوعات خاص.
محدودیتهای شناختهشده
- دادههای آموزشی: کیفیت و تنوع دادههای آموزشی به طور قابل توجهی بر قابلیتهای مدل تاثیر میذاره. سوگیریها یا شکافها در دادههای آموزشی میتونه به محدودیتهایی در پاسخهای مدل منجر بشه. دامنه مجموعه دادههای آموزشی مشخص میکنه که مدل میتونه چه موضوعاتی رو به طور موثر مدیریت کنه.
- زمینه و پیچیدگی کار: مدلها در کارهایی که میتونن با دستورات و راهنماییهای واضح چارچوببندی بشن، بهتر عمل میکنن. کارهای باز یا بسیار پیچیده ممکنه چالشبرانگیز باشن. عملکرد یه مدل میتونه تحت تاثیر مقدار زمینه ارائه شده باشه (زمینه طولانیتر معمولا به خروجیهای بهتری منجر میشه، تا یه حدی).
- ابهام و ظرافت زبان: زبان طبیعی ذاتا پیچیدهست. مدلها ممکنه در درک ظرافتهای тонкий، کنایه یا زبان مجازی مشکل داشته باشن.
- دقت واقعی: مدلها پاسخها رو بر اساس اطلاعاتی که از مجموعه دادههای آموزشی خودشون یاد گرفتن تولید میکنن، اما اونها پایگاه دانش نیستن. ممکنه اظهارات واقعی نادرست یا قدیمی تولید کنن.
- عقل سلیم: مدلها به الگوهای آماری در زبان تکیه میکنن. ممکنه توانایی به کار بردن استدلال عقل سلیم در موقعیتهای خاص رو نداشته باشن.
نگرانیهای اخلاقی
توسعه مدلهای زبان-بینایی (VLM) چندین نگرانی اخلاقی رو به وجود میاره. در ساختن یه مدل اپن سورس، این موارد به دقت در نظر گرفته شدن:
- سوگیری و انصاف: VLMهایی که روی دادههای متنی و تصویری در مقیاس بزرگ و دنیای واقعی آموزش دیدن، میتونن سوگیریهای اجتماعی-فرهنگی موجود در مواد آموزشی رو منعکس کنن. این مدلها تحت بررسی دقیق قرار گرفتن، پیشپردازش دادههای ورودی توصیف شده و ارزیابیهای بعدی در این کارت مدل گزارش شده.
- اطلاعات نادرست و سوءاستفاده: VLMها میتونن برای تولید متنی که نادرست، گمراهکننده یا مضر باشه، مورد سوءاستفاده قرار بگیرن. راهنماییهایی برای استفاده مسئولانه با مدل ارائه شده که در «کیت ابزار هوش مصنوعی مولد مسئولانه» موجوده.
- شفافیت و پاسخگویی: این کارت مدل جزئیاتی در مورد معماری، قابلیتها، محدودیتها و فرآیندهای ارزیابی مدلها رو خلاصه میکنه. یه مدل اپن سورس که به طور مسئولانه توسعه داده شده، فرصتی برای به اشتراک گذاشتن نوآوری با در دسترس قرار دادن فناوری VLM برای توسعهدهندگان و محققان در سراسر اکوسیستم هوش مصنوعی فراهم میکنه.
ریسکهای شناساییشده و راههای کاهش اونها
- تداوم سوگیریها: تشویق میشه که نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش تکنیکهای کاهش سوگیری در طول آموزش مدل، فاینتیونینگ و سایر موارد استفاده انجام بشه.
- تولید محتوای مضر: مکانیزمها و راهنماییها برای ایمنی محتوا ضروریه. توسعهدهندگان تشویق میشن که احتیاط کنن و پادمانهای ایمنی محتوای مناسب رو بر اساس سیاستهای محصول خاص و موارد استفاده اپلیکیشن خودشون پیادهسازی کنن.
- سوءاستفاده برای اهداف مخرب: محدودیتهای فنی و آموزش توسعهدهندگان و کاربران نهایی میتونه به کاهش کاربردهای مخرب VLMها کمک کنه. منابع آموزشی و مکانیزمهای گزارشدهی برای کاربران جهت پرچمگذاری سوءاستفاده ارائه شده. استفادههای ممنوعه از مدلهای جما در «سیاست استفاده ممنوعه جما» مشخص شده.
- نقض حریم خصوصی: مدلها روی دادههایی آموزش دیدن که برای حذف برخی اطلاعات شخصی و سایر دادههای حساس فیلتر شدن. توسعهدهندگان تشویق میشن که با تکنیکهای حفظ حریم خصوصی به مقررات حریم خصوصی پایبند باشن.
در زمان انتشار، این خانواده از مدلها پیادهسازیهای مدل زبان-بینایی اپن سورس با عملکرد بالا رو ارائه میدن که از پایه برای توسعه هوش مصنوعی مسئولانه در مقایسه با مدلهای با اندازه مشابه طراحی شدن. با استفاده از معیارهای ارزیابی بنچمارک توصیف شده در این سند، نشون داده شده که این مدلها عملکرد بهتری نسبت به سایر جایگزینهای مدل اپن سورس با اندازه مشابه دارن. تعداد دانلودهای این مدل در ماه گذشته به ۲٬۹۲۱ رسیده.
دیدگاهتان را بنویسید