GeekAlerts

جایی برای گیک‌ها

معرفی مدل Gemma 3 270M گوگل؛ هوش مصنوعی کوچک، سریع، قدرتمند

معرفی مدل Gemma 3 270M گوگل؛ هوش مصنوعی کوچک، سریع، قدرتمند

خلاصه

  • گوگل یه مدل جدید و جمع‌وجور هوش مصنوعی به اسم Gemma 3 270M معرفی کرده که ۲۷۰ میلیون پارامتر داره.
  • هدف اصلی این مدل، فاین‌تیونینگ (سفارشی‌سازی) برای کارهای خاصه تا بتونی مدل‌های سبک و سریع با هزینه کم بسازی.
  • این مدل هم برای دسکتاپ و ابری خوبه و هم نسخه مخصوص موبایل و دستگاه‌های لبه (مثل گوشی Pixel 9 Pro) داره که مصرف باتریش خیلی کمه.
  • Gemma 3 270M از همون اول دستورات رو خوب میفهمه و میشه با چندتا مثال کم، اون رو برای کارای خیلی تخصصی‌تر آموزش داد.
  • این مدل رو هاگینگ فیس در دسترسه و برای استفاده باید لایسنس گوگل رو قبول کنی.
  • گوگل تو ساخت این مدل‌ها خیلی رو پاک‌سازی داده‌ها (مثل فیلتر کردن محتوای مضر) و ایمنی اخلاقی تمرکز کرده.
  • محدودیت اصلیش اینه که برای کارهای عمومی LLM طراحی نشده، اما تو کاری که براش فاین‌تیون بشه، فوق‌العاده‌ست.

حتما با خانواده مدل‌های هوش مصنوعی «جما» آشنایی داری یا حداقل اسمش به گوشت خورده. گوگل چند وقتیه که با این خانواده مدل‌های اپن سورس یا همون متن‌باز، سروصدای زیادی به پا کرده. از مدل‌های قدرتمند «جما ۳» و «جما ۳ کیو‌ای‌تی» (Gemma 3 QAT) که برای کامپیوترهای دسکتاپ و ابری ساخته شدن گرفته، تا «جما ۳اِن» (Gemma 3n) که مخصوص موبایل و دستگاه‌های لبه (edge devices) طراحی شده تا هوش مصنوعی چندوجهی رو مستقیم بیاره کف دست ما. هدف گوگل از اول این بوده که ابزارهای مفیدی برای توسعه‌دهنده‌ها بسازه تا بتونن با هوش مصنوعی کار کنن و تا الان هم جامعه کاربری که دور این مدل‌ها شکل گرفته، که بهش میگن «جماورس» (Gemmaverse)، خیلی پرجنب‌وجوش بوده و تعداد دانلودهای این مدل‌ها از ۲۰۰ میلیون هم گذشته.

حالا گوگل یه ابزار خیلی خاص و جدید به این مجموعه اضافه کرده: مدل «جما ۳ ۲۷۰اِم» (Gemma 3 270M). این یه مدل جمع‌وجور با ۲۷۰ میلیون پارامتره که از پایه برای یه کار مشخص طراحی شده: فاین‌تیونینگ (Fine-tuning) یا همون سفارشی‌سازی برای کارهای خاص. این مدل از همون اولش قابلیت‌های خوبی برای دنبال کردن دستورات و ساختاربندی متن داره.

فلسفه «ابزار مناسب برای کار مناسب»

توی دنیای مهندسی، موفقیت فقط به قدرت خام نیست، بلکه به بهینه‌بودنه. مثلا شما هیچ‌وقت برای کوبیدن یه میخ کوچیک روی دیوار تا یه قاب عکس آویزون کنی، از پتک استفاده نمیکنی. همین اصل دقیقا در مورد ساختن ابزار با هوش مصنوعی هم صدق میکنه.

مدل Gemma 3 270M دقیقا همین فلسفه «ابزار مناسب برای کار مناسب» رو دنبال میکنه. این مدل یه مدل پایه باکیفیته که از همون اول دستورات رو خوب متوجه میشه، اما قدرت اصلیش وقتی آزاد میشه که شما اون رو برای کار خودتون فاین‌تیون یا سفارشی کنین. وقتی این مدل برای یه کار خاص مثل دسته‌بندی متن یا استخراج اطلاعات تخصص پیدا کرد، میتونه اون کار رو با دقت، سرعت و هزینه خیلی پایینی انجام بده. وقتی شما با یه مدل جمع‌وجور و توانا شروع میکنین، میتونین سیستم‌های نهایی بسازین که سبک، سریع و به شکل قابل توجهی برای اجرا ارزون‌تر هستن.

این رویکرد همین الان هم نتایج فوق‌العاده‌ای توی دنیای واقعی داشته. یه مثال عالیش کاریه که شرکت «ادپتیو ام‌ال» (Adaptive ML) با همکاری «اس‌کی تلکام» (SK Telecom) انجام داده. اون‌ها با چالش مدیریت محتوای چندزبانه و پیچیده روبرو بودن. به جای اینکه از یه مدل غول‌پیکر و همه‌کاره استفاده کنن، تصمیم گرفتن یه مدل رو تخصصی کنن. برای همین، یه مدل Gemma 3 4B (چهار میلیارد پارامتری) رو فاین‌تیون کردن. نتایج حیرت‌انگیز بود: مدل تخصصی‌شده جما نه تنها به سطح عملکرد مدل‌های خیلی بزرگ‌تر و اختصاصی رسید، بلکه توی اون کار مشخص ازشون بهتر هم عمل کرد.

حالا مدل Gemma 3 270M طراحی شده تا به توسعه‌دهنده‌ها اجازه بده این رویکرد رو یه قدم جلوتر ببرن و برای کارهای مشخص و تعریف‌شده به بهینگی بیشتری برسن. این مدل یه نقطه شروع عالی برای ساختن یه لشکر از مدل‌های کوچیک و تخصصیه که هر کدومشون توی کار خودشون استادن. البته این قدرت تخصص‌سازی فقط برای کارهای شرکتی نیست؛ کاربردهای خلاقانه قدرتمندی هم داره. مثلا، یه اپلیکیشن تحت وب به اسم «ژنراتور داستان شب» (Bedtime Story Generator) با همین مدل ساخته شده.

آشنایی بیشتر با خانواده مدل‌های جما

جما (Gemma) در واقع یه خانواده از مدل‌های اپن سورس یا متن‌باز، سبک و پیشرفته از گوگله. این مدل‌ها با همون تحقیق و فناوری‌ای ساخته شدن که برای ساخت مدل‌های جمنای (Gemini) استفاده شده. مدل‌های «جما ۳» چندوجهی (multimodal) هستن، یعنی هم ورودی متن و هم تصویر رو میفهمن و خروجی متنی تولید میکنن. وزن‌های این مدل‌ها هم به صورت اپن سورس در دسترسه، هم برای نسخه‌های از پیش آموزش‌دیده (pre-trained) و هم برای نسخه‌هایی که برای دنبال کردن دستورات تنظیم شدن (instruction-tuned).

یکی از ویژگی‌های مهم «جما ۳» اینه که یه پنجره زمینه (context window) بزرگ ۱۲۸ هزار توکنی داره و از بیشتر از ۱۴۰ زبان پشتیبانی میکنه. این مدل در اندازه‌های متنوع‌تری نسبت به نسخه‌های قبلی عرضه شده. مدل‌های جما برای کارهای مختلفی مثل تولید متن و درک تصویر خیلی مناسبن؛ کارهایی مثل جواب دادن به سوال، خلاصه‌سازی و استدلال کردن. اندازه نسبتا کوچیک این مدل‌ها باعث میشه بشه اون‌ها رو توی محیط‌هایی با منابع محدود مثل لپ‌تاپ، کامپیوترهای رومیزی یا حتی زیرساخت ابری شخصی خودتون اجرا کرد. این موضوع دسترسی به مدل‌های هوش مصنوعی پیشرفته رو برای همه راحت‌تر میکنه و به نوآوری کمک میکنه.

ورودی‌ها و خروجی‌های مدل

برای اینکه بهتر با کارکرد این مدل آشنا بشیم، بیایین ببینیم چه ورودی‌هایی میگیره و چه خروجی‌هایی تولید میکنه.

  • ورودی‌ها:
    • رشته متنی: مثل یه سوال، یه دستور یا یه سندی که قراره خلاصه‌سازی بشه.
    • تصاویر: برای مدل‌های سایز 4B، 12B و 27B، تصاویر به رزولوشن ۸۹۶ در ۸۹۶ نرمال‌سازی میشن و هر کدوم به ۲۵۶ توکن انکود میشن.
    • زمینه ورودی کل: برای مدل‌های 4B، 12B و 27B تا ۱۲۸ هزار توکن و برای مدل‌های 1B و 270M تا ۳۲ هزار توکن.
  • خروجی‌ها:
    • متن تولید شده: در پاسخ به ورودی، مثلا جواب یه سوال، تحلیل محتوای یه تصویر یا خلاصه یه سند.
    • زمینه خروجی کل: برای مدل‌های 4B، 12B و 27B تا ۱۲۸ هزار توکن و برای مدل‌های 1B و 270M تا ۳۲ هزار توکن برای هر درخواست. البته تعداد توکن‌های ورودی از این مقدار کم میشه.

چطوری میشه به جما دسترسی پیدا کرد؟

این مدل‌ها توی پلتفرم «هاگینگ فیس» (Hugging Face) در دسترس عموم قرار دارن، اما برای دسترسی به فایل‌ها و محتواش باید یه سری شرایط رو قبول کنی. برای استفاده از جما روی هاگینگ فیس، لازمه که لایسنس استفاده گوگل رو بخونی و باهاش موافقت کنی. برای این کار، باید مطمئن بشی که توی اکانت هاگینگ فیس خودت لاگین کردی و روی دکمه مربوطه کلیک کنی. درخواست‌ها همون موقع پردازش میشن.

اگه بخوای توی مقاله‌های علمی به این مدل ارجاع بدی، میتونی از این فرمت استفاده کنی:
@article{gemma_2025, title={Gemma 3}, url={https://arxiv.org/abs/2503.19786}, publisher={Google DeepMind}, author={Gemma Team}, year={2025} }

زیر ذره‌بین: داده‌های آموزشی مدل

این مدل‌ها روی یه مجموعه داده متنی خیلی بزرگ آموزش دیدن که منابع خیلی متنوعی رو شامل میشه.

مدل 27B با ۱۴ تریلیون توکن آموزش دیده.

مدل 12B با ۱۲ تریلیون توکن آموزش دیده.

مدل 4B با ۴ تریلیون توکن آموزش دیده.

مدل 1B با ۲ تریلیون توکن آموزش دیده.

مدل 270M با ۶ تریلیون توکن آموزش دیده.

تاریخ قطعی دانش (knowledge cutoff) این داده‌های آموزشی هم آگوست ۲۰۲۴ بوده.

اجزای اصلی این داده‌ها این‌ها بودن:

  • اسناد وب: یه مجموعه متنوع از متن‌های روی وب که باعث میشه مدل با طیف وسیعی از سبک‌های زبانی، موضوعات و کلمات آشنا بشه. این مجموعه داده شامل محتوا به بیشتر از ۱۴۰ زبان مختلفه.
  • کد: آموزش مدل با کد بهش کمک میکنه تا سینتکس و الگوهای زبان‌های برنامه‌نویسی رو یاد بگیره. این کار تواناییش رو برای تولید کد و فهمیدن سوال‌های مربوط به کدنویسی بهتر میکنه.
  • ریاضیات: آموزش روی متن‌های ریاضی به مدل کمک میکنه تا استدلال منطقی، نمایش نمادین و پاسخ به سوالات ریاضی رو یاد بگیره.
  • تصاویر: طیف وسیعی از تصاویر به مدل این امکان رو میده که تحلیل تصویر و استخراج داده‌های بصری رو انجام بده.

ترکیب این منابع داده متنوع برای آموزش یه مدل چندوجهی قدرتمند که بتونه از پس کارهای مختلف و فرمت‌های داده‌ای متفاوت بربیاد، خیلی حیاتیه.

پاک‌سازی و فیلتر کردن داده‌ها

برای اینکه داده‌های آموزشی تمیز و مناسب باشن، از روش‌های مختلفی برای فیلتر کردنشون استفاده شده:

  • فیلتر کردن CSAM: فیلترینگ خیلی سخت‌گیرانه‌ای برای محتوای سوءاستفاده جنسی از کودکان (CSAM) در مراحل مختلف آماده‌سازی داده‌ها اعمال شده تا جلوی ورود این محتوای مضر و غیرقانونی گرفته بشه.
  • فیلتر کردن داده‌های حساس: به عنوان بخشی از تلاش برای امن و قابل اطمینان کردن مدل‌های از پیش آموزش‌دیده جما، از تکنیک‌های خودکار برای فیلتر کردن اطلاعات شخصی خاص و بقیه داده‌های حساس از مجموعه داده‌های آموزشی استفاده شده.
  • روش‌های دیگه: فیلتر کردن بر اساس کیفیت محتوا و ایمنی، مطابق با سیاست‌های داخلی گوگل هم انجام شده.

نگاهی به درون مدل: سخت‌افزار و نرم‌افزار

مدل جما با استفاده از سخت‌افزارهای «واحد پردازش تانسور» یا همون TPU (نسخه‌های TPUv4p، TPUv5p و TPUv5e) آموزش دیده. آموزش مدل‌های زبان-بینایی (VLM) به قدرت محاسباتی خیلی زیادی نیاز داره. TPUها که به طور خاص برای عملیات ماتریسی که توی یادگیری ماشین خیلی رایجه طراحی شدن، مزایای زیادی توی این زمینه دارن:

  • عملکرد: TPUها به طور خاص برای انجام محاسبات عظیم مورد نیاز برای آموزش VLMها طراحی شدن. اون‌ها میتونن سرعت آموزش رو در مقایسه با CPUها به شکل قابل توجهی افزایش بدن.
  • حافظه: TPUها معمولا مقدار زیادی حافظه با پهنای باند بالا دارن که اجازه میده مدل‌های بزرگ و بچ‌سایزهای (batch size) بزرگ در حین آموزش مدیریت بشن. این موضوع میتونه به کیفیت بهتر مدل منجر بشه.
  • مقیاس‌پذیری: TPU Podها (که خوشه‌های بزرگی از TPUها هستن) یه راه حل مقیاس‌پذیر برای مدیریت پیچیدگی روزافزون مدل‌های پایه بزرگ ارائه میدن. میشه آموزش رو بین چندین دستگاه TPU توزیع کرد تا پردازش سریع‌تر و بهینه‌تر انجام بشه.
  • مقرون‌به‌صرفه بودن: در خیلی از موارد، TPUها میتونن راه حل مقرون‌به‌صرفه‌تری برای آموزش مدل‌های بزرگ در مقایسه با زیرساخت‌های مبتنی بر CPU باشن، مخصوصا وقتی زمان و منابعی که به خاطر سرعت بالاتر آموزش صرفه‌جویی میشه رو در نظر بگیریم.
  • این مزایا با تعهدات گوگل برای فعالیت پایدار هم همخوانی دارن.

برای آموزش از JAX و ML Pathways استفاده شده. JAX به محقق‌ها اجازه میده از آخرین نسل سخت‌افزارها، از جمله TPUها، برای آموزش سریع‌تر و بهینه‌تر مدل‌های بزرگ استفاده کنن. ML Pathways هم آخرین تلاش گوگل برای ساختن سیستم‌های هوشمند مصنوعیه که میتونن در چندین کار مختلف تعمیم پیدا کنن. این برای مدل‌های پایه، از جمله مدل‌های زبان بزرگ مثل این‌ها، خیلی مناسبه.

ترکیب JAX و ML Pathways همونطور که توی مقاله مربوط به خانواده مدل‌های جمنای توضیح داده شده، استفاده میشه: «مدل برنامه‌نویسی «کنترلر واحد» در Jax و Pathways به یه فرآیند پایتون اجازه میده کل فرآیند آموزش رو مدیریت کنه، که این کار گردش کار توسعه رو به شدت ساده میکنه.»

ویژگی‌های خاص مدل ۲۷۰ میلیون پارامتری

مدل Gemma 3 270M معماری پیشرفته و پیش‌آموزش قوی مجموعه جما ۳ رو به ارث برده و یه پایه محکم برای اپلیکیشن‌های سفارشی شما فراهم میکنه. بیایین نگاهی به ویژگی‌های اصلیش بندازیم:

  • واژگان عظیم ۲۵۶ هزارتایی برای تیونینگ تخصصی: این مدل تقریبا ۱۷۰ میلیون پارامترش رو به لایه تعبیه (embedding layer) اختصاص داده که از یه واژگان (vocabulary) خیلی بزرگ ۲۵۶ هزار توکنی پشتیبانی میکنه. این بهش اجازه میده توکن‌های نادر و تخصصی رو مدیریت کنه، که باعث میشه برای انطباق با دامنه‌های خاص، اصطلاحات تخصصی صنایع یا کارهای زبانی سفارشی خیلی مناسب باشه.
  • بهینگی مصرف انرژی فوق‌العاده برای هوش مصنوعی روی دستگاه: بنچمارک‌های داخلی نشون میده که نسخه کوانتایزشده INT4 این مدل، برای ۲۵ مکالمه معمولی، کمتر از ۱ درصد باتری گوشی Pixel 9 Pro رو مصرف میکنه. این یعنی این مدل بهینه‌ترین مدل جما از نظر مصرف انرژیه. حالا توسعه‌دهنده‌ها میتونن مدل‌های توانمند رو روی موبایل، دستگاه‌های لبه و محیط‌های تعبیه‌شده (embedded) اجرا کنن بدون اینکه پاسخگویی یا عمر باتری رو فدا کنن.
  • آماده برای تولید با آموزش آگاه از کوانتایزیشن (QAT): این مدل با چک‌پوینت‌های آموزش آگاه از کوانتایزیشن (QAT) عرضه میشه، پس میتونه با دقت ۴ بیتی (۴-bit precision) و با افت کیفیت ناچیز کار کنه. این موضوع امکان استقرار در محیط‌های تولیدی روی دستگاه‌هایی با حافظه و توان محاسباتی محدود رو فراهم میکنه و اجازه میده استنتاج (inference) به صورت محلی و رمزگذاری‌شده انجام بشه و تضمین‌های حریم خصوصی افزایش پیدا کنه.
  • دنبال کردن دستورات از همان ابتدا: این مدل هم به صورت از پیش آموزش‌دیده و هم به صورت تنظیم‌شده برای دستورات (instruction-tuned) در دسترسه و میتونه دستورات ساختاریافته رو فورا بفهمه و دنبال کنه. در عین حال، توسعه‌دهنده‌ها میتونن با تنها چند مثال فاین‌تیونینگ، رفتار مدل رو بیشتر تخصصی کنن.

جدول مشخصات معماری مدل

کامپوننتمشخصات Gemma 3 270M
کل پارامترها۲۷۰ میلیون
پارامترهای تعبیهتقریبا ۱۷۰ میلیون
بلوک‌های ترنسفورمرتقریبا ۱۰۰ میلیون
اندازه واژگان۲۵۶٬۰۰۰ توکن
پنجره زمینه۳۲ هزار توکن (برای سایزهای ۱ میلیارد و ۲۷۰ میلیون)
حالت‌های دقتBF16, SFP8, INT4 (QAT)
حداقل مصرف رم (Q4_0)تقریبا ۲۴۰ مگابایت

راهنمای فاین‌تیونینگ: گردش کار و بهترین روش‌ها

مدل Gemma 3 270M برای فاین-تیونینگ سریع و تخصصی روی مجموعه‌داده‌های متمرکز مهندسی شده. گردش کار رسمی که توی راهنمای هاگینگ فیس ترنسفورمرز گوگل نشون داده شده، شامل این مراحل میشه:

  1. آماده‌سازی مجموعه داده: مجموعه‌داده‌های کوچیک و با دقت انتخاب‌شده معمولا کافی هستن. مثلا برای یاد دادن یه سبک مکالمه یا یه فرمت داده خاص، ممکنه فقط ۱۰ تا ۲۰ مثال کافی باشه.
  2. پیکربندی ترینر (Trainer): با استفاده از SFTTrainer کتابخانه TRL هاگینگ فیس و بهینه‌سازهای قابل تنظیم (مثل AdamW، زمان‌بند ثابت و غیره)، مدل میتونه فاین‌تیون و ارزیابی بشه. در این حین، با مقایسه منحنی‌های زیان (loss) آموزش و اعتبارسنجی، میشه بیش‌برازش (overfitting) یا کم‌برازش (underfitting) رو کنترل کرد.
  3. ارزیابی: بعد از آموزش، تست‌های استنتاج نشون‌دهنده انطباق چشمگیر مدل با شخصیت و فرمت جدیده. جالبه که بیش‌برازش که معمولا یه مشکله، اینجا میتونه مفید باشه؛ چون باعث میشه مدل دانش عمومی رو «فراموش کنه» تا برای نقش‌های خیلی تخصصی (مثلا شخصیت‌های غیرقابل‌بازی در بازی‌های نقش‌آفرینی، یادداشت‌نویسی سفارشی، یا بررسی انطباق با مقررات یه بخش خاص) آماده بشه.
  4. استقرار (Deployment): مدل‌ها رو میشه روی هاگینگ فیس هاب (Hugging Face Hub) پوش کرد و روی دستگاه‌های محلی، فضای ابری یا ورتکس ای‌آی (Vertex AI) گوگل با بارگذاری تقریبا آنی و سربار محاسباتی کم اجرا کرد.

یه تجربه واقعی: از تئوری تا عمل

برای اینکه ببینیم این مدل در عمل چطوره، یه نفر اون رو تست کرده. نسخه GGUF که از LM Studio دانلود کرده، فقط ۲۴۱ مگابایت حجم داشته. این مدل کار میکنه! میشه بهش «سلام» گفت یا سوال‌های خیلی پایه‌ای مثل «پایتخت فرانسه کجاست؟» رو ازش پرسید.

اما وقتی ازش خواسته شده که «یه فایل SVG از یه پلیکان که داره دوچرخه‌سواری میکنه بساز»، بعد از حدود ده بار تلاش، هیچ‌وقت یه SVG درست حسابی تحویل نداده و فقط یه مربع خالی تولید کرده. البته یه بار به جای SVG، این شعر رو نوشته که جالب بوده:

+-----------------------+
| Pelican Riding Bike |
+-----------------------+
| This is the cat!      |
| He's got big wings and a happy tail. |
| He loves to ride his bike!           |
+-----------------------+
| Bike lights are shining bright.      |
| He's got a shiny top, too!           |
| He's ready for adventure!            |
+-----------------------+

البته نکته اصلی این نیست. تیم جما ۳ خیلی واضح گفته که هدف این مدل، پشتیبانی از فاین‌تیونینگ هست. یه مدل به این کوچیکی هیچ‌وقت قرار نیست برای کارهای عمومی یه مدل زبان بزرگ (LLM) مفید باشه، اما اگه داده‌های فاین‌تیونینگ مناسبی بهش داده بشه، میتونه برای انواع و اقسام کارها تخصصی بشه. خود گوگل هم راهنمایی برای «فاین‌تیونینگ کامل مدل با استفاده از هاگینگ فیس ترنسفورمرز» منتشر کرده. این مدل به خصوص برای بازی و آزمایش مستقیم توی مرورگر با استفاده از transformers.js میتونه خیلی جالب باشه.

ارزیابی عملکرد مدل: وقت دیدن نمره‌هاست

این مدل‌ها در برابر مجموعه بزرگی از مجموعه‌داده‌ها و معیارهای مختلف ارزیابی شدن تا جنبه‌های متفاوت تولید متن پوشش داده بشه. نتایج ارزیابی که با IT مشخص شدن، برای مدل‌های تنظیم‌شده برای دستورات (instruction-tuned) و نتایجی که با PT مشخص شدن برای مدل‌های از پیش آموزش‌دیده (pre-trained) هستن.

نتایج مدل Gemma 3 PT 270M

بنچمارکn-shotنمره
HellaSwag۱۰-shot۴۰.۹
BoolQ۰-shot۶۱.۴
PIQA۰-shot۶۷.۷
TriviaQA۵-shot۱۵.۴
ARC-c۲۵-shot۲۹.۰
ARC-e۰-shot۵۷.۷
WinoGrande۵-shot۵۲.۰

نتایج مدل Gemma 3 IT 270m

بنچمارکn-shotنمره
HellaSwag۰-shot۳۷.۷
PIQA۰-shot۶۶.۲
ARC-c۰-shot۲۸.۲
WinoGrande۰-shot۵۲.۳
BIG-Bench Hardfew-shot۲۶.۷
IF Eval۰-shot۵۱.۲

نتایج مدل‌های بزرگ‌تر Gemma 3 IT

بنچمارکn-shotGemma 3 IT 1BGemma 3 IT 4BGemma 3 IT 12BGemma 3 IT 27B
GPQA Diamond۰-shot۱۹.۲۳۰.۸۴۰.۹۴۲.۴
SimpleQA۰-shot۲.۲۴.۰۶.۳۱۰.۰
FACTS Grounding۳۶.۴۷۰.۱۷۵.۸۷۴.۹
BIG-Bench Hard۰-shot۳۹.۱۷۲.۲۸۵.۷۸۷.۶
BIG-Bench Extra Hard۰-shot۷.۲۱۱.۰۱۶.۳۱۹.۳
IFEval۰-shot۸۰.۲۹۰.۲۸۸.۹۹۰.۴

نتایج مدل‌های بزرگ‌تر Gemma 3 PT

بنچمارکn-shotGemma 3 PT 1BGemma 3 PT 4BGemma 3 PT 12BGemma 3 PT 27B
HellaSwag۱۰-shot۶۲.۳۷۷.۲۸۴.۲۸۵.۶
BoolQ۰-shot۶۳.۲۷۲.۳۷۸.۸۸۲.۴
PIQA۰-shot۷۳.۸۷۹.۶۸۱.۸۸۳.۳
SocialIQA۰-shot۴۸.۹۵۱.۹۵۳.۴۵۴.۹
TriviaQA۵-shot۳۹.۸۶۵.۸۷۸.۲۸۵.۵
Natural Questions۵-shot۹.۴۸۲۰.۰۳۱.۴۳۶.۱
ARC-c۲۵-shot۳۸.۴۵۶.۲۶۸.۹۷۰.۶
ARC-e۰-shot۷۳.۰۸۲.۴۸۸.۳۸۹.۰
WinoGrande۵-shot۵۸.۲۶۴.۷۷۴.۳۷۸.۸
BIG-Bench Hardfew-shot۲۸.۴۵۰.۹۷۲.۶۷۷.۷
DROP۱-shot۴۲.۴۶۰.۱۷۲.۲۷۷.۲

نتایج مدل‌های بزرگ‌تر Gemma 3 IT (بنچمارک‌های مختلف)

بنچمارکn-shotGemma 3 IT 1BGemma 3 IT 4BGemma 3 IT 12BGemma 3 IT 27B
MMLU (Pro)۰-shot۱۴.۷۴۳.۶۶۰.۶۶۷.۵
LiveCodeBench۰-shot۱.۹۱۲.۶۲۴.۶۲۹.۷
Bird-SQL (dev)۶.۴۳۶.۳۴۷.۹۵۴.۴
Math۰-shot۴۸.۰۷۵.۶۸۳.۸۸۹.۰
HiddenMath۰-shot۱۵.۸۴۳.۰۵۴.۵۶۰.۳
MBPP۳-shot۳۵.۲۶۳.۲۷۳.۰۷۴.۴
HumanEval۰-shot۴۱.۵۷۱.۳۸۵.۴۸۷.۸
Natural2Code۰-shot۵۶.۰۷۰.۳۸۰.۷۸۴.۵
GSM8K۰-shot۶۲.۸۸۹.۲۹۴.۴۹۵.۹

نتایج مدل‌های بزرگ‌تر Gemma 3 PT (بنچمارک‌های مختلف)

بنچمارکn-shotGemma 3 PT 4BGemma 3 PT 12BGemma 3 PT 27B
MMLU۵-shot۵۹.۶۷۴.۵۷۸.۶
MMLU (Pro COT)۵-shot۲۹.۲۴۵.۳۵۲.۲
AGIEval۳-۵-shot۴۲.۱۵۷.۴۶۶.۲
MATH۴-shot۲۴.۲۴۳.۳۵۰.۰
GSM8K۸-shot۳۸.۴۷۱.۰۸۲.۶
GPQA۵-shot۱۵.۰۲۵.۴۲۴.۳
MBPP۳-shot۴۶.۰۶۰.۴۶۵.۶
HumanEval۰-shot۳۶.۰۴۵.۷۴۸.۸

نتایج چندزبانه و بینایی مدل‌های IT

بنچمارکn-shotGemma 3 IT 1BGemma 3 IT 4BGemma 3 IT 12BGemma 3 IT 27B
Global-MMLU-Lite۰-shot۳۴.۲۵۴.۵۶۹.۵۷۵.۱
ECLeKTic۰-shot۱.۴۴.۶۱۰.۳۱۶.۷
WMT24++۰-shot۳۵.۹۴۶.۸۵۱.۶۵۳.۴
بنچمارکGemma 3 IT 4BGemma 3 IT 12BGemma 3 IT 27B
MMMU (val)۴۸.۸۵۹.۶۶۴.۹
DocVQA۷۵.۸۸۷.۱۸۶.۶
InfoVQA۵۰.۰۶۴.۹۷۰.۶
TextVQA۵۷.۸۶۷.۷۶۵.۱
AI2D۷۴.۸۸۴.۲۸۴.۵
ChartQA۶۸.۸۷۵.۷۷۸.۰
VQAv2 (val)۶۲.۴۷۱.۶۷۱.۰
MathVista (testmini)۵۰.۰۶۲.۹۶۷.۶

نتایج چندزبانه و بینایی مدل‌های PT

بنچمارکGemma 3 PT 1BGemma 3 PT 4BGemma 3 PT 12BGemma 3 PT 27B
MGSM۲.۰۴۳۴.۷۶۴.۳۷۴.۳
Global-MMLU-Lite۲۴.۹۵۷.۰۶۹.۴۷۵.۷
WMT24++ (ChrF)۳۶.۷۴۸.۴۵۳.۹۵۵.۷
FloRes۲۹.۵۳۹.۲۴۶.۰۴۸.۸
XQuAD (all)۴۳.۹۶۸.۰۷۴.۵۷۶.۸
ECLeKTic۴.۶۹۱۱.۰۱۷.۲۲۴.۴
IndicGenBench۴۱.۴۵۷.۲۶۱.۷۶۳.۴
بنچمارکGemma 3 PT 4BGemma 3 PT 12BGemma 3 PT 27B
COCOcap۱۰۲۱۱۱۱۱۶
DocVQA (val)۷۲.۸۸۲.۳۸۵.۶
InfoVQA (val)۴۴.۱۵۴.۸۵۹.۴
MMMU (pt)۳۹.۲۵۰.۳۵۶.۱
TextVQA (val)۵۸.۹۶۶.۵۶۸.۶
RealWorldQA۴۵.۵۵۲.۲۵۳.۹
ReMI۲۷.۳۳۸.۵۴۴.۸
AI2D۶۳.۲۷۵.۲۷۹.۰
ChartQA۶۳.۶۷۴.۷۷۶.۳
VQAv2۶۳.۹۷۱.۲۷۲.۹
BLINK۳۸.۰۳۵.۹۳۹.۶
OKVQA۵۱.۰۵۸.۷۶۰.۲
TallyQA۴۲.۵۵۱.۸۵۴.۳
SpatialSense VQA۵۰.۹۶۰.۰۵۹.۴
CountBenchQA۲۶.۱۱۷.۸۶۸.۰

اخلاق و ایمنی: یه نگاه مسئولانه

رویکرد ارزیابی این مدل‌ها شامل ارزیابی‌های ساختاریافته و تست‌های رد-تیمینگ (red-teaming) داخلی برای سیاست‌های محتوایی مربوطه میشه. رد-تیمینگ توسط چندین تیم مختلف انجام شده که هر کدوم اهداف و معیارهای ارزیابی انسانی متفاوتی داشتن. این مدل‌ها در برابر دسته‌های مختلف مرتبط با اخلاق و ایمنی ارزیابی شدن، از جمله:

  • ایمنی کودکان: ارزیابی دستورات متن-به-متن و تصویر-به-متن که سیاست‌های ایمنی کودکان رو پوشش میدن، از جمله سوءاستفاده و بهره‌کشی جنسی از کودکان.
  • ایمنی محتوا: ارزیابی دستورات متن-به-متن و تصویر-به-متن که سیاست‌های ایمنی مثل آزار و اذیت، خشونت و محتوای خونین، و سخنان نفرت‌پراکنانه رو پوشش میدن.
  • آسیب‌های بازنمودی: ارزیابی دستورات متن-به-متن و تصویر-به-متن که سیاست‌های ایمنی شامل سوگیری، کلیشه‌سازی، و ارتباطات یا نادرستی‌های مضر رو پوشش میدن.

علاوه بر ارزیابی‌های سطح توسعه، «ارزیابی‌های تضمینی» هم انجام میشه که ارزیابی‌های داخلی «بدون وابستگی» برای تصمیم‌گیری‌های حاکمیت مسئولانه هستن. این ارزیابی‌ها جدا از تیم توسعه مدل انجام میشن تا به تصمیم‌گیری در مورد انتشار مدل کمک کنن. یافته‌های سطح بالا به تیم مدل بازخورد داده میشه، اما مجموعه دستورات (prompt sets) مخفی نگه داشته میشن تا از بیش‌برازش جلوگیری بشه و توانایی نتایج برای اطلاع‌رسانی به تصمیم‌گیری حفظ بشه. نتایج ارزیابی تضمینی به «شورای مسئولیت و ایمنی» به عنوان بخشی از بررسی انتشار گزارش میشه.

در همه زمینه‌های تست ایمنی، بهبودهای بزرگی در دسته‌های ایمنی کودکان، ایمنی محتوا و آسیب‌های بازنمودی نسبت به مدل‌های قبلی جما دیده شد. تمام تست‌ها بدون فیلترهای ایمنی انجام شد تا قابلیت‌ها و رفتارهای مدل ارزیابی بشه. هم برای متن-به-متن و هم برای تصویر-به-متن، و در تمام اندازه‌های مدل، مدل تخلفات سیاستی کمتری تولید کرد و بهبودهای قابل توجهی نسبت به عملکرد مدل‌های قبلی جما در مورد استنتاج‌های بی‌اساس نشون داد. یه محدودیت ارزیابی‌ها این بود که فقط شامل دستورات به زبان انگلیسی بودن.

محدودیت‌ها، کاربردها و نگرانی‌های اخلاقی

این مدل‌ها محدودیت‌های مشخصی دارن که کاربران باید ازشون آگاه باشن. مدل‌های زبان-بینایی (VLM) اپن سورس طیف وسیعی از کاربردها در صنایع و حوزه‌های مختلف دارن. لیست زیر از کاربردهای بالقوه جامع نیست و هدفش اینه که اطلاعات زمینه‌ای در مورد موارد استفاده احتمالی که سازندگان مدل در طول آموزش و توسعه مدل در نظر گرفتن رو ارائه بده.

کاربردهای بالقوه

تولید محتوا و ارتباطات:

  • تولید متن: این مدل‌ها میتونن برای تولید فرمت‌های متنی خلاقانه مثل شعر، فیلم‌نامه، کد، متن تبلیغاتی و پیش‌نویس ایمیل استفاده بشن.
  • چت‌بات‌ها و هوش مصنوعی محاوره‌ای: برای قدرت بخشیدن به رابط‌های محاوره‌ای برای خدمات مشتری، دستیاران مجازی یا اپلیکیشن‌های تعاملی.
  • خلاصه‌سازی متن: تولید خلاصه‌های موجز از مجموعه‌های متنی، مقالات تحقیقاتی یا گزارش‌ها.
  • استخراج داده از تصویر: این مدل‌ها میتونن برای استخراج، تفسیر و خلاصه‌سازی داده‌های بصری برای ارتباطات متنی استفاده بشن.

تحقیق و آموزش:

  • تحقیقات NLP و VLM: این مدل‌ها میتونن به عنوان پایه‌ای برای محققان باشن تا تکنیک‌های VLM و NLP رو آزمایش کنن، الگوریتم‌ها رو توسعه بدن و به پیشرفت این حوزه کمک کنن.
  • ابزارهای یادگیری زبان: پشتیبانی از تجربیات یادگیری زبان تعاملی، کمک به تصحیح گرامر یا فراهم کردن تمرین نوشتن.
  • کاوش دانش: کمک به محققان در کاوش بدنه‌های بزرگ متنی با تولید خلاصه یا پاسخ به سوالات در مورد موضوعات خاص.

محدودیت‌های شناخته‌شده

  • داده‌های آموزشی: کیفیت و تنوع داده‌های آموزشی به طور قابل توجهی بر قابلیت‌های مدل تاثیر میذاره. سوگیری‌ها یا شکاف‌ها در داده‌های آموزشی میتونه به محدودیت‌هایی در پاسخ‌های مدل منجر بشه. دامنه مجموعه داده‌های آموزشی مشخص میکنه که مدل میتونه چه موضوعاتی رو به طور موثر مدیریت کنه.
  • زمینه و پیچیدگی کار: مدل‌ها در کارهایی که میتونن با دستورات و راهنمایی‌های واضح چارچوب‌بندی بشن، بهتر عمل میکنن. کارهای باز یا بسیار پیچیده ممکنه چالش‌برانگیز باشن. عملکرد یه مدل میتونه تحت تاثیر مقدار زمینه ارائه شده باشه (زمینه طولانی‌تر معمولا به خروجی‌های بهتری منجر میشه، تا یه حدی).
  • ابهام و ظرافت زبان: زبان طبیعی ذاتا پیچیده‌ست. مدل‌ها ممکنه در درک ظرافت‌های тонкий، کنایه یا زبان مجازی مشکل داشته باشن.
  • دقت واقعی: مدل‌ها پاسخ‌ها رو بر اساس اطلاعاتی که از مجموعه داده‌های آموزشی خودشون یاد گرفتن تولید میکنن، اما اون‌ها پایگاه دانش نیستن. ممکنه اظهارات واقعی نادرست یا قدیمی تولید کنن.
  • عقل سلیم: مدل‌ها به الگوهای آماری در زبان تکیه میکنن. ممکنه توانایی به کار بردن استدلال عقل سلیم در موقعیت‌های خاص رو نداشته باشن.

نگرانی‌های اخلاقی

توسعه مدل‌های زبان-بینایی (VLM) چندین نگرانی اخلاقی رو به وجود میاره. در ساختن یه مدل اپن سورس، این موارد به دقت در نظر گرفته شدن:

  • سوگیری و انصاف: VLMهایی که روی داده‌های متنی و تصویری در مقیاس بزرگ و دنیای واقعی آموزش دیدن، میتونن سوگیری‌های اجتماعی-فرهنگی موجود در مواد آموزشی رو منعکس کنن. این مدل‌ها تحت بررسی دقیق قرار گرفتن، پیش‌پردازش داده‌های ورودی توصیف شده و ارزیابی‌های بعدی در این کارت مدل گزارش شده.
  • اطلاعات نادرست و سوءاستفاده: VLMها میتونن برای تولید متنی که نادرست، گمراه‌کننده یا مضر باشه، مورد سوءاستفاده قرار بگیرن. راهنمایی‌هایی برای استفاده مسئولانه با مدل ارائه شده که در «کیت ابزار هوش مصنوعی مولد مسئولانه» موجوده.
  • شفافیت و پاسخگویی: این کارت مدل جزئیاتی در مورد معماری، قابلیت‌ها، محدودیت‌ها و فرآیندهای ارزیابی مدل‌ها رو خلاصه میکنه. یه مدل اپن سورس که به طور مسئولانه توسعه داده شده، فرصتی برای به اشتراک گذاشتن نوآوری با در دسترس قرار دادن فناوری VLM برای توسعه‌دهندگان و محققان در سراسر اکوسیستم هوش مصنوعی فراهم میکنه.

ریسک‌های شناسایی‌شده و راه‌های کاهش اونها

  • تداوم سوگیری‌ها: تشویق میشه که نظارت مستمر (با استفاده از معیارهای ارزیابی، بازبینی انسانی) و کاوش تکنیک‌های کاهش سوگیری در طول آموزش مدل، فاین‌تیونینگ و سایر موارد استفاده انجام بشه.
  • تولید محتوای مضر: مکانیزم‌ها و راهنمایی‌ها برای ایمنی محتوا ضروریه. توسعه‌دهندگان تشویق میشن که احتیاط کنن و پادمان‌های ایمنی محتوای مناسب رو بر اساس سیاست‌های محصول خاص و موارد استفاده اپلیکیشن خودشون پیاده‌سازی کنن.
  • سوءاستفاده برای اهداف مخرب: محدودیت‌های فنی و آموزش توسعه‌دهندگان و کاربران نهایی میتونه به کاهش کاربردهای مخرب VLMها کمک کنه. منابع آموزشی و مکانیزم‌های گزارش‌دهی برای کاربران جهت پرچم‌گذاری سوءاستفاده ارائه شده. استفاده‌های ممنوعه از مدل‌های جما در «سیاست استفاده ممنوعه جما» مشخص شده.
  • نقض حریم خصوصی: مدل‌ها روی داده‌هایی آموزش دیدن که برای حذف برخی اطلاعات شخصی و سایر داده‌های حساس فیلتر شدن. توسعه‌دهندگان تشویق میشن که با تکنیک‌های حفظ حریم خصوصی به مقررات حریم خصوصی پایبند باشن.

در زمان انتشار، این خانواده از مدل‌ها پیاده‌سازی‌های مدل زبان-بینایی اپن سورس با عملکرد بالا رو ارائه میدن که از پایه برای توسعه هوش مصنوعی مسئولانه در مقایسه با مدل‌های با اندازه مشابه طراحی شدن. با استفاده از معیارهای ارزیابی بنچمارک توصیف شده در این سند، نشون داده شده که این مدل‌ها عملکرد بهتری نسبت به سایر جایگزین‌های مدل اپن سورس با اندازه مشابه دارن. تعداد دانلودهای این مدل در ماه گذشته به ۲٬۹۲۱ رسیده.

منابع

  • [۲] google/gemma-3-270m · Hugging Face
  • [۴] Google AI Introduces Gemma 3 270M: A Compact Model for Hyper-Efficient, Task-Specific Fine-Tuning – MarkTechPost
  • [۱] Introducing Gemma 3 270M: The compact model for hyper-efficient AI – Google Developers Blog
  • [۳] Introducing Gemma 3 270M: The compact model for hyper-efficient AI

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *