نانو بنانا یا Gemini 2.5 Flash Image مدل جدید گوگل برای ویرایش عکس‌ها

خلاصه

گوگل دیپ‌مایند مدل هوش مصنوعی جدیدش به اسم “نانو بنانا” (Gemini 2.5 Flash Image) رو معرفی کرده که میشه باهاش عکس ویرایش کرد.
این مدل الان تو اپلیکیشن جمینای در دسترسه و ویژگی اصلیش، حفظ چهره اشخاص و حیوانات خونگی موقع ویرایشه.
می‌تونید لباس‌ها، پس‌زمینه‌ها، یا حتی چندین عکس رو با هم ترکیب کنید و ویرایش‌های مرحله به مرحله انجام بدین.

یه مدل جدید به اسم «نانو بنانا» (nano banana) رو الان رایگان داریم. این مدل اونقدر خوب بود که تونست خودش رو به صدر جدول رده‌بندی LMArena برسونه، جایی که مدل‌های مختلف هوش مصنوعی با هم مقایسه میشن. حالا گوگل اعلام کرده که این مدل مرموز، در واقع ساخته دست تیم گوگل دیپ‌مایند (Google DeepMind) بوده و از امروز قراره تو اپلیکیشن جمینای (Gemini) در دسترس قرار بگیره.

گوگل میگه تو پیش‌نمایش‌های اولیه‌ای که از این مدل منتشر شده بود، کاربرا حسابی ازش استقبال کردن و به عنوان بهترین مدل ویرایش عکس تو دنیا ازش یاد کردن. حالا با اضافه شدنش به اپلیکیشن جمینای، کاربرا کنترل خیلی بیشتری روی عکس‌هاشون دارن تا بتونن دقیقا همون تصویری که تو ذهنشون هست رو بسازن.

مهم‌ترین ویژگی: دیگه قیافه‌ها عوض نمیشه

گوگل قابلیت ویرایش عکس رو اوایل امسال به اپ جمینای اضافه کرده بود و از اون موقع سخت مشغول بهتر کردنش بوده. یکی از مهم‌ترین چالش‌ها این بود که وقتی یه عکس رو ویرایش می‌کردی، چهره شخص توی عکس ثابت بمونه و تغییر نکنه. همه ما میدونیم که وقتی عکس خودمون یا آدم‌هایی که خوب میشناسیم رو ویرایش می‌کنیم، کوچکترین ایرادها هم به چشم میاد. یه تصویری که «شبیهه ولی خود خودش نیست» حس خوبی به آدم نمیده.

به همین خاطر، آپدیت جدید طوری طراحی شده که عکس‌های دوستا، خانواده و حتی حیوونای خونگی شما، بعد از ویرایش هم کاملا شبیه به خودشون باقی بمونن. فرقی نمیکنه بخواین یه مدل موی عجیب دهه شصتی رو روی سرتون امتحان کنین یا یه دامن توری تن سگ چی‌واوای خودتون کنین، چهره‌ها ثابت میمونن. این مدل که اسم فنیش Gemini 2.5 Flash Image هست، یه ثبات بی‌نظیر تو ویرایش‌های مختلف داره. به جای اینکه مثل مدل‌های قدیمی‌تر با هر تغییر یه جورایی تاس بندازه و نتیجه غیرقابل پیش‌بینی باشه، این مدل جدید جزئیات رو واقعا به خاطر میسپره.

مثلا تو ابزارهای رقیب، اگه از هوش مصنوعی مثل ChatGPT یا Grok (متعلق به xAI) بخواین رنگ لباس یه نفر رو تو عکس عوض کنه، ممکنه نتیجه نهایی یه چهره بهم ریخته یا یه پس‌زمینه تغییر کرده باشه. اما این ابزار جدید گوگل تلاش میکنه این مشکل رو حل کنه و ویرایش‌ها رو خیلی تمیزتر انجام بده.

برای استفاده ازش کافیه یه عکس به جمینای بدین و بهش بگین چه تغییری رو دوست دارین اعمال کنین. مثلا میتونین عکس خودتون رو با عکس حیوون خونگیتون ترکیب کنین تا یه عکس دونفره جدید داشته باشین، پس‌زمینه اتاقتون رو عوض کنین تا ببینین با کاغذ دیواری جدید چه شکلی میشه، یا خودتون رو تو هر جای دنیا که تصور میکنین قرار بدین. در تمام این مراحل، خود شما، همون شکلی که هستین باقی میمونین. بعد از اینکه ویرایشتون تموم شد، حتی میتونین عکس جدید رو دوباره به جمینای بدین و ازش بخواین باهاش یه ویدیوی باحال بسازه.

چه کارهای خلاقانه‌ای میشه باهاش انجام داد؟

این قابلیت جدید ویرایش عکس، درهای تازه‌ای رو به روی خلاقیت باز میکنه. اینجا چندتا ایده هست که میتونین امتحانشون کنین:

تغییر لباس و موقعیت مکانی: یه عکس از یه شخص یا حیوون خونگی آپلود کنین. مدل هوش مصنوعی، ظاهر اون شخص یا حیوون رو تو تمام عکس‌های بعدی که میسازه، ثابت نگه میداره. میتونین خودتون رو با لباس‌های مختلف یا تو شغل‌های متفاوت تصور کنین، مثلا ببینین اگه یه ماتادور بودین چه شکلی میشدین، یا اگه شخصیت یه سریال کمدی دهه نودی بودین چطور. حتی میتونین ببینین تو یه دهه دیگه از تاریخ چه ظاهری داشتین، در حالی که هنوز کاملا شبیه خودتون هستین.
ترکیب کردن عکس‌ها با هم: حالا میشه چندتا عکس رو با هم آپلود کرد و اون‌ها رو برای ساختن یه صحنه کاملا جدید با هم ترکیب کرد. مثلا عکس خودتون رو با عکس سگتون بردارین و یه پرتره بی‌نقص از هردوتون تو زمین بسکتبال بسازین.
ویرایش مرحله به مرحله: شما میتونین عکس‌هایی که جمینای میسازه رو پشت سر هم ویرایش کنین. مثلا با یه اتاق خالی شروع کنین، بعد دیوارهاش رو رنگ بزنین، بعد یه قفسه کتاب بهش اضافه کنین، بعد چندتا وسیله دیگه مثل مبل یا میز قهوه. جمینای تو تمام این مراحل با شما همراهی میکنه و بخش‌های خاصی از عکس رو تغییر میده، در حالی که بقیه قسمت‌ها رو دست‌نخورده نگه میداره. گوگل میگه حتی بعد از چندین مرحله ویرایش پشت سر هم، نتیجه نهایی هنوز باید شبیه به عکس اصلی باقی بمونه.
ترکیب طراحی‌ها و سبک‌ها: شما میتونین سبک یه عکس رو روی یه شی تو یه عکس دیگه اعمال کنین. مثلا رنگ و بافت گلبرگ‌های یه گل رو بردارین و اون رو روی یه جفت چکمه بارونی پیاده کنین. یا با استفاده از الگوی بال‌های یه پروانه، یه لباس طراحی کنین.

رقابت سنگین تو دنیای هوش مصنوعی

گوگل با این آپدیت جدید، داره تلاش میکنه خودش رو به رقبای قدرتمندی مثل OpenAI برسونه و کاربرا رو از ChatGPT به سمت خودش جذب کنه. مدل‌های هوش مصنوعی که عکس تولید و ویرایش میکنن، به یه میدان جنگ بزرگ برای غول‌های تکنولوژی تبدیل شدن. وقتی OpenAI تو ماه مارس، تولیدکننده عکس داخلی مدل GPT-4o رو عرضه کرد، استفاده از ChatGPT به شدت بالا رفت. این اتفاق به خاطر موجی از میم‌های انیمیشنی به سبک استودیو جیبلی (Studio Ghibli) بود که کاربرا با هوش مصنوعی ساخته بودن و طبق گفته سم آلتمن، مدیرعامل OpenAI، این حجم از کار باعث شده بود پردازنده‌های گرافیکی شرکت «ذوب بشن».

برای اینکه از گوگل و OpenAI عقب نمونن، شرکت متا هم هفته پیش اعلام کرد که قراره مدل‌های هوش مصنوعی تولید عکس رو از استارتاپ Midjourney مجوز بگیره و استفاده کنه. در همین حال، یه شرکت آلمانی به اسم Black Forest Labs که توسط شرکت سرمایه‌گذاری a16z حمایت میشه، با مدل‌های هوش مصنوعی خودش به اسم FLUX، همچنان تو صدر بنچمارک‌ها قرار داره.

شاید این ویرایشگر عکس جدید و قوی جمینای بتونه به گوگل کمک کنه تا فاصله خودش با OpenAI رو از نظر تعداد کاربر کم کنه. در حال حاضر ChatGPT بیشتر از ۷۰۰ میلیون کاربر هفتگی داره. این در حالیه که ساندار پیچای، مدیرعامل گوگل، تو جلسه گزارش مالی ماه جولای اعلام کرد که جمینای ۴۵۰ میلیون کاربر ماهانه داره، که این یعنی تعداد کاربران هفتگیش از این هم کمتره.

نیکول بریکتوا (Nicole Brichtova)، مدیر محصول مدل‌های تولید بصری تو گوگل دیپ‌مایند، تو مصاحبه‌ای با تک‌کرانچ گفته: «ما واقعا داریم کیفیت بصری و همینطور توانایی مدل برای دنبال کردن دستورات کاربر رو به جلو میبریم. این آپدیت کار ویرایش رو خیلی یکپارچه‌تر انجام میده و خروجی‌های مدل برای هر کاری که بخواین ازشون استفاده کنین، قابل استفاده هستن».

بریکتوا اضافه کرده که گوگل این مدل رو به طور خاص با در نظر گرفتن نیازهای کاربری روزمره طراحی کرده؛ مثلا برای کمک به کاربرا تا بتونن پروژه‌های مربوط به خونه و باغ خودشون رو تجسم کنن. این مدل همچنین «دانش جهانی» بهتری داره و میتونه چندتا مرجع مختلف رو تو یه دستور ترکیب کنه. برای مثال، میتونه عکس یه مبل، عکس یه اتاق نشیمن و یه پالت رنگی رو با هم ترکیب کنه و یه رندر یکپارچه و هماهنگ تحویل بده.

دسترسی و قوانین استفاده

این قابلیت ویرایش عکس آپدیت شده از امروز برای همه کاربران، چه اون‌هایی که اشتراک پولی دارن و چه اون‌هایی که رایگان استفاده میکنن، تو اپلیکیشن جمینای در دسترسه. علاوه بر این، توسعه‌دهنده‌ها هم میتونن از طریق Gemini API, Google AI Studio و پلتفرم‌های Vertex AI به این مدل دسترسی داشته باشن.

با اینکه این ابزار جدید کار ساخت و ویرایش عکس‌های واقعی‌نما رو برای کاربرا راحت‌تر میکنه، گوگل یه سری حفاظ‌ها و محدودیت‌ها هم برای کارهایی که میشه باهاش انجام داد در نظر گرفته. گوگل قبلا هم با این حفاظ‌ها به مشکل خورده بود. یه زمانی، این شرکت به خاطر اینکه جمینای عکس‌های تاریخی نادرست از افراد تولید میکرد عذرخواهی کرد و کلا قابلیت تولید عکس با هوش مصنوعی رو برای مدتی غیرفعال کرد.

حالا به نظر میرسه گوگل به یه تعادل بهتر رسیده. بریکتوا میگه: «ما میخوایم به کاربرا کنترل خلاقانه بدیم تا بتونن از مدل‌ها چیزی که میخوان رو بگیرن. اما اینطور نیست که هر کاری مجاز باشه».

تو بخش هوش مصنوعی مولد قوانین و شرایط استفاده گوگل، تولید «تصاویر خصوصی بدون رضایت» ممنوع شده. به نظر میرسه چنین حفاظ‌هایی برای رقیبی مثل Grok وجود نداره، چون به کاربرا اجازه میداد تصاویر مستهجن شبیه‌سازی شده از افراد مشهور، مثل تیلور سوئیفت، بسازن.

برای مقابله با افزایش تصاویر دیپ‌فیک (deepfake) که تشخیص واقعیت رو تو فضای آنلاین سخت میکنه، گوگل روی تمام عکس‌هایی که با هوش مصنوعیش ساخته یا ویرایش میشن، یه واترمارک قابل مشاهده قرار میده. علاوه بر این، یه واترمارک دیجیتال نامرئی به اسم SynthID هم به متادیتای عکس اضافه میشه تا مشخص باشه که این تصاویر با هوش مصنوعی تولید شدن. البته کسی که داره خیلی سریع تو شبکه‌های اجتماعی عکس‌ها رو میبینه، ممکنه دنبال چنین نشانه‌هایی نگرده.

منابع

[۲] Google improves Gemini AI image editing with “nano banana” model – Ars Technica

[۱] Nano Banana! Image editing in Gemini just got a major upgrade
[۳] Google Gemini’s AI image model gets a ‘bananas’ upgrade | TechCrunch