خلاصه
- گوگل دیپمایند مدل هوش مصنوعی جدیدش به اسم “نانو بنانا” (Gemini 2.5 Flash Image) رو معرفی کرده که میشه باهاش عکس ویرایش کرد.
- این مدل الان تو اپلیکیشن جمینای در دسترسه و ویژگی اصلیش، حفظ چهره اشخاص و حیوانات خونگی موقع ویرایشه.
- میتونید لباسها، پسزمینهها، یا حتی چندین عکس رو با هم ترکیب کنید و ویرایشهای مرحله به مرحله انجام بدین.
یه مدل جدید به اسم «نانو بنانا» (nano banana) رو الان رایگان داریم. این مدل اونقدر خوب بود که تونست خودش رو به صدر جدول ردهبندی LMArena برسونه، جایی که مدلهای مختلف هوش مصنوعی با هم مقایسه میشن. حالا گوگل اعلام کرده که این مدل مرموز، در واقع ساخته دست تیم گوگل دیپمایند (Google DeepMind) بوده و از امروز قراره تو اپلیکیشن جمینای (Gemini) در دسترس قرار بگیره.
گوگل میگه تو پیشنمایشهای اولیهای که از این مدل منتشر شده بود، کاربرا حسابی ازش استقبال کردن و به عنوان بهترین مدل ویرایش عکس تو دنیا ازش یاد کردن. حالا با اضافه شدنش به اپلیکیشن جمینای، کاربرا کنترل خیلی بیشتری روی عکسهاشون دارن تا بتونن دقیقا همون تصویری که تو ذهنشون هست رو بسازن.
مهمترین ویژگی: دیگه قیافهها عوض نمیشه
گوگل قابلیت ویرایش عکس رو اوایل امسال به اپ جمینای اضافه کرده بود و از اون موقع سخت مشغول بهتر کردنش بوده. یکی از مهمترین چالشها این بود که وقتی یه عکس رو ویرایش میکردی، چهره شخص توی عکس ثابت بمونه و تغییر نکنه. همه ما میدونیم که وقتی عکس خودمون یا آدمهایی که خوب میشناسیم رو ویرایش میکنیم، کوچکترین ایرادها هم به چشم میاد. یه تصویری که «شبیهه ولی خود خودش نیست» حس خوبی به آدم نمیده.
به همین خاطر، آپدیت جدید طوری طراحی شده که عکسهای دوستا، خانواده و حتی حیوونای خونگی شما، بعد از ویرایش هم کاملا شبیه به خودشون باقی بمونن. فرقی نمیکنه بخواین یه مدل موی عجیب دهه شصتی رو روی سرتون امتحان کنین یا یه دامن توری تن سگ چیواوای خودتون کنین، چهرهها ثابت میمونن. این مدل که اسم فنیش Gemini 2.5 Flash Image هست، یه ثبات بینظیر تو ویرایشهای مختلف داره. به جای اینکه مثل مدلهای قدیمیتر با هر تغییر یه جورایی تاس بندازه و نتیجه غیرقابل پیشبینی باشه، این مدل جدید جزئیات رو واقعا به خاطر میسپره.
مثلا تو ابزارهای رقیب، اگه از هوش مصنوعی مثل ChatGPT یا Grok (متعلق به xAI) بخواین رنگ لباس یه نفر رو تو عکس عوض کنه، ممکنه نتیجه نهایی یه چهره بهم ریخته یا یه پسزمینه تغییر کرده باشه. اما این ابزار جدید گوگل تلاش میکنه این مشکل رو حل کنه و ویرایشها رو خیلی تمیزتر انجام بده.
برای استفاده ازش کافیه یه عکس به جمینای بدین و بهش بگین چه تغییری رو دوست دارین اعمال کنین. مثلا میتونین عکس خودتون رو با عکس حیوون خونگیتون ترکیب کنین تا یه عکس دونفره جدید داشته باشین، پسزمینه اتاقتون رو عوض کنین تا ببینین با کاغذ دیواری جدید چه شکلی میشه، یا خودتون رو تو هر جای دنیا که تصور میکنین قرار بدین. در تمام این مراحل، خود شما، همون شکلی که هستین باقی میمونین. بعد از اینکه ویرایشتون تموم شد، حتی میتونین عکس جدید رو دوباره به جمینای بدین و ازش بخواین باهاش یه ویدیوی باحال بسازه.
چه کارهای خلاقانهای میشه باهاش انجام داد؟
این قابلیت جدید ویرایش عکس، درهای تازهای رو به روی خلاقیت باز میکنه. اینجا چندتا ایده هست که میتونین امتحانشون کنین:
- تغییر لباس و موقعیت مکانی: یه عکس از یه شخص یا حیوون خونگی آپلود کنین. مدل هوش مصنوعی، ظاهر اون شخص یا حیوون رو تو تمام عکسهای بعدی که میسازه، ثابت نگه میداره. میتونین خودتون رو با لباسهای مختلف یا تو شغلهای متفاوت تصور کنین، مثلا ببینین اگه یه ماتادور بودین چه شکلی میشدین، یا اگه شخصیت یه سریال کمدی دهه نودی بودین چطور. حتی میتونین ببینین تو یه دهه دیگه از تاریخ چه ظاهری داشتین، در حالی که هنوز کاملا شبیه خودتون هستین.
- ترکیب کردن عکسها با هم: حالا میشه چندتا عکس رو با هم آپلود کرد و اونها رو برای ساختن یه صحنه کاملا جدید با هم ترکیب کرد. مثلا عکس خودتون رو با عکس سگتون بردارین و یه پرتره بینقص از هردوتون تو زمین بسکتبال بسازین.
- ویرایش مرحله به مرحله: شما میتونین عکسهایی که جمینای میسازه رو پشت سر هم ویرایش کنین. مثلا با یه اتاق خالی شروع کنین، بعد دیوارهاش رو رنگ بزنین، بعد یه قفسه کتاب بهش اضافه کنین، بعد چندتا وسیله دیگه مثل مبل یا میز قهوه. جمینای تو تمام این مراحل با شما همراهی میکنه و بخشهای خاصی از عکس رو تغییر میده، در حالی که بقیه قسمتها رو دستنخورده نگه میداره. گوگل میگه حتی بعد از چندین مرحله ویرایش پشت سر هم، نتیجه نهایی هنوز باید شبیه به عکس اصلی باقی بمونه.
- ترکیب طراحیها و سبکها: شما میتونین سبک یه عکس رو روی یه شی تو یه عکس دیگه اعمال کنین. مثلا رنگ و بافت گلبرگهای یه گل رو بردارین و اون رو روی یه جفت چکمه بارونی پیاده کنین. یا با استفاده از الگوی بالهای یه پروانه، یه لباس طراحی کنین.
رقابت سنگین تو دنیای هوش مصنوعی
گوگل با این آپدیت جدید، داره تلاش میکنه خودش رو به رقبای قدرتمندی مثل OpenAI برسونه و کاربرا رو از ChatGPT به سمت خودش جذب کنه. مدلهای هوش مصنوعی که عکس تولید و ویرایش میکنن، به یه میدان جنگ بزرگ برای غولهای تکنولوژی تبدیل شدن. وقتی OpenAI تو ماه مارس، تولیدکننده عکس داخلی مدل GPT-4o رو عرضه کرد، استفاده از ChatGPT به شدت بالا رفت. این اتفاق به خاطر موجی از میمهای انیمیشنی به سبک استودیو جیبلی (Studio Ghibli) بود که کاربرا با هوش مصنوعی ساخته بودن و طبق گفته سم آلتمن، مدیرعامل OpenAI، این حجم از کار باعث شده بود پردازندههای گرافیکی شرکت «ذوب بشن».
برای اینکه از گوگل و OpenAI عقب نمونن، شرکت متا هم هفته پیش اعلام کرد که قراره مدلهای هوش مصنوعی تولید عکس رو از استارتاپ Midjourney مجوز بگیره و استفاده کنه. در همین حال، یه شرکت آلمانی به اسم Black Forest Labs که توسط شرکت سرمایهگذاری a16z حمایت میشه، با مدلهای هوش مصنوعی خودش به اسم FLUX، همچنان تو صدر بنچمارکها قرار داره.
شاید این ویرایشگر عکس جدید و قوی جمینای بتونه به گوگل کمک کنه تا فاصله خودش با OpenAI رو از نظر تعداد کاربر کم کنه. در حال حاضر ChatGPT بیشتر از ۷۰۰ میلیون کاربر هفتگی داره. این در حالیه که ساندار پیچای، مدیرعامل گوگل، تو جلسه گزارش مالی ماه جولای اعلام کرد که جمینای ۴۵۰ میلیون کاربر ماهانه داره، که این یعنی تعداد کاربران هفتگیش از این هم کمتره.
نیکول بریکتوا (Nicole Brichtova)، مدیر محصول مدلهای تولید بصری تو گوگل دیپمایند، تو مصاحبهای با تککرانچ گفته: «ما واقعا داریم کیفیت بصری و همینطور توانایی مدل برای دنبال کردن دستورات کاربر رو به جلو میبریم. این آپدیت کار ویرایش رو خیلی یکپارچهتر انجام میده و خروجیهای مدل برای هر کاری که بخواین ازشون استفاده کنین، قابل استفاده هستن».
بریکتوا اضافه کرده که گوگل این مدل رو به طور خاص با در نظر گرفتن نیازهای کاربری روزمره طراحی کرده؛ مثلا برای کمک به کاربرا تا بتونن پروژههای مربوط به خونه و باغ خودشون رو تجسم کنن. این مدل همچنین «دانش جهانی» بهتری داره و میتونه چندتا مرجع مختلف رو تو یه دستور ترکیب کنه. برای مثال، میتونه عکس یه مبل، عکس یه اتاق نشیمن و یه پالت رنگی رو با هم ترکیب کنه و یه رندر یکپارچه و هماهنگ تحویل بده.
دسترسی و قوانین استفاده
این قابلیت ویرایش عکس آپدیت شده از امروز برای همه کاربران، چه اونهایی که اشتراک پولی دارن و چه اونهایی که رایگان استفاده میکنن، تو اپلیکیشن جمینای در دسترسه. علاوه بر این، توسعهدهندهها هم میتونن از طریق Gemini API, Google AI Studio و پلتفرمهای Vertex AI به این مدل دسترسی داشته باشن.
با اینکه این ابزار جدید کار ساخت و ویرایش عکسهای واقعینما رو برای کاربرا راحتتر میکنه، گوگل یه سری حفاظها و محدودیتها هم برای کارهایی که میشه باهاش انجام داد در نظر گرفته. گوگل قبلا هم با این حفاظها به مشکل خورده بود. یه زمانی، این شرکت به خاطر اینکه جمینای عکسهای تاریخی نادرست از افراد تولید میکرد عذرخواهی کرد و کلا قابلیت تولید عکس با هوش مصنوعی رو برای مدتی غیرفعال کرد.
حالا به نظر میرسه گوگل به یه تعادل بهتر رسیده. بریکتوا میگه: «ما میخوایم به کاربرا کنترل خلاقانه بدیم تا بتونن از مدلها چیزی که میخوان رو بگیرن. اما اینطور نیست که هر کاری مجاز باشه».
تو بخش هوش مصنوعی مولد قوانین و شرایط استفاده گوگل، تولید «تصاویر خصوصی بدون رضایت» ممنوع شده. به نظر میرسه چنین حفاظهایی برای رقیبی مثل Grok وجود نداره، چون به کاربرا اجازه میداد تصاویر مستهجن شبیهسازی شده از افراد مشهور، مثل تیلور سوئیفت، بسازن.
برای مقابله با افزایش تصاویر دیپفیک (deepfake) که تشخیص واقعیت رو تو فضای آنلاین سخت میکنه، گوگل روی تمام عکسهایی که با هوش مصنوعیش ساخته یا ویرایش میشن، یه واترمارک قابل مشاهده قرار میده. علاوه بر این، یه واترمارک دیجیتال نامرئی به اسم SynthID هم به متادیتای عکس اضافه میشه تا مشخص باشه که این تصاویر با هوش مصنوعی تولید شدن. البته کسی که داره خیلی سریع تو شبکههای اجتماعی عکسها رو میبینه، ممکنه دنبال چنین نشانههایی نگرده.
دیدگاهتان را بنویسید