۲۴ مرداد ۱۴۰۴

ایمیجن ۴ گوگل در دسترس قرا گرفت؛ چه‌ چیزهایی از این مدل متن به عکس میدانیم

گوگل بالاخره مدل پیشرفته تبدیل متن به عکس خودش، یعنی Imagen 4 رو به صورت عمومی در دسترس قرار داد. این مدل الان از طریق Gemini API و Google AI Studio قابل استفاده است و گفته شده که توی کیفیت تولید عکس با متن، به خصوص در نمایش نوشته‌ها، پیشرفت‌های قابل توجهی نسبت به مدل‌های قبلی داشته.

خلاصه

گوگل بالاخره مدل پیشرفته تبدیل متن به عکس خودش، یعنی ایمیجن ۴، رو عمومی کرده.
این مدل الان از طریق Gemini API و Google AI Studio در دسترسه و تو نمایش نوشته‌ها پیشرفت خوبی داشته.
ایمیجن ۴ یک خانواده از مدل‌هاست؛ از نسخه سریع (Fast) تا نسخه خیلی باکیفیت و دقیق (Ultra) که حتی از رزولوشن 2K هم پشتیبانی می‌کنه.
همه عکس‌های ساخته شده با این مدل، یه واترمارک نامرئی به اسم SynthID دارن.
بعضی کاربرا میگن نسخه اولترا برای دنبال کردن دقیق پرامپت‌ها لازمه، وگرنه ممکنه نتیجه دلخواه نباشه.
نمونه‌های منتشرشده ایراداتی هم داشتن؛ مثلاً تو کمیک استریپ، متن اشتباه نوشته شده یا گربه به جای سگ، به خودش های-فایو داده.
برخی توسعه‌دهنده‌ها حس می‌کنن خروجی‌های ایمیجن ۴ (نسخه پیش‌نمایش) زیادی “کارتونی” هستن و برای عکس‌های فوتورئالیستیک مناسب نیستن.
انتقادی هم به گوگل وارد شده که چرا مدل‌هاش رو ماه‌ها قبل معرفی می‌کنه ولی با تأخیر زیاد در دسترس قرار میده، برعکس اوپن‌ای‌آی.
یه مشکل فنی هم اینه که لینک مستندات به اطلاعات مدل‌های جدید ایمیجن نمی‌رسونه و یه “فیلتر زرد” هم تو بعضی عکس‌ها دیده میشه.

با خانواده Imagen 4 آشنا بشید

این مدل در واقع یک خانواده با چند عضو مختلفه که هر کدوم برای یه کاری طراحی شدن تا بشه بین کیفیت، سرعت و هزینه تعادل برقرار کرد.

Imagen 4 Fast (جدید): این مدل برای تولید سریع عکس و کارهای با حجم بالا ساخته شده. سرعتش خیلی بالاست و قیمت هر عکس خروجی هم ۰.۰۲ دلاره.
Imagen 4: این مدل اصلی و پرچمدار این خانواده است که میشه برای کارهای مختلف با کیفیت بالا ازش استفاده کرد و توی مواردی مثل نمایش متن توی عکس بهتر از قبل عمل میکنه.
Imagen 4 Ultra: این نسخه برای وقتیه که جزئیات خیلی بالا و پایبندی شدید به دستورات (پرامپت) مد نظرتون باشه و نتایجی کاملا هماهنگ با چیزی که خواستید تحویل میده.

یه ویژگی جدید دیگه هم اینه که مدل‌های Imagen 4 و Imagen 4 Ultra حالا از رزولوشن 2K هم پشتیبانی میکنن که اجازه میده عکس‌های خیلی با جزئیات و واضحی ساخته بشه. گوگل همچنین گفته که برای هوش مصنوعی مسئولانه، تمام عکس‌هایی که با این خانواده ساخته میشن، یه واترمارک نامرئی به اسم SynthID دارن.

پایبندی به دستورات: خوبه یا بد؟

یکی از کاربرها به این نکته اشاره کرده که به نظر میرسه اگه بخواید مدل دقیقا به دستورتون گوش بده، باید از نسخه Ultra استفاده کنید. البته همین کاربر میگه که بیشتر وقت‌ها برای تولید عکس نیازی به این پایبندی شدید نداره و اگه عکس قشنگ باشه، قبولش میکنه. از نظر اون، برای کارهای خلاقانه، دنبال کردن بیش از حد دستورات ممکنه نتیجه‌ای که کاربر میخواد رو نده.

فرد دیگری این موضوع رو با Copilot مقایسه کرده. اون میگه از یه طرف خوبه که Copilot سعی نمیکنه با هر بار اجرا کل کدها رو بازنویسی کنه، اما از طرف دیگه، گاهی وقتا دوست داشت که این ابزار بتونه کمی دید وسیع‌تری داشته باشه و حتی باهاش تعامل کنه. مثلا بپرسه: «هی، میتونم این رو همینجا پیاده‌سازی کنم، اما یه کم کثیف از آب در میاد؛ به نظر میرسه اگه کتابخونه X رو اضافه کنیم کار با یه خط کد جمع میشه، کدوم راه رو برم؟»

نگاهی به نمونه‌ها: از کمیک استریپ تا پوستر فضایی

گوگل برای نمایش قابلیت‌های این مدل چند تا نمونه منتشر کرده که واکنش‌های مختلفی از طرف کاربرها داشته.

یکی از این نمونه‌ها، یک کمیک استریپ چهار پنلی با سبک رترو بود که چند تا ایراد ازش گرفته شد. یه کاربر گفته که متن «Imagen 4 is now generally available!» به جای اینکه کپشن باشه، انگار داره توسط شخصیت‌ها گفته میشه. یه ایراد دیگه این بود که عبارت «low latency» به صورت اشتباه و «low-laten» نوشته شده.

یکی از جالب‌ترین نکات این کمیک مربوط به پنل چهارم بود. توی دستور از مدل خواسته شده بود که در این پنل، گربه و سگ به هم بزنن قدش (high-five)، اما توی عکس خروجی، گربه داره به خودش بزن قدش! یه نفر این رو یه «پیچش داستانی توهمی» جالب دیده که پایان داستان رو بهتر کرده، اما در عین حال قبول داره که این موضوع، ضعف ابزار در دنبال کردن دستورات رو نشون میده.

یه کاربر دیگه هم کلا با این کمیک حال نکرده و گفته شخصیت‌هاش خیلی فیک و بی‌روحن، انگار دارن شعارهای تبلیغاتی رو با هیجان اغراق شده و الکی میگن و به چیزی که میگن اعتقادی ندارن. در مورد «سبک کمیک رترو» هم یه نفر گفته که نسخه Imagen 4 اصلا شبیه کمیک‌های قدیمی نیست.

در نمونه دیگه‌ای که یک پوستر فیلم علمی-تخیلی بود، یکی از کاربرها گفته که سمت چپ «سفینه فضایی با جزئیات»، یک الگوی اعوجاجی دیده که یادآور «پرنده شکاری کلینگان‌ها» در حالت نامرئیه. البته خودش هم اضافه کرده که شاید داره توی نویزهای سحابی، الکی الگو میبینه.

تجربه‌های دیگه و چند تا انتقاد

یه توسعه‌دهنده که داره یه محصول هوش مصنوعی میسازه، گفته که برای تولید عکس‌های فوتورئالیستیک، سینمایی یا HDR به Imagen 3 وابسته است. اون گفته که نسخه پیش‌نمایش Imagen 4 رو امتحان کرده ولی نتیجه‌هاش بیش از حد «کارتونی» بودن و پرسیده آیا بقیه هم این تجربه رو داشتن؟

یه انتقاد دیگه به استراتژی گوگل برمیگرده. یه نفر گفته از این متنفره که گوگل مدل‌های تصویرسازش رو ماه‌ها قبل از اینکه در دسترس قرار بده معرفی میکنه و معتقده OpenAI این کار رو خیلی بهتر انجام میده و حداکثر با چند روز تاخیر مدل‌هاش رو عرضه میکنه.

یه مشکل فنی هم مطرح شده: وقتی روی لینک «Read the documentation» در صفحه معرفی کلیک میکنی، به صفحه‌ای میری که هیچ اطلاعاتی در مورد مدل‌های جدید Imagen نداره و فقط مثال‌هایی با Gemini 2.0 Flash رو نشون میده. یه کاربر هم به یک «فیلتر زرد رنگ» توی عکس‌ها اشاره کرده که میگه شبیه به چیزیه که توی gpt-image-1 دیده میشه و برای اصلاحش باید بعدا روی عکس کار کرد.

منابع

[۲] Imagen 4 is now generally available | Hacker News

[۱] Announcing Imagen 4 Fast and the generally availability of the Imagen 4 family in the Gemini API – Google Developers Blog