گوگل بالاخره مدل پیشرفته تبدیل متن به عکس خودش، یعنی Imagen 4 رو به صورت عمومی در دسترس قرار داد. این مدل الان از طریق Gemini API و Google AI Studio قابل استفاده است و گفته شده که توی کیفیت تولید عکس با متن، به خصوص در نمایش نوشتهها، پیشرفتهای قابل توجهی نسبت به مدلهای قبلی داشته.
خلاصه
- گوگل بالاخره مدل پیشرفته تبدیل متن به عکس خودش، یعنی ایمیجن ۴، رو عمومی کرده.
- این مدل الان از طریق Gemini API و Google AI Studio در دسترسه و تو نمایش نوشتهها پیشرفت خوبی داشته.
- ایمیجن ۴ یک خانواده از مدلهاست؛ از نسخه سریع (Fast) تا نسخه خیلی باکیفیت و دقیق (Ultra) که حتی از رزولوشن 2K هم پشتیبانی میکنه.
- همه عکسهای ساخته شده با این مدل، یه واترمارک نامرئی به اسم SynthID دارن.
- بعضی کاربرا میگن نسخه اولترا برای دنبال کردن دقیق پرامپتها لازمه، وگرنه ممکنه نتیجه دلخواه نباشه.
- نمونههای منتشرشده ایراداتی هم داشتن؛ مثلاً تو کمیک استریپ، متن اشتباه نوشته شده یا گربه به جای سگ، به خودش های-فایو داده.
- برخی توسعهدهندهها حس میکنن خروجیهای ایمیجن ۴ (نسخه پیشنمایش) زیادی “کارتونی” هستن و برای عکسهای فوتورئالیستیک مناسب نیستن.
- انتقادی هم به گوگل وارد شده که چرا مدلهاش رو ماهها قبل معرفی میکنه ولی با تأخیر زیاد در دسترس قرار میده، برعکس اوپنایآی.
- یه مشکل فنی هم اینه که لینک مستندات به اطلاعات مدلهای جدید ایمیجن نمیرسونه و یه “فیلتر زرد” هم تو بعضی عکسها دیده میشه.
با خانواده Imagen 4 آشنا بشید
این مدل در واقع یک خانواده با چند عضو مختلفه که هر کدوم برای یه کاری طراحی شدن تا بشه بین کیفیت، سرعت و هزینه تعادل برقرار کرد.
- Imagen 4 Fast (جدید): این مدل برای تولید سریع عکس و کارهای با حجم بالا ساخته شده. سرعتش خیلی بالاست و قیمت هر عکس خروجی هم ۰.۰۲ دلاره.
- Imagen 4: این مدل اصلی و پرچمدار این خانواده است که میشه برای کارهای مختلف با کیفیت بالا ازش استفاده کرد و توی مواردی مثل نمایش متن توی عکس بهتر از قبل عمل میکنه.
- Imagen 4 Ultra: این نسخه برای وقتیه که جزئیات خیلی بالا و پایبندی شدید به دستورات (پرامپت) مد نظرتون باشه و نتایجی کاملا هماهنگ با چیزی که خواستید تحویل میده.
یه ویژگی جدید دیگه هم اینه که مدلهای Imagen 4 و Imagen 4 Ultra حالا از رزولوشن 2K هم پشتیبانی میکنن که اجازه میده عکسهای خیلی با جزئیات و واضحی ساخته بشه. گوگل همچنین گفته که برای هوش مصنوعی مسئولانه، تمام عکسهایی که با این خانواده ساخته میشن، یه واترمارک نامرئی به اسم SynthID دارن.
پایبندی به دستورات: خوبه یا بد؟
یکی از کاربرها به این نکته اشاره کرده که به نظر میرسه اگه بخواید مدل دقیقا به دستورتون گوش بده، باید از نسخه Ultra استفاده کنید. البته همین کاربر میگه که بیشتر وقتها برای تولید عکس نیازی به این پایبندی شدید نداره و اگه عکس قشنگ باشه، قبولش میکنه. از نظر اون، برای کارهای خلاقانه، دنبال کردن بیش از حد دستورات ممکنه نتیجهای که کاربر میخواد رو نده.
فرد دیگری این موضوع رو با Copilot مقایسه کرده. اون میگه از یه طرف خوبه که Copilot سعی نمیکنه با هر بار اجرا کل کدها رو بازنویسی کنه، اما از طرف دیگه، گاهی وقتا دوست داشت که این ابزار بتونه کمی دید وسیعتری داشته باشه و حتی باهاش تعامل کنه. مثلا بپرسه: «هی، میتونم این رو همینجا پیادهسازی کنم، اما یه کم کثیف از آب در میاد؛ به نظر میرسه اگه کتابخونه X رو اضافه کنیم کار با یه خط کد جمع میشه، کدوم راه رو برم؟»
نگاهی به نمونهها: از کمیک استریپ تا پوستر فضایی
گوگل برای نمایش قابلیتهای این مدل چند تا نمونه منتشر کرده که واکنشهای مختلفی از طرف کاربرها داشته.
یکی از این نمونهها، یک کمیک استریپ چهار پنلی با سبک رترو بود که چند تا ایراد ازش گرفته شد. یه کاربر گفته که متن «Imagen 4 is now generally available!» به جای اینکه کپشن باشه، انگار داره توسط شخصیتها گفته میشه. یه ایراد دیگه این بود که عبارت «low latency» به صورت اشتباه و «low-laten» نوشته شده.
یکی از جالبترین نکات این کمیک مربوط به پنل چهارم بود. توی دستور از مدل خواسته شده بود که در این پنل، گربه و سگ به هم بزنن قدش (high-five)، اما توی عکس خروجی، گربه داره به خودش بزن قدش! یه نفر این رو یه «پیچش داستانی توهمی» جالب دیده که پایان داستان رو بهتر کرده، اما در عین حال قبول داره که این موضوع، ضعف ابزار در دنبال کردن دستورات رو نشون میده.
یه کاربر دیگه هم کلا با این کمیک حال نکرده و گفته شخصیتهاش خیلی فیک و بیروحن، انگار دارن شعارهای تبلیغاتی رو با هیجان اغراق شده و الکی میگن و به چیزی که میگن اعتقادی ندارن. در مورد «سبک کمیک رترو» هم یه نفر گفته که نسخه Imagen 4 اصلا شبیه کمیکهای قدیمی نیست.
در نمونه دیگهای که یک پوستر فیلم علمی-تخیلی بود، یکی از کاربرها گفته که سمت چپ «سفینه فضایی با جزئیات»، یک الگوی اعوجاجی دیده که یادآور «پرنده شکاری کلینگانها» در حالت نامرئیه. البته خودش هم اضافه کرده که شاید داره توی نویزهای سحابی، الکی الگو میبینه.
تجربههای دیگه و چند تا انتقاد
یه توسعهدهنده که داره یه محصول هوش مصنوعی میسازه، گفته که برای تولید عکسهای فوتورئالیستیک، سینمایی یا HDR به Imagen 3 وابسته است. اون گفته که نسخه پیشنمایش Imagen 4 رو امتحان کرده ولی نتیجههاش بیش از حد «کارتونی» بودن و پرسیده آیا بقیه هم این تجربه رو داشتن؟
یه انتقاد دیگه به استراتژی گوگل برمیگرده. یه نفر گفته از این متنفره که گوگل مدلهای تصویرسازش رو ماهها قبل از اینکه در دسترس قرار بده معرفی میکنه و معتقده OpenAI این کار رو خیلی بهتر انجام میده و حداکثر با چند روز تاخیر مدلهاش رو عرضه میکنه.
یه مشکل فنی هم مطرح شده: وقتی روی لینک «Read the documentation» در صفحه معرفی کلیک میکنی، به صفحهای میری که هیچ اطلاعاتی در مورد مدلهای جدید Imagen نداره و فقط مثالهایی با Gemini 2.0 Flash رو نشون میده. یه کاربر هم به یک «فیلتر زرد رنگ» توی عکسها اشاره کرده که میگه شبیه به چیزیه که توی gpt-image-1 دیده میشه و برای اصلاحش باید بعدا روی عکس کار کرد.
دیدگاهتان را بنویسید