معرفی و بررسی مدل‌های هوش مصنوعی FLUX.1 برای تولید تصویر

تا همین چند وقت پیش، اگه میخواستی چندتا مدل هوش مصنوعی مولد رو امتحان کنی، باید کلی با برنامه‌های مختلف سر و کله میزدی، فایل‌ها رو هی خروجی میگرفتی و نتیجه‌ها رو کنار هم میذاشتی. اما با اومدن FLUX.1 Kontext [Pro] به فتوشاپ، دیگه این دردسرها تموم شده. حالا میتونی خیلی راحت مدل مورد نظرت رو انتخاب کنی، تغییراتی که میخوای رو توضیح بدی و بعدش با ابزارهای خود فتوشاپ، نتیجه رو دقیق‌تر و بهتر کنی. اینجوری هم نتیجه نهایی دقیق و یکپارچه از آب درمیاد و هم کنترل کامل خلاقیت دست خودت باقی میمونه.

از تاریخ ۲۵ سپتامبر، کاربرهای نسخه بتای فتوشاپ در سراسر دنیا میتونن از FLUX.1 Kontext [Pro] مستقیمن داخل ابزار Generative Fill استفاده کنن. برای یه مدت محدود هم توی دوره بتا، کاربرها میتونن این مدل رو به صورت رایگان امتحان کنن.

مدل‌های این مجموعه بر اساس جدیدترین تحقیقات هوش مصنوعی مولد بصری ساخته شدن. FLUX.1 Kontext [Pro] فقط دقت بالا و انعطاف‌پذیری خلاقانه نداره، بلکه ۳ برابر سریع‌تر از مدل‌های رقیبه که باعث میشه تجربه کاربری خیلی روان‌تر بشه. این یعنی زمان انتظار کمتر، تکرار و ویرایش بیشتر و در نتیجه، زمان بیشتری برای غرق شدن توی کار خلاقانه.

این همکاری بین محیط ویرایش حرفه‌ای فتوشاپ و دقت و سرعت بی‌نظیر FLUX.1 Kontext [Pro]، به خالقین و هنرمندها در همه جا این آزادی رو میده که تخیلشون رو فراتر ببرن. چشم‌انداز سازنده‌ها اینه: «قدرت دادن به هر پیکسل، در هر جایی» و حالا این چشم‌انداز مستقیمن وارد جریان کاری روزمره شما شده.

این مدل به درد چه کسایی میخوره؟

عکاس‌ها: میتونن یه سوژه رو انتخاب کنن و به FLUX.1 Kontext [Pro] اجازه بدن تا پس‌زمینه‌هایی دقیق و متناسب با محیط براشون بسازه که خیلی یکپارچه با تصویر اصلی ترکیب میشن. در همین حین، ابزار ماسک فتوشاپ سوژه اصلی رو دست‌نخورده نگه میداره.
طراح‌ها: میتونن وسایل، تابلوها یا مناظر واقعی رو به طرح‌هاشون اضافه کنن. تصاویری که FLUX.1 Kontext [Pro] تولید میکنه به طور طبیعی با طرح ترکیب میشن و با استفاده از حالت‌های ترکیب (blending modes) و اشیای هوشمند (smart objects) فتوشاپ، میشه بهشون حسابی جلا داد.
مدیران خلاقیت: میتونن با سرعت بالا نمونه‌های اولیه از دارایی‌های کمپین تبلیغاتی یا عکس محصولات رو بسازن. با FLUX.1 Kontext [Pro] میشه جزئیات یکپارچه و متناسب با برند رو تولید کرد و بعد با ابزارهای تنظیم فتوشاپ، اونها رو به بهترین شکل ممکن درآورد.

معرفی مدل FLUX.1 Srpo برای ساخت عکس از متن

مدل FLUX.1 Srpo یه مدل هوش مصنوعی پیشرفته‌ هست که تخصصش تولید عکس‌های با وضوح بالا از روی نوشته‌ها و دستورهای متنیه. نقطه قوت اصلی این مدل، توی نمایش جزئیات استثنایی و حفظ دقت سبک تصویره. این مدل برای ساخت صحنه‌های پر از جزئیات و وفاداری به سبک هنری بهینه‌سازی شده. با استفاده از یه معماری دیفیوژن که به خوبی تنظیم شده، Srpo میتونه تصاویر غنی بصری رو از روی توضیحات متنی با زمان رندرینگ سریع و کنترل دقیق روی عناصر ترکیبی تولید کنه.

مدل FLUX.1 Srpo Text-to-Image برای سنتز کارآمد تصاویر در سطح مگاپیکسل طراحی شده و جزئیات و وفاداری فوق‌العاده‌ای رو توی صحنه‌های پیچیده ارائه میده. این مدل به طور مداوم توی تست‌های بنچمارک جزو بهترین‌ها قرار میگیره و امتیاز ELO اون به طور منظم از ۱۰۵۰ فراتر میره، که نشون‌دهنده قدرت اون در ایجاد تعادل بین سرعت، کیفیت و جزئیات توی کارهای تولید تصویر از متنه.

مقایسه Srpo با مدل‌های دیگه

در برابر ByteDance BAGEL: مدل Srpo T2I در خروجی‌های مگاپیکسلی، ۵ برابر تولید سریع‌تری داره و توی صحنه‌های پر از جزئیات، دقت متنی بیشتری از خودش نشون میده.
در برابر OpenAI GPT-4o Image: این مدل جزئیات رزولوشن و ثبات سبک بهتری رو با یه مدل قیمت‌گذاری به‌صرفه ارائه میده (۰.۰۲۳۶۲۵ دلار برای هر مگاپیکسل در مقابل هزینه بالاتر برای هر تصویر در مدل رقیب).
در برابر FLUX.1 Kontext Pro: در حالی که Kontext Pro توی ویرایش متناسب با زمینه و ثبات شخصیت‌ها بهتر عمل میکنه، مدل Srpo T2I برای تولید مستقیم تصویر از متن با جزئیات بسیار بالا و مقیاس‌پذیری رزولوشن بیشتر بهینه‌سازی شده.

معرفی مدل Flux.1 Schnell برای تولید سریع عکس

Flux.1 Schnell یه مدل تولید تصویر هوش مصنوعی متن بازه که توسط Black Forest Labs توسعه داده شده. این مدل میتونه خیلی سریع و فقط در ۱ تا ۴ مرحله، تصاویر باکیفیت تولید کنه. عملکرد اون از مدل‌هایی مثل Midjourney و DALL·E 3 بهتره و همین باعث شده برای کاربردهایی مثل هنر، تبلیغات و توسعه بازی ایده‌آل باشه.

ویژگی‌های کلیدی Flux.1 Schnell

این مدل یه ابزار هوش مصنوعی پیشرفته است که متن و تصاویر رو به جلوه‌های بصری باکیفیت تبدیل میکنه.

تولید سریع تصویر: این مدل برای سرعت طراحی شده و با تولید سریع‌تر تصاویر نسبت به مدل‌های دیگه، به طور قابل توجهی کارایی کار رو افزایش میده.
خروجی باکیفیت: با اینکه سرعت در اولویته، Flux.1 Schnell استاندارد بالایی از کیفیت تصویر رو حفظ میکنه و نتایج خیره‌کننده‌ای رو تضمین میکنه.
پشتیبانی از سبک‌های متنوع: این مدل میتونه طیف گسترده‌ای از سبک‌ها و فرمت‌ها رو تولید کنه تا نیازهای متنوع کاربرها رو برآورده کنه.
رابط کاربری ساده: Flux.1 Schnell برای همه کاربرها با هر سطح فنی مناسبه و استفاده ازش آسونه، که اجازه میده تصاویر به سرعت تولید بشن.

چطوری از Flux.1 Schnell استفاده کنیم؟

برای ساختن تصویر دلخواهتون با این مدل، کافیه این چهار مرحله ساده رو دنبال کنید:

قدم اول: دستور متنی خودتون رو وارد کنید (برای نتیجه بهتر، پرامپت خودتون رو بهینه‌سازی کنید).
قدم دوم: نسبت ابعاد تصویر خودتون رو انتخاب کنید.
قدم سوم: مدل Flux.1 Schnell رو انتخاب کنید.
قدم چهارم: روی دکمه «Generate» کلیک کنید و چند ثانیه برای دیدن تصویرتون منتظر بمونید.

یه نگاه فنی به نسخه GGUF مدل FLUX.1-Kontext-dev

برای اون دسته از کاربرهایی که بیشتر با مسائل فنی سر و کار دارن، یه نسخه به اسم QuantStack/FLUX.1-Kontext-dev-GGUF هم وجود داره. این فایل GGUF یه تبدیل مستقیم از مدل black-forest-labs/FLUX.1-Kontext-dev به حساب میاد. از اونجایی که این یک مدل کوانتایز شده (فشرده‌شده) است، تمام شرایط مجوز و محدودیت‌های استفاده از مدل اصلی همچنان پابرجا هستن.

برای استفاده از این مدل میشه از نود سفارشی ComfyUI-GGUF که توسط city96 ساخته شده، در محیط ComfyUI استفاده کرد. فقط کافیه فایل‌های مدل رو توی پوشه ComfyUI/models/unet قرار بدید.

این مدل در ماه گذشته ۲۲,۱۷۷ بار دانلود شده. مدل پایه اون هم black-forest-labs/FLUX.1-Kontext-dev هست.

مشخصات فنی مدل

تعداد پارامترها: ۱۱.۹ میلیارد
معماری: flux

در جدول زیر میتونید اندازه‌های مختلف این مدل رو بعد از فشرده‌سازی ببینید:

نوع کوانتیزیشن (Bit)	نام مدل	حجم فایل
۲-bit	Q2_K	۴.۰۲ GB
۳-bit	Q3_K_S	۵.۲۳ GB
۳-bit	Q3_K_M	۵.۳۷ GB
۴-bit	Q4_K_S	۶.۸ GB
۴-bit	Q4_0	۶.۸ GB
۴-bit	Q4_1	۷.۵۴ GB
۴-bit	Q4_K_M	۶.۹۳ GB
۵-bit	Q5_K_S	۸.۲۸ GB
۵-bit	Q5_0	۸.۲۸ GB
۵-bit	Q5_1	۹.۰۲ GB
۵-bit	Q5_K_M	۸.۴۲ GB
۶-bit	Q6_K	۹.۸۵ GB
۸-bit	Q8_0	۱۲.۷ GB

منابع

[۲] FLUX.1 Srpo Text-to-Image — One API 200+ AI Models | AI/ML API
[۴] QuantStack/FLUX.1-Kontext-dev-GGUF · Hugging Face

[۱] FLUX.1 Kontext now in Adobe Photoshop: Powering Every Pixel | Black Forest Labs
[۳] Free Flux 1 Schnell – Rapid Text to Image AI