GeekAlerts

جایی برای گیک‌ها

معرفی مدل ساخت تصاویر Qwen-Image از علی‌بابا

معرفی مدل ساخت تصاویر Qwen-Image از علی‌بابا

شرکت بزرگ فناوری چینی، علی بابا، در تاریخ ۴ اگوست، یک مدل هوش مصنوعی قدرتمند و جدید برای تولید عکس به صورت متن باز (open-source) منتشر کرده. این مدل که Qwen-Image نام داره، در یکی از سخت‌ترین چالش‌های هوش مصنوعی، یعنی نمایش دقیق متن در عکس، عملکرد خوبی از خودش نشون داده. این ابزار که حالا به صورت جهانی روی پلتفرم‌هایی مثل Hugging Face در دسترسه، یک توانایی پیشرفته در تولید متن‌های پیچیده، از جمله کاراکترهای چینی چند خطی، به طور مستقیم در عکس‌های باکیفیت رو به نمایش میذاره.

این مدل با مجوز آزاد Apache 2.0 منتشر شده و به نوعی رقیب سیستم‌های اختصاصی غربی مثل گوگل و OpenAI به حساب میاد. هدفش اینه که به توسعه‌دهنده‌ها یک جایگزین رایگان و قوی بده که بتونن متن‌های پیچیده رو به راحتی با ساخت عکس ترکیب کنن، مشکلی که مدل‌های تولیدکننده عکس مدت‌ها باهاش درگیر بودن.

در واقع، تیم Qwen علی بابا با این عرضه، دوباره به میدون رقابت برگشته. اونها قبل از این هم با انتشار مدل‌های زبانی و کدنویسی متن باز قدرتمند و رایگان که با رقبای آمریکایی رقابت میکردن یا حتی ازشون بهتر بودن، سروصدا کرده بودن. حالا Qwen-Image به عنوان یک مدل تولید عکس با رتبه بالا، دوباره به صورت متن باز عرضه شده.

این مدل در دنیای شلوغ ابزارهای تولید عکس، به خاطر تمرکزش روی نمایش دقیق متن داخل تصاویر، حسابی برجسته شده؛ حوزه‌ای که خیلی از رقباش هنوز توش مشکل دارن.

رویدادها و اخبار مربوط به Qwen-Image

تیم توسعه‌دهنده چند تا خبر مهم رو به ترتیب زمانی اعلام کرده:

  • ۲۰۲۵.۰۸.۰۵: Qwen-Image به پلتفرم Qwen Chat اضافه شده. برای استفاده ازش کافیه وارد Qwen Chat بشید و گزینه «Image Generation» رو انتخاب کنید.
  • ۲۰۲۵.۰۸.۰۵: گزارش فنی این مدل روی وبسایت Arxiv منتشر شده.
  • ۲۰۲۵.۰۸.۰۴: وزن‌های مدل Qwen-Image روی پلتفرم‌های Hugging Face و Modelscope برای دسترسی عمومی قرار گرفته.
  • ۲۰۲۵.۰۸.۰۴: مدل Qwen-Image به طور رسمی منتشر شده و جزئیات بیشتر در وبلاگ این تیم موجوده.

یک نکته هم گفته شده که نسخه ویرایشگر Qwen-Image به زودی منتشر میشه و باید منتظرش موند. همچنین به خاطر ترافیک بالای دسترسی به دموی آنلاین، پیشنهاد شده که از پلتفرم‌های DashScope، WaveSpeed و LibLib هم برای امتحان کردن مدل استفاده بشه.

ویژگی‌ها و قابلیت‌های اصلی Qwen-Image

این مدل فقط برای ساختن عکس‌های قشنگ نیست، بلکه یک مدل پایه جامع برای ساخت و دستکاری هوشمند تصاویر به حساب میاد که توش زبان، چیدمان و تصویر با هم ترکیب میشن.

رندر و نمایش دقیق متن

یکی از قابلیت‌های برجسته Qwen-Image، توانایی بالای اون در نمایش متن با جزئیات دقیق در عکس‌های مختلفه. فرقی نمیکنه زبان الفبایی مثل انگلیسی باشه یا زبان‌های نوشتاری مثل چینی، Qwen-Image جزئیات تایپوگرافی، هماهنگی چیدمان و تناسب متنی رو با دقت بالایی حفظ میکنه. متن فقط روی عکس قرار نمیگیره، بلکه به شکل یکپارچه با بافت بصری تصویر ترکیب میشه.

این ویژگی به کاربرها اجازه میده محتواهایی مثل پوستر فیلم، اسلایدهای ارائه، صحنه‌های ویترین مغازه، شعرهای دست‌نویس و اینفوگرافیک‌های طراحی شده رو با متنی واضح و هماهنگ با درخواستشون تولید کنن.

تولید عکس به صورت عمومی

Qwen-Image فقط در نمایش متن قوی نیست و در تولید عمومی عکس هم عملکرد خوبی داره و از طیف گسترده‌ای از سبک‌های هنری پشتیبانی میکنه. از صحنه‌های واقعی و فوتورئالیستی گرفته تا نقاشی‌های امپرسیونیستی، و از سبک‌های انیمه تا طراحی مینیمالیستی، این مدل به راحتی با درخواست‌های خلاقانه کاربرها سازگار میشه. این انعطاف‌پذیری، اون رو به یک ابزار همه‌کاره برای هنرمندها، طراح‌ها و داستان‌نویس‌ها تبدیل کرده.

ویرایش پیشرفته عکس

وقتی صحبت از ویرایش عکس میشه، Qwen-Image فراتر از تنظیمات ساده عمل میکنه. این مدل عملیات پیشرفته‌ای مثل انتقال سبک (style transfer)، اضافه یا حذف کردن اشیا، بهبود جزئیات، ویرایش متن داخل عکس و حتی دستکاری حالت بدن انسان (human pose manipulation) رو با ورودی‌های ساده و خروجی‌های منسجم ممکن میکنه. این سطح از کنترل، ویرایش حرفه‌ای رو در دسترس کاربرهای عادی قرار میده.

در مقایسه‌های کیفی، Qwen-Image تونسته جزئیات دقیقی مثل تارهای مو رو موقع تغییر حالت بدن حفظ کنه و جزئیات لباسی که قبلا مخفی بوده رو به درستی حدس بزنه که نشون‌دهنده درک پیچیده‌ای از زمینه‌ است.

درک عمیق تصویر

Qwen-Image فقط عکس تولید یا ویرایش نمیکنه، بلکه اونها رو درک هم میکنه. این مدل از مجموعه‌ای از وظایف درک تصویر پشتیبانی میکنه، از جمله:

  • تشخیص اشیا (Object detection)
  • بخش‌بندی معنایی (Semantic segmentation)
  • تخمین عمق و لبه (Depth and edge Canny estimation)
  • سنتز نمای جدید (Novel view synthesis)
  • افزایش وضوح (Super-resolution)

این قابلیت‌ها، با اینکه از نظر فنی متفاوتن، میتونن به عنوان شکل‌های تخصصی از ویرایش هوشمند عکس در نظر گرفته بشن که با درک عمیق بصری کار میکنن. شاید آینده‌نگرانه‌ترین ویژگیش این باشه که قدرت تولیدی خودش رو برای وظایفی به کار میگیره که معمولا مدل‌های بینایی کامپیوتر تخصصی انجام میدن. تیم Qwen نشون داده که این مدل میتونه مجموعه‌ای از وظایف درک تصویر رو با درخواست‌های ویرایشی ساده انجام بده. با تعریف این وظایف ادراکی به عنوان نوعی ویرایش هوشمند عکس، علی بابا داره شکاف بین هوش مصنوعی که دنیا رو میبینه و هوش مصنوعی که اون رو خلق میکنه رو پر میکنه.

نگاهی به عملکرد مدل در عمل (Demo)

یکی از توانایی‌های برجسته Qwen-Image، رندر متن با کیفیت بالا در سناریوهای مختلفه. بیایید چند نمونه از عملکردش رو در زبان‌های چینی و انگلیسی ببینیم.

نمونه‌های رندر متن چینی

مثال اول: سبک انیمه

یک درخواست به زبان چینی برای ساخت عکسی به سبک انیمه‌های میازاکی داده شده. درخواست این بوده:

«سبک انیمه میازاکی. عکاسی از زاویه صاف، خیابان قدیمی زیر نور خورشید پر از هیاهو. یک شاگرد فرقه شیائویائو با لباس سبز و کارتی با نوشته «阿里云» در دستش در وسط ایستاده. دو کودک کنارش با تعجب به او نگاه میکنند. در سمت چپ، مغازه‌ای با تابلوی «云存储» وجود دارد که داخلش کیس‌های سرور درخشان قرار گرفته و دو نگهبان از در محافظت میکنند. در سمت راست دو مغازه وجود دارد، یکی با تابلوی «云计算» که یک زن زیبا با لباس چی‌پائو به صفحه کامپیوتر درخشان داخل نگاه میکند؛ مغازه دیگر تابلوی «云模型» دارد و جلوی در یک خمره بزرگ شراب با نوشته «千问» قرار دارد و یک صاحب مغازه در حال ریختن محلول کد درخشان در آن است.»

مدل نه تنها سبک انیمه میازاکی رو به درستی پیاده کرده، بلکه تابلوهای مغازه‌ها مثل «云存储» (ذخیره‌سازی ابری)، «云计算» (محاسبات ابری) و «云模型» (مدل ابری) و همچنین نوشته «千问» روی خمره شراب رو به شکلی واقعی و با عمق میدان مناسب رندر کرده. حالت‌ها و چهره‌های شخصیت‌ها هم به خوبی حفظ شدن.

مثال دوم: خوشنویسی سنتی

درخواست بعدی برای یک دوبیتی سنتی چینی بوده:

«یک جفت دوبیتی زیبا و باوقار در سالن آویزان شده، اتاق یک چیدمان کلاسیک و آرام چینی دارد، روی میز چند چینی‌آلات آبی و سفید قرار دارد، روی دوبیتی سمت چپ نوشته «义本生知人机同道善思新» و روی سمت راست نوشته «通云赋智乾坤启数高志远» و بالای آن نوشته «智启通义». فونت روان است و در وسط یک نقاشی به سبک چینی از برج یوئه‌یانگ آویزان است.»

مثال سوم: متن طولانی

برای تست کردن متن‌های طولانی‌تر، این درخواست داده شده:

«یک زن زیبای چینی با تیشرتی با لوگوی «QWEN» یک ماژیک مشکی در دست دارد و به دوربین لبخند میزند. پشت سر او روی یک تخته شیشه‌ای با دست خط نوشته شده: «۱. مسیر فنی Qwen-Image: کاوش در مرزهای مدل‌های پایه تولید بصری و ایجاد آینده‌ای یکپارچه از درک و تولید. ۲. ویژگی‌های مدل Qwen-Image: ۱. رندر متن پیچیده. پشتیبانی از رندر چینی و انگلیسی، چیدمان خودکار؛ ۲. ویرایش دقیق تصویر. پشتیبانی از ویرایش متن، افزودن/حذف اشیا، تغییر سبک. ۳. چشم‌انداز آینده Qwen-Image: توانمندسازی تولید محتوای حرفه‌ای، کمک به توسعه هوش مصنوعی مولد.»»

نمونه‌های رندر متن انگلیسی

مثال اول: ویترین کتاب‌فروشی

«ویترین یک کتاب‌فروشی. یک تابلو با نوشته «New Arrivals This Week» نمایش داده شده. زیر آن، یک برچسب قفسه با متن «Best-Selling Novels Here». در کنار، یک پوستر رنگارنگ با تبلیغ «Author Meet And Greet on Saturday» با یک پرتره از نویسنده در مرکز. چهار کتاب روی قفسه کتاب وجود دارد، به نام‌های «The light between worlds»، «When stars are scattered»، «The slient patient» و «The night circus».»

مثال دوم: اینفوگرافیک پیچیده

یک درخواست پیچیده‌تر برای ساخت یک اسلاید اینفوگرافیک داده شده:

«یک اسلاید با اشکال هنری و تزئینی که اطلاعات متنی مرتب شده به سبک یک اینفوگرافیک زیبا را قاب کرده است. در مرکز، عنوان «Habits for Emotional Wellbeing» به وضوح دیده میشود، که توسط یک الگوی گل متقارن احاطه شده است. در بخش بالا سمت چپ، «Practice Mindfulness» در کنار یک آیکون گل نیلوفر آبی مینیمالیستی با جمله کوتاه «Be present, observe without judging, accept without resisting» ظاهر میشود. در ادامه به سمت پایین، «Cultivate Gratitude» در نزدیکی یک تصویر دست باز نوشته شده، همراه با خط «Appreciate simple joys and acknowledge positivity daily». پایین‌تر، به سمت چپ پایین، «Stay Connected» همراه با یک آیکون حباب چت مینیمالیستی با نوشته «Build and maintain meaningful relationships to sustain emotional energy». در گوشه پایین سمت راست، «Prioritize Sleep» در کنار یک تصویر هلال ماه به تصویر کشیده شده، همراه با متن «Quality sleep benefits both body and mind». به سمت بالا در سمت راست، «Regular Physical Activity» در نزدیکی یک آیکون دونده در حال دویدن قرار دارد که میگوید: «Exercise boosts mood and relieves anxiety». در نهایت، در سمت راست بالا، «Continuous Learning» با یک آیکون کتاب جفت شده که میگوید «Engage in new skill and knowledge for growth». چیدمان اسلاید به زیبایی تعادل بین وضوح و هنر را برقرار میکند و بینندگان را به طور طبیعی در هر بخش متن راهنمایی میکند.»

مثال سوم: متن کوچک

برای تست کردن متن‌های کوچک‌تر این درخواست داده شده:

«مردی با کت و شلوار جلوی پنجره ایستاده و به ماه درخشان بیرون پنجره نگاه میکند. مرد کاغذی زرد شده با کلمات دست‌نویس در دست دارد: «A lantern moon climbs through the silver night, Unfurling quiet dreams across the sky, Each star a whispered promise wrapped in light, That dawn will bloom, though darkness wanders by.» یک گربه بامزه روی طاقچه پنجره نشسته است.»

نمونه رندر متن دو زبانه

برای یک سناریوی مشابه با مثال متن طولانی چینی، این بار یک درخواست دو زبانه داده شده:

«یک زن زیبای چینی با تیشرتی با لوگوی «QWEN» یک ماژیک مشکی در دست دارد و به دوربین لبخند میزند. پشت سر او روی یک تخته شیشه‌ای با دست خط نوشته شده: «Meet Qwen-Image – a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑»»

نمونه‌های ساخت پوستر و اسلاید

با توانایی‌های متنی Qwen-Image، ساخت پوستر خیلی راحت میشه.

مثال ساخت پوستر فیلم:

«یک پوستر فیلم. ردیف اول عنوان فیلم است که نوشته «Imagination Unleashed». ردیف دوم زیرنویس فیلم است که نوشته «Enter a world beyond your imagination». ردیف سوم نوشته «Cast: Qwen-Image». ردیف چهارم نوشته «Director: The Collective Imagination of Humanity». تصویر مرکزی یک کامپیوتر آینده‌نگرانه و شیک را نشان میدهد که از آن رنگ‌های درخشان، موجودات عجیب و غریب و الگوهای چرخشی پویا به صورت انفجاری بیرون میآیند و ترکیب را با انرژی، حرکت و خلاقیت سورئال پر میکنند. پس‌زمینه از تن‌های تاریک و کیهانی به یک گستره درخشان و رویایی تغییر میکند که یک قلمرو فانتزی دیجیتال را تداعی میکند. در لبه پایین، متن «Launching in the Cloud, August 2025» با فونت مدرن و پررنگ sans-serif با افکت درخشان و کمی شفاف ظاهر میشود که زیبایی‌شناسی سینمایی و با فناوری بالا را تداعی میکند. سبک کلی، سورئالیسم علمی-تخیلی را با استعداد طراحی گرافیک ترکیب میکند—کنتراست‌های تند، درجه‌بندی رنگی زنده و عمق بصری لایه‌ای—که یادآور هنر مفهومی رویایی و نقاشی دیجیتال مات است، با وضوح 32K و جزئیات فوق‌العاده.»

مثال ساخت اسلاید پاورپوینت (PPT) به زبان چینی:

«یک تصویر صفحه PPT با کیفیت بالا برای کسب و کار، با تم اصلی آبی ستاره‌ای با حس فناوری، پس‌زمینه ترکیبی از خطوط فناوری درخشان و روان با افکت‌های ذرات نورانی که فضایی حرفه‌ای، مدرن و قابل اعتماد برای برند ایجاد میکند؛ در سمت چپ بالای صفحه لوگوی نارنجی-قرمز Alibaba به وضوح نمایش داده شده، با رنگ‌های روشن و تشخیص‌پذیری بالا. عنوان اصلی در مرکز و کمی بالاتر قرار دارد و با فونت سفید یا آبی روشن، بزرگ و پررنگ نوشته شده «通义千问视觉基础模型»، فونت مدرن و ساده است و حس فناوری را برجسته میکند؛ درست زیر عنوان اصلی یک خط متن چینی با فونت کایتی نوشته شده: «原生中文·复杂场景·自动布局»، فونت نرم و زیباست و ترکیبی از فناوری و انسانیت را ایجاد میکند. در زیر آن چهار تصویر به صورت مرکزی چیده شده‌اند: یک تصویر کلوزآپ از شکوفه آلو که ترکیبی از سبک واقع‌گرایانه و آبرنگ است، با شاخه‌های قوی و گلبرگ‌های زیبا، پس‌زمینه ترکیبی از جوهر کم‌رنگ و افکت برف، که روحیه سرسختی را نشان میدهد؛ بالای آن با فونت کایتی مشکی نوشته شده «梅傲». یک ارکیده که از شکاف سنگی در کوهستان رشد کرده، با برگ‌های بلند و گل‌های ساده، همراه با محیط طبیعی با مه صبحگاهی، که سبک فرهیختگان را نشان میدهد؛ بالای آن با فونت کایتی مشکی نوشته شده «兰幽». گروهی از بامبوهای سبز که در برابر باد ایستاده‌اند، برگ‌های بامبو با باد تکان میخورند، نور و سایه در هم آمیخته، پس‌زمینه صخره‌های سنگی خاکستری-آبی و آب روان، که تصویر فرهنگی انعطاف‌پذیر و فروتن را نشان میدهد؛ بالای آن با فونت کایتی مشکی نوشته شده «竹清». دسته‌ای از گل‌های داوودی که در یک حیاط پاییزی شکفته‌اند، با رنگ‌های غنی و لایه‌های مشخص، همراه با برگ‌های افتاده و سایه یک آلاچیق قدیمی، که فلسفه زندگی آرام و راحت را منتقل میکند؛ بالای آن با فونت کایتی مشکی نوشته شده «菊淡». همه تصاویر از اندازه و سبک قاب یکسانی استفاده میکنند و به صورت افقی چیده شده‌اند. در مرکز پایین صفحه با فونت کایتی کوچک نوشته شده «اگوست ۲۰۲۵، منتظر باشید»، با چیدمان مرتب، ساختار واضح، سبک کلی یکپارچه و جزئیات غنی، که جذابیت بصری و هویت برند قوی دارد.»

چطور از Qwen-Image استفاده کنیم؟

برای استفاده از این مدل، لازمه که چند مرحله فنی رو طی کنید.

نیازمندی‌ها و نصب

اول از همه باید مطمئن بشید که نسخه کتابخانه transformers شما بالاتر از ۴.۵۱.۳ باشه که از Qwen2.5-VL پشتیبانی میکنه. بعد باید آخرین نسخه کتابخانه diffusers رو نصب کنید. برای این کار میتونید از دستور زیر استفاده کنید:

pip install git+https://github.com/huggingface/diffusers

کد نمونه برای تولید عکس

در ادامه یک قطعه کد پایتون برای استفاده از مدل و تولید عکس بر اساس متن ورودی (prompt) آورده شده:

from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
# بارگذاری پایپ‌لاین
if torch.cuda.is_available():
    torch_dtype = torch.bfloat16
    device = "cuda"
else:
    torch_dtype = torch.float32
    device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
positive_magic = {
    "en": "Ultra HD, 4K, cinematic composition.", # برای پرامپت انگلیسی
    "zh": "超清,4K,电影级构图" # برای پرامپت چینی
}
# تولید عکس
prompt = '''A coffee shop entrance features a chalkboard sign reading "Qwen Coffee 😊 $۲ per cup," with a neon light beside it displaying "通义千问". Next to it hangs a poster showing a beautiful Chinese woman, and beneath the poster is written "π≈۳.۱۴۱۵۹۲۶-۵۳۵۸۹۷۹۳-۲۳۸۴۶۲۶۴-۳۳۸۳۲۷۹۵-۰۲۳۸۴۱۹۷".'''
negative_prompt = " " # توصیه میشه اگه از پرامپت منفی استفاده نمیکنید، خالی نذارید
# تولید با نسبت‌های تصویر مختلف
aspect_ratios = {
    "۱:۱": (۱۳۲۸, ۱۳۲۸),
    "۱۶:۹": (۱۶۶۴, ۹۲۸),
    "۹:۱۶": (۹۲۸, ۱۶۶۴),
    "۴:۳": (۱۴۷۲, ۱۱۰۴),
    "۳:۴": (۱۱۰۴, ۱۴۷۲),
    "۳:۲": (۱۵۸۴, ۱۰۵۶),
    "۲:۳": (۱۰۵۶, ۱۵۸۴),
}
# یک نسخه دیگر از نسبت‌های تصویر در یک منبع دیگر
# aspect_ratios = {
#     "۱:۱": (۱۳۲۸, ۱۳۲۸),
#     "۱۶:۹": (۱۶۶۴, ۹۲۸),
#     "۹:۱۶": (۹۲۸, ۱۶۶۴),
#     "۴:۳": (۱۴۷۲, ۱۱۴۰),
#     "۳:۴": (۱۱۴۰, ۱۴۷۲)
# }
width, height = aspect_ratios["16:9"]
image = pipe(
    prompt=prompt + positive_magic["en"],
    negative_prompt=negative_prompt,
    width=width,
    height=height,
    num_inference_steps=50,
    true_cfg_scale=4.0,
    generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]
image.save("example.png")

ابزار بهبود پرامپت (Prompt Enhancement)

برای بهینه‌سازی پرامپت و پشتیبانی از زبان‌های مختلف، پیشنهاد شده که از ابزار رسمی Prompt Enhancement که با Qwen-Plus کار میکنه، استفاده بشه. میتونید اون رو مستقیما در کد خودتون به این شکل استفاده کنید:

from tools.prompt_utils import rewrite
prompt = rewrite(prompt)

یا میتونید اسکریپت نمونه رو از خط فرمان اجرا کنید:

cd src
DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxxxxx python examples/generate_w_prompt_enhance.py

راه‌اندازی سرور API با چند GPU

Qwen-Image از راه‌اندازی یک سرور API برای استقرار محلی با چند GPU پشتیبانی میکنه. این سرور یک رابط کاربری تحت وب مبتنی بر Gradio رو با ویژگی‌های زیر اجرا میکنه:

  • پردازش موازی با چند GPU
  • مدیریت صف برای درخواست‌های همزمان بالا
  • بهینه‌سازی خودکار پرامپت
  • پشتیبانی از نسبت‌های تصویر مختلف

پیکربندی این سرور از طریق متغیرهای محیطی انجام میشه:

متغیر محیطیتوضیح
export NUM_GPUS_TO_USE=4تعداد GPUهایی که باید استفاده بشن
export TASK_QUEUE_SIZE=100اندازه صف وظایف
export TASK_TIMEOUT=300زمان انقضای وظیفه به ثانیه

برای اجرای سرور دموی Gradio، این دستورات رو اجرا کنید:

cd src
DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxx python examples/demo.py

معماری و فرآیند آموزش مدل

موفقیت Qwen-Image به معماری خاص و فرآیند آموزش پیشرفته‌اش برمیگرده.

معماری فنی

در هسته Qwen-Image یک مدل پایه با ۲۰ میلیارد پارامتر قرار داره که بر اساس معماری ترانسفورمر انتشاری چندوجهی (MMDiT) ساخته شده. برای درک درخواست‌های پیچیده کاربرها، از یک مدل زبان-بینایی Qwen2.5-VL به عنوان کدگذار شرطی (condition encoder) استفاده میکنه. این انتخاب طراحی، از مدلی بهره میبره که از قبل در هماهنگ کردن داده‌های زبانی و بصری مهارت داره.

این مدل سه بخش کلیدی رو با هم ادغام میکنه:

  1. Qwen2.5-VL: این مدل زبان چندوجهی، معنای متنی رو استخراج میکنه و تولید عکس رو از طریق پرامپت‌های سیستمی هدایت میکنه.
  2. کدگذار/کدگشای VAE: این بخش که روی اسناد با وضوح بالا و چیدمان‌های دنیای واقعی آموزش دیده، نمایش‌های بصری دقیق، به خصوص برای متن‌های کوچک یا متراکم رو مدیریت میکنه. VAE به طور ویژه روی مجموعه‌ای از اسناد متنی مثل PDF و پوسترها تنظیم دقیق شده تا بازسازی جزئیات ریز و متن‌های کوچک رو بهبود بده.
  3. MMDiT: این ستون فقرات مدل انتشار، یادگیری مشترک رو بین حالت‌های تصویری و متنی هماهنگ میکنه. یک سیستم جدید به نام MSRoPE (کدگذاری موقعیتی چرخشی مقیاس‌پذیر چندوجهی) هم برای بهبود هم‌ترازی فضایی بین توکن‌ها استفاده شده.

یک نوآوری کلیدی برای ویرایش عکس، مکانیزم کدگذاری دوگانه این مدله. برای ایجاد یک تغییر، سیستم تصویر ورودی رو به دو روش پردازش میکنه: Qwen2.5-VL ویژگی‌های معنایی سطح بالا رو استخراج میکنه، در حالی که یک خودکدگذار متغیر (VAE) جزئیات بازسازی سطح پایین رو ثبت میکنه. هر دو مجموعه از ویژگی‌ها به MMDiT داده میشن و به مدل اجازه میدن تا تعادل دقیقی بین حفظ انسجام معنایی و وفاداری بصری برقرار کنه.

مهندس‌هایی که وظیفه ساخت پایپ‌لاین‌های هوش مصنوعی یا استقرار مدل‌ها در سیستم‌های توزیع شده رو دارن، از مستندات دقیق زیرساخت قدردانی خواهند کرد. این مدل با استفاده از معماری تولیدکننده-مصرف‌کننده آموزش دیده، از پردازش چند وضوحی مقیاس‌پذیر (از ۲۵۶p تا ۱۳۲۸p) پشتیبانی میکنه و برای اجرا با Megatron-LM و موازی‌سازی تانسور ساخته شده. این ویژگی‌ها Qwen-Image رو به گزینه‌ای برای استقرار در محیط‌های ابری هیبریدی که قابلیت اطمینان و توان عملیاتی اهمیت دارن، تبدیل میکنه.

فرآیند آموزش و داده‌ها

پشت عملکرد Qwen-Image یک فرآیند آموزش گسترده مبتنی بر یادگیری پیشرونده، هم‌ترازی وظایف چندوجهی و گردآوری دقیق داده‌ها قرار داره. تیم Qwen این فرآیند رو با یک خط لوله داده جامع و یک استراتژی آموزش تدریجی پشتیبانی کرده.

مدل با استفاده از یک رویکرد یادگیری برنامه‌ریزی شده (curriculum learning) آموزش دیده. یعنی اول با کارهای ساده مثل رندر بدون متن شروع کرده و به تدریج به سمت مدیریت توصیفات پیچیده در سطح پاراگراف پیش رفته. این روش برای تقویت توانایی‌های بومی رندر متن، به خصوص برای زبان‌های نوشتاری چالش‌برانگیز مثل چینی، بسیار مهم بوده.

مجموعه داده‌های آموزشی شامل میلیاردها جفت تصویر-متن از چهار حوزه مختلف بوده:

نوع دادهدرصد تقریبی
تصاویر طبیعی~۵۵٪
طراحی (رابط کاربری، پوستر، هنر)~۲۷٪
افراد (پرتره، فعالیت انسانی)~۱۳٪
داده‌های رندر متن مصنوعی~۵٪

تیم Qwen اندازه دقیق مجموعه داده‌های آموزشی رو مشخص نکرده، فقط به «میلیاردها جفت تصویر-متن» اشاره کرده. اونها تاکید دارن که تمام داده‌های مصنوعی در داخل شرکت تولید شده و از هیچ تصویری که توسط مدل‌های هوش مصنوعی دیگه ساخته شده، استفاده نشده. با وجود مراحل دقیق گردآوری و فیلتر کردن، مستندات مشخص نمیکنن که آیا داده‌ها دارای مجوز بودن یا از مجموعه داده‌های عمومی یا اختصاصی گرفته شدن. این موضوع که داده‌های آموزشی مدل، مثل اکثر تولیدکننده‌های عکس هوش مصنوعی، یک راز کاملا محرمانه باقی مونده، ممکنه بعضی از شرکت‌ها رو از استفاده از اون منصرف کنه.

برخلاف خیلی از مدل‌های تولیدی که متن مصنوعی رو به خاطر ریسک نویز حذف میکنن، Qwen-Image از خطوط لوله رندر مصنوعی با کنترل شدید برای بهبود پوشش کاراکترها، به خصوص برای کاراکترهای کم‌تکرار در زبان چینی، استفاده میکنه.

ارزیابی، بنچمارک‌ها و جایگاه در صنعت

عملکرد Qwen-Image روی چندین بنچمارک عمومی و در مقایسه با مدل‌های دیگه ارزیابی شده.

AI Arena: یک پلتفرم ارزیابی باز

برای ارزیابی جامع قابلیت‌های عمومی تولید عکس Qwen-Image و مقایسه عینی اون با APIهای متن بسته پیشرفته، پلتفرمی به نام AI Arena معرفی شده. این یک پلتفرم بنچمارکینگ بازه که بر اساس سیستم رتبه‌بندی Elo کار میکنه. AI Arena یک محیط منصفانه، شفاف و پویا برای ارزیابی مدل‌ها فراهم میکنه.

در هر دور، دو عکس که توسط مدل‌های تصادفی از روی یک پرامپت یکسان تولید شدن، به صورت ناشناس به کاربرها برای مقایسه جفت-به-جفت ارائه میشن. کاربرها به عکس بهتر رای میدن و نتایج برای به‌روزرسانی جدول‌های امتیازات شخصی و جهانی از طریق الگوریتم Elo استفاده میشه. این کار به توسعه‌دهنده‌ها، محقق‌ها و عموم مردم اجازه میده تا عملکرد مدل‌ها رو به روشی قوی و داده‌محور ارزیابی کنن. AI Arena در حال حاضر برای عموم در دسترسه و همه میتونن در ارزیابی مدل‌ها شرکت کنن. آخرین رتبه‌بندی‌ها در AI Arena Learboard قابل مشاهده‌ است.

اگر کسی بخواد مدل خودش رو در AI Arena مستقر کنه و در ارزیابی شرکت کنه، میتونه با ایمیل weiyue.wy@alibaba-inc.com تماس بگیره.

نتایج بنچمارک‌ها

Qwen-Image در چندین بنچمارک عمومی ارزیابی شده:

  • GenEval و DPG برای دنبال کردن پرامپت و ثبات ویژگی‌های اشیا.
  • OneIG-Bench و TIIF برای استدلال ترکیبی و وفاداری به چیدمان.
  • GEdit، ImgEdit و GSO برای ویرایش تصویر.
  • LongText-Bench، ChineseWord، CVTG-2K و TextCraft برای رندر متن، به خصوص در زمینه‌های چندزبانه.

در تقریباً همه موارد، Qwen-Image با مدل‌های متن بسته موجود مثل GPT Image 1 [High]، Seedream 3.0 و FLUX.1 Kontext [Pro] برابری میکنه یا از اونها پیشی میگیره. به طور قابل توجهی، عملکردش در رندر متن چینی به مراتب بهتر از همه سیستم‌های مقایسه شده بوده.

در جدول امتیازات عمومی AI Arena که بر اساس بیش از ۱۰,۰۰۰ مقایسه جفت-به-جفت انسانیه، Qwen-Image در رتبه سوم کلی قرار داره و بهترین مدل متن باز به حساب میاد.

مقایسه با رقبا و بحث‌های صنعت

در حالی که Qwen-Image به عنوان یک رقیب متن باز برای ابزارهای معروفی مثل Midjourney مطرح شده، گزارش‌هایی هم از تست‌های اولیه وجود داره. یک گزارش از VentureBeat نشون میده که در تست‌های اولیه، پایبندی به پرامپت و دقت متن به طور قابل توجهی بهتر از Midjourney نبوده و در درک پرامپت و دقت متن حتی با تکرار و تغییر پرامپت، خطاهایی وجود داشته. با این حال، Midjourney فقط تعداد محدودی تولید رایگان ارائه میده و برای استفاده بیشتر نیاز به اشتراک داره، در حالی که Qwen-Image به لطف مجوز متن باز و در دسترس بودن وزن‌ها در Hugging Face، میتونه توسط هر شرکت یا ارائه‌دهنده ثالثی به صورت رایگان استفاده بشه.

این حرکت تهاجمی در حالی اتفاق میفته که صنعت با شک و تردیدهای روزافزون در مورد قابلیت اطمینان بنچمارک‌های هوش مصنوعی دست و پنجه نرم میکنه. چند هفته پیش، یک مطالعه ادعا کرد که مدل قدیمی‌تر علی بابا، Qwen2.5، در یک آزمون ریاضی کلیدی با حفظ کردن پاسخ‌ها از داده‌های آموزشی آلوده، «تقلب» کرده.

این جنجال یک مسئله سیستمی «آموزش برای آزمون» در رقابت برای تسلط بر جدول‌های امتیازات رو برجسته میکنه. همانطور که استراتژیست هوش مصنوعی، نیت جونز، اشاره کرده: «لحظه‌ای که تسلط بر جدول امتیازات رو به عنوان هدف تعیین میکنیم، ریسک ساخت مدل‌هایی رو میپذیریم که در تمرین‌های بی‌اهمیت عالی عمل میکنن و در مواجهه با واقعیت دچار مشکل میشن.» این احساس توسط متخصصانی مثل سارا هوکر، رئیس Cohere Labs، هم تکرار شده که استدلال کرده: «وقتی یک جدول امتیازات برای کل یک اکوسیستم مهمه، انگیزه‌ها برای بازی دادن به اون همسو میشن.»

به نظر میرسه علی بابا با تمرکز بر یک قابلیت ملموس و دشوار مثل رندر متن، داره روایت رو از امتیازات انتزاعی جدول‌ها به سمت کاربرد واقعی و نوآوری باز تغییر میده. این استراتژی ارائه جایگزین‌های قدرتمند و رایگان، مستقیما مدل‌های بسته و اختصاصی رو که بر بازار سطح بالا تسلط دارن، به چالش میکشه.

بخشی از یک حرکت بزرگ‌تر

انتشار Qwen-Image یک رویداد جداگانه نیست. این آخرین حرکت در یک سری از عرضه‌های بزرگ و سریع هوش مصنوعی از طرف علی باباست که نشون‌دهنده یک استراتژی جامع برای ساخت یک مجموعه کامل از ابزارهای باز برای توسعه‌دهنده‌ها و تسلط بر اکوسیستم متن بازه.

در هفته‌های قبل، این شرکت یک مدل استدلال پرچمدار جدید به نام Qwen3-Thinking-2507 رو معرفی کرد که در بنچمارک‌های کلیدی صنعت از رقبایی مثل گوگل و OpenAI پیشی گرفت. این مدل با یک مدل کدنویسی قدرتمند به نام Qwen3-Coder همراه بود.

این تغییر استراتژیک با بیانیه‌ای از سوی Alibaba Cloud تاکید شد که تصمیمش برای کنار گذاشتن حالت «تفکر ترکیبی» مدل‌های قبلی رو توضیح داد. یک سخنگو گفت: «پس از گفتگو با جامعه و تامل در مورد موضوع، تصمیم گرفتیم حالت تفکر ترکیبی را کنار بگذاریم. ما اکنون مدل‌های Instruct و Thinking را به طور جداگانه آموزش خواهیم داد تا به بهترین کیفیت ممکن دست یابیم.» این بیانیه تمرکز جدید روی سیستم‌های تخصصی و با کیفیت بالا رو روشن میکنه.

این شرکت همچنین اخیرا Wan2.2 رو عرضه کرده که یک به‌روزرسانی بزرگ متن باز برای مدل‌های تولید ویدیوی هوش مصنوعیشه. این عرضه یک معماری پیشرفته ترکیبی از متخصصان (MoE) رو برای بهبود کیفیت و کارایی ویدیو معرفی کرد.

مجوز، در دسترس بودن و جامعه کاربری

مجوز و در دسترس بودن

Qwen-Image تحت مجوز Apache 2.0 توزیع شده. این مجوز اجازه استفاده تجاری و غیرتجاری، توزیع مجدد و تغییرات رو میده، هرچند که برای کارهای مشتق شده، ذکر منبع و گنجاندن متن مجوز الزامیه. این موضوع ممکنه اون رو برای شرکت‌هایی که به دنبال یک ابزار تولید عکس متن باز برای ساخت محتوای داخلی یا خارجی مثل بروشورها، تبلیغات، اطلاعیه‌ها و سایر ارتباطات دیجیتال هستن، جذاب کنه.

با این حال، Qwen، برخلاف Adobe Firefly یا تولید عکس بومی GPT-4o، برای استفاده‌های تجاری از محصولش، غرامت (indemnification) ارائه نمیده (یعنی اگر کاربری به دلیل نقض کپی‌رایت تحت پیگرد قانونی قرار بگیره، Adobe و OpenAI در دادگاه از او حمایت میکنن).

مدل و دارایی‌های مرتبط با اون، از جمله نوت‌بوک‌های دمو، ابزارهای ارزیابی و اسکریپت‌های تنظیم دقیق، از طریق چندین مخزن در دسترس هستن:

  • GitHub: QwenLM/Qwen-Image
  • Hugging Face: Qwen/Qwen-Image (با بیش از ۹۷۱۹ دانلود در ماه گذشته)
  • ModelScope
  • Qwen Chat

پشتیبانی جامعه کاربری

چندین پلتفرم و ابزار از Qwen-Image پشتیبانی میکنن:

  • Diffusers: از روز اول از Qwen-Image پشتیبانی کرده. پشتیبانی از LoRA و گردش‌کارهای تنظیم دقیق در حال توسعه است و به زودی در دسترس خواهد بود.
  • DiffSynth-Studio: پشتیبانی جامعی از Qwen-Image ارائه میده، از جمله آف‌لود لایه به لایه با حافظه کم GPU (استنتاج با کمتر از 4GB VRAM)، کوانتیزاسیون FP8، و آموزش کامل یا با LoRA.
  • DiffSynth-Engine: بهینه‌سازی‌های پیشرفته‌ای برای استنتاج و استقرار Qwen-Image ارائه میده، از جمله شتاب‌دهی مبتنی بر FBCache و موازی‌سازی راهنمایی بدون طبقه‌بند (CFG).
  • ModelScope AIGC Central: تجربه‌های عملی با Qwen-Image رو فراهم میکنه، از جمله تولید عکس و آموزش LoRA برای مفاهیم شخصی‌سازی شده.
  • WaveSpeed: از روز اول Qwen-Image رو روی پلتفرم خودش مستقر کرده.
  • LiblibAI: از روز اول پشتیبانی بومی از Qwen-Image رو ارائه میده.

ارتباط و همکاری

تیم Qwen بر باز بودن و همکاری با جامعه در عرضه این مدل تاکید داره. اونها توسعه‌دهنده‌ها رو تشویق میکنن که Qwen-Image رو تست و تنظیم دقیق کنن، درخواست‌های pull بدن و در جدول امتیازات ارزیابی شرکت کنن. بازخوردها در مورد رندر متن، دقت ویرایش و موارد استفاده چندزبانه، نسخه‌های آینده رو شکل خواهد داد.

اگر کسی بخواد با تیم تحقیقاتی در تماس باشه، میتونه به سرور Discord اونها بپیونده یا با اسکن کد QR از طریق گروه‌های WeChat باهاشون ارتباط برقرار کنه. برای سوالات در مورد مخزن، بازخوردها یا مشارکت مستقیم، میشه از طریق issues و pull requests در GitHub اقدام کرد.

تیم توسعه‌دهنده همچنین برای موقعیت‌های شغلی تمام وقت و کارآموزی تحقیقاتی نیرو استخدام میکنه و علاقه‌مندان میتونن با ایمیل fulai.hr@alibaba-inc.com تماس بگیرن.

نحوه استناد (Citation)

تیم توسعه‌دهنده تشویق کرده که در صورت مفید بودن کارشون، به اون استناد بشه.

@misc{wu2025qwenimagetechnicalreport,
      title={Qwen-Image Technical Report}, 
      author={Chenfei Wu and Jiahao Li and Jingren Zhou and Junyang Lin and Kaiyuan Gao and Kun Yan and Sheng-ming Yin and Shuai Bai and Xiao Xu and Yilei Chen and Yuxiang Chen and Zecheng Tang and Zekai Zhang and Zhengyi Wang and An Yang and Bowen Yu and Chen Cheng and Dayiheng Liu and Deqing Li and Hang Zhang and Hao Meng and Hu Wei and Jingyuan Ni and Kai Chen and Kuan Cao and Liang Peng and Lin Qu and Minggang Wu and Peng Wang and Shuting Yu and Tingkun Wen and Wensen Feng and Xiaoxiao Xu and Yi Wang and Yichang Zhang and Yongqiang Zhu and Yujia Wu and Yuxuan Cai and Zenan Liu},
      year={2025},
      eprint={2508.02324},
      archivePrefix={arXiv},
      primaryClass={cs.CV},
      url={https://arxiv.org/abs/2508.02324},
}
@article{qwen-image,
  title={Qwen-Image Technical Report},
  author={Qwen Team},
  journal={arXiv preprint},
  year={2025}
}

منابع

  • [۱] GitHub – QwenLM/Qwen-Image: Qwen-Image is a powerful image generation foundation model capable of complex text rendering and precise image editing.
  • [۲] Qwen/Qwen-Image · Hugging Face
  • [۳] Qwen-Image: Crafting with Native Text Rendering | Qwen
  • [۴] Qwen-Image is a powerful, open source new AI image generator | VentureBeat
  • [۵] Alibaba’s Qwen-Image: Open-Source AI Rival to Midjourney
  • [۶] Alibaba’s New Qwen-Image AI Masters Text Rendering in AI Generated Images – WinBuzzer

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *