شرکت بزرگ فناوری چینی، علی بابا، در تاریخ ۴ اگوست، یک مدل هوش مصنوعی قدرتمند و جدید برای تولید عکس به صورت متن باز (open-source) منتشر کرده. این مدل که Qwen-Image نام داره، در یکی از سختترین چالشهای هوش مصنوعی، یعنی نمایش دقیق متن در عکس، عملکرد خوبی از خودش نشون داده. این ابزار که حالا به صورت جهانی روی پلتفرمهایی مثل Hugging Face در دسترسه، یک توانایی پیشرفته در تولید متنهای پیچیده، از جمله کاراکترهای چینی چند خطی، به طور مستقیم در عکسهای باکیفیت رو به نمایش میذاره.
این مدل با مجوز آزاد Apache 2.0 منتشر شده و به نوعی رقیب سیستمهای اختصاصی غربی مثل گوگل و OpenAI به حساب میاد. هدفش اینه که به توسعهدهندهها یک جایگزین رایگان و قوی بده که بتونن متنهای پیچیده رو به راحتی با ساخت عکس ترکیب کنن، مشکلی که مدلهای تولیدکننده عکس مدتها باهاش درگیر بودن.
در واقع، تیم Qwen علی بابا با این عرضه، دوباره به میدون رقابت برگشته. اونها قبل از این هم با انتشار مدلهای زبانی و کدنویسی متن باز قدرتمند و رایگان که با رقبای آمریکایی رقابت میکردن یا حتی ازشون بهتر بودن، سروصدا کرده بودن. حالا Qwen-Image به عنوان یک مدل تولید عکس با رتبه بالا، دوباره به صورت متن باز عرضه شده.
این مدل در دنیای شلوغ ابزارهای تولید عکس، به خاطر تمرکزش روی نمایش دقیق متن داخل تصاویر، حسابی برجسته شده؛ حوزهای که خیلی از رقباش هنوز توش مشکل دارن.
رویدادها و اخبار مربوط به Qwen-Image
تیم توسعهدهنده چند تا خبر مهم رو به ترتیب زمانی اعلام کرده:
- ۲۰۲۵.۰۸.۰۵: Qwen-Image به پلتفرم Qwen Chat اضافه شده. برای استفاده ازش کافیه وارد Qwen Chat بشید و گزینه «Image Generation» رو انتخاب کنید.
- ۲۰۲۵.۰۸.۰۵: گزارش فنی این مدل روی وبسایت Arxiv منتشر شده.
- ۲۰۲۵.۰۸.۰۴: وزنهای مدل Qwen-Image روی پلتفرمهای Hugging Face و Modelscope برای دسترسی عمومی قرار گرفته.
- ۲۰۲۵.۰۸.۰۴: مدل Qwen-Image به طور رسمی منتشر شده و جزئیات بیشتر در وبلاگ این تیم موجوده.
یک نکته هم گفته شده که نسخه ویرایشگر Qwen-Image به زودی منتشر میشه و باید منتظرش موند. همچنین به خاطر ترافیک بالای دسترسی به دموی آنلاین، پیشنهاد شده که از پلتفرمهای DashScope، WaveSpeed و LibLib هم برای امتحان کردن مدل استفاده بشه.
ویژگیها و قابلیتهای اصلی Qwen-Image
این مدل فقط برای ساختن عکسهای قشنگ نیست، بلکه یک مدل پایه جامع برای ساخت و دستکاری هوشمند تصاویر به حساب میاد که توش زبان، چیدمان و تصویر با هم ترکیب میشن.
رندر و نمایش دقیق متن
یکی از قابلیتهای برجسته Qwen-Image، توانایی بالای اون در نمایش متن با جزئیات دقیق در عکسهای مختلفه. فرقی نمیکنه زبان الفبایی مثل انگلیسی باشه یا زبانهای نوشتاری مثل چینی، Qwen-Image جزئیات تایپوگرافی، هماهنگی چیدمان و تناسب متنی رو با دقت بالایی حفظ میکنه. متن فقط روی عکس قرار نمیگیره، بلکه به شکل یکپارچه با بافت بصری تصویر ترکیب میشه.
این ویژگی به کاربرها اجازه میده محتواهایی مثل پوستر فیلم، اسلایدهای ارائه، صحنههای ویترین مغازه، شعرهای دستنویس و اینفوگرافیکهای طراحی شده رو با متنی واضح و هماهنگ با درخواستشون تولید کنن.
تولید عکس به صورت عمومی
Qwen-Image فقط در نمایش متن قوی نیست و در تولید عمومی عکس هم عملکرد خوبی داره و از طیف گستردهای از سبکهای هنری پشتیبانی میکنه. از صحنههای واقعی و فوتورئالیستی گرفته تا نقاشیهای امپرسیونیستی، و از سبکهای انیمه تا طراحی مینیمالیستی، این مدل به راحتی با درخواستهای خلاقانه کاربرها سازگار میشه. این انعطافپذیری، اون رو به یک ابزار همهکاره برای هنرمندها، طراحها و داستاننویسها تبدیل کرده.
ویرایش پیشرفته عکس
وقتی صحبت از ویرایش عکس میشه، Qwen-Image فراتر از تنظیمات ساده عمل میکنه. این مدل عملیات پیشرفتهای مثل انتقال سبک (style transfer)، اضافه یا حذف کردن اشیا، بهبود جزئیات، ویرایش متن داخل عکس و حتی دستکاری حالت بدن انسان (human pose manipulation) رو با ورودیهای ساده و خروجیهای منسجم ممکن میکنه. این سطح از کنترل، ویرایش حرفهای رو در دسترس کاربرهای عادی قرار میده.
در مقایسههای کیفی، Qwen-Image تونسته جزئیات دقیقی مثل تارهای مو رو موقع تغییر حالت بدن حفظ کنه و جزئیات لباسی که قبلا مخفی بوده رو به درستی حدس بزنه که نشوندهنده درک پیچیدهای از زمینه است.
درک عمیق تصویر
Qwen-Image فقط عکس تولید یا ویرایش نمیکنه، بلکه اونها رو درک هم میکنه. این مدل از مجموعهای از وظایف درک تصویر پشتیبانی میکنه، از جمله:
- تشخیص اشیا (Object detection)
- بخشبندی معنایی (Semantic segmentation)
- تخمین عمق و لبه (Depth and edge Canny estimation)
- سنتز نمای جدید (Novel view synthesis)
- افزایش وضوح (Super-resolution)
این قابلیتها، با اینکه از نظر فنی متفاوتن، میتونن به عنوان شکلهای تخصصی از ویرایش هوشمند عکس در نظر گرفته بشن که با درک عمیق بصری کار میکنن. شاید آیندهنگرانهترین ویژگیش این باشه که قدرت تولیدی خودش رو برای وظایفی به کار میگیره که معمولا مدلهای بینایی کامپیوتر تخصصی انجام میدن. تیم Qwen نشون داده که این مدل میتونه مجموعهای از وظایف درک تصویر رو با درخواستهای ویرایشی ساده انجام بده. با تعریف این وظایف ادراکی به عنوان نوعی ویرایش هوشمند عکس، علی بابا داره شکاف بین هوش مصنوعی که دنیا رو میبینه و هوش مصنوعی که اون رو خلق میکنه رو پر میکنه.
نگاهی به عملکرد مدل در عمل (Demo)
یکی از تواناییهای برجسته Qwen-Image، رندر متن با کیفیت بالا در سناریوهای مختلفه. بیایید چند نمونه از عملکردش رو در زبانهای چینی و انگلیسی ببینیم.
نمونههای رندر متن چینی
مثال اول: سبک انیمه
یک درخواست به زبان چینی برای ساخت عکسی به سبک انیمههای میازاکی داده شده. درخواست این بوده:
«سبک انیمه میازاکی. عکاسی از زاویه صاف، خیابان قدیمی زیر نور خورشید پر از هیاهو. یک شاگرد فرقه شیائویائو با لباس سبز و کارتی با نوشته «阿里云» در دستش در وسط ایستاده. دو کودک کنارش با تعجب به او نگاه میکنند. در سمت چپ، مغازهای با تابلوی «云存储» وجود دارد که داخلش کیسهای سرور درخشان قرار گرفته و دو نگهبان از در محافظت میکنند. در سمت راست دو مغازه وجود دارد، یکی با تابلوی «云计算» که یک زن زیبا با لباس چیپائو به صفحه کامپیوتر درخشان داخل نگاه میکند؛ مغازه دیگر تابلوی «云模型» دارد و جلوی در یک خمره بزرگ شراب با نوشته «千问» قرار دارد و یک صاحب مغازه در حال ریختن محلول کد درخشان در آن است.»
مدل نه تنها سبک انیمه میازاکی رو به درستی پیاده کرده، بلکه تابلوهای مغازهها مثل «云存储» (ذخیرهسازی ابری)، «云计算» (محاسبات ابری) و «云模型» (مدل ابری) و همچنین نوشته «千问» روی خمره شراب رو به شکلی واقعی و با عمق میدان مناسب رندر کرده. حالتها و چهرههای شخصیتها هم به خوبی حفظ شدن.
مثال دوم: خوشنویسی سنتی
درخواست بعدی برای یک دوبیتی سنتی چینی بوده:
«یک جفت دوبیتی زیبا و باوقار در سالن آویزان شده، اتاق یک چیدمان کلاسیک و آرام چینی دارد، روی میز چند چینیآلات آبی و سفید قرار دارد، روی دوبیتی سمت چپ نوشته «义本生知人机同道善思新» و روی سمت راست نوشته «通云赋智乾坤启数高志远» و بالای آن نوشته «智启通义». فونت روان است و در وسط یک نقاشی به سبک چینی از برج یوئهیانگ آویزان است.»
مثال سوم: متن طولانی
برای تست کردن متنهای طولانیتر، این درخواست داده شده:
«یک زن زیبای چینی با تیشرتی با لوگوی «QWEN» یک ماژیک مشکی در دست دارد و به دوربین لبخند میزند. پشت سر او روی یک تخته شیشهای با دست خط نوشته شده: «۱. مسیر فنی Qwen-Image: کاوش در مرزهای مدلهای پایه تولید بصری و ایجاد آیندهای یکپارچه از درک و تولید. ۲. ویژگیهای مدل Qwen-Image: ۱. رندر متن پیچیده. پشتیبانی از رندر چینی و انگلیسی، چیدمان خودکار؛ ۲. ویرایش دقیق تصویر. پشتیبانی از ویرایش متن، افزودن/حذف اشیا، تغییر سبک. ۳. چشمانداز آینده Qwen-Image: توانمندسازی تولید محتوای حرفهای، کمک به توسعه هوش مصنوعی مولد.»»
نمونههای رندر متن انگلیسی
مثال اول: ویترین کتابفروشی
«ویترین یک کتابفروشی. یک تابلو با نوشته «New Arrivals This Week» نمایش داده شده. زیر آن، یک برچسب قفسه با متن «Best-Selling Novels Here». در کنار، یک پوستر رنگارنگ با تبلیغ «Author Meet And Greet on Saturday» با یک پرتره از نویسنده در مرکز. چهار کتاب روی قفسه کتاب وجود دارد، به نامهای «The light between worlds»، «When stars are scattered»، «The slient patient» و «The night circus».»
مثال دوم: اینفوگرافیک پیچیده
یک درخواست پیچیدهتر برای ساخت یک اسلاید اینفوگرافیک داده شده:
«یک اسلاید با اشکال هنری و تزئینی که اطلاعات متنی مرتب شده به سبک یک اینفوگرافیک زیبا را قاب کرده است. در مرکز، عنوان «Habits for Emotional Wellbeing» به وضوح دیده میشود، که توسط یک الگوی گل متقارن احاطه شده است. در بخش بالا سمت چپ، «Practice Mindfulness» در کنار یک آیکون گل نیلوفر آبی مینیمالیستی با جمله کوتاه «Be present, observe without judging, accept without resisting» ظاهر میشود. در ادامه به سمت پایین، «Cultivate Gratitude» در نزدیکی یک تصویر دست باز نوشته شده، همراه با خط «Appreciate simple joys and acknowledge positivity daily». پایینتر، به سمت چپ پایین، «Stay Connected» همراه با یک آیکون حباب چت مینیمالیستی با نوشته «Build and maintain meaningful relationships to sustain emotional energy». در گوشه پایین سمت راست، «Prioritize Sleep» در کنار یک تصویر هلال ماه به تصویر کشیده شده، همراه با متن «Quality sleep benefits both body and mind». به سمت بالا در سمت راست، «Regular Physical Activity» در نزدیکی یک آیکون دونده در حال دویدن قرار دارد که میگوید: «Exercise boosts mood and relieves anxiety». در نهایت، در سمت راست بالا، «Continuous Learning» با یک آیکون کتاب جفت شده که میگوید «Engage in new skill and knowledge for growth». چیدمان اسلاید به زیبایی تعادل بین وضوح و هنر را برقرار میکند و بینندگان را به طور طبیعی در هر بخش متن راهنمایی میکند.»
مثال سوم: متن کوچک
برای تست کردن متنهای کوچکتر این درخواست داده شده:
«مردی با کت و شلوار جلوی پنجره ایستاده و به ماه درخشان بیرون پنجره نگاه میکند. مرد کاغذی زرد شده با کلمات دستنویس در دست دارد: «A lantern moon climbs through the silver night, Unfurling quiet dreams across the sky, Each star a whispered promise wrapped in light, That dawn will bloom, though darkness wanders by.» یک گربه بامزه روی طاقچه پنجره نشسته است.»
نمونه رندر متن دو زبانه
برای یک سناریوی مشابه با مثال متن طولانی چینی، این بار یک درخواست دو زبانه داده شده:
«یک زن زیبای چینی با تیشرتی با لوگوی «QWEN» یک ماژیک مشکی در دست دارد و به دوربین لبخند میزند. پشت سر او روی یک تخته شیشهای با دست خط نوشته شده: «Meet Qwen-Image – a powerful image foundation model capable of complex text rendering and precise image editing. 欢迎了解Qwen-Image, 一款强大的图像基础模型,擅长复杂文本渲染与精准图像编辑»»
نمونههای ساخت پوستر و اسلاید
با تواناییهای متنی Qwen-Image، ساخت پوستر خیلی راحت میشه.
مثال ساخت پوستر فیلم:
«یک پوستر فیلم. ردیف اول عنوان فیلم است که نوشته «Imagination Unleashed». ردیف دوم زیرنویس فیلم است که نوشته «Enter a world beyond your imagination». ردیف سوم نوشته «Cast: Qwen-Image». ردیف چهارم نوشته «Director: The Collective Imagination of Humanity». تصویر مرکزی یک کامپیوتر آیندهنگرانه و شیک را نشان میدهد که از آن رنگهای درخشان، موجودات عجیب و غریب و الگوهای چرخشی پویا به صورت انفجاری بیرون میآیند و ترکیب را با انرژی، حرکت و خلاقیت سورئال پر میکنند. پسزمینه از تنهای تاریک و کیهانی به یک گستره درخشان و رویایی تغییر میکند که یک قلمرو فانتزی دیجیتال را تداعی میکند. در لبه پایین، متن «Launching in the Cloud, August 2025» با فونت مدرن و پررنگ sans-serif با افکت درخشان و کمی شفاف ظاهر میشود که زیباییشناسی سینمایی و با فناوری بالا را تداعی میکند. سبک کلی، سورئالیسم علمی-تخیلی را با استعداد طراحی گرافیک ترکیب میکند—کنتراستهای تند، درجهبندی رنگی زنده و عمق بصری لایهای—که یادآور هنر مفهومی رویایی و نقاشی دیجیتال مات است، با وضوح 32K و جزئیات فوقالعاده.»
مثال ساخت اسلاید پاورپوینت (PPT) به زبان چینی:
«یک تصویر صفحه PPT با کیفیت بالا برای کسب و کار، با تم اصلی آبی ستارهای با حس فناوری، پسزمینه ترکیبی از خطوط فناوری درخشان و روان با افکتهای ذرات نورانی که فضایی حرفهای، مدرن و قابل اعتماد برای برند ایجاد میکند؛ در سمت چپ بالای صفحه لوگوی نارنجی-قرمز Alibaba به وضوح نمایش داده شده، با رنگهای روشن و تشخیصپذیری بالا. عنوان اصلی در مرکز و کمی بالاتر قرار دارد و با فونت سفید یا آبی روشن، بزرگ و پررنگ نوشته شده «通义千问视觉基础模型»، فونت مدرن و ساده است و حس فناوری را برجسته میکند؛ درست زیر عنوان اصلی یک خط متن چینی با فونت کایتی نوشته شده: «原生中文·复杂场景·自动布局»، فونت نرم و زیباست و ترکیبی از فناوری و انسانیت را ایجاد میکند. در زیر آن چهار تصویر به صورت مرکزی چیده شدهاند: یک تصویر کلوزآپ از شکوفه آلو که ترکیبی از سبک واقعگرایانه و آبرنگ است، با شاخههای قوی و گلبرگهای زیبا، پسزمینه ترکیبی از جوهر کمرنگ و افکت برف، که روحیه سرسختی را نشان میدهد؛ بالای آن با فونت کایتی مشکی نوشته شده «梅傲». یک ارکیده که از شکاف سنگی در کوهستان رشد کرده، با برگهای بلند و گلهای ساده، همراه با محیط طبیعی با مه صبحگاهی، که سبک فرهیختگان را نشان میدهد؛ بالای آن با فونت کایتی مشکی نوشته شده «兰幽». گروهی از بامبوهای سبز که در برابر باد ایستادهاند، برگهای بامبو با باد تکان میخورند، نور و سایه در هم آمیخته، پسزمینه صخرههای سنگی خاکستری-آبی و آب روان، که تصویر فرهنگی انعطافپذیر و فروتن را نشان میدهد؛ بالای آن با فونت کایتی مشکی نوشته شده «竹清». دستهای از گلهای داوودی که در یک حیاط پاییزی شکفتهاند، با رنگهای غنی و لایههای مشخص، همراه با برگهای افتاده و سایه یک آلاچیق قدیمی، که فلسفه زندگی آرام و راحت را منتقل میکند؛ بالای آن با فونت کایتی مشکی نوشته شده «菊淡». همه تصاویر از اندازه و سبک قاب یکسانی استفاده میکنند و به صورت افقی چیده شدهاند. در مرکز پایین صفحه با فونت کایتی کوچک نوشته شده «اگوست ۲۰۲۵، منتظر باشید»، با چیدمان مرتب، ساختار واضح، سبک کلی یکپارچه و جزئیات غنی، که جذابیت بصری و هویت برند قوی دارد.»
چطور از Qwen-Image استفاده کنیم؟
برای استفاده از این مدل، لازمه که چند مرحله فنی رو طی کنید.
نیازمندیها و نصب
اول از همه باید مطمئن بشید که نسخه کتابخانه transformers
شما بالاتر از ۴.۵۱.۳
باشه که از Qwen2.5-VL
پشتیبانی میکنه. بعد باید آخرین نسخه کتابخانه diffusers
رو نصب کنید. برای این کار میتونید از دستور زیر استفاده کنید:
pip install git+https://github.com/huggingface/diffusers
کد نمونه برای تولید عکس
در ادامه یک قطعه کد پایتون برای استفاده از مدل و تولید عکس بر اساس متن ورودی (prompt) آورده شده:
from diffusers import DiffusionPipeline
import torch
model_name = "Qwen/Qwen-Image"
# بارگذاری پایپلاین
if torch.cuda.is_available():
torch_dtype = torch.bfloat16
device = "cuda"
else:
torch_dtype = torch.float32
device = "cpu"
pipe = DiffusionPipeline.from_pretrained(model_name, torch_dtype=torch_dtype)
pipe = pipe.to(device)
positive_magic = {
"en": "Ultra HD, 4K, cinematic composition.", # برای پرامپت انگلیسی
"zh": "超清,4K,电影级构图" # برای پرامپت چینی
}
# تولید عکس
prompt = '''A coffee shop entrance features a chalkboard sign reading "Qwen Coffee 😊 $۲ per cup," with a neon light beside it displaying "通义千问". Next to it hangs a poster showing a beautiful Chinese woman, and beneath the poster is written "π≈۳.۱۴۱۵۹۲۶-۵۳۵۸۹۷۹۳-۲۳۸۴۶۲۶۴-۳۳۸۳۲۷۹۵-۰۲۳۸۴۱۹۷".'''
negative_prompt = " " # توصیه میشه اگه از پرامپت منفی استفاده نمیکنید، خالی نذارید
# تولید با نسبتهای تصویر مختلف
aspect_ratios = {
"۱:۱": (۱۳۲۸, ۱۳۲۸),
"۱۶:۹": (۱۶۶۴, ۹۲۸),
"۹:۱۶": (۹۲۸, ۱۶۶۴),
"۴:۳": (۱۴۷۲, ۱۱۰۴),
"۳:۴": (۱۱۰۴, ۱۴۷۲),
"۳:۲": (۱۵۸۴, ۱۰۵۶),
"۲:۳": (۱۰۵۶, ۱۵۸۴),
}
# یک نسخه دیگر از نسبتهای تصویر در یک منبع دیگر
# aspect_ratios = {
# "۱:۱": (۱۳۲۸, ۱۳۲۸),
# "۱۶:۹": (۱۶۶۴, ۹۲۸),
# "۹:۱۶": (۹۲۸, ۱۶۶۴),
# "۴:۳": (۱۴۷۲, ۱۱۴۰),
# "۳:۴": (۱۱۴۰, ۱۴۷۲)
# }
width, height = aspect_ratios["16:9"]
image = pipe(
prompt=prompt + positive_magic["en"],
negative_prompt=negative_prompt,
width=width,
height=height,
num_inference_steps=50,
true_cfg_scale=4.0,
generator=torch.Generator(device="cuda").manual_seed(42)
).images[0]
image.save("example.png")
ابزار بهبود پرامپت (Prompt Enhancement)
برای بهینهسازی پرامپت و پشتیبانی از زبانهای مختلف، پیشنهاد شده که از ابزار رسمی Prompt Enhancement که با Qwen-Plus
کار میکنه، استفاده بشه. میتونید اون رو مستقیما در کد خودتون به این شکل استفاده کنید:
from tools.prompt_utils import rewrite
prompt = rewrite(prompt)
یا میتونید اسکریپت نمونه رو از خط فرمان اجرا کنید:
cd src
DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxxxxx python examples/generate_w_prompt_enhance.py
راهاندازی سرور API با چند GPU
Qwen-Image از راهاندازی یک سرور API برای استقرار محلی با چند GPU پشتیبانی میکنه. این سرور یک رابط کاربری تحت وب مبتنی بر Gradio رو با ویژگیهای زیر اجرا میکنه:
- پردازش موازی با چند GPU
- مدیریت صف برای درخواستهای همزمان بالا
- بهینهسازی خودکار پرامپت
- پشتیبانی از نسبتهای تصویر مختلف
پیکربندی این سرور از طریق متغیرهای محیطی انجام میشه:
متغیر محیطی | توضیح |
---|---|
export NUM_GPUS_TO_USE=4 | تعداد GPUهایی که باید استفاده بشن |
export TASK_QUEUE_SIZE=100 | اندازه صف وظایف |
export TASK_TIMEOUT=300 | زمان انقضای وظیفه به ثانیه |
برای اجرای سرور دموی Gradio، این دستورات رو اجرا کنید:
cd src
DASHSCOPE_API_KEY=sk-xxxxxxxxxxxxxxxxx python examples/demo.py
معماری و فرآیند آموزش مدل
موفقیت Qwen-Image به معماری خاص و فرآیند آموزش پیشرفتهاش برمیگرده.
معماری فنی
در هسته Qwen-Image یک مدل پایه با ۲۰ میلیارد پارامتر قرار داره که بر اساس معماری ترانسفورمر انتشاری چندوجهی (MMDiT) ساخته شده. برای درک درخواستهای پیچیده کاربرها، از یک مدل زبان-بینایی Qwen2.5-VL به عنوان کدگذار شرطی (condition encoder) استفاده میکنه. این انتخاب طراحی، از مدلی بهره میبره که از قبل در هماهنگ کردن دادههای زبانی و بصری مهارت داره.
این مدل سه بخش کلیدی رو با هم ادغام میکنه:
- Qwen2.5-VL: این مدل زبان چندوجهی، معنای متنی رو استخراج میکنه و تولید عکس رو از طریق پرامپتهای سیستمی هدایت میکنه.
- کدگذار/کدگشای VAE: این بخش که روی اسناد با وضوح بالا و چیدمانهای دنیای واقعی آموزش دیده، نمایشهای بصری دقیق، به خصوص برای متنهای کوچک یا متراکم رو مدیریت میکنه. VAE به طور ویژه روی مجموعهای از اسناد متنی مثل PDF و پوسترها تنظیم دقیق شده تا بازسازی جزئیات ریز و متنهای کوچک رو بهبود بده.
- MMDiT: این ستون فقرات مدل انتشار، یادگیری مشترک رو بین حالتهای تصویری و متنی هماهنگ میکنه. یک سیستم جدید به نام MSRoPE (کدگذاری موقعیتی چرخشی مقیاسپذیر چندوجهی) هم برای بهبود همترازی فضایی بین توکنها استفاده شده.
یک نوآوری کلیدی برای ویرایش عکس، مکانیزم کدگذاری دوگانه این مدله. برای ایجاد یک تغییر، سیستم تصویر ورودی رو به دو روش پردازش میکنه: Qwen2.5-VL ویژگیهای معنایی سطح بالا رو استخراج میکنه، در حالی که یک خودکدگذار متغیر (VAE) جزئیات بازسازی سطح پایین رو ثبت میکنه. هر دو مجموعه از ویژگیها به MMDiT داده میشن و به مدل اجازه میدن تا تعادل دقیقی بین حفظ انسجام معنایی و وفاداری بصری برقرار کنه.
مهندسهایی که وظیفه ساخت پایپلاینهای هوش مصنوعی یا استقرار مدلها در سیستمهای توزیع شده رو دارن، از مستندات دقیق زیرساخت قدردانی خواهند کرد. این مدل با استفاده از معماری تولیدکننده-مصرفکننده آموزش دیده، از پردازش چند وضوحی مقیاسپذیر (از ۲۵۶p تا ۱۳۲۸p) پشتیبانی میکنه و برای اجرا با Megatron-LM و موازیسازی تانسور ساخته شده. این ویژگیها Qwen-Image رو به گزینهای برای استقرار در محیطهای ابری هیبریدی که قابلیت اطمینان و توان عملیاتی اهمیت دارن، تبدیل میکنه.
فرآیند آموزش و دادهها
پشت عملکرد Qwen-Image یک فرآیند آموزش گسترده مبتنی بر یادگیری پیشرونده، همترازی وظایف چندوجهی و گردآوری دقیق دادهها قرار داره. تیم Qwen این فرآیند رو با یک خط لوله داده جامع و یک استراتژی آموزش تدریجی پشتیبانی کرده.
مدل با استفاده از یک رویکرد یادگیری برنامهریزی شده (curriculum learning) آموزش دیده. یعنی اول با کارهای ساده مثل رندر بدون متن شروع کرده و به تدریج به سمت مدیریت توصیفات پیچیده در سطح پاراگراف پیش رفته. این روش برای تقویت تواناییهای بومی رندر متن، به خصوص برای زبانهای نوشتاری چالشبرانگیز مثل چینی، بسیار مهم بوده.
مجموعه دادههای آموزشی شامل میلیاردها جفت تصویر-متن از چهار حوزه مختلف بوده:
نوع داده | درصد تقریبی |
---|---|
تصاویر طبیعی | ~۵۵٪ |
طراحی (رابط کاربری، پوستر، هنر) | ~۲۷٪ |
افراد (پرتره، فعالیت انسانی) | ~۱۳٪ |
دادههای رندر متن مصنوعی | ~۵٪ |
تیم Qwen اندازه دقیق مجموعه دادههای آموزشی رو مشخص نکرده، فقط به «میلیاردها جفت تصویر-متن» اشاره کرده. اونها تاکید دارن که تمام دادههای مصنوعی در داخل شرکت تولید شده و از هیچ تصویری که توسط مدلهای هوش مصنوعی دیگه ساخته شده، استفاده نشده. با وجود مراحل دقیق گردآوری و فیلتر کردن، مستندات مشخص نمیکنن که آیا دادهها دارای مجوز بودن یا از مجموعه دادههای عمومی یا اختصاصی گرفته شدن. این موضوع که دادههای آموزشی مدل، مثل اکثر تولیدکنندههای عکس هوش مصنوعی، یک راز کاملا محرمانه باقی مونده، ممکنه بعضی از شرکتها رو از استفاده از اون منصرف کنه.
برخلاف خیلی از مدلهای تولیدی که متن مصنوعی رو به خاطر ریسک نویز حذف میکنن، Qwen-Image از خطوط لوله رندر مصنوعی با کنترل شدید برای بهبود پوشش کاراکترها، به خصوص برای کاراکترهای کمتکرار در زبان چینی، استفاده میکنه.
ارزیابی، بنچمارکها و جایگاه در صنعت
عملکرد Qwen-Image روی چندین بنچمارک عمومی و در مقایسه با مدلهای دیگه ارزیابی شده.
AI Arena: یک پلتفرم ارزیابی باز
برای ارزیابی جامع قابلیتهای عمومی تولید عکس Qwen-Image و مقایسه عینی اون با APIهای متن بسته پیشرفته، پلتفرمی به نام AI Arena معرفی شده. این یک پلتفرم بنچمارکینگ بازه که بر اساس سیستم رتبهبندی Elo کار میکنه. AI Arena یک محیط منصفانه، شفاف و پویا برای ارزیابی مدلها فراهم میکنه.
در هر دور، دو عکس که توسط مدلهای تصادفی از روی یک پرامپت یکسان تولید شدن، به صورت ناشناس به کاربرها برای مقایسه جفت-به-جفت ارائه میشن. کاربرها به عکس بهتر رای میدن و نتایج برای بهروزرسانی جدولهای امتیازات شخصی و جهانی از طریق الگوریتم Elo استفاده میشه. این کار به توسعهدهندهها، محققها و عموم مردم اجازه میده تا عملکرد مدلها رو به روشی قوی و دادهمحور ارزیابی کنن. AI Arena در حال حاضر برای عموم در دسترسه و همه میتونن در ارزیابی مدلها شرکت کنن. آخرین رتبهبندیها در AI Arena Learboard قابل مشاهده است.
اگر کسی بخواد مدل خودش رو در AI Arena مستقر کنه و در ارزیابی شرکت کنه، میتونه با ایمیل weiyue.wy@alibaba-inc.com
تماس بگیره.
نتایج بنچمارکها
Qwen-Image در چندین بنچمارک عمومی ارزیابی شده:
- GenEval و DPG برای دنبال کردن پرامپت و ثبات ویژگیهای اشیا.
- OneIG-Bench و TIIF برای استدلال ترکیبی و وفاداری به چیدمان.
- GEdit، ImgEdit و GSO برای ویرایش تصویر.
- LongText-Bench، ChineseWord، CVTG-2K و TextCraft برای رندر متن، به خصوص در زمینههای چندزبانه.
در تقریباً همه موارد، Qwen-Image با مدلهای متن بسته موجود مثل GPT Image 1 [High]، Seedream 3.0 و FLUX.1 Kontext [Pro] برابری میکنه یا از اونها پیشی میگیره. به طور قابل توجهی، عملکردش در رندر متن چینی به مراتب بهتر از همه سیستمهای مقایسه شده بوده.
در جدول امتیازات عمومی AI Arena که بر اساس بیش از ۱۰,۰۰۰ مقایسه جفت-به-جفت انسانیه، Qwen-Image در رتبه سوم کلی قرار داره و بهترین مدل متن باز به حساب میاد.
مقایسه با رقبا و بحثهای صنعت
در حالی که Qwen-Image به عنوان یک رقیب متن باز برای ابزارهای معروفی مثل Midjourney مطرح شده، گزارشهایی هم از تستهای اولیه وجود داره. یک گزارش از VentureBeat نشون میده که در تستهای اولیه، پایبندی به پرامپت و دقت متن به طور قابل توجهی بهتر از Midjourney نبوده و در درک پرامپت و دقت متن حتی با تکرار و تغییر پرامپت، خطاهایی وجود داشته. با این حال، Midjourney فقط تعداد محدودی تولید رایگان ارائه میده و برای استفاده بیشتر نیاز به اشتراک داره، در حالی که Qwen-Image به لطف مجوز متن باز و در دسترس بودن وزنها در Hugging Face، میتونه توسط هر شرکت یا ارائهدهنده ثالثی به صورت رایگان استفاده بشه.
این حرکت تهاجمی در حالی اتفاق میفته که صنعت با شک و تردیدهای روزافزون در مورد قابلیت اطمینان بنچمارکهای هوش مصنوعی دست و پنجه نرم میکنه. چند هفته پیش، یک مطالعه ادعا کرد که مدل قدیمیتر علی بابا، Qwen2.5، در یک آزمون ریاضی کلیدی با حفظ کردن پاسخها از دادههای آموزشی آلوده، «تقلب» کرده.
این جنجال یک مسئله سیستمی «آموزش برای آزمون» در رقابت برای تسلط بر جدولهای امتیازات رو برجسته میکنه. همانطور که استراتژیست هوش مصنوعی، نیت جونز، اشاره کرده: «لحظهای که تسلط بر جدول امتیازات رو به عنوان هدف تعیین میکنیم، ریسک ساخت مدلهایی رو میپذیریم که در تمرینهای بیاهمیت عالی عمل میکنن و در مواجهه با واقعیت دچار مشکل میشن.» این احساس توسط متخصصانی مثل سارا هوکر، رئیس Cohere Labs، هم تکرار شده که استدلال کرده: «وقتی یک جدول امتیازات برای کل یک اکوسیستم مهمه، انگیزهها برای بازی دادن به اون همسو میشن.»
به نظر میرسه علی بابا با تمرکز بر یک قابلیت ملموس و دشوار مثل رندر متن، داره روایت رو از امتیازات انتزاعی جدولها به سمت کاربرد واقعی و نوآوری باز تغییر میده. این استراتژی ارائه جایگزینهای قدرتمند و رایگان، مستقیما مدلهای بسته و اختصاصی رو که بر بازار سطح بالا تسلط دارن، به چالش میکشه.
بخشی از یک حرکت بزرگتر
انتشار Qwen-Image یک رویداد جداگانه نیست. این آخرین حرکت در یک سری از عرضههای بزرگ و سریع هوش مصنوعی از طرف علی باباست که نشوندهنده یک استراتژی جامع برای ساخت یک مجموعه کامل از ابزارهای باز برای توسعهدهندهها و تسلط بر اکوسیستم متن بازه.
در هفتههای قبل، این شرکت یک مدل استدلال پرچمدار جدید به نام Qwen3-Thinking-2507 رو معرفی کرد که در بنچمارکهای کلیدی صنعت از رقبایی مثل گوگل و OpenAI پیشی گرفت. این مدل با یک مدل کدنویسی قدرتمند به نام Qwen3-Coder همراه بود.
این تغییر استراتژیک با بیانیهای از سوی Alibaba Cloud تاکید شد که تصمیمش برای کنار گذاشتن حالت «تفکر ترکیبی» مدلهای قبلی رو توضیح داد. یک سخنگو گفت: «پس از گفتگو با جامعه و تامل در مورد موضوع، تصمیم گرفتیم حالت تفکر ترکیبی را کنار بگذاریم. ما اکنون مدلهای Instruct و Thinking را به طور جداگانه آموزش خواهیم داد تا به بهترین کیفیت ممکن دست یابیم.» این بیانیه تمرکز جدید روی سیستمهای تخصصی و با کیفیت بالا رو روشن میکنه.
این شرکت همچنین اخیرا Wan2.2 رو عرضه کرده که یک بهروزرسانی بزرگ متن باز برای مدلهای تولید ویدیوی هوش مصنوعیشه. این عرضه یک معماری پیشرفته ترکیبی از متخصصان (MoE) رو برای بهبود کیفیت و کارایی ویدیو معرفی کرد.
مجوز، در دسترس بودن و جامعه کاربری
مجوز و در دسترس بودن
Qwen-Image تحت مجوز Apache 2.0 توزیع شده. این مجوز اجازه استفاده تجاری و غیرتجاری، توزیع مجدد و تغییرات رو میده، هرچند که برای کارهای مشتق شده، ذکر منبع و گنجاندن متن مجوز الزامیه. این موضوع ممکنه اون رو برای شرکتهایی که به دنبال یک ابزار تولید عکس متن باز برای ساخت محتوای داخلی یا خارجی مثل بروشورها، تبلیغات، اطلاعیهها و سایر ارتباطات دیجیتال هستن، جذاب کنه.
با این حال، Qwen، برخلاف Adobe Firefly یا تولید عکس بومی GPT-4o، برای استفادههای تجاری از محصولش، غرامت (indemnification) ارائه نمیده (یعنی اگر کاربری به دلیل نقض کپیرایت تحت پیگرد قانونی قرار بگیره، Adobe و OpenAI در دادگاه از او حمایت میکنن).
مدل و داراییهای مرتبط با اون، از جمله نوتبوکهای دمو، ابزارهای ارزیابی و اسکریپتهای تنظیم دقیق، از طریق چندین مخزن در دسترس هستن:
- GitHub: QwenLM/Qwen-Image
- Hugging Face: Qwen/Qwen-Image (با بیش از ۹۷۱۹ دانلود در ماه گذشته)
- ModelScope
- Qwen Chat
پشتیبانی جامعه کاربری
چندین پلتفرم و ابزار از Qwen-Image پشتیبانی میکنن:
- Diffusers: از روز اول از Qwen-Image پشتیبانی کرده. پشتیبانی از LoRA و گردشکارهای تنظیم دقیق در حال توسعه است و به زودی در دسترس خواهد بود.
- DiffSynth-Studio: پشتیبانی جامعی از Qwen-Image ارائه میده، از جمله آفلود لایه به لایه با حافظه کم GPU (استنتاج با کمتر از 4GB VRAM)، کوانتیزاسیون FP8، و آموزش کامل یا با LoRA.
- DiffSynth-Engine: بهینهسازیهای پیشرفتهای برای استنتاج و استقرار Qwen-Image ارائه میده، از جمله شتابدهی مبتنی بر FBCache و موازیسازی راهنمایی بدون طبقهبند (CFG).
- ModelScope AIGC Central: تجربههای عملی با Qwen-Image رو فراهم میکنه، از جمله تولید عکس و آموزش LoRA برای مفاهیم شخصیسازی شده.
- WaveSpeed: از روز اول Qwen-Image رو روی پلتفرم خودش مستقر کرده.
- LiblibAI: از روز اول پشتیبانی بومی از Qwen-Image رو ارائه میده.
ارتباط و همکاری
تیم Qwen بر باز بودن و همکاری با جامعه در عرضه این مدل تاکید داره. اونها توسعهدهندهها رو تشویق میکنن که Qwen-Image رو تست و تنظیم دقیق کنن، درخواستهای pull بدن و در جدول امتیازات ارزیابی شرکت کنن. بازخوردها در مورد رندر متن، دقت ویرایش و موارد استفاده چندزبانه، نسخههای آینده رو شکل خواهد داد.
اگر کسی بخواد با تیم تحقیقاتی در تماس باشه، میتونه به سرور Discord اونها بپیونده یا با اسکن کد QR از طریق گروههای WeChat باهاشون ارتباط برقرار کنه. برای سوالات در مورد مخزن، بازخوردها یا مشارکت مستقیم، میشه از طریق issues و pull requests در GitHub اقدام کرد.
تیم توسعهدهنده همچنین برای موقعیتهای شغلی تمام وقت و کارآموزی تحقیقاتی نیرو استخدام میکنه و علاقهمندان میتونن با ایمیل fulai.hr@alibaba-inc.com
تماس بگیرن.
نحوه استناد (Citation)
تیم توسعهدهنده تشویق کرده که در صورت مفید بودن کارشون، به اون استناد بشه.
@misc{wu2025qwenimagetechnicalreport,
title={Qwen-Image Technical Report},
author={Chenfei Wu and Jiahao Li and Jingren Zhou and Junyang Lin and Kaiyuan Gao and Kun Yan and Sheng-ming Yin and Shuai Bai and Xiao Xu and Yilei Chen and Yuxiang Chen and Zecheng Tang and Zekai Zhang and Zhengyi Wang and An Yang and Bowen Yu and Chen Cheng and Dayiheng Liu and Deqing Li and Hang Zhang and Hao Meng and Hu Wei and Jingyuan Ni and Kai Chen and Kuan Cao and Liang Peng and Lin Qu and Minggang Wu and Peng Wang and Shuting Yu and Tingkun Wen and Wensen Feng and Xiaoxiao Xu and Yi Wang and Yichang Zhang and Yongqiang Zhu and Yujia Wu and Yuxuan Cai and Zenan Liu},
year={2025},
eprint={2508.02324},
archivePrefix={arXiv},
primaryClass={cs.CV},
url={https://arxiv.org/abs/2508.02324},
}
@article{qwen-image,
title={Qwen-Image Technical Report},
author={Qwen Team},
journal={arXiv preprint},
year={2025}
}
منابع
- [۱] GitHub – QwenLM/Qwen-Image: Qwen-Image is a powerful image generation foundation model capable of complex text rendering and precise image editing.
- [۲] Qwen/Qwen-Image · Hugging Face
- [۳] Qwen-Image: Crafting with Native Text Rendering | Qwen
- [۴] Qwen-Image is a powerful, open source new AI image generator | VentureBeat
- [۵] Alibaba’s Qwen-Image: Open-Source AI Rival to Midjourney
- [۶] Alibaba’s New Qwen-Image AI Masters Text Rendering in AI Generated Images – WinBuzzer
دیدگاهتان را بنویسید