آشنایی با مدل هوش مصنوعی Wan2.2 برای ساخت ویدیو

یک مدل جدید برای تولید ویدیو به اسم Wan2.2 معرفی شده که به نوعی نسخه آپدیت شده و پیشرفته‌تر مدل‌های قبلی به حساب میاد. این مدل چندتا نوآوری و ویژگی جدید داره که در ادامه به شکل کامل باهاشون آشنا میشیم.

معماری موثر MoE: این مدل از معماری به نام «ترکیب متخصص‌ها» یا MoE (Mixture-of-Experts) در مدل‌های دیفیوژن ویدیویی استفاده میکنه. با این روش، فرایند نویزگیری در طول زمان بین مدل‌های متخصص و قدرتمند تقسیم میشه. این کار ظرفیت کلی مدل رو بالا میبره ولی هزینه‌های محاسباتی رو در همون حد قبلی نگه میداره.
زیبایی‌شناسی در حد سینما: در Wan2.2 از داده‌های زیبایی‌شناسی که با دقت انتخاب و برچسب‌گذاری شدن استفاده شده. این برچسب‌ها شامل جزئیاتی مثل نورپردازی، ترکیب‌بندی، کنتراست، تن رنگ و موارد دیگه هستن. این موضوع اجازه میده که بشه سبک‌های سینمایی رو با دقت و کنترل بیشتری تولید کرد و ویدیوهایی با سلیقه زیبایی‌شناسی دلخواه ساخت.
تولید حرکات پیچیده: در مقایسه با نسخه ۲.۱، مدل Wan2.2 روی داده‌های خیلی بزرگ‌تری آموزش دیده. به طور مشخص، ۶۵.۶ درصد تصویر بیشتر و ۸۳.۲ درصد ویدیوی بیشتر در آموزش این مدل استفاده شده. این افزایش داده‌ها به شکل قابل توجهی توانایی مدل رو در زمینه‌های مختلف مثل حرکت، معنا و زیبایی‌شناسی بالا برده و عملکردش رو در بین تمام مدل‌های منبع‌باز و منبع‌بسته به سطح بالایی رسونده.
ترکیب کارآمد و با کیفیت بالای TI2V: مدل Wan2.2 یه مدل ۵ میلیارد پارامتری (5B) رو به شکل منبع‌باز ارائه کرده که با یه VAE پیشرفته به اسم Wan2.2-VAE ساخته شده. این VAE به نسبت فشرده‌سازی ۱۶×۱۶×۴ میرسه. این مدل هم از تبدیل متن به ویدیو و هم از تبدیل تصویر به ویدیو با رزولوشن 720P و نرخ ۲۴ فریم بر ثانیه پشتیبانی میکنه و روی کارت‌های گرافیک معمولی مثل ۴۰۹۰ هم اجرا میشه. این مدل یکی از سریع‌ترین مدل‌های 720P@24fps موجود به حساب میاد که میتونه هم در بخش صنعتی و هم در بخش دانشگاهی استفاده بشه.

نگاهی عمیق‌تر به ویژگی‌ها

معماری MoE که واقعا کار میکنه

Wan2.2 از معماری ترکیب متخصص‌ها یا همون MoE استفاده میکنه، اما نه از اون مدل‌های شلوغ با کلی متخصص که کسی لازمشون نداره. اینجا فقط دو تا متخصص وجود داره:

یک متخصص برای فریم‌های با نویز بالا، یعنی مراحل اولیه و آشفته کار.
متخصص دوم وقتی وارد عمل میشه که اوضاع کمی شفاف‌تر شده و کارش اضافه کردن جزئیاته.

هر دوی این مدل‌های متخصص حدود ۱۴ میلیارد پارامتر دارن، اما شما در هر لحظه فقط از یکی از اونها استفاده میکنید. پس خروجی‌ای در سطح یه مدل ۱۴ میلیارد پارامتری میگیرید، بدون اینکه نیاز به محاسبات یه مدل ۲۷ میلیارد پارامتری داشته باشید. جابجایی بین این دو متخصص بر اساس نسبت سیگنال به نویز (SNR) انجام میشه. اگه سیگنال واضح نباشه، متخصص اول کار میکنه و وقتی شرایط پایدارتر شد، کار به متخصص دوم سپرده میشه. این یک مسیریابی ساده است که کار میکنه.

ویدیوهایی که فقط «حرکت» نمیکنن، کارگردانی شدن

بیشتر مدل‌ها به سختی میتونن یه آدم رو توی یه مزرعه قرار بدن. اما Wan2.2 میتونه مردی رو در حال قدم زدن در یک مزرعه طلایی هنگام غروب، با سایه‌های نرم، نور گرم و حال و هوای مناسب نشون بده.

این اتفاق به این دلیل میفته که داده‌های آموزشی فقط شامل تصویر و ویدیو نیستن، بلکه با برچسب‌های زیبایی‌شناسی مثل نورپردازی، قاب‌بندی و تن رنگی هم مشخص شدن. برای همین، مدل حدس نمیزنه که «زیبا» یعنی چی، بلکه نمونه‌های کافی برای درک اون رو دیده. در نتیجه صحنه‌هایی تولید میشن که حس برنامه‌ریزی شده دارن، نه اینکه فقط به هم چسبیده باشن.

حرکتی که منسجم باقی میمونه

خیلی از مدل‌های دیفیوژن فریم اول رو خوب میسازن، شاید فریم دوم رو هم همینطور. اما بعد از اون، بازوها ناپدید میشن، صورت‌ها ذوب میشن و پس‌زمینه تار میشه.

Wan2.2 این مشکل رو تا حد زیادی حل کرده. همونطور که گفته شد، این مدل با ۶۵.۶ درصد تصویر بیشتر و ۸۳.۲ درصد ویدیوی بیشتر نسبت به نسخه ۲.۱ آموزش دیده و یاد گرفته که آدم‌ها واقعا چطور حرکت میکنن؛ نه در فریم‌های جدا از هم، بلکه در طول زمان. حالا وقتی یه شخصیت میچرخه یا حرکتی میکنه، دوربین به نرمی اون رو دنبال میکنه. حتی با دستورهای متنی مبهم هم، Wan2.2 جاهای خالی رو طوری پر میکنه که انگار فیلم‌های زیادی دیده و درک خوبی از ریتم، حرکت و زمان‌بندی داره.

مدل Wan2.2 5B: کوچکی که کارایی بالایی داره

برای استفاده از این مدل نیازی به یک مجموعه سرور بزرگ نیست. نسخه ۵ میلیارد پارامتری (5B) روی یک کارت گرافیک RTX 4090 اجرا میشه. این مدل با فشرده‌سازی فضای پنهان (از طریق VAE)، میتونه یه ویدیوی ۵ ثانیه‌ای با رزولوشن 720p و نرخ ۲۴ فریم بر ثانیه رو در کمتر از ۹ دقیقه تولید کنه.

این VAE جزئیات رو از بین نمیبره و هنوز هم ویدیوهای باکیفیتی تحویل میده، فقط سریع‌تر و سبک‌تر. این مدل کوچیک‌تر عملکرد خوبی از خودش نشون میده و یک سیستم واحد برای هر دو کار تبدیل متن به ویدیو (T2V) و تصویر به ویدیو (I2V) هست، بدون اینکه نیاز به تغییر مدل یا تنظیمات اضافی داشته باشه.

اخبار و به‌روزرسانی‌ها

بر اساس اطلاعات منتشر شده، در تاریخ ۲۸ جولای ۲۰۲۵، اتفاقات زیر افتاده:

Wan2.2 با ComfyUI (نسخه چینی و انگلیسی) یکپارچه شده.
قابلیت‌های T2V، I2V و TI2V مدل Wan2.2 با Diffusers یکپارچه شدن (T2V-A14B | I2V-A14B | TI2V-5B).
کد اجرایی و وزن‌های مدل Wan2.2 منتشر شدن.

همچنین، DiffSynth-Studio پشتیبانی جامعی از Wan 2.2 ارائه میده که شامل مواردی مثل offload لایه به لایه برای کاهش مصرف حافظه کارت گرافیک، کوانتیزاسیون FP8، موازی‌سازی دنباله‌ای، آموزش LoRA و آموزش کامل میشه.

اگه تحقیق یا پروژه‌ای بر اساس Wan2.1 یا Wan2.2 دارید و میخواید افراد بیشتری اون رو ببینن، میتونید به تیم توسعه‌دهنده اطلاع بدید.

لیست کارهای برنامه‌ریزی شده (Todo List)

لیستی از قابلیت‌ها و یکپارچه‌سازی‌هایی که در برنامه قرار دارن به این صورته:

Wan2.2 Text-to-Video (متن به ویدیو)
- کد اجرای چند گرافیکی برای مدل‌های A14B و 14B
- چک‌پوینت‌های مدل‌های A14B و 14B
- یکپارچه‌سازی با ComfyUI
- یکپارچه‌سازی با Diffusers
Wan2.2 Image-to-Video (تصویر به ویدیو)
- کد اجرای چند گرافیکی برای مدل A14B
- چک‌پوینت‌های مدل A14B
- یکپارچه‌سازی با ComfyUI
- یکپارچه‌سازی با Diffusers
Wan2.2 Text-Image-to-Video (متن-تصویر به ویدیو)
- کد اجرای چند گرافیکی برای مدل 5B
- چک‌پوینت‌های مدل 5B
- یکپارچه‌سازی با ComfyUI
- یکپارچه‌سازی با Diffusers

راهنمای نصب و اجرا

۱. نصب

اول باید مخزن پروژه رو از گیت‌هاب کلون کنید:

git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2

بعد باید پیش‌نیازها رو نصب کنید. لازمه که نسخه torch شما ۲.۴.۰ یا بالاتر باشه.

# اگه در نصب `flash_attn` به مشکل خوردید، اول بقیه بسته‌ها رو نصب کنید و در آخر `flash_attn` رو نصب کنید.
pip install -r requirements.txt

۲. دانلود مدل‌ها

مدل‌های مختلفی برای دانلود وجود دارن که در جدول زیر مشخص شدن:

مدل‌ها	لینک‌های دانلود	توضیحات
T2V-A14B	🤗 Huggingface 🤖 ModelScope	مدل MoE برای تبدیل متن به ویدیو، از رزولوشن 480P و 720P پشتیبانی میکنه.
I2V-A14B	🤗 Huggingface 🤖 ModelScope	مدل MoE برای تبدیل تصویر به ویدیو، از رزولوشن 480P و 720P پشتیبانی میکنه.
TI2V-5B	🤗 Huggingface 🤖 ModelScope	دارای VAE با فشرده‌سازی بالا، ترکیب T2V+I2V، از رزولوشن 720P پشتیبانی میکنه.

*نکته: مدل TI2V-5B از تولید ویدیوی 720P با نرخ ۲۴ فریم بر ثانیه پشتیبانی میکنه.

برای دانلود مدل‌ها میتونید از huggingface-cli استفاده کنید:

pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B

یا از modelscope-cli استفاده کنید:

pip install modelscope
modelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B

اجرای تبدیل متن به ویدیو (Text-to-Video)

این مخزن از مدل Wan2.2-T2V-A14B پشتیبانی میکنه و میتونه به طور همزمان ویدیوهایی با رزولوشن 480P و 720P تولید کنه.

حالت اول: بدون گسترش پرامپت (Prompt Extension)

برای شروع، یک نسخه ساده از فرایند اجرا که مرحله گسترش پرامپت رو نادیده میگیره بررسی میشه.

اجرا روی یک کارت گرافیک (Single-GPU):

python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --offload_model True --convert_model_dtype --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

*نکته: این دستور روی یک کارت گرافیک با حداقل ۸۰ گیگابایت حافظه VRAM اجرا میشه.
*نکته: اگه با خطای کمبود حافظه (OOM) مواجه شدید، میتونید از گزینه‌های --offload_model True، --convert_model_dtype و --t5_cpu برای کاهش مصرف حافظه کارت گرافیک استفاده کنید.

اجرا روی چند کارت گرافیک (Multi-GPU) با استفاده از FSDP + DeepSpeed Ulysses:
برای سرعت بخشیدن به اجرا از PyTorch FSDP و DeepSpeed Ulysses استفاده میشه.

torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."

حالت دوم: با استفاده از گسترش پرامپت (Prompt Extension)

گسترش دادن پرامپت‌ها میتونه به طور موثری جزئیات ویدیوهای تولید شده رو غنی‌تر کنه و کیفیت ویدیو رو بالاتر ببره. برای همین، فعال کردن این قابلیت توصیه میشه. دو روش برای این کار وجود داره:

استفاده از Dashscope API:
- باید از قبل یک dashscope.api_key تهیه کنید.
- متغیر محیطی DASH_API_KEY رو برای مشخص کردن کلید API تنظیم کنید. کاربرانی که از سایت بین‌المللی Alibaba Cloud استفاده میکنن، باید متغیر DASH_API_URL رو هم روی «https://dashscope-intl.aliyuncs.com/api/v1» تنظیم کنن.
- برای کارهای متن به ویدیو از مدل qwen-plus و برای کارهای تصویر به ویدیو از qwen-vl-max استفاده میشه.
- میتونید مدل مورد استفاده برای گسترش رو با پارامتر --prompt_extend_model تغییر بدید.
- مثال:

DASH_API_KEY=your_key torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'

استفاده از یک مدل محلی (Local Model):
- به صورت پیش‌فرض، از مدل Qwen روی HuggingFace برای این کار استفاده میشه. کاربران میتونن بر اساس حافظه کارت گرافیک موجود، مدل‌های Qwen یا مدل‌های دیگه رو انتخاب کنن.
- برای کارهای متن به ویدیو، میشه از مدل‌هایی مثل Qwen/Qwen2.5-14B-Instruct، Qwen/Qwen2.5-7B-Instruct و Qwen/Qwen2.5-3B-Instruct استفاده کرد.
- برای کارهای تصویر به ویدیو، مدل‌هایی مثل Qwen/Qwen2.5-VL-7B-Instruct و Qwen/Qwen2.5-VL-3B-Instruct مناسب هستن.
- مدل‌های بزرگ‌تر معمولا نتایج بهتری میدن ولی به حافظه گرافیکی بیشتری نیاز دارن.
- میتونید مدل مورد استفاده رو با پارامتر --prompt_extend_model مشخص کنید که میتونه یک مسیر محلی یا یک مدل از Hugging Face باشه.
- مثال:

torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'

اجرای تبدیل تصویر به ویدیو (Image-to-Video)

این مخزن از مدل Wan2.2-I2V-A14B پشتیبانی میکنه و میتونه ویدیوهایی با رزولوشن 480P و 720P تولید کنه.

اجرا روی یک کارت گرافیک (Single-GPU):

python generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --offload_model True --convert_model_dtype --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

*نکته: این دستور روی یک کارت گرافیک با حداقل ۸۰ گیگابایت حافظه VRAM اجرا میشه.
*نکته: برای کار تصویر به ویدیو، پارامتر size مساحت ویدیوی تولید شده رو مشخص میکنه و نسبت ابعاد اون از تصویر ورودی اصلی پیروی میکنه.

اجرا روی چند کارت گرافیک (Multi-GPU) با استفاده از FSDP + DeepSpeed Ulysses:

torchrun --nproc_per_node=8 generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

تولید ویدیو از تصویر بدون پرامپت:

DASH_API_KEY=your_key torchrun --nproc_per_node=8 generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --prompt '' --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --use_prompt_extend --prompt_extend_method 'dashscope'

*نکته: این مدل میتونه فقط از روی تصویر ورودی ویدیو تولید کنه. میتونید از قابلیت گسترش پرامپت برای تولید پرامپت از روی تصویر استفاده کنید.

اجرای تبدیل متن-تصویر به ویدیو (Text-Image-to-Video)

این مخزن از مدل Wan2.2-TI2V-5B پشتیبانی میکنه و میتونه ویدیوهایی با رزولوشن 720P تولید کنه.

اجرای متن به ویدیو روی یک کارت گرافیک (Single-GPU):

python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage"

*نکته: برخلاف کارهای دیگه، رزولوشن 720P در این حالت ۱۲۸۰*۷۰۴ یا ۷۰۴*۱۲۸۰ هست.
*نکته: این دستور روی یک کارت گرافیک با حداقل ۲۴ گیگابایت حافظه VRAM (مثلا RTX 4090) اجرا میشه.
*نکته: اگه روی یک کارت گرافیک با حداقل ۸۰ گیگابایت حافظه VRAM اجرا میکنید، میتونید گزینه‌های --offload_model True، --convert_model_dtype و --t5_cpu رو برای سرعت بخشیدن به اجرا حذف کنید.

اجرای تصویر به ویدیو روی یک کارت گرافیک (Single-GPU):

python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

*نکته: اگه پارامتر image مشخص شده باشه، کار از نوع تصویر به ویدیو هست؛ در غیر این صورت، به صورت پیش‌فرض متن به ویدیو خواهد بود.
*نکته: مثل حالت تصویر به ویدیو، پارامتر size مساحت ویدیو رو مشخص میکنه و نسبت ابعادش از تصویر ورودی پیروی میکنه.

اجرا روی چند کارت گرافیک (Multi-GPU):

torchrun --nproc_per_node=8 generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --dit_fsdp --t5_fsdp --ulysses_size 8 --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."

جزئیات فنی بیشتر

Wan2.2 بر پایه نسخه ۲.۱ ساخته شده و بهبودهای قابل توجهی در کیفیت تولید و قابلیت‌های مدل داره. این ارتقا نتیجه‌ی چند نوآوری فنی کلیدیه که شامل معماری MoE، داده‌های آموزشی ارتقا یافته و تولید ویدیوی با فشرده‌سازی بالا میشه.

معماری ترکیب متخصص‌ها (MoE)

در Wan2.2، سری مدل‌های A14B از یک طراحی دو-متخصصه استفاده میکنن که برای فرایند نویزگیری مدل‌های دیفیوژن طراحی شده: یک متخصص نویز-بالا برای مراحل اولیه که روی طرح کلی تمرکز داره و یک متخصص نویز-پایین برای مراحل پایانی که جزئیات ویدیو رو اصلاح میکنه. هر مدل متخصص حدود ۱۴ میلیارد پارامتر داره که در مجموع ۲۷ میلیارد پارامتر میشه، اما در هر مرحله فقط ۱۴ میلیارد پارامتر فعال هستن. این باعث میشه محاسبات اجرایی و حافظه گرافیکی تقریبا بدون تغییر باقی بمونه.

نقطه انتقال بین دو متخصص توسط نسبت سیگنال به نویز (SNR) تعیین میشه. در ابتدای فرایند نویزگیری، سطح نویز بالاست و SNR در کمترین حالت خودشه. در این مرحله، متخصص نویز-بالا فعال میشه. یک مرحله آستانه تعریف شده که وقتی به اون نقطه برسیم، کار به متخصص نویز-پایین سپرده میشه.

برای تایید کارایی این معماری، چهار تنظیمات مختلف مقایسه شدن. مدل پایه Wan2.1 از معماری MoE استفاده نمیکنه. در بین نسخه‌های مبتنی بر MoE، یک نسخه از مدل Wan2.1 به عنوان متخصص نویز-پایین و از متخصص نویز-بالای Wan2.2 استفاده کرده و نسخه دیگه برعکس. نسخه نهایی Wan2.2 (MoE) کمترین خطای اعتبارسنجی رو به دست آورده که نشون میده توزیع ویدیوی تولید شده توسط اون به واقعیت نزدیک‌تره.

ترکیب کارآمد و با کیفیت بالای TI2V

برای ممکن کردن اجرای کارآمدتر، Wan2.2 روی طراحی با فشرده‌سازی بالا هم کار کرده. علاوه بر مدل‌های ۲۷ میلیارد پارامتری MoE، یک مدل ۵ میلیارد پارامتری متراکم به اسم TI2V-5B هم منتشر شده. این مدل توسط یک Wan2.2-VAE با فشرده‌سازی بالا پشتیبانی میشه که به نسبت فشرده‌سازی T×H×W معادل ۴×۱۶×۱۶ میرسه و نرخ فشرده‌سازی کلی رو تا ۶۴ برابر افزایش میده. با یک لایه patchification اضافه، نسبت فشرده‌سازی کلی TI2V-5B به ۴×۳۲×۳۲ میرسه.

کارایی محاسباتی و بنچمارک‌ها

کارایی محاسباتی مدل‌های مختلف Wan2.2 روی کارت‌های گرافیک مختلف در جدول زیر آزمایش شده. نتایج به فرمت: «زمان کل (ثانیه) / اوج مصرف حافظه گرافیک (گیگابایت)» ارائه شده.

مدل	GPU	رزولوشن	وظیفه	۱ کارت	۴ کارت	۸ کارت
T2V-A14B	H100	720P	T2V	۲۴۰.۲ / ۷۸.۴	۶۹.۳ / ۶۸.۳	۴۱.۷ / ۶۳.۸
I2V-A14B	H100	720P	I2V	۲۳۹.۳ / ۷۸.۴	۶۹.۳ / ۶۸.۳	۴۲.۱ / ۶۳.۸
TI2V-5B	H100	720P	TI2V	۱۴۸.۹ / ۲۲.۰	۵۰.۳ / ۱۶.۸	۳۲.۵ / ۱۵.۶
TI2V-5B	H100	720P	I2V	۱۴۸.۳ / ۲۲.۱	۵۰.۱ / ۱۶.۸	۳۳.۳ / ۱۵.۶
T2V-A14B	۴۰۹۰	480P	T2V	۷۳۲.۱ / ۲۳.۴	–	–
I2V-A14B	۴۰۹۰	480P	I2V	۷۳۰.۰ / ۲۳.۴	–	–
TI2V-5B	۴۰۹۰	720P	TI2V	۵۲۵.۶ / ۲۲.۳	–	–
TI2V-5B	۴۰۹۰	720P	I2V	۵۲۴.۳ / ۲۲.۳	–	–

تنظیمات پارامترها برای تست‌های این جدول به این صورت بوده:
۱. چند گرافیکی: برای مدل 14B از --ulysses_size 4/8 --dit_fsdp --t5_fsdp و برای مدل 5B از --ulysses_size 4/8 --offload_model True --convert_model_dtype --t5_cpu استفاده شده. تک گرافیکی: برای مدل 14B از --offload_model True --convert_model_dtype و برای مدل 5B از --offload_model True --convert_model_dtype --t5_cpu استفاده شده.
۲. تست توزیع شده از پیاده‌سازی‌های داخلی FSDP و Ulysses استفاده کرده و FlashAttention3 روی معماری Hopper پیاده‌سازی شده.
۳. تست‌ها بدون فلگ --use_prompt_extend اجرا شدن.
۴. نتایج گزارش شده میانگین نمونه‌های متعدد پس از مرحله گرم کردن (warm-up) هستن.

مقایسه با مدل‌های دیگر

Wan2.2 با مدل‌های تجاری منبع‌بسته پیشرو روی بنچمارک جدید Wan-Bench 2.0 مقایسه شده و عملکرد اون در چندین بعد کلیدی ارزیابی شده. نتایج نشون میده که Wan2.2 در مقایسه با این مدل‌های پیشرو، عملکرد بهتری در دسته‌های اصلی مثل کیفیت حرکت (برای حرکت انسان و دوربین)، همسویی با پرامپت، پایداری زمانی (شخصیت‌ها در طول شات تغییر نمیکنن) و زیبایی‌شناسی به دست آورده.

استناد و مجوز استفاده

اگه این کار برای شما مفید بود، میتونید به این صورت به اون استناد کنید:

@article{wan2025,
title={Wan: Open and Advanced Large-Scale Video Generative Models},
author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
journal = {arXiv preprint arXiv:2503.20314},
year={2025}
}

مدل‌های موجود در این مخزن تحت مجوز Apache 2.0 منتشر شدن. تیم توسعه‌دهنده هیچ حقی روی محتوای تولید شده توسط شما ادعا نمیکنه و به شما این آزادی رو میده که از اونها استفاده کنید، به شرطی که استفاده شما با مفاد این مجوز مطابقت داشته باشه. شما به طور کامل مسئول استفاده خودتون از مدل‌ها هستید و این استفاده نباید شامل اشتراک‌گذاری هرگونه محتوایی باشه که قوانین رو نقض کنه، به افراد یا گروه‌ها آسیب برسونه، اطلاعات شخصی رو با قصد آسیب منتشر کنه، اطلاعات نادرست پخش کنه یا جمعیت‌های آسیب‌پذیر رو هدف قرار بده. برای لیست کامل محدودیت‌ها و جزئیات حقوق خود، به متن کامل مجوز مراجعه کنید.

تشکر و قدردانی

تیم توسعه‌دهنده از مشارکت‌کنندگان در مخازن SD3، Qwen، umt5-xxl، diffusers و HuggingFace برای تحقیقات منبع‌باز اونها تشکر کرده.

ارتباط با ما

اگه میخواید برای تیم‌های تحقیق یا محصول پیامی بگذارید، میتونید به گروه‌های Discord یا WeChat اونها بپیوندید.

منابع

[۱] GitHub – Wan-Video/Wan2.2
[۲] Wan-AI/Wan2.2-T2V-A14B · Hugging Face
[۳] No title
[۴] Wan2.2 : AI Video Generation in Budget GPU | by Mehul Gupta | Data Science in Your Pocket | Jul, 2025 | Medium