یک مدل جدید برای تولید ویدیو به اسم Wan2.2 معرفی شده که به نوعی نسخه آپدیت شده و پیشرفتهتر مدلهای قبلی به حساب میاد. این مدل چندتا نوآوری و ویژگی جدید داره که در ادامه به شکل کامل باهاشون آشنا میشیم.
- معماری موثر MoE: این مدل از معماری به نام «ترکیب متخصصها» یا MoE (Mixture-of-Experts) در مدلهای دیفیوژن ویدیویی استفاده میکنه. با این روش، فرایند نویزگیری در طول زمان بین مدلهای متخصص و قدرتمند تقسیم میشه. این کار ظرفیت کلی مدل رو بالا میبره ولی هزینههای محاسباتی رو در همون حد قبلی نگه میداره.
- زیباییشناسی در حد سینما: در Wan2.2 از دادههای زیباییشناسی که با دقت انتخاب و برچسبگذاری شدن استفاده شده. این برچسبها شامل جزئیاتی مثل نورپردازی، ترکیببندی، کنتراست، تن رنگ و موارد دیگه هستن. این موضوع اجازه میده که بشه سبکهای سینمایی رو با دقت و کنترل بیشتری تولید کرد و ویدیوهایی با سلیقه زیباییشناسی دلخواه ساخت.
- تولید حرکات پیچیده: در مقایسه با نسخه ۲.۱، مدل Wan2.2 روی دادههای خیلی بزرگتری آموزش دیده. به طور مشخص، ۶۵.۶ درصد تصویر بیشتر و ۸۳.۲ درصد ویدیوی بیشتر در آموزش این مدل استفاده شده. این افزایش دادهها به شکل قابل توجهی توانایی مدل رو در زمینههای مختلف مثل حرکت، معنا و زیباییشناسی بالا برده و عملکردش رو در بین تمام مدلهای منبعباز و منبعبسته به سطح بالایی رسونده.
- ترکیب کارآمد و با کیفیت بالای TI2V: مدل Wan2.2 یه مدل ۵ میلیارد پارامتری (5B) رو به شکل منبعباز ارائه کرده که با یه VAE پیشرفته به اسم Wan2.2-VAE ساخته شده. این VAE به نسبت فشردهسازی ۱۶×۱۶×۴ میرسه. این مدل هم از تبدیل متن به ویدیو و هم از تبدیل تصویر به ویدیو با رزولوشن 720P و نرخ ۲۴ فریم بر ثانیه پشتیبانی میکنه و روی کارتهای گرافیک معمولی مثل ۴۰۹۰ هم اجرا میشه. این مدل یکی از سریعترین مدلهای 720P@24fps موجود به حساب میاد که میتونه هم در بخش صنعتی و هم در بخش دانشگاهی استفاده بشه.
نگاهی عمیقتر به ویژگیها
معماری MoE که واقعا کار میکنه
Wan2.2 از معماری ترکیب متخصصها یا همون MoE استفاده میکنه، اما نه از اون مدلهای شلوغ با کلی متخصص که کسی لازمشون نداره. اینجا فقط دو تا متخصص وجود داره:
- یک متخصص برای فریمهای با نویز بالا، یعنی مراحل اولیه و آشفته کار.
- متخصص دوم وقتی وارد عمل میشه که اوضاع کمی شفافتر شده و کارش اضافه کردن جزئیاته.
هر دوی این مدلهای متخصص حدود ۱۴ میلیارد پارامتر دارن، اما شما در هر لحظه فقط از یکی از اونها استفاده میکنید. پس خروجیای در سطح یه مدل ۱۴ میلیارد پارامتری میگیرید، بدون اینکه نیاز به محاسبات یه مدل ۲۷ میلیارد پارامتری داشته باشید. جابجایی بین این دو متخصص بر اساس نسبت سیگنال به نویز (SNR) انجام میشه. اگه سیگنال واضح نباشه، متخصص اول کار میکنه و وقتی شرایط پایدارتر شد، کار به متخصص دوم سپرده میشه. این یک مسیریابی ساده است که کار میکنه.
ویدیوهایی که فقط «حرکت» نمیکنن، کارگردانی شدن
بیشتر مدلها به سختی میتونن یه آدم رو توی یه مزرعه قرار بدن. اما Wan2.2 میتونه مردی رو در حال قدم زدن در یک مزرعه طلایی هنگام غروب، با سایههای نرم، نور گرم و حال و هوای مناسب نشون بده.
این اتفاق به این دلیل میفته که دادههای آموزشی فقط شامل تصویر و ویدیو نیستن، بلکه با برچسبهای زیباییشناسی مثل نورپردازی، قاببندی و تن رنگی هم مشخص شدن. برای همین، مدل حدس نمیزنه که «زیبا» یعنی چی، بلکه نمونههای کافی برای درک اون رو دیده. در نتیجه صحنههایی تولید میشن که حس برنامهریزی شده دارن، نه اینکه فقط به هم چسبیده باشن.
حرکتی که منسجم باقی میمونه
خیلی از مدلهای دیفیوژن فریم اول رو خوب میسازن، شاید فریم دوم رو هم همینطور. اما بعد از اون، بازوها ناپدید میشن، صورتها ذوب میشن و پسزمینه تار میشه.
Wan2.2 این مشکل رو تا حد زیادی حل کرده. همونطور که گفته شد، این مدل با ۶۵.۶ درصد تصویر بیشتر و ۸۳.۲ درصد ویدیوی بیشتر نسبت به نسخه ۲.۱ آموزش دیده و یاد گرفته که آدمها واقعا چطور حرکت میکنن؛ نه در فریمهای جدا از هم، بلکه در طول زمان. حالا وقتی یه شخصیت میچرخه یا حرکتی میکنه، دوربین به نرمی اون رو دنبال میکنه. حتی با دستورهای متنی مبهم هم، Wan2.2 جاهای خالی رو طوری پر میکنه که انگار فیلمهای زیادی دیده و درک خوبی از ریتم، حرکت و زمانبندی داره.
مدل Wan2.2 5B: کوچکی که کارایی بالایی داره
برای استفاده از این مدل نیازی به یک مجموعه سرور بزرگ نیست. نسخه ۵ میلیارد پارامتری (5B) روی یک کارت گرافیک RTX 4090 اجرا میشه. این مدل با فشردهسازی فضای پنهان (از طریق VAE)، میتونه یه ویدیوی ۵ ثانیهای با رزولوشن 720p و نرخ ۲۴ فریم بر ثانیه رو در کمتر از ۹ دقیقه تولید کنه.
این VAE جزئیات رو از بین نمیبره و هنوز هم ویدیوهای باکیفیتی تحویل میده، فقط سریعتر و سبکتر. این مدل کوچیکتر عملکرد خوبی از خودش نشون میده و یک سیستم واحد برای هر دو کار تبدیل متن به ویدیو (T2V) و تصویر به ویدیو (I2V) هست، بدون اینکه نیاز به تغییر مدل یا تنظیمات اضافی داشته باشه.
اخبار و بهروزرسانیها
بر اساس اطلاعات منتشر شده، در تاریخ ۲۸ جولای ۲۰۲۵، اتفاقات زیر افتاده:
- Wan2.2 با ComfyUI (نسخه چینی و انگلیسی) یکپارچه شده.
- قابلیتهای T2V، I2V و TI2V مدل Wan2.2 با Diffusers یکپارچه شدن (T2V-A14B | I2V-A14B | TI2V-5B).
- کد اجرایی و وزنهای مدل Wan2.2 منتشر شدن.
همچنین، DiffSynth-Studio پشتیبانی جامعی از Wan 2.2 ارائه میده که شامل مواردی مثل offload لایه به لایه برای کاهش مصرف حافظه کارت گرافیک، کوانتیزاسیون FP8، موازیسازی دنبالهای، آموزش LoRA و آموزش کامل میشه.
اگه تحقیق یا پروژهای بر اساس Wan2.1 یا Wan2.2 دارید و میخواید افراد بیشتری اون رو ببینن، میتونید به تیم توسعهدهنده اطلاع بدید.
لیست کارهای برنامهریزی شده (Todo List)
لیستی از قابلیتها و یکپارچهسازیهایی که در برنامه قرار دارن به این صورته:
- Wan2.2 Text-to-Video (متن به ویدیو)
- کد اجرای چند گرافیکی برای مدلهای A14B و 14B
- چکپوینتهای مدلهای A14B و 14B
- یکپارچهسازی با ComfyUI
- یکپارچهسازی با Diffusers
- Wan2.2 Image-to-Video (تصویر به ویدیو)
- کد اجرای چند گرافیکی برای مدل A14B
- چکپوینتهای مدل A14B
- یکپارچهسازی با ComfyUI
- یکپارچهسازی با Diffusers
- Wan2.2 Text-Image-to-Video (متن-تصویر به ویدیو)
- کد اجرای چند گرافیکی برای مدل 5B
- چکپوینتهای مدل 5B
- یکپارچهسازی با ComfyUI
- یکپارچهسازی با Diffusers
راهنمای نصب و اجرا
۱. نصب
اول باید مخزن پروژه رو از گیتهاب کلون کنید:
git clone https://github.com/Wan-Video/Wan2.2.git
cd Wan2.2
بعد باید پیشنیازها رو نصب کنید. لازمه که نسخه torch
شما ۲.۴.۰ یا بالاتر باشه.
# اگه در نصب `flash_attn` به مشکل خوردید، اول بقیه بستهها رو نصب کنید و در آخر `flash_attn` رو نصب کنید.
pip install -r requirements.txt
۲. دانلود مدلها
مدلهای مختلفی برای دانلود وجود دارن که در جدول زیر مشخص شدن:
مدلها | لینکهای دانلود | توضیحات |
---|---|---|
T2V-A14B | 🤗 Huggingface 🤖 ModelScope | مدل MoE برای تبدیل متن به ویدیو، از رزولوشن 480P و 720P پشتیبانی میکنه. |
I2V-A14B | 🤗 Huggingface 🤖 ModelScope | مدل MoE برای تبدیل تصویر به ویدیو، از رزولوشن 480P و 720P پشتیبانی میکنه. |
TI2V-5B | 🤗 Huggingface 🤖 ModelScope | دارای VAE با فشردهسازی بالا، ترکیب T2V+I2V، از رزولوشن 720P پشتیبانی میکنه. |
*نکته: مدل TI2V-5B از تولید ویدیوی 720P با نرخ ۲۴ فریم بر ثانیه پشتیبانی میکنه.
برای دانلود مدلها میتونید از huggingface-cli
استفاده کنید:
pip install "huggingface_hub[cli]"
huggingface-cli download Wan-AI/Wan2.2-T2V-A14B --local-dir ./Wan2.2-T2V-A14B
یا از modelscope-cli
استفاده کنید:
pip install modelscope
modelscope download Wan-AI/Wan2.2-T2V-A14B --local_dir ./Wan2.2-T2V-A14B
اجرای تبدیل متن به ویدیو (Text-to-Video)
این مخزن از مدل Wan2.2-T2V-A14B پشتیبانی میکنه و میتونه به طور همزمان ویدیوهایی با رزولوشن 480P و 720P تولید کنه.
حالت اول: بدون گسترش پرامپت (Prompt Extension)
برای شروع، یک نسخه ساده از فرایند اجرا که مرحله گسترش پرامپت رو نادیده میگیره بررسی میشه.
- اجرا روی یک کارت گرافیک (Single-GPU):
python generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --offload_model True --convert_model_dtype --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
*نکته: این دستور روی یک کارت گرافیک با حداقل ۸۰ گیگابایت حافظه VRAM اجرا میشه.
*نکته: اگه با خطای کمبود حافظه (OOM) مواجه شدید، میتونید از گزینههای --offload_model True
، --convert_model_dtype
و --t5_cpu
برای کاهش مصرف حافظه کارت گرافیک استفاده کنید.
- اجرا روی چند کارت گرافیک (Multi-GPU) با استفاده از FSDP + DeepSpeed Ulysses:
برای سرعت بخشیدن به اجرا از PyTorch FSDP و DeepSpeed Ulysses استفاده میشه.
torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage."
حالت دوم: با استفاده از گسترش پرامپت (Prompt Extension)
گسترش دادن پرامپتها میتونه به طور موثری جزئیات ویدیوهای تولید شده رو غنیتر کنه و کیفیت ویدیو رو بالاتر ببره. برای همین، فعال کردن این قابلیت توصیه میشه. دو روش برای این کار وجود داره:
- استفاده از Dashscope API:
- باید از قبل یک
dashscope.api_key
تهیه کنید. - متغیر محیطی
DASH_API_KEY
رو برای مشخص کردن کلید API تنظیم کنید. کاربرانی که از سایت بینالمللی Alibaba Cloud استفاده میکنن، باید متغیرDASH_API_URL
رو هم روی «https://dashscope-intl.aliyuncs.com/api/v1» تنظیم کنن. - برای کارهای متن به ویدیو از مدل
qwen-plus
و برای کارهای تصویر به ویدیو ازqwen-vl-max
استفاده میشه. - میتونید مدل مورد استفاده برای گسترش رو با پارامتر
--prompt_extend_model
تغییر بدید. - مثال:
- باید از قبل یک
DASH_API_KEY=your_key torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'dashscope' --prompt_extend_target_lang 'zh'
- استفاده از یک مدل محلی (Local Model):
- به صورت پیشفرض، از مدل Qwen روی HuggingFace برای این کار استفاده میشه. کاربران میتونن بر اساس حافظه کارت گرافیک موجود، مدلهای Qwen یا مدلهای دیگه رو انتخاب کنن.
- برای کارهای متن به ویدیو، میشه از مدلهایی مثل
Qwen/Qwen2.5-14B-Instruct
،Qwen/Qwen2.5-7B-Instruct
وQwen/Qwen2.5-3B-Instruct
استفاده کرد. - برای کارهای تصویر به ویدیو، مدلهایی مثل
Qwen/Qwen2.5-VL-7B-Instruct
وQwen/Qwen2.5-VL-3B-Instruct
مناسب هستن. - مدلهای بزرگتر معمولا نتایج بهتری میدن ولی به حافظه گرافیکی بیشتری نیاز دارن.
- میتونید مدل مورد استفاده رو با پارامتر
--prompt_extend_model
مشخص کنید که میتونه یک مسیر محلی یا یک مدل از Hugging Face باشه. - مثال:
torchrun --nproc_per_node=8 generate.py --task t2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-T2V-A14B --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage" --use_prompt_extend --prompt_extend_method 'local_qwen' --prompt_extend_target_lang 'zh'
اجرای تبدیل تصویر به ویدیو (Image-to-Video)
این مخزن از مدل Wan2.2-I2V-A14B پشتیبانی میکنه و میتونه ویدیوهایی با رزولوشن 480P و 720P تولید کنه.
- اجرا روی یک کارت گرافیک (Single-GPU):
python generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --offload_model True --convert_model_dtype --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
*نکته: این دستور روی یک کارت گرافیک با حداقل ۸۰ گیگابایت حافظه VRAM اجرا میشه.
*نکته: برای کار تصویر به ویدیو، پارامتر size
مساحت ویدیوی تولید شده رو مشخص میکنه و نسبت ابعاد اون از تصویر ورودی اصلی پیروی میکنه.
- اجرا روی چند کارت گرافیک (Multi-GPU) با استفاده از FSDP + DeepSpeed Ulysses:
torchrun --nproc_per_node=8 generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
- تولید ویدیو از تصویر بدون پرامپت:
DASH_API_KEY=your_key torchrun --nproc_per_node=8 generate.py --task i2v-A14B --size 1280*720 --ckpt_dir ./Wan2.2-I2V-A14B --prompt '' --image examples/i2v_input.JPG --dit_fsdp --t5_fsdp --ulysses_size 8 --use_prompt_extend --prompt_extend_method 'dashscope'
*نکته: این مدل میتونه فقط از روی تصویر ورودی ویدیو تولید کنه. میتونید از قابلیت گسترش پرامپت برای تولید پرامپت از روی تصویر استفاده کنید.
اجرای تبدیل متن-تصویر به ویدیو (Text-Image-to-Video)
این مخزن از مدل Wan2.2-TI2V-5B پشتیبانی میکنه و میتونه ویدیوهایی با رزولوشن 720P تولید کنه.
- اجرای متن به ویدیو روی یک کارت گرافیک (Single-GPU):
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --prompt "Two anthropomorphic cats in comfy boxing gear and bright gloves fight intensely on a spotlighted stage"
*نکته: برخلاف کارهای دیگه، رزولوشن 720P در این حالت ۱۲۸۰*۷۰۴
یا ۷۰۴*۱۲۸۰
هست.
*نکته: این دستور روی یک کارت گرافیک با حداقل ۲۴ گیگابایت حافظه VRAM (مثلا RTX 4090) اجرا میشه.
*نکته: اگه روی یک کارت گرافیک با حداقل ۸۰ گیگابایت حافظه VRAM اجرا میکنید، میتونید گزینههای --offload_model True
، --convert_model_dtype
و --t5_cpu
رو برای سرعت بخشیدن به اجرا حذف کنید.
- اجرای تصویر به ویدیو روی یک کارت گرافیک (Single-GPU):
python generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --offload_model True --convert_model_dtype --t5_cpu --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
*نکته: اگه پارامتر image
مشخص شده باشه، کار از نوع تصویر به ویدیو هست؛ در غیر این صورت، به صورت پیشفرض متن به ویدیو خواهد بود.
*نکته: مثل حالت تصویر به ویدیو، پارامتر size
مساحت ویدیو رو مشخص میکنه و نسبت ابعادش از تصویر ورودی پیروی میکنه.
- اجرا روی چند کارت گرافیک (Multi-GPU):
torchrun --nproc_per_node=8 generate.py --task ti2v-5B --size 1280*704 --ckpt_dir ./Wan2.2-TI2V-5B --dit_fsdp --t5_fsdp --ulysses_size 8 --image examples/i2v_input.JPG --prompt "Summer beach vacation style, a white cat wearing sunglasses sits on a surfboard. The fluffy-furred feline gazes directly at the camera with a relaxed expression. Blurred beach scenery forms the background featuring crystal-clear waters, distant green hills, and a blue sky dotted with white clouds. The cat assumes a naturally relaxed posture, as if savoring the sea breeze and warm sunlight. A close-up shot highlights the feline's intricate details and the refreshing atmosphere of the seaside."
جزئیات فنی بیشتر
Wan2.2 بر پایه نسخه ۲.۱ ساخته شده و بهبودهای قابل توجهی در کیفیت تولید و قابلیتهای مدل داره. این ارتقا نتیجهی چند نوآوری فنی کلیدیه که شامل معماری MoE، دادههای آموزشی ارتقا یافته و تولید ویدیوی با فشردهسازی بالا میشه.
معماری ترکیب متخصصها (MoE)
در Wan2.2، سری مدلهای A14B از یک طراحی دو-متخصصه استفاده میکنن که برای فرایند نویزگیری مدلهای دیفیوژن طراحی شده: یک متخصص نویز-بالا برای مراحل اولیه که روی طرح کلی تمرکز داره و یک متخصص نویز-پایین برای مراحل پایانی که جزئیات ویدیو رو اصلاح میکنه. هر مدل متخصص حدود ۱۴ میلیارد پارامتر داره که در مجموع ۲۷ میلیارد پارامتر میشه، اما در هر مرحله فقط ۱۴ میلیارد پارامتر فعال هستن. این باعث میشه محاسبات اجرایی و حافظه گرافیکی تقریبا بدون تغییر باقی بمونه.
نقطه انتقال بین دو متخصص توسط نسبت سیگنال به نویز (SNR) تعیین میشه. در ابتدای فرایند نویزگیری، سطح نویز بالاست و SNR در کمترین حالت خودشه. در این مرحله، متخصص نویز-بالا فعال میشه. یک مرحله آستانه تعریف شده که وقتی به اون نقطه برسیم، کار به متخصص نویز-پایین سپرده میشه.
برای تایید کارایی این معماری، چهار تنظیمات مختلف مقایسه شدن. مدل پایه Wan2.1 از معماری MoE استفاده نمیکنه. در بین نسخههای مبتنی بر MoE، یک نسخه از مدل Wan2.1 به عنوان متخصص نویز-پایین و از متخصص نویز-بالای Wan2.2 استفاده کرده و نسخه دیگه برعکس. نسخه نهایی Wan2.2 (MoE) کمترین خطای اعتبارسنجی رو به دست آورده که نشون میده توزیع ویدیوی تولید شده توسط اون به واقعیت نزدیکتره.
ترکیب کارآمد و با کیفیت بالای TI2V
برای ممکن کردن اجرای کارآمدتر، Wan2.2 روی طراحی با فشردهسازی بالا هم کار کرده. علاوه بر مدلهای ۲۷ میلیارد پارامتری MoE، یک مدل ۵ میلیارد پارامتری متراکم به اسم TI2V-5B هم منتشر شده. این مدل توسط یک Wan2.2-VAE با فشردهسازی بالا پشتیبانی میشه که به نسبت فشردهسازی T×H×W معادل ۴×۱۶×۱۶ میرسه و نرخ فشردهسازی کلی رو تا ۶۴ برابر افزایش میده. با یک لایه patchification اضافه، نسبت فشردهسازی کلی TI2V-5B به ۴×۳۲×۳۲ میرسه.
کارایی محاسباتی و بنچمارکها
کارایی محاسباتی مدلهای مختلف Wan2.2 روی کارتهای گرافیک مختلف در جدول زیر آزمایش شده. نتایج به فرمت: «زمان کل (ثانیه) / اوج مصرف حافظه گرافیک (گیگابایت)» ارائه شده.
مدل | GPU | رزولوشن | وظیفه | ۱ کارت | ۴ کارت | ۸ کارت |
---|---|---|---|---|---|---|
T2V-A14B | H100 | 720P | T2V | ۲۴۰.۲ / ۷۸.۴ | ۶۹.۳ / ۶۸.۳ | ۴۱.۷ / ۶۳.۸ |
I2V-A14B | H100 | 720P | I2V | ۲۳۹.۳ / ۷۸.۴ | ۶۹.۳ / ۶۸.۳ | ۴۲.۱ / ۶۳.۸ |
TI2V-5B | H100 | 720P | TI2V | ۱۴۸.۹ / ۲۲.۰ | ۵۰.۳ / ۱۶.۸ | ۳۲.۵ / ۱۵.۶ |
TI2V-5B | H100 | 720P | I2V | ۱۴۸.۳ / ۲۲.۱ | ۵۰.۱ / ۱۶.۸ | ۳۳.۳ / ۱۵.۶ |
T2V-A14B | ۴۰۹۰ | 480P | T2V | ۷۳۲.۱ / ۲۳.۴ | – | – |
I2V-A14B | ۴۰۹۰ | 480P | I2V | ۷۳۰.۰ / ۲۳.۴ | – | – |
TI2V-5B | ۴۰۹۰ | 720P | TI2V | ۵۲۵.۶ / ۲۲.۳ | – | – |
TI2V-5B | ۴۰۹۰ | 720P | I2V | ۵۲۴.۳ / ۲۲.۳ | – | – |
تنظیمات پارامترها برای تستهای این جدول به این صورت بوده:
۱. چند گرافیکی: برای مدل 14B از --ulysses_size 4/8 --dit_fsdp --t5_fsdp
و برای مدل 5B از --ulysses_size 4/8 --offload_model True --convert_model_dtype --t5_cpu
استفاده شده. تک گرافیکی: برای مدل 14B از --offload_model True --convert_model_dtype
و برای مدل 5B از --offload_model True --convert_model_dtype --t5_cpu
استفاده شده.
۲. تست توزیع شده از پیادهسازیهای داخلی FSDP و Ulysses استفاده کرده و FlashAttention3 روی معماری Hopper پیادهسازی شده.
۳. تستها بدون فلگ --use_prompt_extend
اجرا شدن.
۴. نتایج گزارش شده میانگین نمونههای متعدد پس از مرحله گرم کردن (warm-up) هستن.
مقایسه با مدلهای دیگر
Wan2.2 با مدلهای تجاری منبعبسته پیشرو روی بنچمارک جدید Wan-Bench 2.0 مقایسه شده و عملکرد اون در چندین بعد کلیدی ارزیابی شده. نتایج نشون میده که Wan2.2 در مقایسه با این مدلهای پیشرو، عملکرد بهتری در دستههای اصلی مثل کیفیت حرکت (برای حرکت انسان و دوربین)، همسویی با پرامپت، پایداری زمانی (شخصیتها در طول شات تغییر نمیکنن) و زیباییشناسی به دست آورده.
استناد و مجوز استفاده
اگه این کار برای شما مفید بود، میتونید به این صورت به اون استناد کنید:
@article{wan2025,
title={Wan: Open and Advanced Large-Scale Video Generative Models},
author={Team Wan and Ang Wang and Baole Ai and Bin Wen and Chaojie Mao and Chen-Wei Xie and Di Chen and Feiwu Yu and Haiming Zhao and Jianxiao Yang and Jianyuan Zeng and Jiayu Wang and Jingfeng Zhang and Jingren Zhou and Jinkai Wang and Jixuan Chen and Kai Zhu and Kang Zhao and Keyu Yan and Lianghua Huang and Mengyang Feng and Ningyi Zhang and Pandeng Li and Pingyu Wu and Ruihang Chu and Ruili Feng and Shiwei Zhang and Siyang Sun and Tao Fang and Tianxing Wang and Tianyi Gui and Tingyu Weng and Tong Shen and Wei Lin and Wei Wang and Wei Wang and Wenmeng Zhou and Wente Wang and Wenting Shen and Wenyuan Yu and Xianzhong Shi and Xiaoming Huang and Xin Xu and Yan Kou and Yangyu Lv and Yifei Li and Yijing Liu and Yiming Wang and Yingya Zhang and Yitong Huang and Yong Li and You Wu and Yu Liu and Yulin Pan and Yun Zheng and Yuntao Hong and Yupeng Shi and Yutong Feng and Zeyinzi Jiang and Zhen Han and Zhi-Fan Wu and Ziyu Liu},
journal = {arXiv preprint arXiv:2503.20314},
year={2025}
}
مدلهای موجود در این مخزن تحت مجوز Apache 2.0 منتشر شدن. تیم توسعهدهنده هیچ حقی روی محتوای تولید شده توسط شما ادعا نمیکنه و به شما این آزادی رو میده که از اونها استفاده کنید، به شرطی که استفاده شما با مفاد این مجوز مطابقت داشته باشه. شما به طور کامل مسئول استفاده خودتون از مدلها هستید و این استفاده نباید شامل اشتراکگذاری هرگونه محتوایی باشه که قوانین رو نقض کنه، به افراد یا گروهها آسیب برسونه، اطلاعات شخصی رو با قصد آسیب منتشر کنه، اطلاعات نادرست پخش کنه یا جمعیتهای آسیبپذیر رو هدف قرار بده. برای لیست کامل محدودیتها و جزئیات حقوق خود، به متن کامل مجوز مراجعه کنید.
تشکر و قدردانی
تیم توسعهدهنده از مشارکتکنندگان در مخازن SD3، Qwen، umt5-xxl، diffusers و HuggingFace برای تحقیقات منبعباز اونها تشکر کرده.
ارتباط با ما
اگه میخواید برای تیمهای تحقیق یا محصول پیامی بگذارید، میتونید به گروههای Discord یا WeChat اونها بپیوندید.
دیدگاهتان را بنویسید