مدت زمان مطالعه: حدود ۱۲ دقیقه
اهداف:
- آشنایی با نسل جدیدی از مدلهای هوش مصنوعی که توانایی ساخت دنیاهای سهبعدی رو دارن.
- درک اینکه مدل Hunyuan World چطور کار میکنه و چه مشکلاتی رو تلاش میکنه حل کنه.
- شناخت ویژگیها و کاربردهای اصلی این نوع مدلها در صنعت بازی، واقعیت مجازی و تولید محتوا.
فصل اول: یک مدل جدید برای ساخت دنیا معرفی میشه
شرکتی به اسم تنسنت (Tencent) که در زمینه شبکههای اجتماعی و بازی فعاله، از طریق تیم هوش مصنوعیش به اسم هونیوان (Hunyuan)، یک مدل هوش مصنوعی جدید رو در روز یکشنبه معرفی و منتشر کرد. اسم این مدل Hunyuan 3D World Model 1.0 هست. نکته مهم در مورد این مدل اینه که به صورت اپن سورس یا متنباز عرضه شده. این یعنی هم محققها و هم شرکتهای تجاری میتونن ازش استفاده کنن.
این مدل هوش مصنوعی برای ساختن دنیاهای سهبعدی (3D) طراحی شده. یعنی شما میتونید با دادن یک متن یا یک عکس به عنوان ورودی، یک دنیای سهبعدی کامل تحویل بگیرید. دنیاهایی که این مدل میسازه، فقط یک عکس ساده نیستن. این دنیاها قابلیت گشت و گذار و تعامل رو دارن و شما میتونید یک نمای ۳۶۰ درجه از اونها داشته باشید. بعد از اینکه دنیا ساخته شد، کاربرها میتونن به عنوان یک دارایی قابل بازی (playable asset) در اون دنیا بچرخن.
تنسنت گفته که این مدل میتونه در زمینههایی مثل توسعه بازیهای ویدیویی، تولید محتوای دیجیتال و واقعیت مجازی (VR) خیلی کمک کننده باشه. این مدل به عنوان اولین مدل متنباز برای تولید دنیای سهبعدی معرفی شده که با روندهای کاری گرافیک کامپیوتری یا «CG pipelines» هم سازگاری کامل داره. منظور از این روندها، مراحل استانداردی هست که برای ساخت گرافیک و انیمیشنهای سهبعدی در تولید فیلم، بازی و جلوههای ویژه استفاده میشه.
فصل دوم: این مدلها دقیقا چه مشکلی رو حل میکنن؟
مدلهای تولید دنیا، یک حوزه تخصصی و خاص در هوش مصنوعی مولد به حساب میان. تمرکز اصلی این مدلها روی چند تا چیزه: توانایی سیستم برای ایجاد یکپارچگی هندسی، بهینه بودن در رندر کردن (یعنی نمایش دادن تصاویر) و تنوع بصری دنیاهایی که میسازه. این محیطهای ساخته شده بعدا میتونن در سناریوهای مختلفی استفاده بشن؛ از ساختن بازیهای ویدیویی گرفته تا آموزش رباتها در یک فضای مجازی.
قبل از مدلهایی مثل Hunyuan، برای ساختن دنیاهای سهبعدی با هوش مصنوعی، معمولا دو تا رویکرد اصلی وجود داشت:
- روشهای مبتنی بر ویدیو: این روشها با استفاده از تکنولوژیهایی مثل دیفیوژن ویدیو، میتونن سکانسهای واقعگرایانهای تولید کنن. مشکلشون اینه که ساختار سهبعدی واقعی ندارن. یعنی نمیتونن حرکت دوربین رو خارج از یک محدوده خیلی کوچیک مدیریت کنن و رندر کردنشون هم هزینه زیادی داره.
- روشهای مبتنی بر سهبعدی: این روشها از نظر هندسی یکپارچگی خوبی دارن و راحتتر میشه اونها رو به خطوط تولید گرافیک وصل کرد. اما این روشها هم مشکلات خودشون رو دارن. مثلا با مصرف حافظه مشکل دارن، دادههای سهبعدی کافی برای آموزششون وجود نداره و اغلب همه چیز رو در یک مش (mesh) واحد با هم ترکیب میکنن که باعث میشه جداسازی اشیا از هم ممکن نباشه.
تیم هونیوان برای حل این مشکل، یک چارچوب جدید درست کرده. اونها میگن که رویکردهای قبلی، هیچ کدومشون نمیتونستن هم تنوع بصری بالا داشته باشن و هم یکپارچگی سهبعدی و بازدهی خوب در رندر. مدل HunyuanWorld 1.0 تلاش میکنه تا نقاط قوت هر دو روش رو با هم ترکیب کنه. این کار رو با استفاده از تصاویر پانوراما به عنوان یک نماینده یا پروکسی انجام میده تا یک پل بین مدلهای مولد دوبعدی و بازسازی سهبعدی ایجاد کنه.
فصل سوم: این مدل دقیقا چطوری کار میکنه؟
مدل HunyuanWorld 1.0 از یک معماری مولد استفاده میکنه که ترکیبی از تکنیکهای سنتز تصویر پانوراما و بازسازی سهبعدی لایهای هست. این ترکیب بهش اجازه میده تا صحنههای سهبعدی با کیفیت بالا، فراگیر و قابل گشت و گذار تولید کنه. بیاین مراحل کارش رو به زبان سادهتر ببینیم:
- ۱. یک عکس پانوراما میسازه (Panorama-DiT):
کار با این شروع میشه که ورودی شما، چه متن باشه چه یک عکس، رو به یک تصویر کامل ۳۶۰ درجه تبدیل میکنه. این مثل اینه که یک صحنه کروی بسازه که همه چیز رو در اطراف شما نشون بده. این بخش از مدل که Panorama-DiT نام داره، یک مدل دیفیوژن هست که برای تولید تصاویر پانورامای مستطیلی (equirectangular) آموزش دیده. برای اینکه تصاویر در لبهها و قطبها دچار مشکل نشن، از بهبودهایی مثل پدینگ دایرهای و افزایش داده با آگاهی از ارتفاع استفاده شده. - ۲. صحنه رو به لایههای مختلف تقسیم میکنه (Semantic Decomposition):
بعد، اون تصویر پانورامای ۳۶۰ درجه به بخشهای مختلفی تقسیم میشه. این کار که بهش «تجزیه عاملانه دنیا» هم میگن، باعث میشه اجزای صحنه از هم جدا بشن:- اشیا پیشزمینه: مثل ساختمانها، وسایل نقلیه یا شخصیتها.
- پسزمینه: مثل زمین، معماری کلی و…
- آسمان: که به یک تصویر HDRI برای نورپردازی صحنه تبدیل میشه.
- ۳. عمق و فاصله رو حدس میزنه (Layered Depth Estimation):
برای هر لایهای که جدا شده، مدل حدس میزنه که اجسام چقدر دور یا نزدیک هستن. به این کار تخمین عمق میگن. مدلهای دیگهای مثل MOGE یا UniK3D برای پیشبینی نقشههای عمق برای هر لایه استفاده میشن. مقادیر عمق بین لایهها تراز میشن تا هندسه و اختلاف منظر (parallax) در حین بازسازی حفظ بشه. - ۴. مشهای سهبعدی رو میسازه (3D Object Reconstruction):
با استفاده از تصاویر و اطلاعات عمقی که به دست اومده، مدل شروع به ساختن دنیای سهبعدی واقعی میکنه. این دنیا مثل یک نقشه بازی ویدیویی از سطوح و اشیا تشکیل شده. اشیا پیشزمینه میتونن مستقیما از تصویر اصلی برداشته بشن یا با استفاده از مدلهای تصویر به سهبعدی خود Hunyuan3D دوباره تولید بشن. چون همه چیز از هم جداست (درختها، ساختمونها، آسمون)، شما میتونید بعدا با اونها تعامل داشته باشید. خروجی این بخش به صورت فایل مش (mesh) هست که میشه اون رو در نرمافزارهای مدلسازی سهبعدی یا موتورهای بازیسازی باز کرد. - ۵. دنیا رو گسترش میده (World Extension):
اگه شما بخواید فراتر از صحنه اصلی که ساخته شده حرکت کنید و دنیای بزرگتری رو ببینید، یک مدل دیفیوژن ویدیویی به اسم Voyager وارد عمل میشه. این مدل یک ابر نقطهای (point cloud) از هندسه قابل مشاهده میسازه و اون رو در حافظه نگه میداره. بعد با استفاده از این حافظه به عنوان مرجع، نماهای جدید و یکپارچهای رو تولید میکنه و به این ترتیب دنیا رو گسترش میده. - ۶. همه چیز رو بهینه میکنه (System Optimizations):
در نهایت، سیستم دادههای سهبعدی رو فشرده میکنه تا سریعتر بارگذاری بشن، روانتر اجرا بشن و روی سختافزارهای مختلف (حتی در مرورگر وب) بهتر کار کنن. همچنین وظایف رو بین پردازندههای گرافیکی (GPU) مختلف تقسیم میکنه تا سرعت کار بالا بره.
فصل چهارم: ویژگیها و کاربردهای اصلی این مدل چیه؟
همونطور که گفته شد، این مدل اولین مدل متنباز برای تولید دنیای سهبعدی هست و ویژگیهای مهمی داره که باعث میشه کاربردهای متنوعی داشته باشه.
ویژگیهای کلیدی:
- تولید دنیا از متن یا تصویر: هم میتونید با نوشتن یک جمله و هم با دادن یک عکس، دنیای سهبعدی خودتون رو بسازید.
- فضای فراگیر ۳۶۰ درجه: یک فضای بصری ۳۶۰ درجه و فراگیر با یک کلیک ساخته میشه. این مدل میتونه مفاهیم پیچیده رو درک کنه و به صورت هوشمند نمای ۳۶۰ درجه رو استنتاج و گسترش بده.
- دنیای قابل گشت و گذار: به خاطر بازنمایی و تولید لایهای صحنه سهبعدی، دنیای ساخته شده از نظر فضایی یکپارچه و قابل گشت و گذار هست.
- خروجی مش سهبعدی: شما میتونید خروجی رو به صورت فایل مش (mesh) دریافت کنید. این فایلها به راحتی در موتورهای بازیسازی اصلی مثل Unity و Unreal Engine و نرمافزارهای مدلسازی سهبعدی قابل استفاده هستن.
- تعامل با اشیا: اشیا پیشزمینه به صورت جداگانه مدلسازی میشن و این امکان رو فراهم میکنن که بعدا با اونها تعامل برقرار بشه.
- شبیهسازی فیزیکی: چون خروجی به صورت مش سهبعدی هست، میشه از اون برای شبیهسازیهای فیزیکی مثل برخورد (collision) یا شبیهسازی سیالات استفاده کرد.
کاربردهای اصلی:
- توسعه بازیهای ویدیویی: این مدل میتونه فرآیند تولید صحنههای سهبعدی بازی رو به شکل قابل توجهی سادهتر کنه. توسعهدهندهها میتونن از گرافیکهای مختلف، از تصاویر کارتونی شبیه بازی Fortnite گرفته تا مناظر شهری واقعگرایانه، برای بازیهاشون استفاده کنن.
- واقعیت مجازی (VR): محیطهای ۳۶۰ درجه کاملی که این مدل تولید میکنه، برای دستگاههایی مثل Apple Vision Pro یا Meta Quest آماده هستن و میتونن یک تجربه VR فراگیر بسازن.
- تولید محتوای دیجیتال: برای ساخت انیمیشن، جلوههای ویژه و انواع دیگه محتوای دیجیتال میشه از این مدل کمک گرفت.
- شبیهسازی: امکان خروجی گرفتن از مش، این مدل رو برای استفاده در سیستمهای مبتنی بر فیزیک مناسب میکنه.
فصل پنجم: اطلاعات فنی و نحوه دسترسی
تیم Hunyuan گفته که نسخه متنباز این مدل بر اساس تولیدکننده تصویر Flux ساخته شده، اما میشه اون رو با مدلهای دیگه مثل Hunyuan Image، Kontext و Stable Diffusion هم تطبیق داد.
این مدل با یک مجوز به اسم «tencent-hunyuanworld-1.0-community» در دسترس قرار گرفته که هم استفاده آکادمیک و هم استفاده تجاری رو مجاز میکنه. افرادی که فقط میخوان مدل رو تست کنن و نمیخوان اون رو به صورت محلی روی سیستم خودشون اجرا کنن، میتونن به پلتفرم تنسنت برن و کار تولید دنیا رو شروع کنن.
برای کسانی که میخوان به صورت فنیتر با مدل کار کنن، منابع زیر در دسترس هست:
- مخزن گیتهاب:
https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
- مدلها و وزنها:
https://huggingface.co/tencent/HunyuanWorld-1
- پست معرفی در شبکه X:
https://x.com/TencentHunyuan/status/1949288986192834718
تیم توسعهدهنده همچنین از مشارکتکنندههای پروژههای متنباز دیگهای مثل Stable Diffusion، FLUX، diffusers، HuggingFace، Real-ESRGAN، ZIM، GroundingDINO، MoGe، Worldsheet و WorldGen برای تحقیقات بازشون تشکر کرده.
برای ارجاع آکادمیک به این کار، فرمت زیر ارائه شده:
@misc{hunyuanworld2025tencent,
title={HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels},
author={Tencent Hunyuan3D Team},
year={2025},
archivePrefix={arXiv},
primaryClass={cs.CV}
}
فصل ششم: مقایسه و بنچمارک مدل
مدل HunyuanWorld 1.0 در هر دو وظیفه تولید دنیا از تصویر (image-to-world) و تولید دنیا از متن (text-to-world) مورد ارزیابی و بنچمارک قرار گرفته و در برابر مدلهای رقیب، برتریهایی رو نشون داده.
- در بخش تولید دنیا از تصویر:
این مدل با استفاده از دیتاستهای دنیای واقعی مثل World Labs و Tanks and Temples ارزیابی شده و با مدلهایی مثل WonderJourney و DimensionX مقایسه شده. برای این مقایسه از معیارهایی مثل BRISQUE و NIQE (برای کیفیت بصری)، Q-Align (برای همترازی هندسی) و CLIP-I (برای سازگاری معنایی) استفاده شده. در این تستها، HunyuanWorld در تمام این معیارها بهترین امتیاز رو کسب کرده که نشوندهنده اعوجاج کمتر، انسجام عمق بهتر و همترازی قویتر با تصویر ورودی اصلی هست. - در بخش تولید دنیا از متن:
این مدل در برابر مدلهایی مثل Director3D و LayerPano3D روی مجموعهای از پرامپتها (دستورهای متنی) با سبکها، طولها و انواع صحنههای مختلف آزمایش شده. در اینجا هم در تمام زمینههای اندازهگیری شده، از جمله CLIP-T (برای وفاداری معنایی)، Q-Align (برای انسجام عمق) و معیارهای کیفیت تصویر مثل BRISQUE و NIQE، از رقبای خودش عملکرد بهتری داشته.
علاوه بر بازسازی سهبعدی، ماژول Panorama-DiT این مدل هم در زمینه تولید پانوراما (هم از متن و هم از تصویر) ارزیابی شده و در این بخش هم از مدلهای اختصاصی تولید پانوراما مثل Diffusion360، MVDiffusion و PanFusion عملکرد بهتری رو ثبت کرده.
فصل هفتم: واکنشها و سوالات جامعه فنی
بعد از معرفی این مدل، بعضی از افراد در جامعه فنی سوالات و کنجکاویهایی رو مطرح کردن. برای مثال، بعضیها کنجکاو بودن که آیا این مدل یک دنیای سهبعدی واقعی و قابل کاوش تولید میکنه یا بیشتر یک تصویر ۳۶۰ درجه شبهسهبعدی هست که با لایهبندی عمق ساخته شده. این سوال به خاطر اشارههای زیاد در وایتپیپر پروژه به «پروجکشن مستطیلی» و «لایهبندی عمق» به وجود اومده بود.
سوالات فنی دیگهای هم پرسیده شد. مثلا اینکه این سیستم چطور میتونه واقعا کار کنه، مگر اینکه یک رویکرد کاملا جدید توسعه داده بشه؛ شاید یک سیستم مبتنی بر هوش مصنوعی که داراییهای دوبعدی رو به مشهای سهبعدی کاملا تعاملی با قابلیت برخورد (collision) مناسب تبدیل کنه. بدون چنین چیزی، این حس وجود داره که این مفهوم ممکنه به بنبست بخوره.
همچنین سوالاتی در مورد نحوه مدیریت حالت چندنفره (multiplayer) و اینکه آیا ساختاری مشابه پلتفرمهای اجتماعی سهبعدی که در اونها کاربرها میتونن به صورت همزمان با عناصر دوبعدی و سهبعدی تعامل داشته باشن، در این پروژه وجود داره یا اینکه هنوز یک ایده دور از دسترس به حساب میاد، مطرح شد. سوال دیگهای که پرسیده شد این بود که چطور میشه از هدستهای واقعیت مجازی (VR) با این دنیاهای ساخته شده استفاده کرد.
منابع
- [۱] Reddit – The heart of the internet
- [۲] No title
- [۳] 腾讯混元3D
- [۴] tencent/HunyuanWorld-1 · Hugging Face
- [۵] Instagram
- [۶] Tencent’s Hunyuan Team Releases Open-Source Hunyuan3D World Model 1.0, Can Generate Explorable 3D Worlds | Technology News
- [۷] WAIC Shanghai: Tencent, SenseTime launch new AI models to stir up industry rivalry | South China Morning Post
- [۸] Stealth Extraction Failed
- [۹] 🚨 Hunyuan releases World-1.0, the first “3D world generation model” | Leo Kadieff
- [۱۰] Hunyuan World 1 : 1st open-sourced Interactive 3D World Generation AI model | by Mehul Gupta | Data Science in Your Pocket | Jul, 2025 | Medium
دیدگاهتان را بنویسید