GeekAlerts

جایی برای گیک‌ها

معرفی مدل Hunyuan World 1.0 از شرکت تنسنت، تولید دنیای سه‌بعدی

معرفی مدل Hunyuan World 1.0 از شرکت تنسنت، تولید دنیای سه‌بعدی

مدت زمان مطالعه: حدود ۱۲ دقیقه

اهداف:

  • آشنایی با نسل جدیدی از مدل‌های هوش مصنوعی که توانایی ساخت دنیاهای سه‌بعدی رو دارن.
  • درک اینکه مدل Hunyuan World چطور کار میکنه و چه مشکلاتی رو تلاش میکنه حل کنه.
  • شناخت ویژگی‌ها و کاربردهای اصلی این نوع مدل‌ها در صنعت بازی، واقعیت مجازی و تولید محتوا.

فصل اول: یک مدل جدید برای ساخت دنیا معرفی میشه

شرکتی به اسم تنسنت (Tencent) که در زمینه شبکه‌های اجتماعی و بازی فعاله، از طریق تیم هوش مصنوعیش به اسم هونیوان (Hunyuan)، یک مدل هوش مصنوعی جدید رو در روز یکشنبه معرفی و منتشر کرد. اسم این مدل Hunyuan 3D World Model 1.0 هست. نکته مهم در مورد این مدل اینه که به صورت اپن سورس یا متن‌باز عرضه شده. این یعنی هم محقق‌ها و هم شرکت‌های تجاری میتونن ازش استفاده کنن.

این مدل هوش مصنوعی برای ساختن دنیاهای سه‌بعدی (3D) طراحی شده. یعنی شما میتونید با دادن یک متن یا یک عکس به عنوان ورودی، یک دنیای سه‌بعدی کامل تحویل بگیرید. دنیاهایی که این مدل میسازه، فقط یک عکس ساده نیستن. این دنیاها قابلیت گشت و گذار و تعامل رو دارن و شما میتونید یک نمای ۳۶۰ درجه از اونها داشته باشید. بعد از اینکه دنیا ساخته شد، کاربرها میتونن به عنوان یک دارایی قابل بازی (playable asset) در اون دنیا بچرخن.

تنسنت گفته که این مدل میتونه در زمینه‌هایی مثل توسعه بازی‌های ویدیویی، تولید محتوای دیجیتال و واقعیت مجازی (VR) خیلی کمک کننده باشه. این مدل به عنوان اولین مدل متن‌باز برای تولید دنیای سه‌بعدی معرفی شده که با روندهای کاری گرافیک کامپیوتری یا «CG pipelines» هم سازگاری کامل داره. منظور از این روندها، مراحل استانداردی هست که برای ساخت گرافیک و انیمیشن‌های سه‌بعدی در تولید فیلم، بازی و جلوه‌های ویژه استفاده میشه.

فصل دوم: این مدل‌ها دقیقا چه مشکلی رو حل میکنن؟

مدل‌های تولید دنیا، یک حوزه تخصصی و خاص در هوش مصنوعی مولد به حساب میان. تمرکز اصلی این مدل‌ها روی چند تا چیزه: توانایی سیستم برای ایجاد یکپارچگی هندسی، بهینه بودن در رندر کردن (یعنی نمایش دادن تصاویر) و تنوع بصری دنیاهایی که میسازه. این محیط‌های ساخته شده بعدا میتونن در سناریوهای مختلفی استفاده بشن؛ از ساختن بازی‌های ویدیویی گرفته تا آموزش ربات‌ها در یک فضای مجازی.

قبل از مدل‌هایی مثل Hunyuan، برای ساختن دنیاهای سه‌بعدی با هوش مصنوعی، معمولا دو تا رویکرد اصلی وجود داشت:

  1. روش‌های مبتنی بر ویدیو: این روش‌ها با استفاده از تکنولوژی‌هایی مثل دیفیوژن ویدیو، میتونن سکانس‌های واقع‌گرایانه‌ای تولید کنن. مشکلشون اینه که ساختار سه‌بعدی واقعی ندارن. یعنی نمیتونن حرکت دوربین رو خارج از یک محدوده خیلی کوچیک مدیریت کنن و رندر کردنشون هم هزینه زیادی داره.
  2. روش‌های مبتنی بر سه‌بعدی: این روش‌ها از نظر هندسی یکپارچگی خوبی دارن و راحت‌تر میشه اونها رو به خطوط تولید گرافیک وصل کرد. اما این روش‌ها هم مشکلات خودشون رو دارن. مثلا با مصرف حافظه مشکل دارن، داده‌های سه‌بعدی کافی برای آموزششون وجود نداره و اغلب همه چیز رو در یک مش (mesh) واحد با هم ترکیب میکنن که باعث میشه جداسازی اشیا از هم ممکن نباشه.

تیم هونیوان برای حل این مشکل، یک چارچوب جدید درست کرده. اونها میگن که رویکردهای قبلی، هیچ کدومشون نمیتونستن هم تنوع بصری بالا داشته باشن و هم یکپارچگی سه‌بعدی و بازدهی خوب در رندر. مدل HunyuanWorld 1.0 تلاش میکنه تا نقاط قوت هر دو روش رو با هم ترکیب کنه. این کار رو با استفاده از تصاویر پانوراما به عنوان یک نماینده یا پروکسی انجام میده تا یک پل بین مدل‌های مولد دوبعدی و بازسازی سه‌بعدی ایجاد کنه.

فصل سوم: این مدل دقیقا چطوری کار میکنه؟

مدل HunyuanWorld 1.0 از یک معماری مولد استفاده میکنه که ترکیبی از تکنیک‌های سنتز تصویر پانوراما و بازسازی سه‌بعدی لایه‌ای هست. این ترکیب بهش اجازه میده تا صحنه‌های سه‌بعدی با کیفیت بالا، فراگیر و قابل گشت و گذار تولید کنه. بیاین مراحل کارش رو به زبان ساده‌تر ببینیم:

  • ۱. یک عکس پانوراما میسازه (Panorama-DiT):
    کار با این شروع میشه که ورودی شما، چه متن باشه چه یک عکس، رو به یک تصویر کامل ۳۶۰ درجه تبدیل میکنه. این مثل اینه که یک صحنه کروی بسازه که همه چیز رو در اطراف شما نشون بده. این بخش از مدل که Panorama-DiT نام داره، یک مدل دیفیوژن هست که برای تولید تصاویر پانورامای مستطیلی (equirectangular) آموزش دیده. برای اینکه تصاویر در لبه‌ها و قطب‌ها دچار مشکل نشن، از بهبودهایی مثل پدینگ دایره‌ای و افزایش داده با آگاهی از ارتفاع استفاده شده.
  • ۲. صحنه رو به لایه‌های مختلف تقسیم میکنه (Semantic Decomposition):
    بعد، اون تصویر پانورامای ۳۶۰ درجه به بخش‌های مختلفی تقسیم میشه. این کار که بهش «تجزیه عاملانه دنیا» هم میگن، باعث میشه اجزای صحنه از هم جدا بشن:
    • اشیا پیش‌زمینه: مثل ساختمان‌ها، وسایل نقلیه یا شخصیت‌ها.
    • پس‌زمینه: مثل زمین، معماری کلی و…
    • آسمان: که به یک تصویر HDRI برای نورپردازی صحنه تبدیل میشه.
    هر کدوم از این لایه‌ها به صورت جداگانه بازسازی میشن تا کنترل و تعامل‌پذیری بهتری داشته باشن.
  • ۳. عمق و فاصله رو حدس میزنه (Layered Depth Estimation):
    برای هر لایه‌ای که جدا شده، مدل حدس میزنه که اجسام چقدر دور یا نزدیک هستن. به این کار تخمین عمق میگن. مدل‌های دیگه‌ای مثل MOGE یا UniK3D برای پیش‌بینی نقشه‌های عمق برای هر لایه استفاده میشن. مقادیر عمق بین لایه‌ها تراز میشن تا هندسه و اختلاف منظر (parallax) در حین بازسازی حفظ بشه.
  • ۴. مش‌های سه‌بعدی رو میسازه (3D Object Reconstruction):
    با استفاده از تصاویر و اطلاعات عمقی که به دست اومده، مدل شروع به ساختن دنیای سه‌بعدی واقعی میکنه. این دنیا مثل یک نقشه بازی ویدیویی از سطوح و اشیا تشکیل شده. اشیا پیش‌زمینه میتونن مستقیما از تصویر اصلی برداشته بشن یا با استفاده از مدل‌های تصویر به سه‌بعدی خود Hunyuan3D دوباره تولید بشن. چون همه چیز از هم جداست (درخت‌ها، ساختمون‌ها، آسمون)، شما میتونید بعدا با اونها تعامل داشته باشید. خروجی این بخش به صورت فایل مش (mesh) هست که میشه اون رو در نرم‌افزارهای مدل‌سازی سه‌بعدی یا موتورهای بازی‌سازی باز کرد.
  • ۵. دنیا رو گسترش میده (World Extension):
    اگه شما بخواید فراتر از صحنه اصلی که ساخته شده حرکت کنید و دنیای بزرگ‌تری رو ببینید، یک مدل دیفیوژن ویدیویی به اسم Voyager وارد عمل میشه. این مدل یک ابر نقطه‌ای (point cloud) از هندسه قابل مشاهده میسازه و اون رو در حافظه نگه میداره. بعد با استفاده از این حافظه به عنوان مرجع، نماهای جدید و یکپارچه‌ای رو تولید میکنه و به این ترتیب دنیا رو گسترش میده.
  • ۶. همه چیز رو بهینه میکنه (System Optimizations):
    در نهایت، سیستم داده‌های سه‌بعدی رو فشرده میکنه تا سریع‌تر بارگذاری بشن، روان‌تر اجرا بشن و روی سخت‌افزارهای مختلف (حتی در مرورگر وب) بهتر کار کنن. همچنین وظایف رو بین پردازنده‌های گرافیکی (GPU) مختلف تقسیم میکنه تا سرعت کار بالا بره.

فصل چهارم: ویژگی‌ها و کاربردهای اصلی این مدل چیه؟

همونطور که گفته شد، این مدل اولین مدل متن‌باز برای تولید دنیای سه‌بعدی هست و ویژگی‌های مهمی داره که باعث میشه کاربردهای متنوعی داشته باشه.

ویژگی‌های کلیدی:

  • تولید دنیا از متن یا تصویر: هم میتونید با نوشتن یک جمله و هم با دادن یک عکس، دنیای سه‌بعدی خودتون رو بسازید.
  • فضای فراگیر ۳۶۰ درجه: یک فضای بصری ۳۶۰ درجه و فراگیر با یک کلیک ساخته میشه. این مدل میتونه مفاهیم پیچیده رو درک کنه و به صورت هوشمند نمای ۳۶۰ درجه رو استنتاج و گسترش بده.
  • دنیای قابل گشت و گذار: به خاطر بازنمایی و تولید لایه‌ای صحنه سه‌بعدی، دنیای ساخته شده از نظر فضایی یکپارچه و قابل گشت و گذار هست.
  • خروجی مش سه‌بعدی: شما میتونید خروجی رو به صورت فایل مش (mesh) دریافت کنید. این فایل‌ها به راحتی در موتورهای بازی‌سازی اصلی مثل Unity و Unreal Engine و نرم‌افزارهای مدل‌سازی سه‌بعدی قابل استفاده هستن.
  • تعامل با اشیا: اشیا پیش‌زمینه به صورت جداگانه مدل‌سازی میشن و این امکان رو فراهم میکنن که بعدا با اونها تعامل برقرار بشه.
  • شبیه‌سازی فیزیکی: چون خروجی به صورت مش سه‌بعدی هست، میشه از اون برای شبیه‌سازی‌های فیزیکی مثل برخورد (collision) یا شبیه‌سازی سیالات استفاده کرد.

کاربردهای اصلی:

  • توسعه بازی‌های ویدیویی: این مدل میتونه فرآیند تولید صحنه‌های سه‌بعدی بازی رو به شکل قابل توجهی ساده‌تر کنه. توسعه‌دهنده‌ها میتونن از گرافیک‌های مختلف، از تصاویر کارتونی شبیه بازی Fortnite گرفته تا مناظر شهری واقع‌گرایانه، برای بازی‌هاشون استفاده کنن.
  • واقعیت مجازی (VR): محیط‌های ۳۶۰ درجه کاملی که این مدل تولید میکنه، برای دستگاه‌هایی مثل Apple Vision Pro یا Meta Quest آماده هستن و میتونن یک تجربه VR فراگیر بسازن.
  • تولید محتوای دیجیتال: برای ساخت انیمیشن، جلوه‌های ویژه و انواع دیگه محتوای دیجیتال میشه از این مدل کمک گرفت.
  • شبیه‌سازی: امکان خروجی گرفتن از مش، این مدل رو برای استفاده در سیستم‌های مبتنی بر فیزیک مناسب میکنه.

فصل پنجم: اطلاعات فنی و نحوه دسترسی

تیم Hunyuan گفته که نسخه متن‌باز این مدل بر اساس تولیدکننده تصویر Flux ساخته شده، اما میشه اون رو با مدل‌های دیگه مثل Hunyuan Image، Kontext و Stable Diffusion هم تطبیق داد.

این مدل با یک مجوز به اسم «tencent-hunyuanworld-1.0-community» در دسترس قرار گرفته که هم استفاده آکادمیک و هم استفاده تجاری رو مجاز میکنه. افرادی که فقط میخوان مدل رو تست کنن و نمیخوان اون رو به صورت محلی روی سیستم خودشون اجرا کنن، میتونن به پلتفرم تنسنت برن و کار تولید دنیا رو شروع کنن.

برای کسانی که میخوان به صورت فنی‌تر با مدل کار کنن، منابع زیر در دسترس هست:

  • مخزن گیت‌هاب: https://github.com/Tencent-Hunyuan/HunyuanWorld-1.0
  • مدل‌ها و وزن‌ها: https://huggingface.co/tencent/HunyuanWorld-1
  • پست معرفی در شبکه X: https://x.com/TencentHunyuan/status/1949288986192834718

تیم توسعه‌دهنده همچنین از مشارکت‌کننده‌های پروژه‌های متن‌باز دیگه‌ای مثل Stable Diffusion، FLUX، diffusers، HuggingFace، Real-ESRGAN، ZIM، GroundingDINO، MoGe، Worldsheet و WorldGen برای تحقیقات بازشون تشکر کرده.

برای ارجاع آکادمیک به این کار، فرمت زیر ارائه شده:

@misc{hunyuanworld2025tencent,
title={HunyuanWorld 1.0: Generating Immersive, Explorable, and Interactive 3D Worlds from Words or Pixels},
author={Tencent Hunyuan3D Team},
year={2025},
archivePrefix={arXiv},
primaryClass={cs.CV}
}

فصل ششم: مقایسه و بنچمارک مدل

مدل HunyuanWorld 1.0 در هر دو وظیفه تولید دنیا از تصویر (image-to-world) و تولید دنیا از متن (text-to-world) مورد ارزیابی و بنچمارک قرار گرفته و در برابر مدل‌های رقیب، برتری‌هایی رو نشون داده.

  • در بخش تولید دنیا از تصویر:
    این مدل با استفاده از دیتاست‌های دنیای واقعی مثل World Labs و Tanks and Temples ارزیابی شده و با مدل‌هایی مثل WonderJourney و DimensionX مقایسه شده. برای این مقایسه از معیارهایی مثل BRISQUE و NIQE (برای کیفیت بصری)، Q-Align (برای هم‌ترازی هندسی) و CLIP-I (برای سازگاری معنایی) استفاده شده. در این تست‌ها، HunyuanWorld در تمام این معیارها بهترین امتیاز رو کسب کرده که نشون‌دهنده اعوجاج کمتر، انسجام عمق بهتر و هم‌ترازی قوی‌تر با تصویر ورودی اصلی هست.
  • در بخش تولید دنیا از متن:
    این مدل در برابر مدل‌هایی مثل Director3D و LayerPano3D روی مجموعه‌ای از پرامپت‌ها (دستورهای متنی) با سبک‌ها، طول‌ها و انواع صحنه‌های مختلف آزمایش شده. در اینجا هم در تمام زمینه‌های اندازه‌گیری شده، از جمله CLIP-T (برای وفاداری معنایی)، Q-Align (برای انسجام عمق) و معیارهای کیفیت تصویر مثل BRISQUE و NIQE، از رقبای خودش عملکرد بهتری داشته.

علاوه بر بازسازی سه‌بعدی، ماژول Panorama-DiT این مدل هم در زمینه تولید پانوراما (هم از متن و هم از تصویر) ارزیابی شده و در این بخش هم از مدل‌های اختصاصی تولید پانوراما مثل Diffusion360، MVDiffusion و PanFusion عملکرد بهتری رو ثبت کرده.

فصل هفتم: واکنش‌ها و سوالات جامعه فنی

بعد از معرفی این مدل، بعضی از افراد در جامعه فنی سوالات و کنجکاوی‌هایی رو مطرح کردن. برای مثال، بعضی‌ها کنجکاو بودن که آیا این مدل یک دنیای سه‌بعدی واقعی و قابل کاوش تولید میکنه یا بیشتر یک تصویر ۳۶۰ درجه شبه‌سه‌بعدی هست که با لایه‌بندی عمق ساخته شده. این سوال به خاطر اشاره‌های زیاد در وایت‌پیپر پروژه به «پروجکشن مستطیلی» و «لایه‌بندی عمق» به وجود اومده بود.

سوالات فنی دیگه‌ای هم پرسیده شد. مثلا اینکه این سیستم چطور میتونه واقعا کار کنه، مگر اینکه یک رویکرد کاملا جدید توسعه داده بشه؛ شاید یک سیستم مبتنی بر هوش مصنوعی که دارایی‌های دوبعدی رو به مش‌های سه‌بعدی کاملا تعاملی با قابلیت برخورد (collision) مناسب تبدیل کنه. بدون چنین چیزی، این حس وجود داره که این مفهوم ممکنه به بن‌بست بخوره.

همچنین سوالاتی در مورد نحوه مدیریت حالت چندنفره (multiplayer) و اینکه آیا ساختاری مشابه پلتفرم‌های اجتماعی سه‌بعدی که در اونها کاربرها میتونن به صورت همزمان با عناصر دوبعدی و سه‌بعدی تعامل داشته باشن، در این پروژه وجود داره یا اینکه هنوز یک ایده دور از دسترس به حساب میاد، مطرح شد. سوال دیگه‌ای که پرسیده شد این بود که چطور میشه از هدست‌های واقعیت مجازی (VR) با این دنیاهای ساخته شده استفاده کرد.

منابع

  • [۱] Reddit – The heart of the internet
  • [۲] No title
  • [۳] 腾讯混元3D
  • [۴] tencent/HunyuanWorld-1 · Hugging Face
  • [۵] Instagram
  • [۶] Tencent’s Hunyuan Team Releases Open-Source Hunyuan3D World Model 1.0, Can Generate Explorable 3D Worlds | Technology News
  • [۷] WAIC Shanghai: Tencent, SenseTime launch new AI models to stir up industry rivalry | South China Morning Post
  • [۸] Stealth Extraction Failed
  • [۹] 🚨 Hunyuan releases World-1.0, the first “3D world generation model” | Leo Kadieff
  • [۱۰] Hunyuan World 1 : 1st open-sourced Interactive 3D World Generation AI model | by Mehul Gupta | Data Science in Your Pocket | Jul, 2025 | Medium

دیدگاه‌ها

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *