腾讯今日正式宣布开源混元世界模型1.1(WorldMirror),这一全新升级版本在多视图与视频输入支持、单卡部署效率及生成速度等方面实现了突破性进展,为3D重建技术的普及应用开辟了全新路径。混元世界模型1.1凭借其卓越性能,致力于将原本专业的3D重建技术转化为普通用户也能轻松驾驭的工具。该模型能够在短短数秒内,从视频或图片中高效生成专业级3D场景,显著提升了3D重建的效率与便捷性。其前身混元世界模型1.0于今年7月问世,作为业界首款兼容传统CG管线的开源可漫游世界生成模型,新版本在此基础上实现了多模态先验注入与多任务统一输出的端到端3D重建技术突破。
混元世界模型1.1的核心特性体现在三个维度:灵活处理多元输入、通用3D视觉预测及单卡部署秒级推理。通过创新的 多模态先验引导机制,该模型支持相机位姿、内参参数及深度图等多种信息的注入,确保生成3D场景的几何精度达到新高度。同时,模型实现了点云生成、深度图预测、相机参数解析、表面法线计算及新视角合成等全方位3D几何预测功能,展现出令人瞩目的性能优势。相较于传统3D重建方法,混元世界模型1.1采用纯前馈架构,在单次正向传播中即可直接输出所有3D属性,大幅缩短处理时间。针对8-32视图的典型输入,模型仅需1秒即可完成推理,完美满足实时应用场景需求。

在技术架构层面,混元世界模型1.1融合了多模态先验提示与通用几何预测架构,并创新性地引入课程学习策略,使模型在复杂真实环境中依然能保持高效准确的解析能力。通过动态注入机制,模型能够灵活适配各类先验信息,显著提升3D结构的一致性与重建质量。目前,混元世界模型1.1已全面开源至GitHub平台,开发者可轻松克隆仓库实现本地部署。同时,普通用户也可通过HuggingFace Space在线体验,只需上传多视图图像或视频,即可实时预览生成的3D场景效果。这一技术突破标志着3D重建领域迈入新纪元,未来将有力推动虚拟现实、游戏开发等行业的创新升级。
项目主页:https://3d-models.hunyuan.tencent.com/world
项目地址:https://github.com/Tencent-Hunyuan/HunyuanWorld-Mirror
Hugging Face 模型地址:https://huggingface.co/tencent/HunyuanWorld-Mirror

