微新创想9月2日讯 腾讯混元今日正式发布业界首款原生3D重建超长漫游世界模型——混元Voyager,这一突破性成果标志着AI在空间智能领域迈入新纪元。该模型在世界模型基准测试WorldScore综合能力排名中独占鳌头,不仅全面超越现有开源方法,更在视频生成与3D重建任务上展现出卓越性能,相关成果已通过视频生成和视频3D重建两大核心任务得到验证。

混元Voyager专为拓展AI在空间智能领域的应用而生,将为虚拟现实、物理仿真及游戏开发等前沿领域提供前所未有的高保真3D场景漫游解决方案。该模型彻底突破传统视频生成在空间一致性与探索范围上的双重桎梏,能够生成长距离、世界逻辑高度统一的漫游场景,并支持将视频内容直接转换为3D格式输出,实现从2D到3D的无缝跨越。

据悉混元Voyager的3D输入-3D输出特性与已开源的混元世界模型1.0高度兼容,可进一步拓展1.0模型的漫游范围,显著提升复杂场景的生成质量,同时赋予用户对生成场景的风格化控制与编辑能力。此外该模型还具备视频场景重建、3D物体纹理生成、视频风格定制化生成、视频深度估计等多样化3D理解与生成应用能力。

官方强调混元Voyager创新性地采用空间与特征结合的技术路径,首次实现原生3D记忆与场景重建功能,有效规避了传统后处理流程带来的延迟与精度损失。通过在输入端加入3D条件保证画面视角精准,输出端直接生成3D点云,实现了与多种应用场景的完美适配。特别值得一提的是,额外提供的深度信息支持视频场景重建、3D物体纹理生成、风格化编辑和深度估计等高级功能,为用户创造更丰富的应用可能。
