腾讯近日重磅发布了创新性视频扩散框架 HunyuanWorld-Voyager,这一突破性技术能够通过单张输入图像生成具有世界一致性的3D点云,并支持用户沿着自定义相机路径进行沉浸式探索。官方强调,这是全球首个具备原生3D重建功能的超远距离世界模型,将重新定义AI驱动的VR、游戏和仿真空间智能。该模型不仅能生成精确对齐的深度信息和RGB视频,更能在无需后处理的情况下直接用于高质量三维重建,彻底改变了传统3D建模流程。
直接3D输出功能令人瞩目:用户无需依赖COLMAP等传统工具,即可将点云视频直接导出为3D格式,实现即时3D应用场景。其创新的3D内存机制引入了可扩展的世界缓存系统,确保任何摄像机轨迹下都能保持完美的几何一致性。在顶级性能表现方面,HunyuanWorld-Voyager在斯坦福WorldScore测试中拔得头筹,同时在视频生成和3D重建基准测试中展现出卓越能力。
该框架的架构设计包含两大核心组件。首先是”世界一致的视频扩散”系统,该组件采用统一架构,能够基于现有世界观测同时生成准确对齐的RGB视频和深度视频序列,确保全局场景的完美一致性。其次是”长距离世界探索”技术,通过高效的世界缓存机制结合点云剔除和自回归推理能力,支持迭代式场景扩展,并运用上下文感知一致性技术实现平滑视频采样。
为了训练HunyuanWorld-Voyager模型,研究团队开发了可扩展的数据构建引擎。这套自动化视频重建流水线能够对任意输入视频自动估计相机位姿和度量深度,无需人工标注,从而实现大规模多样化训练数据的快速构建。基于此流水线,团队整合了真实世界采集和虚幻引擎渲染的视频资源,最终构建了一个包含超过10万个视频片段的超大规模数据集。
实验评估结果令人振奋。在视频生成质量方面,HunyuanWorld-Voyager与四种主流开源相机可控视频生成方法对比,在PSNR、SSIM和LPIPS等关键指标上均取得压倒性优势。在场景重建测试中,该模型生成的视频在几何一致性方面同样表现突出。特别是在WorldScore静态基准测试中,HunyuanWorld-Voyager获得满分成绩,充分证明了其在相机运动控制和空间一致性方面的顶尖水平。
这一突破性成果不仅彰显了混元世界模型的巨大潜力,更为未来3D场景生成技术开辟了全新路径。划重点:🌍 HunyuanWorld-Voyager能基于单张输入图像生成具有世界一致性的3D点云,支持用户沉浸式探索。🎥该模型同时生成精确对齐的深度信息和RGB视频,适用于高质量三维重建。🏆在多项权威测试中,HunyuanWorld-Voyager在视频生成质量和场景重建效果上全面超越其他模型。