近日,英伟达携手多伦多大学、向量研究所及德克萨斯大学奥斯汀分校的研究团队,共同推出了一项名为 **ViPE(视频姿势引擎)** 的革命性技术。这项突破性成果致力于攻克3D几何感知领域的关键难题——如何从纷繁复杂的自然视频数据中高效且精准地提取三维信息。作为自动驾驶、虚拟现实(VR)和增强现实(AR)等前沿技术的核心支撑,3D几何感知的重要性不言而喻。ViPE 创新性地实现了从原始视频素材中快速获取相机固有特性、运动轨迹以及高精度深度图,为构建可靠的空间AI系统提供了坚实的数据基础。
ViPE 的卓越之处在于其强大的适应性,能够灵活处理各类场景和相机类型,包括动态自拍视频、电影镜头、行车记录仪,以及针孔、广角和360°全景相机模型等多元化应用场景。
在技术实现层面,研究团队采用了一种多重约束的混合方法,确保 ViPE 能够达到业界领先的高精度水平。具体而言,该方法包含三个核心环节:
首先,通过在关键帧上进行密集束调整,精准估算相机参数、姿态和深度图;其次,引入 DROID-SLAM 网络的密集流约束和 cuvslam 库的稀疏点约束,兼顾稳健性和亚像素精度;最后,借助单目度量深度网络,有效解决尺度模糊性和一致性难题,生成高分辨率且时间连续的深度信息。
经过严格测试,ViPE 在多个权威基准测试中的表现均超越了现有技术(如 MegaSAM、VGGT 和 MASt3R-SLAM),不仅姿态与内在函数精度表现优异,更能在单个GPU上以每秒3到5帧的稳定速度运行,并成功构建出尺度一致的轨迹。
为促进空间AI领域的持续发展,研究团队还公开了一个包含约9600万帧标注数据的大规模数据集,为未来技术探索提供了宝贵的资源支持。ViPE 的问世不仅标志着3D几何感知技术迈上了新台阶,更为未来空间AI应用的落地奠定了坚实基础。
详情请访问:https://research.nvidia.com/labs/toronto-ai/vipe/