在机器人技术飞速发展的今天,如何让人工智能真正实现三维世界的深度理解,始终是行业面临的一大技术挑战。传统的视觉语言模型(VLA)大多基于二维图像和文本数据进行训练,这种局限性使得它们难以准确把握真实环境中的三维空间关系。最近,由上海交通大学和剑桥大学联合研发的 Evo-0 模型,为这一难题带来了突破性解决方案。该模型通过创新性地引入轻量化的三维几何先验知识,显著增强了机器人在复杂任务中的空间感知能力。
Evo-0 模型的核心创新在于其巧妙地融合了视觉几何基础模型(VGGT)与视觉语言模型。通过从多视角 RGB 图像中提取三维结构信息,Evo-0 能够构建出更加完整的环境认知框架。这种设计不仅避免了额外传感器或深度数据的依赖,更在无需复杂硬件升级的情况下,大幅提升了模型的空间理解精度。在 RLBench 仿真实验中,Evo-0 在五个精细操作任务上的成功率比基线模型 pi0 提高了15%,而在开放 VLA(openvla-oft)测试中更是实现了31%的显著提升。
具体来看,Evo-0 将 VGGT 定位为关键的空间编码器,通过提取 t3^D token 来传递三维几何信息。这些 token 不仅包含深度上下文,还蕴含了丰富的空间关系数据。通过精心设计的交叉注意力融合模块,模型能够高效整合二维视觉特征与三维空间信息,从而实现对环境布局和物体交互的精准把握。这种创新设计在保证训练效率的同时,也赋予了模型更高的灵活性和部署便捷性。
在真实世界测试中,Evo-0 的表现同样令人瞩目。无论是目标居中放置、插孔操作,还是密集抓取等复杂空间任务,该模型均超越了传统基线模型,平均成功率提升了28.88%。特别是在处理复杂空间关系和精细操控方面,Evo-0 展现出远超同行的能力。这一突破不仅为通用机器人策略的发展开辟了新路径,更在学术界和工业界引发了广泛关注。随着研究的深入,Evo-0 有望为机器人领域的实际应用带来革命性变革。更多详情请参考论文:https://arxiv.org/pdf/2507.00416