
微新创想:4月16日 蚂蚁灵波科技正式宣布开源流式三维重建模型 LingBot-Map
该模型突破性地实现了仅依靠单个普通 RGB 摄像头 即可在视频采集过程中实时估计相机位姿并重建场景三维结构
这一进展为机器人导航 自动驾驶及 AR 硬件等需要即时空间感知的应用场景 提供了高效 稳定且连续的在线建图能力
技术层面 LingBot-Map 采用流式处理架构 改变了传统方法需预先采集完整序列再统一处理的局限 实现了边接收画面边输出定位与结构的实时交互

在国际主流评测中 该模型表现出色 在极具挑战的 Oxford Spires 数据集上 其轨迹误差仅为此前最优流式方法的三分之一 甚至优于部分离线处理算法
性能指标显示 LingBot-Map 支持约20FPS 的实时推理 并能在超万帧的长视频运行中保持精度几乎不衰减 兼顾了高精度 高速度与长时稳定性
此次 LingBot-Map 的发布 是蚂蚁灵波继深度估计(Depth) 大语言动作模型(VLA)及世界模型(World)等系列成果后的又一重要动作
通过补齐实时空间理解这一核心环节 蚂蚁灵波进一步夯实了其具身智能“基座”的完整性
该模型的开源不仅降低了高精度三维感知的硬件门槛 更将加速具身智能设备在复杂动态环境中的感知与决策进化
