

1月29日,蚂蚁灵波科技再次引爆行业关注,继空间感知与VLA基座模型后,正式开源发布革命性世界模型——LingBot-World。这款模型在视频质量、动态表现、长时一致性及交互能力等核心指标上全面超越业界水平,媲美Google Genie3的顶尖表现,为具身智能、自动驾驶和游戏开发领域打造了一个高保真、高动态、可实时操控的“数字演练场”。(图说:LingBot-World在适用场景覆盖、生成时长、动态程度、分辨率等多项关键指标上均处于行业领先地位)

针对视频生成中普遍存在的“长时漂移”难题(如物体变形、细节塌陷、主体消失或场景结构崩坏等问题),LingBot-World通过创新的多阶段训练机制和并行化加速技术,实现了近10分钟的连续稳定无损生成,为长序列、多步骤的复杂任务训练提供了强大支撑。在交互性能方面,该模型可达到约16FPS的生成吞吐率,并将端到端交互延迟控制在1秒以内。用户可通过键盘或鼠标实时操控角色与相机视角,画面响应指令的即时反馈带来沉浸式体验。更值得一提的是,用户可通过文本指令触发环境变化与世界事件,如调整天气、切换画面风格或生成特定事件,在保持场景几何关系相对一致的前提下完成无缝转换。(图说:一致性压力测试显示,镜头最长移开60秒后返回,目标物体仍保持完整结构)(图说:高动态环境下,镜头长时间移开后返回,车辆形态外观无任何变化)(图说:镜头长时间移开后返回,房屋结构依然稳定)

作为一款具备Zero-shot泛化能力的模型,LingBot-World仅需输入一张真实照片(如城市街景)或游戏截图,即可生成可交互的视频流,无需针对单一场景进行额外训练或数据采集,显著降低了跨场景部署与使用的成本。为解决世界模型训练中高质量交互数据匮乏的瓶颈,研发团队采用了混合采集策略:一方面通过智能清洗大规模网络视频覆盖多样化场景,另一方面结合游戏采集与虚幻引擎(UE)合成管线,从渲染层直接提取无UI干扰的纯净画面,并同步记录操作指令与相机位姿,为模型学习“动作如何改变环境”的因果关系提供精准对齐的训练信号。

具身智能规模化落地面临的核心挑战之一,正是复杂长程任务的真机训练数据极度稀缺。LingBot-World凭借卓越的长时序一致性(即记忆能力)、实时交互响应能力,以及对“动作-环境变化”因果关系的深度理解,能够在数字世界中精准模拟物理世界,为智能体的场景理解和长程任务执行构建了一个低成本、高保真的试错平台。同时,该模型支持场景多样化生成(如光照、摆放位置变化等),有效提升了具身智能算法在真实场景中的泛化能力。
随着“灵波”系列连续发布三款具身领域大模型,蚂蚁集团在通用人工智能(AGI)战略上实现了从数字世界到物理感知的关键跨越。这标志着其“基础模型-通用应用-实体交互”的全栈技术路径已全面铺开。蚂蚁正通过InclusionAI社区将所有模型完全开源,与行业携手探索AGI的无限可能。一个深度融合开源开放并服务于真实场景的AGI生态体系,正加速构建。目前,LingBot-World模型权重及推理代码已全面向社区开放,欢迎全球开发者共同参与这场智能革命。
