
Google DeepMind公司近日宣布推出新一代多模态智能体SIMA2,该系统基于先进的Gemini2.5Flash-lite模型架构,在任务执行效率上实现了突破性进展,任务成功率较上一代SIMA1模型提升了约一倍。SIMA2的核心亮点在于其卓越的环境适应能力,能够在完全陌生的环境中完成复杂指令操作,并具备持续自我优化的智能特性。目前,该版本以研究预览的形式向公众开放,主要目的是验证实现通用机器人与通用人工智能(AGI)所必需的高层级世界理解及推理能力。

SIMA2的预训练过程延续了以数百小时游戏视频数据为基础的训练模式,但创新性地引入了自生成数据循环机制。当智能体进入新场景时,系统会自动调用独立的Gemini模型批量生成多样化任务指令,随后通过内部奖励模型对执行结果进行精准评分,筛选出高质量的行为轨迹用于持续微调。这一创新彻底摆脱了对人工标注数据的依赖,实现了智能体性能的自主提升。研究团队指出,该机制使SIMA2在《No Man’s Sky》等复杂测试环境中表现出色,能够通过阅读环境文本、识别颜色和符号,自主完成”前往红色房屋”或”砍伐树木”等指令,甚至可以理解emoji组合命令等创新交互方式。
在最新演示中,DeepMind将SIMA2与生成式世界模型Genie相结合,成功为智能体即时生成逼真的户外场景。在模拟环境中,智能体能够准确识别长椅、树木、蝴蝶等复杂对象,并与之进行自然交互。高级研究科学家Jane Wang强调,这种”看懂场景→推断目标→规划动作”的闭环决策流程,正是将虚拟环境中的智能能力迁移至真实机器人所必需的高级行为模块。不过需要指出的是,当前版本的SIMA2主要聚焦于高层决策规划,尚未涉及机械关节、轮子等底层控制技术。

值得关注的是,DeepMind同期还在采用不同技术路线训练机器人基础模型,目前尚不清楚这两条技术路线未来将如何融合。团队方面拒绝透露正式版产品的发布时间表,但明确表示希望通过此次研究预览吸引外部合作伙伴,共同探索虚拟智能体向实体机器人迁移的可行技术路径。这一开放姿态预示着人工智能领域跨学科合作的新趋势,有望加速通用机器人技术的商业化进程。
