微新创想(idea2003.com) 7月31日讯:在人工智能领域,谷歌再次引领创新浪潮。继能绘画的AI之后,谷歌最新推出的机器人控制AI模型——Robotics Transformer 2(RT2),将视觉、语言与动作完美融合,开创了人机交互的新纪元。这款先进的视觉-语言-动作(VLA)模型能够将文本和图像指令转化为精准的机器人动作,为未来智能机器人铺平了道路。
谷歌DeepMind的机器人主管Vincent Vanhoucke在博文中表示:”RT-2让我们离机器人的未来更近一步。”他解释道:”就像语言模型通过学习网络文本掌握思想概念一样,RT-2通过分析网络数据指导机器人行为,真正实现了与机器人的智能对话。”
Vanhoucke进一步阐述:”传统聊天机器人只需信息输入训练,而机器人需要更真实的’实践学习’。以红苹果为例,虽然我们可以向聊天机器人解释什么是苹果,但机器人必须掌握苹果的全部特性,学会区分苹果与红色球体,并掌握采摘技巧。”RT-2的突破性在于它能够自主从网络数据中获取知识,无需人工干预。例如,在处理垃圾处理任务时,RT-2可以自行学习垃圾的定义及处理方式,而无需预先编程。
经过6000多次试验验证,RT-2的表现不仅与前身RT-1相当,在全新场景中的表现更是提升了近一倍(62%对比32%)。这一成果表明,RT-2不仅能够学习知识,还能将所学应用于未知情境,展现了惊人的适应能力。
尽管目前RT-2仍存在局限,只能优化已知任务的执行效率,无法实现从零开始的学习,但这一突破性进展已为机器人技术带来了革命性变化。谷歌表示,RT-2的问世预示着人机协作新时代的来临。
想深入了解RT-2的技术原理?谷歌DeepMind博客提供了详尽的解析,揭示了这一创新AI如何改变机器人控制领域。