微新创想(idea2003.com)7月29日 消息:谷歌近日发布了一款名为Robotic Transformer(RT-2)的人工智能学习模型,旨在显著提升其机器人产品的智能化水平。RT-2是谷歌在视觉-语言-动作(VLA)模型领域的重要升级,该模型的核心功能在于帮助机器人更精准地识别视觉与语言信息,从而高效理解人类指令,并智能推断出完成特定任务所需的最佳物体选择。
在测试中,谷歌研究人员在模拟的厨房办公室环境中,让RT-2操控机械臂完成了一系列复杂任务。例如,要求机器人判断什么是一把理想的简易锤子——尽管实际选择的是一块石头,但机器人展现了出色的推理能力;又如为疲惫的人选择合适的饮料(红牛),并将可乐罐精准移动到泰勒·斯威夫特的照片上。值得注意的是,该机器人还展现出对流行文化的理解,被研究人员戏称为”Swiftie”,这一特性无疑为未来人机交互增添了更多趣味性和实用性。
谷歌在相关论文中详细阐述了RT-2的技术架构:该模型通过整合网络数据与海量机器人实践数据训练而成,充分吸收了谷歌自家的Bard等大型语言模型的先进成果,并将自然语言处理能力与机器人物理操作数据(如关节运动参数)无缝融合。更令人惊喜的是,RT-2不仅精通英语指令,还能理解多种语言的指令,真正实现了跨文化智能交互。
长期以来,机器人领域的研究重点始终是如何提升机器人的环境适应能力。The Verge科技评论家詹姆斯·文森特指出,现实世界环境极其复杂多变,人类往往能通过少量直观指令完成机器人需要大量繁琐指令才能完成的简单任务。以清理溢出饮料为例,人类会本能地拿起杯子、寻找清洁工具、处理垃圾,并形成未来避免类似状况的经验积累。传统机器人训练需要研究人员逐条编程,过程耗时且效率低下。而RT-2等VLA模型的问世,使机器人能够基于更丰富的信息进行自主推理,大幅简化了人机协作的复杂度。
回顾谷歌在智能机器人领域的探索历程,去年该公司首次尝试将PaLM大型语言模型应用于机器人技术,推出了名为PaLM-SayCan的混合系统,标志着谷歌正式进军智能机器人市场。尽管RT-2展现了令人瞩目的进步,但谷歌的新一代机器人产品仍存在改进空间。《纽约时报》的现场评测发现,该机器人存在苏打水口味识别错误、水果颜色分类失误等问题,这些细节上的不足也反映了当前人工智能在真实场景应用中的典型挑战。随着技术的持续迭代,我们有理由期待未来机器人将更加智能、更加人性化。