微新创想(idea2003.com) 10 月 27 日消息:波士顿动力公司近日震撼发布其新一代机器人狗 Spot 的升级版,这款智能导游机器人不仅具备行走和交流能力,更搭载了先进的聊天机器人技术,以独特的英国口音为游客提供沉浸式场所导览服务。通过与 ChatGPT 及其他开源大型语言模型(LLMs)的深度集成,Spot 能够精准训练其响应机制,为人们带来前所未有的互动体验。
Spot 不仅能通过预设对话和视觉问答模型回答关于周围环境的问题,还能在波士顿动力设施的演示视频中,以机械口型展示周围环境并实时回答观众提问,营造出逼真的交流场景。波士顿动力的首席软件工程师 Matt Klingensmith 透露,他们为 Spot 的每个房间都准备了简短脚本,机器人会利用其抓手和身体摄像头收集房间图像,获取更多视觉信息,并据此生成响应。视觉问答模型更让 Spot 能够为图像添加标题并解答相关疑问。
在展示 Spot 的舞蹈和跑酷技能之外,波士顿动力通过生成式 AI 技术赋予机器人直接听取并回应人类输入的能力。这些机器人拥有多种人格设定,包括热情讨论地下矿物的「贵金属女牛仔」,以押韵对偶回应的「莎士比亚时空旅行者」,以及喜欢调侃 Klingensmith 的「Josh」人格。Klingensmith 在波士顿动力官方博客中强调:「我们正持续探索人工智能与机器人技术的交汇点。这些大型语言模型(LLMs)能够提供文化背景、常识知识和灵活性,对各类机器人任务都极具价值。例如,仅通过对话就能指派任务,这将大幅降低使用这些系统的学习门槛。」
与此同时,OpenAI 也为其聊天机器人 ChatGPT 添加了声音和图像识别功能。ChatGPT 现在能够生成由真人声音演员合成的 AI 声音线,并识别图像内容提供信息。这一更新为 AI 技术开辟了新领域,包括波士顿的机器人狗 Spot,也终于实现了听和说的能力,标志着人机交互迈入全新阶段。