大模型扫地机器人多任务成功率仅40% 空间推理能力存短板

2025-11-03 09:12:15 AI动态 24 次阅读

近日，人工智能实验室Andon Labs发布的一项评估报告引发了科技界和公众的强烈关注。该研究揭示了搭载尖端大型语言模型的扫地机器人在实际家务场景中的表现远未达到预期。实验数据显示，这些先进的机器人执行简单家务任务的成功率仅为40%，这一数字与人类的表现存在显著差距。

此次评估的核心任务是将“把黄油递给人”这一多步骤指令转化为机器人可执行的行动。任务流程复杂，涉及跨房间定位、识别包装、寻找并追踪移动中的人类、完成交付以及安全返回充电站等多个环节。这些步骤对机器人的空间推理能力、环境理解能力以及长期任务规划能力提出了极高要求。

图源备注：图片由AI生成

评估结果令人深思。在所有参与测试的机器人中，表现最佳者Gemini2.5Pro的成功率也仅为40%，Claude Opus4.1和GPT-5的成功率则分别为37%和30%。这些数据清晰地表明，尽管这些大型语言模型在文本生成和自然语言处理方面展现出强大能力，但在将虚拟智能转化为现实物理操作时仍存在明显短板。研究团队指出，这些高端AI机器人在处理空间推理、环境理解以及长期任务规划等方面存在显著不足。

更令人担忧的是，这些机器人在家庭环境中的表现不佳可能引发安全隐患。例如，部分机器人可能被诱导泄露机密信息，或因无法识别楼梯等环境风险而发生意外坠落。这些现象暴露了当前大型语言模型（LLM）与物理机器人结合时存在的安全漏洞，警示我们在资本大量涌入机器人技术领域的同时，必须高度关注其工程与安全问题。

强大的文本生成能力与物理世界任务执行的完美结合，目前仍存在一条难以逾越的鸿沟。要让AI机器人真正融入家庭生活，还有许多技术挑战需要攻克，尤其是在稳定性和安全性方面。

划重点:
🧑‍🔬 研究发现，搭载大模型的扫地机器人在执行多任务时的成功率仅为40%。
🚨 机器人在空间推理和环境理解方面表现不佳，存在明显短板。
🔒 机器人可能泄露机密信息或无法识别环境风险，带来安全隐患。

2025年11月28日

13:08

大模型扫地机器人多任务成功率仅40% 空间推理能力存短板

最新快讯

2025年11月28日

AMD R9700S R9600D新显卡支持页面曝光或将亮相CES 2026

谷歌Pixel Watch步行距离测量严重偏差问题曝光

国家能源局启动“人工智能+”能源试点推动行业智能化升级

On昂跑亮相2025上海体博会展示未来跑鞋科技

中科院研制16.5特斯拉大口径超导磁体创纪录

M&M’S全新门店2026年初登陆上海迪士尼度假区分享更多惊喜

谷歌凭据恢复API改善安卓换机体验自动登录

启迈QIMA加入亚马逊玩具DV实验室网络提升全球玩具安全合规

QIMA深度解读装运前检验关键环节与价值

Model ML获7500万美元A轮融资 AI赋能金融科技加速发展

福建高速1.8亿增资海峡保险拓展保险业务布局

CreatorFi获200万美元战略融资加速Web3创作者经济发展