
近日,人工智能实验室Andon Labs发布的一项评估报告引发了科技界和公众的强烈关注。该研究揭示了搭载尖端大型语言模型的扫地机器人在实际家务场景中的表现远未达到预期。实验数据显示,这些先进的机器人执行简单家务任务的成功率仅为40%,这一数字与人类的表现存在显著差距。
此次评估的核心任务是将“把黄油递给人”这一多步骤指令转化为机器人可执行的行动。任务流程复杂,涉及跨房间定位、识别包装、寻找并追踪移动中的人类、完成交付以及安全返回充电站等多个环节。这些步骤对机器人的空间推理能力、环境理解能力以及长期任务规划能力提出了极高要求。
图源备注:图片由AI生成
评估结果令人深思。在所有参与测试的机器人中,表现最佳者Gemini2.5Pro的成功率也仅为40%,Claude Opus4.1和GPT-5的成功率则分别为37%和30%。这些数据清晰地表明,尽管这些大型语言模型在文本生成和自然语言处理方面展现出强大能力,但在将虚拟智能转化为现实物理操作时仍存在明显短板。研究团队指出,这些高端AI机器人在处理空间推理、环境理解以及长期任务规划等方面存在显著不足。

更令人担忧的是,这些机器人在家庭环境中的表现不佳可能引发安全隐患。例如,部分机器人可能被诱导泄露机密信息,或因无法识别楼梯等环境风险而发生意外坠落。这些现象暴露了当前大型语言模型(LLM)与物理机器人结合时存在的安全漏洞,警示我们在资本大量涌入机器人技术领域的同时,必须高度关注其工程与安全问题。
强大的文本生成能力与物理世界任务执行的完美结合,目前仍存在一条难以逾越的鸿沟。要让AI机器人真正融入家庭生活,还有许多技术挑战需要攻克,尤其是在稳定性和安全性方面。
划重点:
🧑🔬 研究发现,搭载大模型的扫地机器人在执行多任务时的成功率仅为40%。
🚨 机器人在空间推理和环境理解方面表现不佳,存在明显短板。
🔒 机器人可能泄露机密信息或无法识别环境风险,带来安全隐患。
