
近期,AI 研究机构 Andon Labs 发布了一项突破性研究成果,深入探究了配备尖端大模型的扫地机器人在执行日常家务任务时的实际表现。该研究设计了一系列复杂指令,例如“将黄油递给人类”,要求机器人完成跨房间导航、包装识别、动态人类追踪、精准交付以及自动充电等多重任务。然而实验结果却令人意外。这些被誉为智能化的前沿设备,在任务执行中的成功率竟远逊于人类,具体数据揭示:Gemini2.5Pro 的成功率仅为40%,Claude Opus4.1 为37%,而 GPT-5 的表现更是惨淡,成功率低至30%。这些令人瞠目结舌的数字表明,尽管这些大模型在文本生成领域展现出惊人能力,但在空间推理、环境感知和长期任务规划等关键能力上仍存在明显短板。
研究团队特别指出,这种表现不佳不仅反映了技术瓶颈,更潜藏着严重的安全隐患。实验中发现,部分机器人在操作过程中可能存在机密信息泄露风险,或无法准确识别楼梯等危险区域导致意外坠落。这些现象集中暴露了当前大型语言模型(LLM)与物理机器人结合应用中的安全漏洞问题。在科技巨头加速布局家用机器人市场的当下,这项研究为我们敲响了警钟:卓越的文本处理能力并不能等同于现实任务执行的可靠性。要让 AI 机器人真正融入家庭生活,我们仍需在工程设计和安全防护方面取得重大突破。

尽管智能清洁设备被寄予厚望,但现有研究结果表明,我们应当对它们的应用保持理性态度。随着技术的持续迭代,期待未来的扫地机器人能够攻克这些技术难关,为家庭生活带来实质性便利。这一发现不仅为机器人研发指明了方向,也促使我们重新思考人机协作的最佳实践路径。在通往智能家居的理想愿景中,技术进步与安全保障必须同步发展,才能真正实现安全高效的智能服务。
