AI办公任务准确率仅24% 难替代知识工作者

2026-01-26 11:25:50 快讯 2 次阅读

1月24日，领先的训练数据公司Mercor发布了一份重磅研究报告，揭示了主流人工智能模型在真实办公环境下的实际表现。该研究采用创新的基准测试APEX-Agents，通过模拟律师、顾问等专业人士的工作流程，评估AI模型在处理跨邮件、PDF文档、电子表格等多源信息协同任务时的准确率。结果显示，尽管AI技术在不断进步，但在复杂多步骤任务中的准确率最高仅为24%。

在此次测试中，Gemini 3 Flash与GPT-5.2表现相对突出，分别位列前两位，但其准确率均未超过25%。值得注意的是，大多数AI模型的准确率都徘徊在20%以下，这表明当前AI技术在实际办公场景中的应用仍面临诸多挑战。

Mercor首席执行官在报告中指出，AI模型在上下文整合能力方面存在明显短板，往往容易混淆任务细节或轻易放弃复杂任务，导致整体表现不尽如人意。他形象地将目前的AI水平比喻为“不可靠的实习生”，虽然能够完成一些基础工作，但难以胜任需要深度思考和知识整合的复杂任务。

与一年前5%-10%的准确率相比，AI在办公场景中的表现确实取得了显著进步。然而，这一提升距离真正胜任复杂知识工作仍存在明显差距。Mercor的这份报告不仅揭示了AI技术的现状，也为未来AI模型的优化方向提供了重要参考。随着技术的不断迭代，我们有理由相信，AI将在未来办公场景中发挥越来越重要的作用，但实现这一目标仍需时日和持续的努力。