1月24日,领先的训练数据公司Mercor发布了一份重磅研究报告,揭示了主流人工智能模型在真实办公环境下的实际表现。该研究采用创新的基准测试APEX-Agents,通过模拟律师、顾问等专业人士的工作流程,评估AI模型在处理跨邮件、PDF文档、电子表格等多源信息协同任务时的准确率。结果显示,尽管AI技术在不断进步,但在复杂多步骤任务中的准确率最高仅为24%。

在此次测试中,Gemini 3 Flash与GPT-5.2表现相对突出,分别位列前两位,但其准确率均未超过25%。值得注意的是,大多数AI模型的准确率都徘徊在20%以下,这表明当前AI技术在实际办公场景中的应用仍面临诸多挑战。

Mercor首席执行官在报告中指出,AI模型在上下文整合能力方面存在明显短板,往往容易混淆任务细节或轻易放弃复杂任务,导致整体表现不尽如人意。他形象地将目前的AI水平比喻为“不可靠的实习生”,虽然能够完成一些基础工作,但难以胜任需要深度思考和知识整合的复杂任务。

与一年前5%-10%的准确率相比,AI在办公场景中的表现确实取得了显著进步。然而,这一提升距离真正胜任复杂知识工作仍存在明显差距。Mercor的这份报告不仅揭示了AI技术的现状,也为未来AI模型的优化方向提供了重要参考。随着技术的不断迭代,我们有理由相信,AI将在未来办公场景中发挥越来越重要的作用,但实现这一目标仍需时日和持续的努力。

最新快讯

2026年01月26日

12:39
在机器人向“具身智能”全面迈进的今天,如何让钢铁之躯拥有像人类一样灵敏的“触感”,成为了突破精细化操作瓶颈的关键。2026年1月26日,国地中心联合纬钛机器人正式发布了全球首个、也是目前规模最大的跨本体视触觉(Vision-Based Tactile Sensor)多模态数据集——白虎-VTouch。这一数据集的诞生,不仅填补了机器人视触觉交互领域的空白,更...
12:39
近日,国地中心联合纬钛机器人发布了全球首个,也是目前规模最大、模态最完整的跨本体视触觉多模态机器人操作数据集:白虎 - VTouch。该数据集的发布,标志着机器人视触觉感知从单一形态向跨本体真实交互的跨越。白虎 - VTouch首创了跨本体视触觉多模态真实交互的数据采集新范式。它不仅包含高精度的视触觉传感器数据,还集成了 RGB-D 深度视觉、关节位姿等关键...
12:39
在通用大模型如潮水般涌现的当下,人工智能正加速向硬科技的深水区挺进。2026年1月26日,上海交通大学正式发布了光领域垂直大模型Optics GPT。这一成果不仅标志着我国在“AI+硬科技”交叉融合领域取得重要突破,更通过精准的专业洞察,为光学研发装上了一颗聪明的“数字大脑”。“资深专才”:像培养博士生一样炼成 AI 专家如果说 ChatGPT 是无所不知的...
12:39
近期网络上关于千问AI打电话订餐厅背后是否由真人操作的质疑声不断,千问官方于1月26日及时发布声明进行辟谣,澄清了这一误解。官方强调,AI助手在通话过程中展现出的停顿、语气变化以及独特的"人情味",均非真人操作所致,而是其搭载的先进实时情绪与意图识别引擎的功劳。这项突破性技术能够在短短100毫秒内精准识别超过50种复杂情绪状态,并实时匹配最恰当的共情话术,从...
12:29
安徽墨甲智创机器人科技有限公司于1月21日成功完成工商变更,其股东结构迎来重要调整,新增伯特利、富春染织以及智元创新(上海)科技股份有限公司三家知名企业为股东。伴随此次变更,公司注册资本实现显著增长,从原有的1亿元人民币增至约1.04亿元人民币,彰显了市场对该公司未来发展的坚定信心。 该公司由奇瑞汽车于2025年1月战略设立,专注于人形机器人与机器狗等前沿领...
12:29
1月23日,阿尔法·罗密欧首席执行官圣托·菲奇利正式宣布了一项重大战略调整,宣布新一代Giulia和Stelvio将彻底告别纯电路线。面对当前市场环境与法规政策的深刻变革,品牌决定转向STLA Large平台,为这两款旗舰车型提供燃油、插混以及增程式等多种动力选择。这一决策不仅涉及平台架构的全面革新,更涵盖了电子架构和车联网系统的深度重构,是Stellant...
12:29
1月25日,追觅科技创始人俞浩向外界公布了一项令人瞩目的计划:公司已精心选拔10名优秀员工,专程乘坐飞机抵达南极冰面跑道,开启一场非凡的极地探险之旅。更令人期待的是,团队计划继续向遥远的南极极点进发。这一壮丽行动不仅是对公司核心理念“去最远的地方”的生动诠释,更彰显了追觅科技勇于探索、敢于挑战的企业精神。据悉,此次南极之旅的筹备工作历时超过半年,绝非一时兴起...
12:29
Keychron于1月23日震撼发布全新V Ultra 8K系列三模机械键盘,涵盖V1/V3/V5三款型号,全球首发售价区间为114.99至119.99美元。这款备受期待的键盘不仅搭载了先进的ZMK固件系统,更实现了蓝牙/2.4GHz/有线三模连接的完美融合,为用户带来极致灵活的输入体验。其无线续航能力更是达到了惊人的660小时,足以满足长时间移动办公和娱乐...
12:29
2026年2月5日,国产镜头巨头唯卓仕将迎来历史性时刻——正式发布旗下首款L卡口镜头产品。这款备受期待的镜头预计将采用16mm F/1.8超广角大光圈定焦设计,完美适配全画幅及APS-C画幅无反相机,为摄影爱好者带来前所未有的视觉体验。这一发布不仅标志着唯卓仕自2025年9月加入L卡口联盟后的首次硬件落地,更彰显了其在高端镜头领域的雄心与实力。 L卡口作为由...
11:58
2026年1月26日,一汽-大众传来振奋人心的消息,宣布在充满挑战的2025年,大众品牌燃油车在中国市场实现了逆势增长,市场份额显著提升0.6个百分点,强势占据行业第一阵营。旗下明星车型速腾、迈腾、探岳家族的销量表现尤为亮眼,分别达到了25万辆、21.5万辆和18.7万辆,充分彰显了其强大的市场号召力和消费者认可度。 展望2026年,一汽-大众将全面贯彻“油...
11:58
1月26日,钙钛矿新材料领域的领军企业现象光伏正式宣布成功完成A轮融资,此次融资由南山战新投与普乐创投联合领投。作为钙钛矿材料研发与应用的先行者,现象光伏凭借其自主研发的功能材料、高度定制化的制备方案以及基于高通量AI的新材料开发平台,正全力加速推动钙钛矿材料在光伏组件、建筑光伏一体化(BIPV)、柔性/室内光伏及车载光伏一体化(VIPV)等多个关键场景的产...
11:57
2026年1月,正值马年春节来临之际,一场盛大的奢侈品盛宴在天猫年货节上拉开帷幕。江诗丹顿、宝格丽、GUCCI、PRADA等全球200家顶级奢侈品牌齐聚一堂,集中首发超过1万款马年生肖限定及农历新年系列新品,为消费者带来一场融合东西方美学的视觉盛宴。 这些新品覆盖腕表、珠宝、服饰、配饰等全品类,价格跨度极大,从象征幸运的千元红绳吊坠,到高达137万元的艺术腕...