AI测评过度偏重编程任务 忽视92%真实职业需求

微新创想:卡内基梅隆大学与斯坦福大学的一项最新联合研究指出,当前人工智能智能体(AI Agent)的发展正陷入严重的“路径依赖”现象。研究团队系统分析了43个主流AI基准中的7.2万个任务,并将其与美国政府O*NET职业数据库中的1016种真实职业进行对比。结果显示,现有的AI测评体系存在明显的失衡问题。

研究发现,数字化行业的“基准盲区”尤为突出。尽管管理类工作的数字化程度高达88%,但在现有AI基准测试中仅占1.4%。同样,法律工作的数字化程度为70%,却在基准测试中的占比仅为0.3%。这种偏差表明,当前的AI测评并未充分反映现实世界中大多数职业的实际需求。

技能覆盖严重脱节是另一个关键问题。当前的AI测评主要考量“获取信息”和“计算机操作”这两类技能,它们仅覆盖了不到5%的美国就业岗位。而现实工作中至关重要的“人际互动”分类,在现有的AI测试中几乎无人问津。这导致AI在处理需要沟通、协作和情感理解的任务时表现不佳。

复杂度增加导致“能力跳水”现象也引起了研究人员的关注。他们发现,AI智能体的自主性在面对复杂任务时表现极差。即便是在最擅长的软件开发领域,一旦任务步骤增多、逻辑变复杂,AI的成功率就会出现断崖式下跌。这说明当前的AI系统在处理多步骤、高逻辑的任务时仍存在明显短板。

研究者呼吁,未来的AI基准测试应向管理、法律、建筑及工程等高价值、高数字化领域倾斜。同时,测评不应只关注最终结果,更应关注AI在执行过程中的中间步骤,以解决目标模糊和验证周期长等现实痛点。这一建议旨在推动AI技术更全面地服务于各行各业。

这一结论也得到了市场数据的印证。Anthropic近期分析显示,其API调用中近50%仍集中在软件开发。专家警告称,如果AI开发继续盲目追求易于自动评分的编程任务,可能会错失AI在更广泛经济领域发挥生产力价值的最佳时机。这提示我们,AI的发展方向需要更加多元化和贴近实际应用场景。

最新快讯

2026年03月09日

17:44
微新创想:高校开学季到了,当不少同学还在回味寒假的轻松时光时,成都一名大三学生罗浩却早早结束假期,以一身骑手工装和一辆电动车为自己的寒假生活画上了特别的句号。这个寒假,他化身外卖骑手,连续43天无休地穿梭在城市的大街小巷,最终凭借这份寒假工实现了收入过万元。 罗浩透露,自己大学学的是财务管理专业,这次选择送外卖,一方面是想体验不同的工作,另一方面也是想靠自己...
17:44
微新创想:近日,江西南昌发生了一件让人哭笑不得的事儿。一名男子喝醉酒后,竟然稀里糊涂地把自己卡进了一个塑料篮里,怎么也出不来,旁边还没人能搭把手,就这么被困了整整3个小时! 据现场目击者说,这男子当时醉醺醺的,也不知道怎么想的,就往那塑料篮里一坐,结果身子卡住了,动弹不得。他试图自己挣脱出来,可越挣扎卡得越紧,最后只能无奈地坐在篮子里,等着人来救。 幸运的是...
17:44
微新创想:最近,关于“包书皮是否真的有必要”的话题在网络上引发了热议。不少家长和学生在新学期开始时,都会面临这样一个选择:到底要不要给新书包上书皮呢? 有家长觉得,包书皮能保护书本,延长使用寿命,特别是对于那些经常翻阅、容易磨损的课本来说,包上书皮确实能起到一定的保护作用。而且,现在市面上书皮种类繁多,图案精美,包上书皮还能让书本看起来更加整洁美观。 然而,...
17:44
微新创想:近日,河南有位大学生寒假宅家快俩月,眼瞅着就要开学了,没想到父母的态度让她哭笑不得——爸妈竟然盼着她早点回学校!据这位父亲讲,女儿开学那天要赶早上6点40的飞机,他凌晨1点就打算打车送女儿去机场,还一本正经地说:“可不能让飞机等咱,得提前到!”母亲也在一旁打趣,说不如晚饭后就送过去,省得赶时间。 这一幕被家人拍下来发到网上,立马引来网友们的疯狂调侃...
17:44
微新创想:3月8日,河南发生了一幕让人动容的场景。一位女子在好友去世后,吹起唢呐为好友送行,泪洒现场,令无数网友为之动容。她的举动不仅展现了对逝去好友的深切怀念,更触动了无数人内心最柔软的部分。 据这位女子透露,她和去世的好友之间有个特别的约定。年前,好友曾对她说,等自己走了以后,希望女子能吹一段《秦雪梅吊孝》。这个约定承载着深厚的情感,也成为了两人之间无法...
17:44
微新创想:近日,一款图标酷似红色龙虾的开源智能体项目 OpenClaw 在AI圈走红,催生了“养龙虾”的热潮。该项目凭借其独特的视觉设计和强大的功能,迅速吸引了大量开发者和科技爱好者的关注,成为开源社区中备受瞩目的新星。 紧扣这一技术趋势,深圳市龙岗区于3月7日正式发布《深圳市龙岗区支持OpenClaw及OPC发展的若干措施(征求意见稿)》简称“龙虾十条”。...
17:44
微新创想:席卷全球科技行业的白领裁员潮正揭开其残酷的真相 在许多公司,裁员的真正动因并非 AI 技术已经成熟到可以完全替代人力,而是企业正在进行激进的“资金挪移”——将原本用于支付员工薪酬的预算,大规模转向购买昂贵的 AI 芯片和建设数据中心 据媒体报道,甲骨文(Oracle)近期计划启动其历史上规模最大的重组,预计裁员人数高达 3 万人。这一决策的核心逻辑...
17:44
微新创想:2026年3月9日,联想百应宣布与美团达成深度合作,正式推出OpenClaw远程部署服务。该服务通过“专业工程师代操作+全流程透明化”模式,旨在解决AI应用落地过程中复杂的技术部署难题。用户目前可通过美团App搜索“龙虾安装”直达服务页面,由联想百应认证的工程师提供远程一键配置。 此举标志着OpenClaw从极客圈层向大众市场的跨越,实现了AI部署...
17:12
微新创想:近日,网络上关于“中年男人为何去哪都要开车”的话题引发了广泛热议。不少网友发现,身边的中年男性朋友们,无论是日常通勤、接送孩子,还是周末出游,似乎都更倾向于选择驾车出行。这一现象背后,究竟隐藏着哪些原因呢 据了解,对于许多中年男人来说,开车不仅仅是一种出行方式,更是一种生活态度的体现。在快节奏的现代生活中,他们面临着巨大的通勤压力和生活重担,而开车...
17:12
微新创想:一股新中式乐园热潮正席卷全国,亮眼数据宣告文旅市场新势力的强势崛起。2月10日至2月23日,杭州《德寿夜宴》以沉浸式夜游的形式,吸引游客超1.8万人次,票务收入破110万元,带动文创与市集消费再增20余万元。此外,开封万岁山武侠城2025年游客量突破2452万人次,综合营收达12.7亿元,同比增长136.5%;清明上河园全年接待游客也突破1100万...
17:12
微新创想:2026年3月9日,英矽智能与Liquid AI宣布达成战略合作,共同开发面向制药研究的轻量化科学基础模型。此次合作标志着两家公司在人工智能与生命科学交叉领域迈出重要一步。 双方联合发布首个成果LFM2-2.6B-MMAI(v0.2.1),该模型基于液态基础模型(LFM)技术,摒弃传统多模型拼接路径,实现端到端统一架构。这一创新设计不仅简化了模型结...
17:12
微新创想:2026年3月9日24时起,国家发展改革委宣布国内成品油价格上调。此次调价是2026年的第五次价格调整,标志着国内油价在年内持续攀升的趋势。由于国际油价的震荡上升,国内汽、柴油价格每吨分别上涨695元和670元。 全国平均来看,92号汽油每升上涨0.55元,95号汽油涨0.58元,0号柴油涨0.55元。这意味着,对于一辆50L油箱的私家车而言,加满...