
微新创想:卡内基梅隆大学与斯坦福大学的一项最新联合研究指出,当前人工智能智能体(AI Agent)的发展正陷入严重的“路径依赖”现象。研究团队系统分析了43个主流AI基准中的7.2万个任务,并将其与美国政府O*NET职业数据库中的1016种真实职业进行对比。结果显示,现有的AI测评体系存在明显的失衡问题。
研究发现,数字化行业的“基准盲区”尤为突出。尽管管理类工作的数字化程度高达88%,但在现有AI基准测试中仅占1.4%。同样,法律工作的数字化程度为70%,却在基准测试中的占比仅为0.3%。这种偏差表明,当前的AI测评并未充分反映现实世界中大多数职业的实际需求。
技能覆盖严重脱节是另一个关键问题。当前的AI测评主要考量“获取信息”和“计算机操作”这两类技能,它们仅覆盖了不到5%的美国就业岗位。而现实工作中至关重要的“人际互动”分类,在现有的AI测试中几乎无人问津。这导致AI在处理需要沟通、协作和情感理解的任务时表现不佳。
复杂度增加导致“能力跳水”现象也引起了研究人员的关注。他们发现,AI智能体的自主性在面对复杂任务时表现极差。即便是在最擅长的软件开发领域,一旦任务步骤增多、逻辑变复杂,AI的成功率就会出现断崖式下跌。这说明当前的AI系统在处理多步骤、高逻辑的任务时仍存在明显短板。
研究者呼吁,未来的AI基准测试应向管理、法律、建筑及工程等高价值、高数字化领域倾斜。同时,测评不应只关注最终结果,更应关注AI在执行过程中的中间步骤,以解决目标模糊和验证周期长等现实痛点。这一建议旨在推动AI技术更全面地服务于各行各业。
这一结论也得到了市场数据的印证。Anthropic近期分析显示,其API调用中近50%仍集中在软件开发。专家警告称,如果AI开发继续盲目追求易于自动评分的编程任务,可能会错失AI在更广泛经济领域发挥生产力价值的最佳时机。这提示我们,AI的发展方向需要更加多元化和贴近实际应用场景。
