微新创想:2026年3月,卡内基梅隆大学与斯坦福大学联合研究发现当前主流AI智能体在基准测试中的任务分布存在明显失衡
当前43个主流AI智能体基准测试中,92%以上任务集中在计算机与数学领域
这一领域仅占美国就业的7.6%而管理、法律、工程等高数字化、高经济价值领域覆盖不足1.5%
研究基于O*NET数据库将72342项任务映射至1016种职业揭示智能体在人际互动、模糊目标处理等现实技能上的空白
团队指出这种失衡源于任务编写和验证方法的偏好
他们认为这些方法更倾向于处理结构化、可量化的任务而忽视了复杂现实场景中的挑战
因此研究呼吁建立新的基准测试标准以覆盖更多跨领域、复杂的工作流
同时建议构建分阶段的自主性评估体系以更全面地衡量AI智能体的能力
这一发现为AI技术的发展方向提供了新的视角和建议
