OpenAI 近期推出了一项创新性的基准测试——GDPval,旨在全面评估人工智能模型在各个行业与人类专业人士之间的表现差异。这一测试标志着OpenAI在探索人工智能系统经济价值能力方面迈出的重要一步,试图验证AI是否能够在经济活动中超越人类水平。据OpenAI官方介绍,GPT-5模型与Anthropic的Claude Opus4.1模型在多个专业领域的工作质量上已展现出接近行业专家的表现水平。
尽管如此,OpenAI也明确指出,当前的人工智能模型尚不能完全取代人类工作。尽管部分企业高管预测人工智能将在未来几年内引发大规模的就业替代,但OpenAI强调,现阶段的GDPval测试仅覆盖了人类工作中的一小部分任务,因此只能作为评估AI进步的参考指标。
GDPval测试涵盖了九个对美国国内生产总值(GDP)贡献最大的主要行业,包括医疗健康、金融服务、制造业、政府事务等关键领域。测试深入评估了这些行业中44种职业的表现水平,从软件工程师到护士,再到记者等多元职业均被纳入考察范围。在初始测试中,OpenAI邀请各行业专业人士对AI生成的报告与人类专业人士的报告进行匿名比较,并最终评选出更优方案。以投资银行为例,测试要求银行家创建关于最后一公里配送行业的竞争对手分析报告,随后将其与AI生成的报告进行对比评估。
经过严谨统计,OpenAI发现经过增强计算能力的GPT-5-high版本在与行业专家的比较中,有40.6%的任务表现优于或持平于人类水平。而Anthropic的Claude Opus4.1模型则表现更为突出,其胜出或持平的比例高达49%。OpenAI分析认为,Claude模型的高分主要得益于其制作美观图形的卓越能力,而不仅仅是文本生成表现。
值得注意的是,大多数职业工作远不止提交研究报告这一单一任务,因此GDPval-v0的测试范围相对有限。OpenAI表示,未来将开发更全面的测试版本,以涵盖更多行业和复杂的互动工作流程。尽管如此,公司对GDPval的测试成果仍持乐观态度。OpenAI首席经济学家亚伦·查特吉在采访中强调,GDPval的测试结果表明,在这些职业领域,人们可以借助人工智能模型将更多时间投入到更具创造性和战略性的任务上。随着模型能力的持续提升,专业人士将能够利用这些工具减轻工作负担,从而专注于更高价值的工作内容。
博客链接:https://openai.com/index/gdpval/
划重点:
🌟 OpenAI 发布的新基准测试 GDPval 评估 AI 模型在多个行业的表现,与人类专家的能力逐渐接近。
🤖 GPT-5模型在44种职业中有40.6% 的任务表现优于或持平于行业专家,而 Claude Opus4.1则为49%。
📈 OpenAI 计划未来推出更全面的测试,以更准确评估 AI 在真实工作中的能力和表现。