OpenAI 近期推出了一项创新性的基准测试——GDPval,旨在全面评估人工智能模型在各个行业与人类专业人士之间的表现差异。这一测试标志着OpenAI在探索人工智能系统经济价值能力方面迈出的重要一步,试图验证AI是否能够在经济活动中超越人类水平。据OpenAI官方介绍,GPT-5模型与Anthropic的Claude Opus4.1模型在多个专业领域的工作质量上已展现出接近行业专家的表现水平。

尽管如此,OpenAI也明确指出,当前的人工智能模型尚不能完全取代人类工作。尽管部分企业高管预测人工智能将在未来几年内引发大规模的就业替代,但OpenAI强调,现阶段的GDPval测试仅覆盖了人类工作中的一小部分任务,因此只能作为评估AI进步的参考指标。

GDPval测试涵盖了九个对美国国内生产总值(GDP)贡献最大的主要行业,包括医疗健康、金融服务、制造业、政府事务等关键领域。测试深入评估了这些行业中44种职业的表现水平,从软件工程师到护士,再到记者等多元职业均被纳入考察范围。在初始测试中,OpenAI邀请各行业专业人士对AI生成的报告与人类专业人士的报告进行匿名比较,并最终评选出更优方案。以投资银行为例,测试要求银行家创建关于最后一公里配送行业的竞争对手分析报告,随后将其与AI生成的报告进行对比评估。

经过严谨统计,OpenAI发现经过增强计算能力的GPT-5-high版本在与行业专家的比较中,有40.6%的任务表现优于或持平于人类水平。而Anthropic的Claude Opus4.1模型则表现更为突出,其胜出或持平的比例高达49%。OpenAI分析认为,Claude模型的高分主要得益于其制作美观图形的卓越能力,而不仅仅是文本生成表现。

值得注意的是,大多数职业工作远不止提交研究报告这一单一任务,因此GDPval-v0的测试范围相对有限。OpenAI表示,未来将开发更全面的测试版本,以涵盖更多行业和复杂的互动工作流程。尽管如此,公司对GDPval的测试成果仍持乐观态度。OpenAI首席经济学家亚伦·查特吉在采访中强调,GDPval的测试结果表明,在这些职业领域,人们可以借助人工智能模型将更多时间投入到更具创造性和战略性的任务上。随着模型能力的持续提升,专业人士将能够利用这些工具减轻工作负担,从而专注于更高价值的工作内容。

博客链接:https://openai.com/index/gdpval/

划重点:
🌟 OpenAI 发布的新基准测试 GDPval 评估 AI 模型在多个行业的表现,与人类专家的能力逐渐接近。
🤖 GPT-5模型在44种职业中有40.6% 的任务表现优于或持平于行业专家,而 Claude Opus4.1则为49%。
📈 OpenAI 计划未来推出更全面的测试,以更准确评估 AI 在真实工作中的能力和表现。

最新快讯

2026年02月09日

10:34
微新创想:近日有媒体报道称苹果公司计划向第三方语音助手开放CarPlay的接入权限 这意味着未来用户可能在车载系统中直接使用如ChatGPT等AI助手 根据彭博社的消息 苹果正在积极寻求为用户提供更多选择 允许他们在驾驶过程中使用更为丰富的语音助手服务 长期以来 苹果的CarPlay功能一直仅限于其自家的Siri语音助手 用户在驾驶时主要依赖这一助手来进行语...
10:34
微新创想:Anthropic 的研究员 Nicholas Carlini 在其最新博文中分享了一个激动人心的实验 16 个 Claude Opus 4.6 智能体在几乎无需人类干预的情况下 仅用两周的时间便合作编写了约 10 万行的 Rust 代码 成功构建了一个功能完备的 C 语言编译器 这项成果的背后是 Carlini 利用智能体团队功能部署的 16 个...
10:34
微新创想:在备受瞩目的美国“超级碗”赛事期间,AI 界的火药味也悄然升级。据 AIbase 报道,人工智能领域的独角兽企业 Anthropic 近期对其投放的重磅广告进行了文案修改。这一举动被视为是对竞争对手 OpenAI 态度的软化,旨在将双方的公开“喊话”降温。 微新创想:此前的风波源于 Anthropic 预先公布的一版广告文案,其中明确提到了“广告正...
10:34
微新创想:在2026年超级碗开赛的最后时刻,AI 巨头 Anthropic 对其备受瞩目的“大赛广告”进行了紧急修改。此举被外界视为在激怒 OpenAI 首席执行官萨姆·奥特曼(Sam Altman)后,Anthropic 试图在维持品牌立场与避免法律争议之间寻找平衡。 此前,Anthropic 预先公布的版本中使用了极具针对性的标语:“广告正在进入 AI,...
10:34
微新创想:就在本周末AI领域传出重磅资本动向 据媒体报道人工智能巨头Anthropic正处于新一轮融资的最后冲刺阶段 消息人士透露这家以Claude系列模型闻名的公司此次计划融资规模将超过200亿美元且整个流程推进极快有望在最快下周正式完成交易 这场融资不仅是“金额惊人”更让Anthropic的身价实现了跨越式暴涨 如果这一轮融资顺利落地Anthropic的...
10:34
微新创想:海洋与大气的微妙互动,一直是气象预报中的深奥课题。中国科学院南海海洋研究所与中国石油大学(华东)近日联合发布了一项重大成果——“南海区域海-气双向耦合智能大模型:飞鱼-1.0”。这一模型不仅是全球首个专门针对南海区域的海-气双向耦合智能模型,更是我国在智慧气象领域取得的重要技术突破。 微新创想:该模型的核心优势在于其强大的“洞察力”。它通过对海量历...
10:29
微新创想:2025年12月美国Indeed招聘平台发布数据显示人工智能相关岗位占全美总招聘数的比例已超过4.2% 创下历史新高 每25个岗位中就有1个提及AI 这一趋势表明AI技术正在迅速渗透到各个行业领域 微新创想:与疫情前相比 人工智能岗位数量增长超过130% 远高于整体岗位增长的6% 这一显著差异凸显了AI在当前就业市场中的重要地位 微新创想:在数据与...
10:29
微新创想:2026年2月9日(农历腊月三十),平安健康在全国范围内启动“春节不打烊·平安佑健康”服务保障行动。该行动由平安健康公司发起,旨在为节日期间有医疗与健康管理需求的用户提供持续、便捷的服务。 平安健康依托覆盖全国的“到线、到院、到家、到企”四到服务网络,推出专业诊疗、暖送健康、养护焕新三大类共9项具体举措。这些举措涵盖了线上问诊、线下陪诊、药品配送以...
10:29
微新创想:2026年2月10日,安徽林平循环发展股份有限公司在上海证券交易所主板正式上市。公司本次公开发行1885.37万股,发行价为37.88元每股,市盈率18.69倍。此次发行采用战略配售、网下与网上相结合的方式,网上中签率仅为0.018888%,显示出市场对公司未来发展的高度认可。主承销商包销了9.6231万股,确保了发行工作的顺利进行。公司通过本次上...
10:29
微新创想:2026年2月,上海世航智能科技有限公司宣布完成数亿元人民币A+轮融资。本轮融资由嘉兴上河化龙股权投资合伙企业(有限合伙)等机构领投。公司专注于水体机器人及智能无人装备的自主研发、生产与销售,产品覆盖应急救援、水域安防、环境监测等场景。 微新创想:融资将用于加速核心技术迭代、量产能力建设及重点区域市场拓展。世航智能秉持“战时能战、急时应急”理念,持...
10:29
微新创想:2月9日,淘宝闪购冬季安全激励活动已覆盖北京、上海、杭州等36个城市,超百万外卖骑手参与其中。该活动聚焦于提升外卖骑手的交通安全意识和实际保障能力,通过一系列激励措施鼓励骑手遵守交通规则。活动面向全程佩戴头盔、无超速行为、无违规操作、无交通事故的优秀骑手,提供千元现金奖励以及智能头盔等实用礼品。这些激励不仅有助于增强骑手的安全意识,也提升了他们的工...
10:28
微新创想:2026年2月9日,深圳迅扬科技股份有限公司在北京全国中小企业股份转让系统(新三板)正式挂牌上市。此次挂牌不仅标志着公司在资本运作方面迈出了关键一步,也为未来发展注入了新的动力。公司专注于电脑机箱、开关电源及周边设备的研发、制造与销售,是一家具备完整产业链条的一体化制造商。 微新创想:深圳迅扬科技自成立以来,始终致力于PC硬件产品的创新与优化,凭借...