OpenAI 近期推出了一项创新性的基准测试——GDPval,旨在全面评估人工智能模型在各个行业与人类专业人士之间的表现差异。这一测试标志着OpenAI在探索人工智能系统经济价值能力方面迈出的重要一步,试图验证AI是否能够在经济活动中超越人类水平。据OpenAI官方介绍,GPT-5模型与Anthropic的Claude Opus4.1模型在多个专业领域的工作质量上已展现出接近行业专家的表现水平。

尽管如此,OpenAI也明确指出,当前的人工智能模型尚不能完全取代人类工作。尽管部分企业高管预测人工智能将在未来几年内引发大规模的就业替代,但OpenAI强调,现阶段的GDPval测试仅覆盖了人类工作中的一小部分任务,因此只能作为评估AI进步的参考指标。

GDPval测试涵盖了九个对美国国内生产总值(GDP)贡献最大的主要行业,包括医疗健康、金融服务、制造业、政府事务等关键领域。测试深入评估了这些行业中44种职业的表现水平,从软件工程师到护士,再到记者等多元职业均被纳入考察范围。在初始测试中,OpenAI邀请各行业专业人士对AI生成的报告与人类专业人士的报告进行匿名比较,并最终评选出更优方案。以投资银行为例,测试要求银行家创建关于最后一公里配送行业的竞争对手分析报告,随后将其与AI生成的报告进行对比评估。

经过严谨统计,OpenAI发现经过增强计算能力的GPT-5-high版本在与行业专家的比较中,有40.6%的任务表现优于或持平于人类水平。而Anthropic的Claude Opus4.1模型则表现更为突出,其胜出或持平的比例高达49%。OpenAI分析认为,Claude模型的高分主要得益于其制作美观图形的卓越能力,而不仅仅是文本生成表现。

值得注意的是,大多数职业工作远不止提交研究报告这一单一任务,因此GDPval-v0的测试范围相对有限。OpenAI表示,未来将开发更全面的测试版本,以涵盖更多行业和复杂的互动工作流程。尽管如此,公司对GDPval的测试成果仍持乐观态度。OpenAI首席经济学家亚伦·查特吉在采访中强调,GDPval的测试结果表明,在这些职业领域,人们可以借助人工智能模型将更多时间投入到更具创造性和战略性的任务上。随着模型能力的持续提升,专业人士将能够利用这些工具减轻工作负担,从而专注于更高价值的工作内容。

博客链接:https://openai.com/index/gdpval/

划重点:
🌟 OpenAI 发布的新基准测试 GDPval 评估 AI 模型在多个行业的表现,与人类专家的能力逐渐接近。
🤖 GPT-5模型在44种职业中有40.6% 的任务表现优于或持平于行业专家,而 Claude Opus4.1则为49%。
📈 OpenAI 计划未来推出更全面的测试,以更准确评估 AI 在真实工作中的能力和表现。

最新快讯

2026年02月09日

13:31
2026年2月9日上午,法拉第未来(FF)创始人兼Co-CEO贾跃亭在微博宣布,公司将公告Super One车型的“重大里程碑”,并重申坚决反对合股。针对近期FFAI股价连续两日跌破1美元、市场质疑造车进展等问题,贾跃亭强调机器人业务是EAI战略升级核心,将反向赋能整车交付。FF将全力推进FX Super One及具身智能机器人量产交付,并以提升经营与资本...
13:31
2026年2月9日,Steam官方宣布推出新功能,允许开发者在商店页面标注游戏脱离抢先体验、发布1.0正式版的确切日期或时间范围。该功能为可选,旨在回应开发者对透明化发布计划的需求。玩家可在游戏页面抢先体验标签下方直接查看。Steam强调,仅建议开发团队在信心十足时公布确切日期,避免过度承诺。此举有助于改善长期滞留抢先体验的游戏信息透明度。
13:31
2月6日,珠海拱北凯悦酒店在珠光国际大厦正式开业。酒店位于珠海拱北口岸旁,直线距离仅约300米。由珠光集团引入运营,共设278间客房及套房,配备4处特色餐饮空间、健身中心、室内恒温泳池、瑜伽室及超1600平方米会议宴会设施,旨在服务商务与休闲旅客。
13:31
2026年2月9日,广汽丰田工厂正式量产下线铂智4X Robotaxi。该车由丰田与小马智行联合研发,搭载小马智行第七代车规级自动驾驶系统。项目标志着双方L4级Robotaxi战略合作从技术验证进入规模化量产新阶段。2026年内,计划在北上广深等一线城市部署千台车辆。新车具备多重安全冗余、硬件成本较前代下降70%,并支持蓝牙解锁、语音交互等智能服务,旨在提...
12:36
微新创想:生物计算领域迎来重磅开源力量 字节跳动近日正式发布了名为Protenix-v1的生物分子结构预测模型 该模型不仅完整复现了 AlphaFold3(AF3)的核心能力 更宣布在 Apache2.0协议下全面开源代码及模型参数 打破了顶尖生物大模型的技术围垒 Protenix-v1的强大之处在于其全原子3D 结构预测能力 能够精准处理包括蛋白质、核...
12:36
微新创想:小红书技术团队正在研发一款名为 OpenStoryline(版本号1.0.0)的视频剪辑类AI产品。该产品目前尚处于测试阶段,未来有开源的可能。OpenStoryline 定位为基于AI智能体的创作工具,核心功能支持对话式剪辑。这一创新设计让用户可以通过自然语言与AI互动,完成视频内容的策划与剪辑。产品效果被认为类比字节跳动的即梦小云雀及商汤的 S...
12:31
微新创想:2026年2月,美国互联网彩妆品牌Live Tinted完成B轮融资,金额达到数千万美元。此次融资由Curate Capital领投,欧莱雅集团旗下战略风投基金BOLD首次作为新战略投资者加入。联合利华旗下Unilever Ventures及Monogram Capital等现有股东也选择跟投。Live Tinted由南亚裔美国网红Deepica ...
12:31
微新创想:2026年2月9日,全球最大AI开源社区HuggingFace出现Qwen3.5接入Transformers库的代码合并申请(PR) 该模型由阿里巴巴研发,属于Qwen系列新一代基座大模型 目前尚未正式发布,但已进入开源生态集成阶段 此举意味着Qwen3.5即将面向开发者开放,或为后续商用版本铺路 业内普遍认为其性能、多语言支持及推...
12:31
微新创想:2026年2月9日,万达电影在投资者互动平台披露,其投资出品的《飞驰人生3》《惊蛰无声》《熊出没·年年有熊》及联合出品的《镖人》均已定档春节档。影片将于2月28日(农历腊月二十九)起陆续上映,覆盖喜剧、悬疑、动画及古装动作类型。 此举系公司强化春节档内容布局、提升票房市场份额的重要举措。四部影片均由万达主控宣发或深度参与制作,预计覆盖全年龄观影群体...
12:31
微新创想:2026年2月,西北工业大学常洪龙、吉博文团队研发的三维锥形碳基柔性大脑皮层电极阵列,搭载“迪迩五号·中国科技城号”空间试验器,在轨成功开展国际首次无线植入式脑机接口离体验证 此次试验在近地轨道上进行,电极阵列在模拟体液环境中持续稳定采集脑电信号,成功获取了噪声水平与服役稳定性等关键数据 该技术突破了极端空间环境下神经传感技术的瓶颈,填补了国际在该...
12:31
微新创想:据科技记者马克·古尔曼报道,2026年2月中旬至3月上旬,苹果公司将在全球范围内密集推出多款新产品。此次发布会涵盖多个产品线,包括iPhone 17e、新款iPad以及搭载M5 Pro和M5 Max芯片的MacBook系列。苹果的这次产品发布主要集中在中端机型和性能提升方面,意在进一步完善其春季产品线布局。 消息来源并未公布具体的发布日期和区域安排...
12:31
微新创想:2025年11月凌晨4时许,美国佐治亚州一名车主在前往亚特兰大途中突发STEMI型心肌梗死。该车主驾驶的是一辆2026款Model Y首发版,车辆已更新至最新的FSD v14.1.3软件系统。在突发状况发生时,车辆的自动驾驶功能依然保持正常运行。 其子杰克·布兰特在紧急时刻通过远程授权的方式,成功操控车辆导航系统。他引导FSD将车辆安全驶入卡罗尔顿...