OpenAI GDPval新基准：真实经济任务评测体系揭晓 - 微新创想

2025-09-27 09:34:45 快讯 2 次阅读

OpenAI近期重磅发布全新AI评估体系——GDPval，这一创新框架致力于精准衡量前沿AI模型在真实经济场景中的实际应用效能，有效弥合了传统学术测试与现实商业需求之间的显著差距。该基准体系全面覆盖美国九大高经济贡献行业中的44个关键职业领域，包含1320项由资深行业专家精心设计的具体任务场景。特别值得一提的是，GDPval不仅要求模型完成文本输出，更强调多模态成果的生成能力，如文件撰写、演示文稿制作等，从而大幅提升评估结果的真实性与实用价值。

首轮权威测试结果显示，Claude Opus 4.1在综合性能表现上脱颖而出，而GPT-5则在专业领域准确度方面表现卓越。研究团队还发现了一个令人瞩目的数据：当前前沿AI模型完成复杂任务的效率比人类专业人士快约100倍，同时运营成本仅为人类劳动力的百分之一。这一发现不仅揭示了AI在商业应用中的巨大潜力，也为传统工作模式带来了革命性启示。

尽管取得了令人鼓舞的成果，OpenAI研究团队也坦诚指出，现行版本GDPval尚未涵盖需要反复迭代优化或高度人机交互的复杂工作场景。对此，OpenAI已制定明确的未来发展计划：将在后续版本中显著扩大评估范围，并逐步向公众开放部分核心数据集，以促进AI技术的进一步优化与行业应用。这一开放策略不仅有助于推动AI技术的快速迭代，也将为更多企业和研究机构提供宝贵的参考依据，加速AI在真实经济环境中的落地应用进程。

2026年02月09日

02:21

Ocado裁员最多1000人优化成本提升运营效率

微新创想：2026年2月9日，英国在线杂货巨头Ocado宣布启动成本削减计划，将裁减至多1000个岗位。此次裁员涉及公司多个部门，主要集中在运营、技术及行政支持职能。公司表示，此举旨在提升运营效率、应对持续的市场竞争与盈利压力，并优化其自动化仓储与配送网络的投资回报。Ocado近年来在自动化技术上的投入巨大，但随着市场竞争加剧，企业需要重新评估其运营模式和...

01:21

特斯拉Semi卡车2026年大规模量产开启商用电动化新篇章

微新创想：2026年2月9日特斯拉CEO马斯克宣布旗下电动重卡Semi将在今年内启动大规模量产该车型将在美国内华达州超级工厂进行生产首批交付对象包括百事公司等早期客户量产启动的主要目的是为了加速商用物流领域的电动化转型同时提升产能以应对目前已积压的超过10万辆订单这一举措标志着特斯拉正式进军商用电动车市场并进一步拓展其在新能源汽车领域的业务范...

00:20

闪迪推出全新Optimus游戏SSD品牌替代WD_BLACK与WD_Blue系列

微新创想：2026年1月，闪迪宣布启用全新游戏SSD品牌SANDISK Optimus，取代原西部数据旗下的WD_BLACK与WD_Blue系列。这一品牌重塑标志着闪迪在游戏存储市场上的全新布局。微新创想：2月8日，首款产品Optimus GX Pro 8100正式登陆美国亚马逊等渠道。该产品作为SANDISK Optimus系列的首发之作，受到了广泛关注...

00:20

《守望先锋》新英雄赛季上线Steam热度创新高

微新创想：2026年2月10日，《守望先锋》正式上线“Reign of Talon”第一赛季。此次更新一次性推出了包括人气辅助英雄Fika（喷气背包猫）在内的五名全新角色，引发了玩家的广泛关注和热烈讨论。新英雄的加入不仅丰富了游戏的战术选择，也极大地提升了玩家的游戏体验，使得《守望先锋》在Steam平台上的同时在线人数达到了历史最高水平。微新创想：这一成绩...

00:20

王楚钦力克张本智和勇夺亚洲杯男单冠军

微新创想：2月8日，第35届国际乒联—亚乒联盟亚洲杯男单决赛在阿联酋举行。中国选手王楚钦以4比2战胜日本选手张本智和，成功夺冠。这是王楚钦继2025年后再度问鼎该项赛事男单冠军。本次夺冠不仅巩固了王楚钦在亚洲乒坛的顶尖地位，也为中国队赢得了重要的荣誉。王楚钦在比赛中展现了出色的技战术水平和稳定的心理素质，面对强敌毫不畏惧，最终以实力取胜。赛事于北京时间2...

00:20

崔东树：2026年1月乘用车新车均价下降3.7万元

微新创想：2026年2月8日，乘联分会秘书长崔东树发布数据显示，2026年1月全国乘用车市场新车降价车型均价为24.8万元，算术平均降价3.7万元，降幅达14.9%。其中新能源车降价均值3.8万元（降幅14.8%），燃油车3.6万元（降幅15%）。这一数据反映出当前汽车市场整体价格下行的趋势。降价覆盖主流车企及多款热销车型，表明各大厂商正在积极调整市场策略...

00:20

英伟达驳回盗版图书训练AI诉讼强调无侵权证据

微新创想：2024年初，作家Nazemian等人在美国加州北区联邦法院提起诉讼，指控英伟达公司在训练其AI模型时，使用了来自Anna's Archive等影子图书馆的盗版书籍。这一诉讼引发了广泛关注，涉及版权保护与人工智能技术发展的边界问题。微新创想：2026年1月29日，英伟达公司正式提交动议，请求法院驳回该集体诉讼。公司强调，原告未能提供任何实质性证据...

00:20

AYANEO NEXT 2旗舰掌机发布 12999元起售5月底发货

微新创想：2026年2月8日晚，AYANEO正式发布NEXT 2 Windows掌机，极夜黑版预售价12999元起，即日起官网开启预订，预计2026年5月底发货。这款掌机在性能和设计上都有显著提升，满足了用户对便携与高效的需求。该机搭载AMD Ryzen AI Max+ 395处理器，基于先进的Zen 5架构打造，带来更强的运算能力。同时配备Radeon ...

2026年02月08日

23:17

苹果将推送iOS 26.4测试版并发布iPhone 17e等新品

微新创想：据科技爆料人马克·古尔曼2月8日透露，苹果计划于2月23日当周向开发者推送iOS 26.4测试版。该版本将首次集成新版Siri部分功能，为用户带来更智能的语音助手体验。此次更新不仅限于Siri的升级，还可能包含其他系统层面的优化。苹果通常会在测试版中引入新功能，以便开发者提前测试并进行适配。因此，iOS 26.4的发布预示着即将推出的iOS 18...

23:17

苹果iOS 26.4测试版2月23日发布引入AI新功能

微新创想：苹果计划于2026年2月23日当周向开发者推送iOS 26.4首个测试版此次更新将首次实装部分Apple Intelligence功能及升级版Siri 这些新功能涵盖上下文理解、跨应用操作与屏幕内容感知三大能力苹果此次调整了原定在WWDC 2024公布的功能发布时间表相关功能将由Gemini模型提供AI支持这一延期可能是由于开发进度的影响 ...

22:22

阿里千问春节免单活动火爆遇卡 25元无门槛免单卡有效期至28号

阿里千问春节免单活动火爆遇卡 25元无门槛免单卡有效期至28号

微新创想 2月8日，有网友反映千问APP的免单活动出现无法下单的情况。对此，千问官方通过微博回应称，大家请互相理解，很多用户都急着参与此次活动，但因为热度太高，系统有些拥堵。官方表示，免单卡的有效期截止到2月28日，建议用户合理安排时间，慢慢参与，确保能够顺利使用。据悉，千问APP于2月6日正式启动了第一波春节30亿大免单活动。所有用户只需将APP更新...

22:17

哈弗猛龙PLUS重磅上市激光雷达+NOA智驾+2850mm轴距引领新体验

微新创想：2026年2月8日，哈弗正式发布猛龙PLUS版本。新车轴距达2850mm，较现款增加11.2厘米，车身尺寸为4912×1950×1905mm，提供5座和7座布局。外观延续方盒子设计，升级前脸格栅及侧窗饰板。全系标配激光雷达，支持高速/城市NOA及自动泊车。WLTC纯电续航191km（CLTC约255km），动力搭载1.5T+Hi4插电混动四驱系统，...