AI领域的三巨头正遭遇前所未有的挫败。当GPT-5、Claude Opus4.1和Gemini2.5这些被誉为人工智能皇冠上的明珠,在Scale AI全新推出的SWE-BENCH PRO编程测评中全军覆没时,整个AI行业的信心受到了沉重打击。这些顶尖模型无一能够突破25%的解决率大关,GPT-5仅取得23.3%的成绩,Claude Opus4.1紧随其后达到22.7%,而Google的Gemini2.5更是跌至13.5%的惨淡表现。这些数字背后隐藏着令人不安的真相:即便是当今最先进的AI模型,在应对真正复杂的编程挑战时依然力不从心。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图

当我们深入探究这场测试背后的真相,会发现比表面现象更加复杂。前OpenAI研究员Neil Chowdhury的深度分析揭示了另一个维度的故事。他发现,GPT-5在尝试解决的任务中,实际准确率高达63%,远超Claude Opus4.1的31%。这意味着,虽然GPT-5在整体表现上看似平庸,但在其擅长的领域内,这个模型仍然保持着强大的竞争优势。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图1

那么,究竟是什么原因导致这些往日的AI霸主在新测试面前纷纷折戟沉沙?答案就隐藏在SWE-BENCH PRO的独特设计理念中。这个由OpenAI在2024年8月精心打造的测试集,就像一把锋利的手术刀,专门用来解剖当前AI模型的真实能力边界。与过去那些动辄70%正确率的SWE-Bench-Verified测试相比,SWE-BENCH PRO的难度提升绝非简单的数字游戏。测试团队刻意规避了可能已被用于模型训练的数据,彻底杜绝了数据污染这一长期困扰AI评测的顽疾。这样做的结果就是,模型们再也无法依靠记忆中的答案来蒙混过关,必须展现出真正的推理和解决问题的能力。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图2

SWE-BENCH PRO的测试范围堪称庞大,涵盖了1865个来自商业应用和开发者工具的真实问题。这些题目被精心分为公共集、商业集和保留集三个层次,确保每一个模型在接受评测时都面临着全新的挑战。更令人印象深刻的是,研究团队还在测试过程中引入了人工增强机制,进一步提升了任务的复杂性和真实性。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图3

测试结果毫不留情地暴露了当前AI模型的软肋。在解决实际商业问题时,这些模型的能力仍然存在明显局限性。特别是在JavaScript和TypeScript等主流编程语言的处理上,各模型的解决率呈现出令人困惑的剧烈波动。研究人员通过深入分析发现,不同模型在理解和处理同类任务时展现出了显著的差异化表现,这种差异背后反映的是各家技术路线和训练策略的根本性分歧。

更加值得关注的是GPT-5高达63.1%的未回答率,这个数字就像一面镜子,清晰地映照出当前AI技术发展的真实状况。即使是最先进的模型,在面对复杂挑战时也经常选择保持沉默,而非冒险给出可能错误的答案。这种谨慎态度虽然在某种程度上体现了模型的自我认知能力,但同时也为整个行业的技术进步敲响了警钟。

这场测试不仅仅是一次简单的技术评估,更像是对整个AI行业发展现状的一次深刻审视。它提醒我们,尽管人工智能在某些领域已经取得了令人瞩目的成就,但在复杂的实际应用场景中,我们仍有很长的路要走。

最新快讯

2025年11月28日

23:14
2025年11月28日,领先的物联网通信解决方案提供商广和通正式宣布一项具有战略意义的资本布局计划,即设立一家注册资本达5000万元人民币的全资子公司。这家新公司将扎根于江西省上栗县这片充满活力的工业热土,展开一系列高规格的投资项目,总投资额高达4亿元人民币,标志着广和通在产业升级和区域经济协同发展方面迈出重要步伐。 此次投资将采用双轨并行的策略:一方面,公...
23:14
2025年11月28日,备受瞩目的工业自动化领军企业东方精工正式发布重大战略举措,宣布计划以现金方式出售旗下Fosber集团等三家全资子公司的100%股权。根据相关公告,此次资产剥离交易预计将构成重大资产重组,标志着东方精工在产业布局上迈出关键性调整步伐。 此次出售决策主要源于公司对资产结构的深度优化考量,旨在通过战略收缩进一步聚焦核心业务领域,强化在精密传...
23:14
2025年11月28日晚间,美团公司在第三季度电话会议中发布了备受关注的市场数据,揭示了其业务发展的最新动态。数据显示,近期美团餐饮外卖订单市场份额呈现稳步回升的良好态势,展现出平台在激烈市场竞争中的稳健表现。特别是在中高价订单市场,美团凭借卓越的品牌影响力和用户粘性,持续巩固其行业领先地位,GTV(Gross Transaction Value,总交易额)...
23:14
2025年11月18日,备受期待的《生化危机:生存小队》震撼登陆全球市场,其惊人的传播力在短短10天内便创下下载量突破200万的辉煌纪录。这款由Aniplex与Joycity强强联手联合开发,并得到卡普空官方授权与深度协作的移动端衍生作品,凭借其独特的策略玩法核心,迅速吸引了全球玩家的目光。游戏以一座阴森诡异的神秘医院为故事起点,玩家将化身为被保护伞公司秘密...
23:13
2025年11月28日,大唐重庆江津燃机项目传来喜讯,成功实现全容量投产发电,标志着国内“F”级改进型单轴重型燃机技术取得重大突破,填补了该领域的空白。这一里程碑事件不仅彰显了中国能源装备制造的实力,更为西部地区的能源结构优化注入强劲动力。 该项目坐落于重庆江津区,总投资额高达26亿元人民币。工程精心规划,建设了两台54.68万千瓦燃气-蒸汽联合循环机组,总...
23:13
2025年11月28日,日本知名家电巨头松下公司正式发布声明,宣布将对其生产的30至40种钽电容产品实施价格上调,涨幅区间在15%至30%之间。此次价格调整主要受原材料与生产成本持续上涨的双重压力影响。值得注意的是,这些被提价的钽聚合物电容在当前高科技领域具有广泛的应用价值,特别是在AI服务器等前沿设备中扮演着关键角色。 尽管日元近期汇率走弱对松下的出口业务...
22:40
2025年11月28日,德国知名媒体报道了一则引人关注的消息。据《法兰克福汇报》最新披露,德国领先的在线外卖服务平台Lieferando宣布对其组织架构进行重大调整,计划裁员1500人。这一数字虽然较先前宣布的2000人目标有所减少,但依然意味着公司将在人员配置上做出显著优化。 此次裁员的核心目标在于优化运营结构,提升企业长期经营效率。根据Liefera...
22:40
2025年11月28日,国际商业机器公司(IBM)宣布一项重大战略决策,计划在加拿大大幅提升其芯片制造能力。根据最新消息,IBM将对其位于加拿大的自有半导体制造设施进行全面的升级改造,并同步扩大生产规模。这一系列扩产举措旨在积极应对全球芯片市场持续升温的需求态势,显著增强IBM在高性能计算芯片领域的供应链稳定性和供应效率。 此次扩产计划的核心目标在于强化IB...
22:39
2025年黑色星期五线上消费预计将突破117亿美元大关,创下历史新高,同比增长8.3%。这一惊人数字不仅彰显了美国消费者对线上购物的热情,更凸显了电子商务在假日季中的主导地位。Adobe最新发布的预测显示,“网购星期一”销售额有望达到142亿美元,较去年增长6.3%,再次刷新销售纪录。两大购物节销售额的持续攀升,不仅反映了消费者线上购物需求的强劲,也揭示了电...
22:39
2025年11月28日,生态环境部在一场备受关注的新闻发布会上正式宣布,我国正全面启动“四机一脑”等退役装备的规范拆解与循环利用计划。这一重要举措旨在推动资源高效回收,促进绿色可持续发展。生态环境部强调,将严厉打击非法处置废弃机电产品的行为,并将其纳入全国范围的专项整治行动中。 为鼓励合规企业积极参与,相关部门创新性地推出了“以奖代补”的政策措施,通过资...
22:39
2025年11月,澳大利亚气象局(BOM)正式推出全新官方网站,这场耗资高达9650万澳元的改版工程却引发了一场前所未有的风波。令人咋舌的是,实际支出远超预算近20倍,这一惊人的数字迅速点燃了公众的质疑。新版网站上线后,其糟糕的用户体验和功能缺失问题如雪球般发酵,迅速在用户群体中掀起轩然大波。尤其是降雨雷达混乱的配色方案,以及无法通过GPS坐标精准查询天气等...
22:39
11月28日下午4时20分,印尼北马鲁古省的伊布火山突然爆发,引发广泛关注。根据印尼火山地质减灾中心的权威监测数据,此次火山喷发持续时间长达74秒,喷发出的火山灰柱直冲高空,最高可达约800米,场面十分壮观。这一突发性火山活动已引起相关部门的高度重视,他们已紧急启动应急预案,加强了对火山的实时监测力度,并第一时间向附近居民发布安全预警,提醒大家做好防范措施。...