AI领域的三巨头正遭遇前所未有的挫败。当GPT-5、Claude Opus4.1和Gemini2.5这些被誉为人工智能皇冠上的明珠,在Scale AI全新推出的SWE-BENCH PRO编程测评中全军覆没时,整个AI行业的信心受到了沉重打击。这些顶尖模型无一能够突破25%的解决率大关,GPT-5仅取得23.3%的成绩,Claude Opus4.1紧随其后达到22.7%,而Google的Gemini2.5更是跌至13.5%的惨淡表现。这些数字背后隐藏着令人不安的真相:即便是当今最先进的AI模型,在应对真正复杂的编程挑战时依然力不从心。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图

当我们深入探究这场测试背后的真相,会发现比表面现象更加复杂。前OpenAI研究员Neil Chowdhury的深度分析揭示了另一个维度的故事。他发现,GPT-5在尝试解决的任务中,实际准确率高达63%,远超Claude Opus4.1的31%。这意味着,虽然GPT-5在整体表现上看似平庸,但在其擅长的领域内,这个模型仍然保持着强大的竞争优势。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图1

那么,究竟是什么原因导致这些往日的AI霸主在新测试面前纷纷折戟沉沙?答案就隐藏在SWE-BENCH PRO的独特设计理念中。这个由OpenAI在2024年8月精心打造的测试集,就像一把锋利的手术刀,专门用来解剖当前AI模型的真实能力边界。与过去那些动辄70%正确率的SWE-Bench-Verified测试相比,SWE-BENCH PRO的难度提升绝非简单的数字游戏。测试团队刻意规避了可能已被用于模型训练的数据,彻底杜绝了数据污染这一长期困扰AI评测的顽疾。这样做的结果就是,模型们再也无法依靠记忆中的答案来蒙混过关,必须展现出真正的推理和解决问题的能力。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图2

SWE-BENCH PRO的测试范围堪称庞大,涵盖了1865个来自商业应用和开发者工具的真实问题。这些题目被精心分为公共集、商业集和保留集三个层次,确保每一个模型在接受评测时都面临着全新的挑战。更令人印象深刻的是,研究团队还在测试过程中引入了人工增强机制,进一步提升了任务的复杂性和真实性。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图3

测试结果毫不留情地暴露了当前AI模型的软肋。在解决实际商业问题时,这些模型的能力仍然存在明显局限性。特别是在JavaScript和TypeScript等主流编程语言的处理上,各模型的解决率呈现出令人困惑的剧烈波动。研究人员通过深入分析发现,不同模型在理解和处理同类任务时展现出了显著的差异化表现,这种差异背后反映的是各家技术路线和训练策略的根本性分歧。

更加值得关注的是GPT-5高达63.1%的未回答率,这个数字就像一面镜子,清晰地映照出当前AI技术发展的真实状况。即使是最先进的模型,在面对复杂挑战时也经常选择保持沉默,而非冒险给出可能错误的答案。这种谨慎态度虽然在某种程度上体现了模型的自我认知能力,但同时也为整个行业的技术进步敲响了警钟。

这场测试不仅仅是一次简单的技术评估,更像是对整个AI行业发展现状的一次深刻审视。它提醒我们,尽管人工智能在某些领域已经取得了令人瞩目的成就,但在复杂的实际应用场景中,我们仍有很长的路要走。

最新快讯

2025年11月28日

23:46
2025年11月28日,无锡车联天下智能科技股份有限公司正式向香港交易所递交主板上市申请,标志着这家专注于智能汽车领域的科技企业迈出了资本市场融资的关键一步。此次上市计划由中金公司和国泰海通联合担任联席保荐人,展现了资本市场对该企业未来发展的信心。据悉,车联天下希望通过此次主板上市募集大量资金,用于加速智能汽车技术的研发与应用,进一步扩大在自动驾驶、车联网等...
23:46
2025年11月28日,菲律宾政府就当日误报地震事件正式发布声明,公开承认发布错误信息,并就引发的公众恐慌与社会混乱深表歉意。声明中明确指出,此次误报系技术故障或人为操作失误所致,具体原因正在全面核查中。地震研究机构已立即启动内部审查机制,将采取严格纠正措施以避免类似事件再次发生。目前,机构已全面加强预警系统管理流程,通过优化信息发布机制,确保未来预警信息的...
23:46
2025年11月28日,一场备受瞩目的拍卖会于Heritage Auctions举行,其中一件密封未拆的Xbox One版《堡垒之夜》实体游戏成为焦点,最终以42,500美元(约合30.1万元人民币)的天价成交。这款由Gearbox于2017年特别发行的限量版游戏,不仅附带珍贵的“风暴主宰”武器包,还包含“守护家园”模式权限,使其在收藏界备受青睐。更为难得的...
23:46
2025年11月26日,Abarth欧洲负责人Gaetano Thorel在公开场合明确表示,品牌正在积极评估一项全新战略的可能性——基于菲亚特500 Hybrid平台开发高性能燃油车型。这一决策背后,是Abarth对当前市场用户反馈的深刻洞察,特别是针对电动车改装受限问题的广泛不满。据Thorel透露,Abarth希望通过引入高性能燃油车型,为消费者提供更...
23:46
2025年11月28日,上海凯诘电子商务股份有限公司正式向香港交易所递交了主板上市申请,标志着这家电商企业迈出了资本市场的重要一步。此次独家保荐机构由中信建投国际担任,展现了其在资本市场的专业实力与广泛认可度。据悉,公司虽已启动上市程序,但具体的融资金额尚未对外披露,这或与其商业策略或市场环境考量有关。此次上市申请的核心目标在于拓宽资本运作渠道,通过资本市场...
23:14
2025年11月28日,领先的物联网通信解决方案提供商广和通正式宣布一项具有战略意义的资本布局计划,即设立一家注册资本达5000万元人民币的全资子公司。这家新公司将扎根于江西省上栗县这片充满活力的工业热土,展开一系列高规格的投资项目,总投资额高达4亿元人民币,标志着广和通在产业升级和区域经济协同发展方面迈出重要步伐。 此次投资将采用双轨并行的策略:一方面,公...
23:14
2025年11月28日,备受瞩目的工业自动化领军企业东方精工正式发布重大战略举措,宣布计划以现金方式出售旗下Fosber集团等三家全资子公司的100%股权。根据相关公告,此次资产剥离交易预计将构成重大资产重组,标志着东方精工在产业布局上迈出关键性调整步伐。 此次出售决策主要源于公司对资产结构的深度优化考量,旨在通过战略收缩进一步聚焦核心业务领域,强化在精密传...
23:14
2025年11月28日晚间,美团公司在第三季度电话会议中发布了备受关注的市场数据,揭示了其业务发展的最新动态。数据显示,近期美团餐饮外卖订单市场份额呈现稳步回升的良好态势,展现出平台在激烈市场竞争中的稳健表现。特别是在中高价订单市场,美团凭借卓越的品牌影响力和用户粘性,持续巩固其行业领先地位,GTV(Gross Transaction Value,总交易额)...
23:14
2025年11月18日,备受期待的《生化危机:生存小队》震撼登陆全球市场,其惊人的传播力在短短10天内便创下下载量突破200万的辉煌纪录。这款由Aniplex与Joycity强强联手联合开发,并得到卡普空官方授权与深度协作的移动端衍生作品,凭借其独特的策略玩法核心,迅速吸引了全球玩家的目光。游戏以一座阴森诡异的神秘医院为故事起点,玩家将化身为被保护伞公司秘密...
23:13
2025年11月28日,大唐重庆江津燃机项目传来喜讯,成功实现全容量投产发电,标志着国内“F”级改进型单轴重型燃机技术取得重大突破,填补了该领域的空白。这一里程碑事件不仅彰显了中国能源装备制造的实力,更为西部地区的能源结构优化注入强劲动力。 该项目坐落于重庆江津区,总投资额高达26亿元人民币。工程精心规划,建设了两台54.68万千瓦燃气-蒸汽联合循环机组,总...
23:13
2025年11月28日,日本知名家电巨头松下公司正式发布声明,宣布将对其生产的30至40种钽电容产品实施价格上调,涨幅区间在15%至30%之间。此次价格调整主要受原材料与生产成本持续上涨的双重压力影响。值得注意的是,这些被提价的钽聚合物电容在当前高科技领域具有广泛的应用价值,特别是在AI服务器等前沿设备中扮演着关键角色。 尽管日元近期汇率走弱对松下的出口业务...
22:40
2025年11月28日,德国知名媒体报道了一则引人关注的消息。据《法兰克福汇报》最新披露,德国领先的在线外卖服务平台Lieferando宣布对其组织架构进行重大调整,计划裁员1500人。这一数字虽然较先前宣布的2000人目标有所减少,但依然意味着公司将在人员配置上做出显著优化。 此次裁员的核心目标在于优化运营结构,提升企业长期经营效率。根据Liefera...