AI领域的三巨头正遭遇前所未有的挫败。当GPT-5、Claude Opus4.1和Gemini2.5这些被誉为人工智能皇冠上的明珠,在Scale AI全新推出的SWE-BENCH PRO编程测评中全军覆没时,整个AI行业的信心受到了沉重打击。这些顶尖模型无一能够突破25%的解决率大关,GPT-5仅取得23.3%的成绩,Claude Opus4.1紧随其后达到22.7%,而Google的Gemini2.5更是跌至13.5%的惨淡表现。这些数字背后隐藏着令人不安的真相:即便是当今最先进的AI模型,在应对真正复杂的编程挑战时依然力不从心。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图

当我们深入探究这场测试背后的真相,会发现比表面现象更加复杂。前OpenAI研究员Neil Chowdhury的深度分析揭示了另一个维度的故事。他发现,GPT-5在尝试解决的任务中,实际准确率高达63%,远超Claude Opus4.1的31%。这意味着,虽然GPT-5在整体表现上看似平庸,但在其擅长的领域内,这个模型仍然保持着强大的竞争优势。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图1

那么,究竟是什么原因导致这些往日的AI霸主在新测试面前纷纷折戟沉沙?答案就隐藏在SWE-BENCH PRO的独特设计理念中。这个由OpenAI在2024年8月精心打造的测试集,就像一把锋利的手术刀,专门用来解剖当前AI模型的真实能力边界。与过去那些动辄70%正确率的SWE-Bench-Verified测试相比,SWE-BENCH PRO的难度提升绝非简单的数字游戏。测试团队刻意规避了可能已被用于模型训练的数据,彻底杜绝了数据污染这一长期困扰AI评测的顽疾。这样做的结果就是,模型们再也无法依靠记忆中的答案来蒙混过关,必须展现出真正的推理和解决问题的能力。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图2

SWE-BENCH PRO的测试范围堪称庞大,涵盖了1865个来自商业应用和开发者工具的真实问题。这些题目被精心分为公共集、商业集和保留集三个层次,确保每一个模型在接受评测时都面临着全新的挑战。更令人印象深刻的是,研究团队还在测试过程中引入了人工增强机制,进一步提升了任务的复杂性和真实性。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图3

测试结果毫不留情地暴露了当前AI模型的软肋。在解决实际商业问题时,这些模型的能力仍然存在明显局限性。特别是在JavaScript和TypeScript等主流编程语言的处理上,各模型的解决率呈现出令人困惑的剧烈波动。研究人员通过深入分析发现,不同模型在理解和处理同类任务时展现出了显著的差异化表现,这种差异背后反映的是各家技术路线和训练策略的根本性分歧。

更加值得关注的是GPT-5高达63.1%的未回答率,这个数字就像一面镜子,清晰地映照出当前AI技术发展的真实状况。即使是最先进的模型,在面对复杂挑战时也经常选择保持沉默,而非冒险给出可能错误的答案。这种谨慎态度虽然在某种程度上体现了模型的自我认知能力,但同时也为整个行业的技术进步敲响了警钟。

这场测试不仅仅是一次简单的技术评估,更像是对整个AI行业发展现状的一次深刻审视。它提醒我们,尽管人工智能在某些领域已经取得了令人瞩目的成就,但在复杂的实际应用场景中,我们仍有很长的路要走。

最新快讯

2026年02月12日

18:09
微新创想:2026年2月12日 宝马正式启用全新Alpina品牌视觉体系 宝马在2026年2月12日正式启用了全新的Alpina品牌视觉体系。这一举措标志着宝马自2022年完成对Alpina的收购以来,经过三年多的整合与过渡,终于在2025年12月31日合作协议到期后,全面接管并主导Alpina品牌。 新品牌视觉体系以更加简洁和现代的设计语言呈现。Alpin...
18:09
微新创想:2026年2月,北京灵心巧手科技宣布完成近15亿元B轮融资。本轮融资由道得投资、盛世投资领投,十余家知名投资机构及产业方跟投。公司聚焦‘灵巧手+云端智脑’具身智能平台,已自主研发Linker Hand系列灵巧手、动捕遥操系统及灵巧操作数字孪生平台。 融资将用于核心技术研发、产能提升及全栈基座能力建设,加速推动灵巧手在工业、科研与开发场景的规模化落地...
18:09
微新创想:2026年2月12日,哈尔滨城市中心福朋喜来登酒店在道里区尚志大街正式开业,成为该品牌首次进驻哈尔滨的标志性项目。酒店地理位置优越,距离哈尔滨站仅1公里,哈尔滨西站约9公里,哈尔滨太平国际机场则有37公里的车程,交通便利,便于商务出行与游客抵达。 酒店毗邻地铁2号线尚志大街站,出行便捷,是连接城市各主要区域的理想枢纽。酒店整体设计融合现代风格与北国...
18:09
微新创想:2026年2月,德国法兰克福,德意志交易所宣布将以11亿欧元分两批收购泛大西洋投资集团所持ISS Stoxx剩余20%股权 ISS Stoxx是全球知名指数与ESG数据提供商,服务于资本市场机构投资者,助力其识别投资机会、评估组合风险并应对监管变化 此次收购将使德意志交易所实现对ISS Stoxx的100%控股,强化其在可持续金融数据与指数解决方案...
18:09
微新创想:国产医疗 AI 领域再次迎来里程碑式的突破 2026 年 2 月 12 日 科大讯飞正式发布了新一代星火医疗大模型 X2 作为基于全国产算力训练的星火 X2 大模型家族的重要成员 该模型在医疗垂直领域的专业表现引发了行业高度关注 核心突破:多项任务超越国际顶尖模型 依托于星火 X2 底座的算法迭代与专业思维链强化学习 星火医疗大模型 X2 在多项关...
17:39
微新创想:2026年2月12日,Forbes Travel Guide(FTG)公布2026年星级大奖。本次榜单覆盖全球100多个国家和地区,为旅行者提供了权威的住宿与餐饮推荐。 丽思卡尔顿游艇系列旗下Ilma号荣获全球首个五星级邮轮称号。这一成就不仅体现了该邮轮在服务与设施上的卓越表现,也标志着邮轮行业在高端服务认证方面迈出了重要一步。 Ilma号的船上餐...
17:39
微新创想:2026年2月12日,金融科技平台Adyen正式推出新工具Personalize,作为其Adyen Uplift支付优化套件的一部分。该工具面向全球Adyen商户,能够根据购物者的实时行为和偏好,动态调整结账页面。这一创新举措不仅提升了用户的支付体验,还帮助商家优化支付流程,从而降低支付处理成本。 Personalize的推出标志着Adyen在提升...
17:39
微新创想:2026年2月12日,微软AI负责人穆斯塔法·苏莱曼透露,公司正自主研发顶尖大模型,目标实现AI技术“真正的自给自足”。此举源于2025年10月与OpenAI关系重组后的新战略。微软依托千兆瓦级算力与顶级训练团队,重金投入数据建设,并计划年内推出首代自研模型。 微软本财年拟投入1400亿美元强化AI基建,同时拓展医疗等垂直领域应用,强调“人文主义超...
17:39
微新创想:2026年2月12日,Seed Sparkle Lab开发的国产生活模拟游戏《星砂岛》正式登陆Steam开启抢先体验。游戏首发享七折优惠,售价68.6元。玩家可在星砂岛体验田园生活、饲养萌宠、捕鱼探索及沉浸自然风光。 微新创想:《星砂岛》作为一款生活模拟类游戏,为玩家提供了一个充满治愈感与探索乐趣的虚拟世界。游戏画面精致,场景设计细腻,让玩家仿佛置...
17:39
微新创想:2026年2月12日,受AI热潮推高DRAM/NAND成本及全球存储颗粒短缺影响,Valve公司尚未确定Steam Machine的发售日期与售价。该设备被定义为‘具备游戏机体验的PC’,定位介于传统PC与主机之间。 Steam Machine是Valve推出的一款专为游戏设计的设备,旨在为玩家提供更接近游戏主机的体验,同时保留PC的灵活性和可扩展...
17:39
微新创想:克莱斯勒(中国)汽车销售有限公司近日宣布,自2026年2月12日起将召回部分进口牧马人车型。此次召回涉及2018年1月22日至2021年6月30日期间生产的车辆,共计22003辆。 此次召回的主要原因是部分车辆的组合仪表装配了错误的软件版本。这一问题导致发动机故障指示灯无法正常点亮,进而影响车辆的排放控制功能。由于不满足机动车排放标准及车载诊断系统...
17:39
微新创想:2月12日,美团宣布升级“问小团”AI管家。这一升级将为用户提供更加智能和精准的服务。即日起至春节假期结束,用户在美团APP内提问与本地吃喝玩乐相关的需求时,“问小团”将能够深度思考,整合平台商户信息,并进行二次校验。同时,它还会结合真实的用户评价,提供可交易的精准推荐。 微新创想:为了进一步提升用户体验,美团还特别上线了春节专区。用户可以在专区中...