AI领域的三巨头正遭遇前所未有的挫败。当GPT-5、Claude Opus4.1和Gemini2.5这些被誉为人工智能皇冠上的明珠,在Scale AI全新推出的SWE-BENCH PRO编程测评中全军覆没时,整个AI行业的信心受到了沉重打击。这些顶尖模型无一能够突破25%的解决率大关,GPT-5仅取得23.3%的成绩,Claude Opus4.1紧随其后达到22.7%,而Google的Gemini2.5更是跌至13.5%的惨淡表现。这些数字背后隐藏着令人不安的真相:即便是当今最先进的AI模型,在应对真正复杂的编程挑战时依然力不从心。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图

当我们深入探究这场测试背后的真相,会发现比表面现象更加复杂。前OpenAI研究员Neil Chowdhury的深度分析揭示了另一个维度的故事。他发现,GPT-5在尝试解决的任务中,实际准确率高达63%,远超Claude Opus4.1的31%。这意味着,虽然GPT-5在整体表现上看似平庸,但在其擅长的领域内,这个模型仍然保持着强大的竞争优势。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图1

那么,究竟是什么原因导致这些往日的AI霸主在新测试面前纷纷折戟沉沙?答案就隐藏在SWE-BENCH PRO的独特设计理念中。这个由OpenAI在2024年8月精心打造的测试集,就像一把锋利的手术刀,专门用来解剖当前AI模型的真实能力边界。与过去那些动辄70%正确率的SWE-Bench-Verified测试相比,SWE-BENCH PRO的难度提升绝非简单的数字游戏。测试团队刻意规避了可能已被用于模型训练的数据,彻底杜绝了数据污染这一长期困扰AI评测的顽疾。这样做的结果就是,模型们再也无法依靠记忆中的答案来蒙混过关,必须展现出真正的推理和解决问题的能力。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图2

SWE-BENCH PRO的测试范围堪称庞大,涵盖了1865个来自商业应用和开发者工具的真实问题。这些题目被精心分为公共集、商业集和保留集三个层次,确保每一个模型在接受评测时都面临着全新的挑战。更令人印象深刻的是,研究团队还在测试过程中引入了人工增强机制,进一步提升了任务的复杂性和真实性。

AI三巨头编程测试惨败 全线跌破25%GPT-5也难逃厄运插图3

测试结果毫不留情地暴露了当前AI模型的软肋。在解决实际商业问题时,这些模型的能力仍然存在明显局限性。特别是在JavaScript和TypeScript等主流编程语言的处理上,各模型的解决率呈现出令人困惑的剧烈波动。研究人员通过深入分析发现,不同模型在理解和处理同类任务时展现出了显著的差异化表现,这种差异背后反映的是各家技术路线和训练策略的根本性分歧。

更加值得关注的是GPT-5高达63.1%的未回答率,这个数字就像一面镜子,清晰地映照出当前AI技术发展的真实状况。即使是最先进的模型,在面对复杂挑战时也经常选择保持沉默,而非冒险给出可能错误的答案。这种谨慎态度虽然在某种程度上体现了模型的自我认知能力,但同时也为整个行业的技术进步敲响了警钟。

这场测试不仅仅是一次简单的技术评估,更像是对整个AI行业发展现状的一次深刻审视。它提醒我们,尽管人工智能在某些领域已经取得了令人瞩目的成就,但在复杂的实际应用场景中,我们仍有很长的路要走。

最新快讯

2026年02月12日

11:44
微新创想:2月12日,千问宣布“春节30亿大免单”活动上线仅6天,AI完成下单超1.2亿笔。这一活动覆盖全国范围,由千问AI Agent自主执行真实电商任务,标志着全球首次大规模落地验证AI在商业场景中的实际应用能力。 活动期间,用户共触发指令41亿次“千问帮我”,显示出AI助手在日常生活中的广泛接受度和使用频率。值得注意的是,有156万名60岁以上用户首次...
11:44
微新创想:2月12日,淘宝天猫香港站与香港海关在香港签署谅解备忘录。双方将建立常态化沟通协作机制,强化网购渠道合规监管,共同防范违禁品流入。此举旨在提升消费者权益保障水平。 平台将持续优化内部监管系统,运用大数据与人工智能技术,加强对商品上架、交易及售后全流程的智能监测与风险识别。通过技术手段提升监管效率,确保市场环境更加健康有序。 此次合作标志着电商平台与...
11:44
微新创想:2026年2月13日,漫威《暗影蜘蛛侠》真人剧集将发布新预告。这部剧集由Phil Lord、Christopher Miller等知名导演打造,设定在1930年代的纽约,讲述了一位白发私家侦探出身的年迈超级英雄的故事。尼古拉斯·凯奇将饰演这位角色,为观众带来全新的演绎方式。 剧集计划于2026年内在Prime Video平台上线。制作方特别提到,将...
11:44
微新创想:2026年2月12日,市场监管总局发布《汽车行业价格行为合规指南》。该指南共五章28条,旨在整治汽车市场“内卷式”竞争,规范明码标价、促销宣传、定价策略等行为。适用对象为汽车生产与销售企业,明确全流程价格管理要求,鼓励建立内部合规机制及行业协会自律。 指南强调公平定价、打击价格欺诈,推动形成优质优价、良性竞争的市场秩序,助力行业高质量发展。通过强化...
11:44
微新创想:2026年2月11日,微软应用商店(Microsoft Store)上架的Outlook插件AgreeTo被攻击者劫持,沦为钓鱼工具,导致超过4000个用户账户凭证泄露。这一事件引发了广泛关注,成为近期网络安全领域的重要案例。 该插件由一位独立开发者于2022年12月发布,最初旨在为用户提供便捷的邮件管理功能。然而,由于项目被废弃,其托管在Verc...
11:44
微新创想:2026年2月12日,谷歌宣布在搜索AI模式及Gemini聊天机器人中集成电商功能,支持用户直接选购Etsy、Wayfair等平台商品,并测试新型广告与‘Direct Offers’折扣推送。此举旨在探索AI使用行为的直接变现路径,缓解AI基建巨额投入压力。 公司已与Shopify、Target、沃尔玛等合作,实现标准化支付与数字身份认证。谷歌强调...
11:44
微新创想:2月12日消息,支付宝“AI 付”一周累计支付笔数已超1.2亿笔,成为全球首个支付笔数破亿的AI原生支付产品。这一成绩标志着支付宝在人工智能支付领域的重大突破。 “AI付”是面向AI时代推出的安全便捷支付服务,旨在为用户提供更加智能化和个性化的支付体验。该服务已在多个AI场景中上线,包括千问、Rokid、瑞幸等,覆盖了从智能语音助手到智能咖啡机的广...
11:43
微新创想:微软安全研究人员近期发出警告 一种被称为“AI 建议投毒”的新型攻击手段正迅速蔓延 攻击者通过在网页的“AI 摘要”按钮或链接中嵌入隐藏指令 诱导 AI 生成带有偏见或误导性的内容 这种攻击的核心在于利用了 AI 的“记忆”机制 当用户点击这些看似普通的链接时 URL 中编码的恶意提示词会被悄悄输入给 AI 一旦 AI 执行了这些指令 它们不仅会反...
11:43
微新创想:人工智能初创公司 Anthropic 紧随微软与 Meta 的步伐 公开承诺将采取措施 防止其数据中心建设导致当地居民的电费账单飙升 该公司在一份声明中表示 将支付更高的月度电费 以 100% 覆盖将其数据中心连接到电网所需的基础设施升级费用 Anthropic 特别提到 这部分费用原本通常会转嫁给普通消费者 而现在将由公司全额承担 应对能源挑...
11:43
微新创想:华米科技(Zepp Health)近日交出了一份亮眼的成绩单 不仅业绩实现超预期增长 还备受期待的 AI 硬件新品也揭开了神秘面纱 根据企查查汇总的财报数据与市场动态 该公司正通过“强业绩+新赛道”双轮驱动 加速重塑其在全球健康穿戴市场的地位 微新创想:AI 智能眼镜定档 运动时尚人群的新宠 华米科技计划在 2026年 CES 展上正式推出其全新的...
11:43
微新创想:字节跳动旗下火山引擎计划于2月14日推出一系列技术更新,主要聚焦于“豆包”系列产品2.0版本的发布。此次更新包含音视频创作工具Seedance2.0和图像创作工具Seedream5.0Preview,进一步拓展了其在内容创作领域的技术实力。 Seedance2.0在人机交互体验和动态画面稳定性方面实现了重大突破,达到了行业领先水平。该版本支持全模态...
11:08
微新创想:2025年,我国新增风电、太阳能发电装机容量超过4.3亿千瓦,同比增长22.0%。这一显著增长不仅体现了我国在可再生能源领域的持续投入与技术进步,也反映了国家对绿色低碳发展的高度重视。 累计并网装机容量达到18.4亿千瓦,占全国总装机比重的47.3%,首次超过火电。这一里程碑式的成就标志着我国在能源结构转型方面取得了重大突破,为实现碳达峰和2035...