近期,一个名为 FormulaOne 的新型 AI 评测基准横空出世,迅速引爆了科技界的关注热潮。这个基准由专注于超智能与高级 AI 系统研究的前沿机构 AAI 研发推出,旨在对当前最顶尖的 AI 模型进行全方位的挑战。然而,测试结果却出人意料地令人瞠目结舌——包括 GPT-5、Grok4 和 o3Pro 在内的众多明星 AI 模型,在测试中无一例外地遭遇了零分惨败!这一系列测试不仅揭示了 AI 技术的现有局限,更引发了人们对未来 AI 发展方向的深刻思考。

FormulaOne 基准包含了 220 个精心设计的新颖图结构动态规划问题,这些问题按照难度被划分为三个等级,从中等难度到科研级别不等,涵盖了拓扑学、几何学和组合数学等复杂领域。尽管每个问题的表述都力求简洁明了,但实际解决这些问题的过程却需要极高的推理能力和逻辑推演水平,堪称是名副其实的博士级难题。这一评测体系的核心算法基础,源于Courcelle 提出的重要算法元定理——该定理指出,对于任何类似树的图结构,只要问题可以用逻辑定义,就一定可以通过动态规划算法来解决。这就需要借助一种被称为树分解的特殊结构,将图的顶点组织成一系列相互重叠的集合,并以树状形式排列,然后通过动态规划逐步攻克难题。

FormulaOne评测:GPT-5等AI模型惨遭零分,博士级推理能力挑战引热议插图

在浅层难度的测试中,这些前沿 AI 模型的表现尚可,成功率达到了 50% 到 70% 的水平,这表明它们确实具备一定的基础推理能力。然而,当测试难度提升到深层和更深层级别时,情况急转直下。在深层难度测试中,顶尖模型的成功率大幅暴跌,Grok4、Gemini-Pro 等模型的解题率不足 1%,而 GPT-5Pro 也仅勉强解出 4 个问题。在最难的科研级别测试中,所有模型的表现均归零,集体遭遇了前所未有的崩溃。

这项评测结果不仅在科研界引发了热烈的讨论和深入的分析,更让公众对 AI 模型的真实能力产生了全新的认识。许多专家甚至建议,未来在评估 AI 模型时,应该引入人类博士生参与测试,以确保评估的全面性和客观性。随着 AI 技术的日新月异,这一评测结果也促使我们必须重新审视:当前 AI 模型距离真正意义上的“博士级”推理能力,究竟还有多远的距离?模型地址:https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

FormulaOne评测:GPT-5等AI模型惨遭零分,博士级推理能力挑战引热议插图1

✅ GPT-5等顶级 AI 模型在新评测基准 FormulaOne 中遭遇零分惨败,结果令人震惊!  ✅ FormulaOne 包含 220 个高难度动态规划问题,全面考验 AI 模型的推理与逻辑能力。  ✅ 浅层问题上 AI 表现尚可,但在深层和科研级别问题上集体失守,揭示了当前 AI 模型的实际局限性。

最新快讯

2026年03月05日

13:55
微新创想:2026 年第一季度全球存储芯片市场迎来前所未有的价格波动 全球存储芯片市场在2026 年第一季度经历了一场剧烈的价格上涨。受人工智能数据中心对高性能存储需求的推动,DRAM 和 NAND 的价格涨幅远超市场预期。市场研究机构 TrendForce 最近调整了预测数据,原本预计 DRAM 在2026 年 Q1 合约价上涨 55%–60%,现在修正为...
13:35
微新创想:3月5日,默沙东公司正式宣布将关闭其位于美国北卡罗来纳州达勒姆的HPV疫苗生产线。这一决定影响了大约150名员工,他们将面临岗位调整或离职。此次停产是由于全球范围内HPV疫苗的需求出现下降,导致公司不得不采取产能优化措施。 默沙东表示,此次调整是为了确保其全球生产网络能够持续稳定地运行,并符合相关法规要求。公司指出,尽管生产线关闭,但在中国市场,H...
13:35
微新创想:2026年3月5日,哈萨克斯坦阿斯塔纳航空集团正式签署25架空客A320neo系列飞机确认订单。此次订单包括5架A320neo和20架A321neo。新机将由阿斯塔纳航空及其旗下的低成本航空公司飞狮航空共同运营。 微新创想:该集团目前已经运营了59架A320系列飞机。此次采购不仅有助于进一步扩大机队规模,还将显著提升其在区域航线上的运力。 微新创想...
13:35
微新创想:3月5日,阿曼石油营销公司一处燃料储存罐发生事故。事件发生在阿曼境内某运营地点,具体位置尚未公开。事故发生后,涉事公司迅速采取行动,立即启动了安全响应机制,并暂停了该地点的所有运营活动。公司方面表示,此次事故未造成人员伤亡,初步评估显示仅存在轻微的物理损坏,且没有泄漏或环境污染的迹象。目前,公司正积极配合相关部门进行详细调查,以查明事故原因并评估潜...
13:35
微新创想:2026年3月5日 苹果在英国及欧盟多国发售的2026款MacBook全系机型 包括MacBook Neo Air及Pro 均取消随附USB-C电源适配器 这一举措延续了苹果一贯的环保策略 与iPhone Apple Watch等产品保持一致 用户需要单独购买20W或更高功率的适配器 此次调整仅适用于欧洲市场 亚洲 北美等地的MacBook产品仍会...
13:35
微新创想:卡塔尔航空近日宣布将在阿曼马斯喀特和沙特利雅得两地启动有限疏运航班以接运滞留乘客 此次行动是为了解决近期由于航班运营调整而引发的旅客滞留问题 卡塔尔航空表示疏运服务将按照临时计划进行安排 具体的航班班次以及预订方式将由航空公司另行通知 目前尚未公布恢复正常运营的具体时间表
13:35
微新创想:3月5日,位于山西省的大吉煤岩气田年产能成功突破40亿立方米。这一成绩标志着我国在煤岩气开发领域迈出了重要一步,大吉煤岩气田作为我国首个实现规模开发的煤岩气田,其平均埋深达到2130米,探明地质储量高达4000亿立方米,展现出巨大的开发潜力。 今年大吉煤岩气田持续推进勘探开发工作,新增钻井16口,进一步提升了产能。通过持续的技术优化和资源勘探,新增...
13:35
微新创想:2026年3月5日,兴业银锡在互动平台回应投资者提问称,截至2024年末,公司旗下各矿采矿许可证范围内铟金属保有储量为1130.7吨 公司表示,铟作为伴生稀有金属,主要随锌、锡等主金属冶炼过程综合回收 当前暂无独立铟金属产线建设计划 此举系基于现有资源禀赋、技术路径及市场供需综合考量
13:35
微新创想:3月5日,成都—厦门“丝路海运”铁海联运专列从成都城厢站首发,驶往厦门前场站。该专列由成都国际铁路港负责运营,满载机电产品、农副产品及汽车配件等多种货物。在抵达厦门港后,货物将进行换装并搭乘国际班轮,直接运往越南、泰国等东南亚国家。这一运输方式实现了铁路、港口与海运之间的无缝衔接,大幅提升了物流效率。 微新创想:此次铁海联运专列的开通,标志着四川地...
13:35
微新创想:2026年3月5日,伟星股份在投资者关系活动中表示,近期铜等大宗商品价格大幅上涨,对公司原材料成本造成一定压力。公司采用成本加成定价模式,通过动态把握采购时机、优化库存管理,并加快新材料、新工艺研发,积极应对成本上升影响。上述措施旨在稳定产品价格与盈利能力,缓解上游涨价传导压力。
13:35
微新创想:3月5日,鸿蒙智行旗下尊界S800轿车正式发布并开启下定。这款新车在智能驾驶和整车性能方面实现了重大突破,搭载新一代896线双光路图像级激光雷达,能够实现更精准的环境感知和更高级别的自动驾驶能力。全车配备36个传感器,构建了全向立体融合感知系统,为车辆的安全性和智能化提供了坚实保障。 微新创想:尊界S800提供四座与五座两种布局,满足不同用户对空间...
12:54
声明:本文来自于微信公众号 亿邦动力,作者:姜琪,授权站长之家转载发布。十万成本,四天时间,换来亿级曝光。去年秋天,AI漫剧《洪荒:代管截教,忽悠出了一堆圣人》首播,爆了。89集,没有真人演员,没有实景拍摄,全部由算法逐帧生成,风格在动态漫画与动画之间。《洪荒》制作方是酱油文化,商务负责人叫颜四海,他觉得”这个行业好像产生了一个...