近期,一个名为 FormulaOne 的新型 AI 评测基准横空出世,迅速引爆了科技界的关注热潮。这个基准由专注于超智能与高级 AI 系统研究的前沿机构 AAI 研发推出,旨在对当前最顶尖的 AI 模型进行全方位的挑战。然而,测试结果却出人意料地令人瞠目结舌——包括 GPT-5、Grok4 和 o3Pro 在内的众多明星 AI 模型,在测试中无一例外地遭遇了零分惨败!这一系列测试不仅揭示了 AI 技术的现有局限,更引发了人们对未来 AI 发展方向的深刻思考。

FormulaOne 基准包含了 220 个精心设计的新颖图结构动态规划问题,这些问题按照难度被划分为三个等级,从中等难度到科研级别不等,涵盖了拓扑学、几何学和组合数学等复杂领域。尽管每个问题的表述都力求简洁明了,但实际解决这些问题的过程却需要极高的推理能力和逻辑推演水平,堪称是名副其实的博士级难题。这一评测体系的核心算法基础,源于Courcelle 提出的重要算法元定理——该定理指出,对于任何类似树的图结构,只要问题可以用逻辑定义,就一定可以通过动态规划算法来解决。这就需要借助一种被称为树分解的特殊结构,将图的顶点组织成一系列相互重叠的集合,并以树状形式排列,然后通过动态规划逐步攻克难题。

FormulaOne评测:GPT-5等AI模型惨遭零分,博士级推理能力挑战引热议插图

在浅层难度的测试中,这些前沿 AI 模型的表现尚可,成功率达到了 50% 到 70% 的水平,这表明它们确实具备一定的基础推理能力。然而,当测试难度提升到深层和更深层级别时,情况急转直下。在深层难度测试中,顶尖模型的成功率大幅暴跌,Grok4、Gemini-Pro 等模型的解题率不足 1%,而 GPT-5Pro 也仅勉强解出 4 个问题。在最难的科研级别测试中,所有模型的表现均归零,集体遭遇了前所未有的崩溃。

这项评测结果不仅在科研界引发了热烈的讨论和深入的分析,更让公众对 AI 模型的真实能力产生了全新的认识。许多专家甚至建议,未来在评估 AI 模型时,应该引入人类博士生参与测试,以确保评估的全面性和客观性。随着 AI 技术的日新月异,这一评测结果也促使我们必须重新审视:当前 AI 模型距离真正意义上的“博士级”推理能力,究竟还有多远的距离?模型地址:https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

FormulaOne评测:GPT-5等AI模型惨遭零分,博士级推理能力挑战引热议插图1

✅ GPT-5等顶级 AI 模型在新评测基准 FormulaOne 中遭遇零分惨败,结果令人震惊!  ✅ FormulaOne 包含 220 个高难度动态规划问题,全面考验 AI 模型的推理与逻辑能力。  ✅ 浅层问题上 AI 表现尚可,但在深层和科研级别问题上集体失守,揭示了当前 AI 模型的实际局限性。

最新快讯

2025年08月15日

19:17
北京的王先生在整理家中藏书时,意外发现了一本儿时珍藏的旧书。在翻阅书页的间隙,一张泛黄的麦当劳圆筒冰淇淋兑换券从书页间缓缓滑落。据王先生回忆,这张兑换券大约有20年历史,当年或许是为了夹在书里做书签,久而久之便被遗忘在了书堆深处。出于对这张旧券的几分好奇,王先生随手拍下照片,并分享到了社交平台。 没想到,这条看似普通的分享却意外走红网络。王先生的帖子迅速...
19:17
8月14日,山东省内发生了一段令人动容的暖心佳话。一位年迈的大爷为一位男生精心修复了一双心爱的鞋子,他全神贯注地埋头工作,整整两天两夜未曾停歇。令人意外的是,大爷最终只收取了5元人民币的报酬。男生目睹了大爷如此辛苦的付出,心中充满怜惜之情,特意买来冰镇西瓜送到大爷手中,希望能为他驱散连日来的暑气。男生分享道,老爷爷收到西瓜后喜出望外,不仅热情地邀请他品尝,还...
19:17
2025年8月15日收盘后,龙虎榜数据揭示出机构投资者在该交易日的活跃动向。统计显示,共有45只个股吸引了机构的关注,其中22只股票录得机构净买入,23只则面临机构净卖出的局面。这一数据反映出市场资金流向的多元性,也体现了机构投资者在当前市场环境下的谨慎布局与动态调整策略。 在机构净买入榜方面,指南针凭借高达3.99亿元的净买入金额,强势位列榜首。这一数据不...
19:17
2025年8月15日,一汽解放交出亮眼成绩单,发布最新销售数据显示,7月整车批发销量同比增长17.8%,其中中重卡销量更是实现40%的强劲增长。这一成绩充分彰显了中重卡市场的巨大潜力,也印证了一汽解放在重卡领域的卓越竞争力。尤为引人注目的是新能源中重卡的爆发式增长,销量同比增长高达248%,市场份额持续扩大,成为行业转型升级的领军者。 海外市场同样表现不俗,...
19:17
8月15日,北新路桥(002307)发布重要公告,宣布其子公司新疆生产建设兵团交通建设有限公司联合新疆小海子水利建筑安装工程有限公司组成的联合体,在激烈竞争中脱颖而出,成功中标第三师图木舒克市至柯坪县公路(图木舒克-柯坪段)第一合同段工程。此次中标项目总金额高达2.84亿元人民币,标志着北新路桥在新疆地区交通基础设施建设领域再获重大突破。 该项目地处新疆地区...
19:17
2025年8月15日,天润工业正式公布其乘用车空气悬架项目的最新进展,展现出公司在汽车零部件领域的持续创新与突破。据悉,公司已成功建成电磁阀装配生产线和电控减振器装配生产线两大核心设施,为乘用车空气悬架系统的规模化生产奠定了坚实基础。目前,相关产品已进入关键的样件提交及验证阶段,各项性能指标正接受严格测试与评估。尽管产品已展现出优异的潜力,但天润工业尚未获得...
19:17
腾讯近日重磅发布混元3D世界模型1.0 Lite版本,这款轻量化解决方案专为降低运行时显存消耗而设计,将显著优化资源利用率。新版本突破性地支持在消费级显卡上流畅部署,无论是专业设计师还是业余爱好者,都能轻松驾驭,获得前所未有的高效使用体验。此次升级不仅大幅降低了技术门槛,更让3D建模技术真正走进寻常百姓家,为小型开发团队和创意个人提供了强大的工具支持。随着门...
19:17
2025年8月15日,浙江建投旗下浙江交建凭借卓越实力与丰富经验,携手四家行业领先企业组建联合体,成功斩获奉化山海经济走廊莼尚智造产业园及配套基础设施建设项目,中标金额高达49.12亿元。这一重要成果不仅彰显了联合体的综合竞争力,更将为奉化区域经济转型升级注入强劲动力。 此次中标项目聚焦智能制造与基础设施建设的深度融合,涵盖莼尚智造产业园核心区域开发、配...
19:17
2025年上半年,深圳机场交出亮眼业绩单,净利润高达3.12亿元,同比激增79.13%,展现出强劲的增长势头。这一显著提升主要归功于航空业务的强势复苏以及运营效率的持续优化。随着全球航空旅行的逐步回暖,深圳机场抢抓机遇,通过科学规划航线网络,不仅拓展了覆盖范围,更提升了航线布局的合理性与便捷性,有效满足了不同旅客的出行需求。同时,机场在服务质量方面下足功夫,...
19:17
2025年上半年,生益科技交出亮眼业绩答卷,净利润高达14.26亿元,同比增长率高达52.98%,展现出强劲的增长势头。为回馈股东,公司宣布实施每10股派发现金红利4元的分红方案,彰显其稳健的财务策略和对未来发展的信心。 此次业绩的显著提升,主要归功于市场需求的双重驱动。一方面,下游行业对电子元器件的需求持续攀升,为生益科技带来了广阔的市场空间;另一方面...
19:17
2025年8月15日,勤上股份正式发布重要公告,宣布其股东瑞众人寿有意减持公司股份,减持规模预计不超过总股本的1%。据勤上股份披露,此次减持主要源于瑞众人寿自身的资金调配需求,具体的减持方式和时间安排尚未公布。值得注意的是,勤上股份在公告中强调,瑞众人寿的此次减持行为不会对公司现有的治理结构以及日常经营活动的稳定性造成任何重大影响。
19:17
2025年8月15日,知名房企华侨城A正式公布了其7月份的销售业绩报告。数据显示,该公司当月合同销售面积达到13.6万平方米,与去年同期相比略有下降,降幅为1%,但相较于6月份却实现了高达47%的显著增长。在销售额方面,华侨城A当月合同销售金额为16.9亿元,同比下滑24%,环比增幅则为16%。这些数据揭示了当前房地产市场的复杂态势:尽管销售面积环比呈现强劲...