FormulaOne评测：GPT-5等AI模型惨遭零分，博士级推理能力挑战引热议

2025-08-15 16:57:57 AI动态 40 次阅读

近期，一个名为 FormulaOne 的新型 AI 评测基准横空出世，迅速引爆了科技界的关注热潮。这个基准由专注于超智能与高级 AI 系统研究的前沿机构 AAI 研发推出，旨在对当前最顶尖的 AI 模型进行全方位的挑战。然而，测试结果却出人意料地令人瞠目结舌——包括 GPT-5、Grok4 和 o3Pro 在内的众多明星 AI 模型，在测试中无一例外地遭遇了零分惨败！这一系列测试不仅揭示了 AI 技术的现有局限，更引发了人们对未来 AI 发展方向的深刻思考。

FormulaOne 基准包含了 220 个精心设计的新颖图结构动态规划问题，这些问题按照难度被划分为三个等级，从中等难度到科研级别不等，涵盖了拓扑学、几何学和组合数学等复杂领域。尽管每个问题的表述都力求简洁明了，但实际解决这些问题的过程却需要极高的推理能力和逻辑推演水平，堪称是名副其实的博士级难题。这一评测体系的核心算法基础，源于Courcelle 提出的重要算法元定理——该定理指出，对于任何类似树的图结构，只要问题可以用逻辑定义，就一定可以通过动态规划算法来解决。这就需要借助一种被称为树分解的特殊结构，将图的顶点组织成一系列相互重叠的集合，并以树状形式排列，然后通过动态规划逐步攻克难题。

在浅层难度的测试中，这些前沿 AI 模型的表现尚可，成功率达到了 50% 到 70% 的水平，这表明它们确实具备一定的基础推理能力。然而，当测试难度提升到深层和更深层级别时，情况急转直下。在深层难度测试中，顶尖模型的成功率大幅暴跌，Grok4、Gemini-Pro 等模型的解题率不足 1%，而 GPT-5Pro 也仅勉强解出 4 个问题。在最难的科研级别测试中，所有模型的表现均归零，集体遭遇了前所未有的崩溃。

这项评测结果不仅在科研界引发了热烈的讨论和深入的分析，更让公众对 AI 模型的真实能力产生了全新的认识。许多专家甚至建议，未来在评估 AI 模型时，应该引入人类博士生参与测试，以确保评估的全面性和客观性。随着 AI 技术的日新月异，这一评测结果也促使我们必须重新审视：当前 AI 模型距离真正意义上的“博士级”推理能力，究竟还有多远的距离？模型地址：https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard

✅ GPT-5等顶级 AI 模型在新评测基准 FormulaOne 中遭遇零分惨败，结果令人震惊！ ✅ FormulaOne 包含 220 个高难度动态规划问题，全面考验 AI 模型的推理与逻辑能力。 ✅ 浅层问题上 AI 表现尚可，但在深层和科研级别问题上集体失守，揭示了当前 AI 模型的实际局限性。

2026年03月05日

13:55

FormulaOne评测：GPT-5等AI模型惨遭零分，博士级推理能力挑战引热议

最新快讯

2026年03月05日

2026年Q1内存价格暴涨近一倍 AI服务器抢空产能引发市场巨变

默沙东因HPV疫苗需求下滑关停美国达勒姆工厂影响150名员工

阿斯塔纳航空确认订购25架A320neo系列飞机助力机队升级与航线拓展

阿曼石油营销公司燃料罐事故引发关注运营暂时中止

2026款MacBook欧洲版取消附赠充电器环保策略引热议

卡塔尔航空启动马斯喀特利雅得疏运航班解决旅客滞留问题

我国最大煤岩气田大吉气田年产能突破40亿立方米引领天然气增产

兴业银锡未单独生产铟金属伴生金属综合回收策略解析

成都—厦门“丝路海运”专列首发助力四川外贸物流升级

伟星股份应对铜价上涨：优化采购与研发稳定盈利

尊界S800首发896线激光雷达 72.8万元起售引领智能驾驶新潮流

大厂入局引爆AI漫剧，第一批跳槽的人工资涨10倍？