近期,一个名为 FormulaOne 的新型 AI 评测基准横空出世,迅速引爆了科技界的关注热潮。这个基准由专注于超智能与高级 AI 系统研究的前沿机构 AAI 研发推出,旨在对当前最顶尖的 AI 模型进行全方位的挑战。然而,测试结果却出人意料地令人瞠目结舌——包括 GPT-5、Grok4 和 o3Pro 在内的众多明星 AI 模型,在测试中无一例外地遭遇了零分惨败!这一系列测试不仅揭示了 AI 技术的现有局限,更引发了人们对未来 AI 发展方向的深刻思考。
FormulaOne 基准包含了 220 个精心设计的新颖图结构动态规划问题,这些问题按照难度被划分为三个等级,从中等难度到科研级别不等,涵盖了拓扑学、几何学和组合数学等复杂领域。尽管每个问题的表述都力求简洁明了,但实际解决这些问题的过程却需要极高的推理能力和逻辑推演水平,堪称是名副其实的博士级难题。这一评测体系的核心算法基础,源于Courcelle 提出的重要算法元定理——该定理指出,对于任何类似树的图结构,只要问题可以用逻辑定义,就一定可以通过动态规划算法来解决。这就需要借助一种被称为树分解的特殊结构,将图的顶点组织成一系列相互重叠的集合,并以树状形式排列,然后通过动态规划逐步攻克难题。
在浅层难度的测试中,这些前沿 AI 模型的表现尚可,成功率达到了 50% 到 70% 的水平,这表明它们确实具备一定的基础推理能力。然而,当测试难度提升到深层和更深层级别时,情况急转直下。在深层难度测试中,顶尖模型的成功率大幅暴跌,Grok4、Gemini-Pro 等模型的解题率不足 1%,而 GPT-5Pro 也仅勉强解出 4 个问题。在最难的科研级别测试中,所有模型的表现均归零,集体遭遇了前所未有的崩溃。
这项评测结果不仅在科研界引发了热烈的讨论和深入的分析,更让公众对 AI 模型的真实能力产生了全新的认识。许多专家甚至建议,未来在评估 AI 模型时,应该引入人类博士生参与测试,以确保评估的全面性和客观性。随着 AI 技术的日新月异,这一评测结果也促使我们必须重新审视:当前 AI 模型距离真正意义上的“博士级”推理能力,究竟还有多远的距离?模型地址:https://huggingface.co/spaces/double-ai/FormulaOne-Leaderboard
✅ GPT-5等顶级 AI 模型在新评测基准 FormulaOne 中遭遇零分惨败,结果令人震惊! ✅ FormulaOne 包含 220 个高难度动态规划问题,全面考验 AI 模型的推理与逻辑能力。 ✅ 浅层问题上 AI 表现尚可,但在深层和科研级别问题上集体失守,揭示了当前 AI 模型的实际局限性。