Grok4与GPT-5性能成本深度对比：ARC-AGI基准测试结果解析

2025-08-08 10:06:04 AI动态 202 次阅读

最新发布的 ARC 奖测试结果揭示了主流 AI 模型在性能与成本方面的显著差异。在评估模型通用推理能力的 ARC-AGI-2 基准测试中，GPT-5（高级版）以 9.9% 的得分表现突出，每项任务成本仅为 0.73 美元。相比之下，Grokh4（思考型模型）虽然准确率高达 16%，但成本却高达每项任务 2 至 4 美元。这一数据表明，尽管 Grokh4 在复杂推理任务上表现更优，但其成本效益远不及 GPT-5。ARC-AGI 基准测试全面比较了领先语言模型的性能与成本表现。

在要求相对较低的 ARC-AGI-1 测试中，Grokh4 再次展现出优势，以 68% 的准确率领先于 GPT-5 的 65.7%。然而，尽管 Grokh4 的准确率更高，其每项任务约 1 美元的成本远超 GPT-5 的 0.51 美元，使得 GPT-5 在此测试中更具性价比。值得注意的是，xAI 公司仍有可能通过价格调整来缩小这一成本差距。此外，报告还特别提及了 GPT-5 的轻量级版本。GPT-5Mini 在 AGI-1 和 AGI-2 上的得分分别为 54.3% 和 4.4%，成本分别为 0.12 美元和 0.20 美元。而更小巧的 GPT-5Nano 在 AGI-1 上达到 16.5%（0.03 美元），在 AGI-2 上达到 2.5%（0.03 美元）。

在 ARC-AGI-1 测试中，于 2024 年 12 月发布的 o3-preview 模型表现惊人，以接近 80% 的准确率遥遥领先，但其成本远超其他竞争者。尽管 OpenAI 在其 GPT-5 演示中并未提及 ARC 奖，但据 The Information 报道，该公司可能为了适应后续的聊天版本而大幅削减了 o3-preview 的能力。

除了上述基准测试，ARC-AGI-3 也正在进行中。该测试要求模型在类似游戏的交互环境中通过反复试验来解决任务。尽管人类可以轻松应对，但大多数 AI 代理在视觉益智游戏中仍然面临挑战。这一测试进一步揭示了当前 AI 技术在复杂交互环境中的局限性。