最新发布的 ARC 奖测试结果揭示了主流 AI 模型在性能与成本方面的显著差异。在评估模型通用推理能力的 ARC-AGI-2 基准测试中,GPT-5(高级版)以 9.9% 的得分表现突出,每项任务成本仅为 0.73 美元。相比之下,Grokh4(思考型模型)虽然准确率高达 16%,但成本却高达每项任务 2 至 4 美元。这一数据表明,尽管 Grokh4 在复杂推理任务上表现更优,但其成本效益远不及 GPT-5。ARC-AGI 基准测试全面比较了领先语言模型的性能与成本表现。

在要求相对较低的 ARC-AGI-1 测试中,Grokh4 再次展现出优势,以 68% 的准确率领先于 GPT-5 的 65.7%。然而,尽管 Grokh4 的准确率更高,其每项任务约 1 美元的成本远超 GPT-5 的 0.51 美元,使得 GPT-5 在此测试中更具性价比。值得注意的是,xAI 公司仍有可能通过价格调整来缩小这一成本差距。此外,报告还特别提及了 GPT-5 的轻量级版本。GPT-5Mini 在 AGI-1 和 AGI-2 上的得分分别为 54.3% 和 4.4%,成本分别为 0.12 美元和 0.20 美元。而更小巧的 GPT-5Nano 在 AGI-1 上达到 16.5%(0.03 美元),在 AGI-2 上达到 2.5%(0.03 美元)。

Grok4与GPT-5性能成本深度对比:ARC-AGI基准测试结果解析插图

在 ARC-AGI-1 测试中,于 2024 年 12 月发布的 o3-preview 模型表现惊人,以接近 80% 的准确率遥遥领先,但其成本远超其他竞争者。尽管 OpenAI 在其 GPT-5 演示中并未提及 ARC 奖,但据 The Information 报道,该公司可能为了适应后续的聊天版本而大幅削减了 o3-preview 的能力。

除了上述基准测试,ARC-AGI-3 也正在进行中。该测试要求模型在类似游戏的交互环境中通过反复试验来解决任务。尽管人类可以轻松应对,但大多数 AI 代理在视觉益智游戏中仍然面临挑战。这一测试进一步揭示了当前 AI 技术在复杂交互环境中的局限性。

Grok4与GPT-5性能成本深度对比:ARC-AGI基准测试结果解析插图1

最新快讯

2026年03月05日

11:18
微新创想 近日广西贵港一位车主在踩刹车时突然听到异响引起注意。次日送车保养时发现车底竟被老鼠塞满了红薯和玉米估算重量约有20斤。车主表示十分震惊并好奇老鼠是如何将这些食物搬上车的。幸运的是老鼠似乎也懂得分寸并未咬断任何线路 老鼠不仅是人类生活中的麻烦制造者更是粮食安全的重大隐患。作为地球上最早出现的哺乳动物之一老鼠比人类早出现四千七百多万年。它们凭借敏锐...
11:18
微新创想:华为AI眼镜即将在4月发布,与Pura 90系列以及折叠屏二代手机同期亮相。根据博主定焦数码的最新爆料,这款产品将提供流光银、钛银灰和摩登黑三种配色,外观设计简洁时尚,符合现代消费者对智能穿戴设备的审美需求。华为AI眼镜不仅具备基础的拍照和视频拍摄功能,还支持音频播放与同声传译,满足用户在多种场景下的使用需求。 得益于华为自主研发的鸿蒙OS系统,这...
11:18
微新创想 苹果公司正式发布了新款笔记本电脑MacBook Neo 起售价定为4599元 作为MacBook家族的全新成员 这款产品的出现进一步丰富了苹果入门级轻薄本的产品线 在核心配置上 MacBook Neo搭载了此前由iPhone 16 Pro系列首发的A18 Pro芯片 这标志着苹果手机芯片正式跨界进入了电脑终端 展现出极高的能效比优势 值...
11:18
微新创想:近日福州一起民间借贷纠纷案在网络上引发热议。案件的核心在于原告仅凭微信转账记录提起诉讼,却未能提供充分证据证明借贷合意,最终法院驳回了其诉讼请求。 原告与被告是同学关系。2024年11月,被告以偿还信用卡为由向原告借款1万元,并承诺会在短期内归还。出于对同学的信任,原告并未要求对方出具借条,而是通过微信分两次各转账5000元。 然而在还款期限届满后...
11:18
微新创想:3月5日11时11分(当地时间)日本民营航天公司“太空一号”在和歌山县纪伊太空发射场进行“凯洛斯”3号火箭的发射任务,但最终以失败告终。火箭点火升空后出现异常,剧烈旋转并随后解体爆炸。公司随即启动飞行中止程序,确保了地面安全。 此次发射失败是“凯洛斯”3号型号连续第三次遭遇失利。此前一天,即3月4日,原定的发射任务也因安全系统自动触发而被迫中止,倒...
11:18
微新创想:2026年3月4日,微软面向Windows 10系统重新推送更新KB5075039,修复因2025年10月KB5066835更新引发的Windows恢复环境(WinRE)无法启动及USB键鼠失灵问题。该故障源于USBHUB3.SYS驱动异常,导致用户在WinRE中无法操作。此前1月发布的同版本更新未能有效解决。 本次修复特别针对安装了KB50681...
11:18
微新创想:2026年3月,超精密加工及检测装备制造商博众泰达完成A+轮融资,投资方为龙江基金。此次融资标志着公司在超精密制造领域迈出了重要一步,进一步巩固了其在行业内的领先地位。 公司总部位于中国,专注于超精密设备、精密轴承及精密测量设备的研发与制造,并提供工艺开发及技术服务。博众泰达凭借先进的技术实力和丰富的行业经验,赢得了众多客户的信赖与支持。 本轮融资...
11:18
微新创想:2026年3月,深圳佰为深科技有限公司宣布完成C+轮融资,由顺禧基金独家投资。此次融资标志着公司在点式光纤传感器及解调技术领域迈出了重要一步。 该公司专注于点式光纤传感器及解调技术的研发与产业化,致力于将先进的传感技术应用于多个行业。其核心技术包括MEMS法珀腔、光纤布拉格光栅(FBG)传感以及白光干涉和扫描光谱解调等,技术实力在国内处于领先地位。...
11:18
微新创想:3月5日,无人飞行平台研发商天晴空天宣布完成A+轮融资,由晨熹资本独家投资。此次融资标志着公司在无人飞行技术领域迈出了重要的一步。 公司总部位于中国,专注于先进无人飞行平台的研发与批量制造。凭借多年的技术积累和创新能力,天晴空天已建立起涵盖多种类型无人飞行器的产品体系。 产品线覆盖察打一体无人机、攻击蜂群无人机、复合翼无人机、无人战斗机、飞行汽车等...
11:18
微新创想:2026年3月,深圳南科天润科技有限公司宣布完成A轮融资,由国华投资和力鼎资本共同出资。此次融资为公司首次对外融资,标志着其固态电池关键材料技术进入规模化落地阶段。 该公司专注于固态电池核心材料的研发与产业化,致力于推动新能源技术的发展。其技术基础源于南方科技大学的科研成果,具备较强的技术实力和创新优势。 本轮融资将主要用于中试产线的建设,以加快技...
11:18
微新创想:3月5日,多名消费者反映iPhone 17 Pro/Pro Max星宇橙配色机型使用约一个月后,铝合金边框及相机区域的橙色涂层异常褪为粉色。该问题在多个用户中出现,但并未集中在某一特定地区或使用场景。涉事设备均处于正常使用状态,用户表示并未进行任何暴晒或使用化学清洁剂等可能影响外观的行为。 微新创想:苹果客服方面回应称,目前尚未接到关于该问题的集中...
11:18
微新创想:2026年3月5日,一加中国区总裁李杰宣布一加15T将于本月正式发布。这款新机被定位为“全能小钢炮”,旨在为用户提供一款兼具高性能与便携性的旗舰产品。作为一加品牌在小屏手机领域的又一力作,一加15T在外观设计上也下足了功夫。 一加15T配备了一块6.32英寸的超窄四等边屏幕,边框宽度仅1.xx毫米,是目前小屏手机中视觉体验最为紧凑的设计之一。这种极...