
在人工智能领域,衡量大模型进化水平的新维度已悄然浮现——持续执行能力。这一突破性进展正悄然改变着我们对AI的认知,使其不再局限于“短指令回复者”的范畴。人工智能研究机构METR发布的最新基准测试,为我们揭示了这一变革的关键证据。Anthropic旗下的顶级模型Claude Opus4.5在超长时间任务处理方面表现卓越,堪称行业标杆。测试数据显示,Claude Opus4.5在保持50%成功率的前提下,能够持续处理长达约4小时49分钟的复杂任务,这一成绩不仅刷新了行业历史记录,更标志着AI在耐力维度上的重大突破。
所谓“时间分辨率”指标,直观展现了模型在不同难度挑战下的耐力边界。当面对简单任务时,Claude Opus4.5仅需27分钟即可高效完成,展现出惊人的效率。然而,真正令人惊叹的是其在高难度、高耗时的深水区的表现。随着任务复杂度的提升,Opus4.5的优势被无限放大,这种持续稳定的输出能力,为解决复杂AGI任务提供了前所未有的可能性。

AIbase注意到,尽管测试数据中出现了模型理论上可连续工作超过20小时的数值,但METR坦言这可能受限于样本量较小而产生的误差。尽管如此,这一突破性成果依然标志着AI正在从“短指令回复者”向“长程项目执行者”的华丽转身。AI的进化之路,正从单纯追求“高智商”转向兼顾“高耐力”,这种多维度的进步,将为未来AI应用场景打开更多想象空间。
然而,在肯定这一突破的同时,也有专家对该测试的局限性提出了建设性意见。目前METR仅涵盖了14个样本,且有观点认为这种基准测试可能被模型针对性地“刷分”。尽管存在这些争议,Claude Opus4.5的出现,为需要高强度、长时程逻辑支撑的AGI任务提供了新的可能性。这一创新不仅拓展了AI的应用边界,更预示着人工智能正在迈向更加成熟和实用的阶段。随着技术的不断迭代,我们有理由相信,未来AI将在持续执行能力上实现更大突破,为人类社会创造更多价值。
