Anthropic Claude Opus4.5创纪录4小时49分长任务处理新高度

在人工智能领域,衡量大模型进化水平的新维度已悄然浮现——持续执行能力。这一突破性进展正悄然改变着我们对AI的认知,使其不再局限于“短指令回复者”的范畴。人工智能研究机构METR发布的最新基准测试,为我们揭示了这一变革的关键证据。Anthropic旗下的顶级模型Claude Opus4.5在超长时间任务处理方面表现卓越,堪称行业标杆。测试数据显示,Claude Opus4.5在保持50%成功率的前提下,能够持续处理长达约4小时49分钟的复杂任务,这一成绩不仅刷新了行业历史记录,更标志着AI在耐力维度上的重大突破。

所谓“时间分辨率”指标,直观展现了模型在不同难度挑战下的耐力边界。当面对简单任务时,Claude Opus4.5仅需27分钟即可高效完成,展现出惊人的效率。然而,真正令人惊叹的是其在高难度、高耗时的深水区的表现。随着任务复杂度的提升,Opus4.5的优势被无限放大,这种持续稳定的输出能力,为解决复杂AGI任务提供了前所未有的可能性。

Anthropic Claude Opus4.5创纪录4小时49分长任务处理新高度插图1

AIbase注意到,尽管测试数据中出现了模型理论上可连续工作超过20小时的数值,但METR坦言这可能受限于样本量较小而产生的误差。尽管如此,这一突破性成果依然标志着AI正在从“短指令回复者”向“长程项目执行者”的华丽转身。AI的进化之路,正从单纯追求“高智商”转向兼顾“高耐力”,这种多维度的进步,将为未来AI应用场景打开更多想象空间。

然而,在肯定这一突破的同时,也有专家对该测试的局限性提出了建设性意见。目前METR仅涵盖了14个样本,且有观点认为这种基准测试可能被模型针对性地“刷分”。尽管存在这些争议,Claude Opus4.5的出现,为需要高强度、长时程逻辑支撑的AGI任务提供了新的可能性。这一创新不仅拓展了AI的应用边界,更预示着人工智能正在迈向更加成熟和实用的阶段。随着技术的不断迭代,我们有理由相信,未来AI将在持续执行能力上实现更大突破,为人类社会创造更多价值。

最新快讯

2025年12月22日

13:41
12月22日,国家航天局对地观测与数据中心主任孟令杰在新闻发布会上重磅宣布,我国目前在轨遥感卫星数量已突破400颗大关,形成了一支规模庞大、功能完备的卫星星座。这些先进的遥感卫星涵盖了光学、高光谱、红外以及微波等多种技术类型,不仅实现了全天候、全天时的对地观测能力,更在数据获取的精度和时效性上实现了质的飞跃。这一重大成就不仅标志着我国对地观测体系的日趋完善,...
13:41
12月22日,大连造船厂传来振奋人心的消息,我国自主研发建造的全球首艘甲醇双燃料动力智能超大型油轮“凯拓”轮正式交付。这艘总长333米、可载约210万桶原油的巨轮,由中船大连造船自主研发,成功入级中国船级社,展现了卓越的适航性能、显著的低排放特性和先进的智慧运营能力。作为第八代超大型油轮的杰出代表,“凯拓”轮未来将投入中东至远东航线运营,不仅将大幅提升能源运...
13:41
2025年12月21日,韩国首尔大学发生一起引人关注的线上期末考试集体作弊事件,再次将高校线上考试的诚信问题推至风口浪尖。此次事件涉及自然科学学院为服兵役学生开设的远程通识课程,据校方初步调查,部分学生疑似利用人工智能工具进行作弊。面对这一情况,首尔大学果断作出回应,宣布相关考试成绩全部作废,以维护学术公平和考试严肃性。 这起事件并非孤例,此前延世大学也曾曝...
13:41
2025年12月21日,一位来自Reddit的网友在社交平台上曝光了一起令人震惊的购物欺诈事件。该用户通过亚马逊平台购买了一批标榜为海盗船Vengeance DDR5内存条的产品,却在收到货后发现了严重问题。经过仔细检查,他发现内存条散热马甲存在明显松动现象,进一步拆解后更是惊愕地发现,这根本不是DDR5内存条,而是一根假冒的DDR4内存条。由于两者金手指缺...
13:40
2025年12月22日,山东白羽肉鸡市场迎来年内价格巅峰,毛鸡棚前报价飙升至3.85元/斤,较上周强势上涨0.25元/斤。这一价格不仅刷新了全年记录,更反映出市场供需关系的显著变化。业内人士透露,当前鸡源供应持续紧张,尤其是体重超过5.5斤的大鸡,已成为市场稀缺资源。为争夺有限货源,多家屠宰企业纷纷上调采购价格,部分区域报价已突破3.95元/斤,甚至逼近4元...
13:40
2025年12月22日,日本新潟县议会以压倒性票数批准了补充预算案,正式推动柏崎刈羽核电站的重启进程。这座位于新潟县境内的核电站,作为日本规模最大的核能发电设施,自2011年东日本大地震及后续引发的安全担忧后,于2012年被迫永久停运。此次预算案的通过,将为核电站的安全强化改造和重启准备工作提供充足的资金支持,相关工程将由东京电力公司全面负责实施。 柏崎...
13:40
2025年12月22日,国家航天局在新闻发布会上介绍,通过统筹民用与商业遥感卫星资源,构建虚拟观测星座,创新推出“太空打星”模式。该模式类似“太空版云打车”,实现卫星资源的流程化调度与数据共享,大幅提升应急响应速度。此举有效提升防灾减灾中的数据获取效率和卫星利用率,推动遥感数据向实际生产力转化。
13:40
2025年12月22日,国家数据局在重要新闻发布会上正式发布了第四批30个公共数据示范场景,标志着我国公共数据开放与利用工作迈入新阶段。副局长陈荣辉在发布会上强调,经过四批次共100个场景的建设实践,数据供给模式已实现重大转变,从最初的"共享为主"逐步升级为"共享、开放、授权运营"协同推进的新格局。特别值得关注的是,授权运营模式在第四批场景中占比显著提升,成...
13:40
2025年12月22日,日本鹿儿岛县种子岛宇宙中心迎来了一场备受瞩目的航天发射。H3火箭8号机在万众期待中升空,然而承载其上的“引路5号”卫星最终未能成功进入预定轨道,任务宣告失败。日本宇宙航空研究开发机构迅速发布通报,指出火箭第二级发动机燃烧过程出现异常,提前终止了推力输出,直接导致了此次发射的失利。 此次发射计划早在今年12月7日便已提上日程,但由于惯性...
13:40
2025年12月22日,智能驾驶方案提供商卓驭科技宣布获得中国一汽与中信建投资本的战略投资。卓驭科技专注于智能驾驶系统研发,提供涵盖控制器、传感器硬件及全栈算法的自动驾驶解决方案,其主导产品“成行平台”支持乘用车高阶智能驾驶功能实现。本轮融资将加速技术研发与商业化落地,进一步深化其在智能驾驶领域的布局。
13:40
2025年12月22日,大众安徽公布旗下全新纯电动中大型SUV——与众08的电池动力信息。该车提供82.368kWh和95.04kWh两种电池容量,续航分别为630km、700km和730km三种版本。车辆搭载最大功率230千瓦的电机,支持800V超快充、L2++级辅助驾驶及整车OTA升级。车身尺寸为5000/1954/1672(1688)mm,轴距303...
13:38
近日,在瑞士日内瓦召开的国际电信联盟(ITU)电信标准化部门ITU-T第17研究组会议上,一项由蚂蚁集团牵头、联合中国信息通信研究院泰尔终端实验室、中国电信等多家单位共同提出的《终端多智能体系统可信要求》国际标准项目,正式获得全会一致通过并成功立项。这一重要成果是对《关于共建终端智能体生态的倡议》的有力响应,标志着全球智能体生态建设迈入新阶段。 该标准以"可...