Anthropic新研究揭示AI终极风险:随机崩溃而非觉醒

Anthropic新研究揭示AI终极风险:随机崩溃而非觉醒插图1

微新创想:人工智能的失控风险正逐渐从科幻想象走向现实威胁。最新研究揭示,AI模型在处理复杂任务时,其不一致性问题可能比我们预想的更加严重。这种不一致性并非源于恶意或蓄意叛变,而是模型在海量计算中因逻辑混乱而产生的随机崩溃。研究团队来自Anthropic、EPFL和爱丁堡大学,他们通过深入分析模型规模、任务复杂度与失控风险之间的关系,提出了一个全新的视角。

Anthropic新研究揭示AI终极风险:随机崩溃而非觉醒插图2

人工智能的风险常常被误解为某种蓄谋已久的恶意行为。这类似于一名司机故意将车驶向悬崖,其行为有明确的目标和轨迹。然而,这种错误通常被归类为偏置,即模型在追求一个我们不希望其达成的目标时所表现出的系统性偏差。另一种风险则更为隐蔽,就像司机突然喝醉,车轮左右摇摆,轨迹毫无规律可言。这种随机崩溃在模型中表现为不一致性,其影响远比偏置更难以预测和控制。

Anthropic新研究揭示AI终极风险:随机崩溃而非觉醒插图3

研究人员将不一致性定义为模型错误中随机崩溃所占的比例。当这个数值接近零时,模型的错误表现得非常稳健,即使出现偏差,也遵循一定的逻辑。而当数值接近一时,模型的行为则变得不可预测,仿佛在进行一场没有终点的随机漫步。这种现象在当前的顶尖AI模型中尤为明显,它们在处理复杂任务时表现出的随机性远超系统性偏置。

Anthropic新研究揭示AI终极风险:随机崩溃而非觉醒插图4

为了验证这一现象,研究团队在多个高难度测试环境中观察模型的表现。例如,在GPQA(研究生级别科学问答)和SWE-BENCH(软件工程基准测试)等任务中,他们发现AI在思考和行动步骤越多的情况下,其表现越不一致。这种不一致性源于推理链条中的微小偏差不断放大,最终导致答案偏离逻辑轨道。Sonnet4和o3-mini等模型的实验结果充分证明了这一点,即便任务难度相同,更长的推理路径也会带来更高的不一致性。

Anthropic新研究揭示AI终极风险:随机崩溃而非觉醒插图5

在自然状态下,过度思考反而成为混乱的根源。即使这些模型偶尔能给出正确的答案,其过程却充满了随机的波动。Hot Mess理论指出,随着AI能力的提升,其行为变得越来越难以用单一目标来解释。它们不再是纯粹的目标优化器,而是在高维状态空间中游走的不稳定的逻辑实体。

Anthropic新研究揭示AI终极风险:随机崩溃而非觉醒插图6

单纯增加模型规模和算力似乎无法解决这种逻辑上的精神内耗。对于简单任务,大型模型确实表现得更加稳健,其不一致性随规模扩大而降低。但在面对真正复杂的任务时,情况却出现了反转。例如,在MMLU(大规模多任务语言理解)基准测试中,QWEN3家族的模型虽然在处理简单问题时变得更加可靠,但在处理困难问题时,其随机崩溃却难以有效控制。

Anthropic新研究揭示AI终极风险:随机崩溃而非觉醒插图7

研究还发现,大型模型在降低偏置方面比小型模型更快,但它们在减少随机崩溃方面却显得力不从心。这使得它们在错误时表现得更加疯狂和不可预测。在模拟优化器实验中,研究人员训练Transformer模型去模仿数学优化路径,结果表明模型规模越大,其学习速度越快,但维持长期连贯行动的能力却增长缓慢。

Anthropic新研究揭示AI终极风险:随机崩溃而非觉醒插图8

集成学习被视作缓解不一致性的有效手段。通过让模型多次尝试同一问题并取平均值,随机崩溃可以迅速下降。然而,现实世界中的许多操作是不可逆的,如删除数据库、发送邮件或执行物理任务。在这种情况下,AI代理没有机会重新开始,因此集成方法无法发挥其应有的作用。

Anthropic新研究揭示AI终极风险:随机崩溃而非觉醒插图9

推理预算的增加虽然能提升模型的准确率,却无法从根本上解决不一致性的上升问题。这表明AI的混乱并非源于训练不足,而是高维动态系统在处理长程依赖时的原生缺陷。因此,安全研究的重心需要发生转变,我们不应仅仅关注那些看似遥远的篡权阴谋,而应更加警惕那些在关键时刻可能因逻辑扰动而失控的超级智能。

当这些AI被赋予管理复杂工业流程或软件架构的任务时,一次细微的逻辑错误就可能引发无法控制的混乱。未来的风险控制需要更精细的分解,不仅要关注偏置问题,更要重视不一致性这一顽疾。如果不能在模型架构层面解决逻辑连贯性的损耗,单纯依赖规模化只会让我们得到一个知识渊博却随时可能陷入混乱的数字巨人。

我们与其担心AI是否会拥有自己的想法,不如担心它在关键时刻是否根本不知道自己在想什么。这种不可预测性可能成为未来最大的安全隐患。

最新快讯

2026年02月16日

14:59
微新创想:2026年2月16日,谷歌宣布对Pixel手机的“快速共享”功能进行了服务器端策略调整。此次更新取消了原本“始终对附近所有人开放”的选项,仅保留“限时10分钟开放”的设置。这一变化主要影响的是运行Google Play服务v26.06.31测试版的Pixel设备,用户无需手动升级系统即可体验新策略带来的调整。 此次功能变更被外界广泛认为是谷歌在隐私...
14:59
微新创想:2026年2月,Linux 7.0内核正式引入两项重要更新。其中一项更新是在引导阶段支持编译时指定替代Tux企鹅Logo。这一功能通过Kconfig选项实现,允许开发者直接配置PPM文件,从而在系统启动时使用自定义的Logo。该改进为用户和开发者提供了更高的灵活性,使系统外观可以根据需求进行个性化定制。 另一项重要更新是优化exFAT文件系统。Li...
14:59
微新创想:截至2026年2月16日,2026年春节档(2月10日—2月16日)总票房突破5亿元。这一成绩不仅展现了春节黄金周的观影热情,也标志着国产电影市场在内容和质量上的稳步提升。 微新创想:《飞驰人生3》凭借其精彩的赛车场面和感人的情节,以2.04亿元的票房成绩位居榜首。影片延续了前作的高水准制作,同时在故事深度和角色塑造上有了新的突破,赢得了观众的广泛...
14:59
微新创想:2026年2月16日,花旗集团宣布将法国轮胎制造商米其林股票目标价由36欧元上调至38欧元。这一调整反映了花旗对米其林近期表现的认可。公司凭借稳健的盈利增长和高端产品组合的持续优化,展现出强劲的发展势头。同时,全球替换胎市场需求正在逐步回暖,为米其林的业务带来新的增长机遇。 花旗指出,米其林在可持续轮胎技术方面的领先地位,已成为其提升市场竞争力的重...
14:58
微新创想:2026年2月16日,石药集团宣布其自主研发的罗哌卡因长效注射液(SYH9089注射液)获国家药监局批准,将在国内开展术后镇痛适应症的临床试验。该产品属于中枢神经领域创新制剂,具有重要的临床应用价值。 微新创想:SYH9089注射液的研发标志着石药集团在局部麻醉镇痛领域迈出了关键一步。作为一款新型长效注射液,其主要作用是提供更持久的术后镇痛效果,有...
14:58
微新创想:2026年2月16日,国家电投集团在新春致辞中宣布,将于2026年深化企业改革、加快战略落地。此举旨在巩固‘十四五’收官成果——2025年集团总装机达2.87亿千瓦,资产近2万亿元,营收超4000亿元,利润突破500亿元;“国和一号”建成投产,300兆瓦级F级燃机样机通过可靠性验证。改革将聚焦创新驱动、数智赋能与风险防控,推动高质量发展。 国家电投...
14:34
微新创想 苹果即将推出一款搭载A18 Pro芯片的新款MacBook 其核心目标非常明确 通过更亲民的价格策略 从低价笔记本市场中抢占更多的份额 知名爆料人Mark Gurman透露 苹果预计会在今年3月的春季发布会上正式揭开这款设备的神秘面纱 众所周知 苹果旗下的MacBook通常搭载M系列芯片 但是这款MacBook直接搬来了iPhone 16 Pr...
14:33
微新创想:2026年情人节紧邻春节,浪漫经济与春节氛围共振,推高节日消费热度。一面是节前返乡潮下,传统快递时效趋缓,收件地址也多有变动;一面是消费者对“准时送达”的期待与异地送礼的需求,共同催生“即选即送”的消费新趋势。凭借“分钟级”履约能力,即时配送让心意无需久候,为双节的仪式感注入新体验。 微新创想:国内最大的第三方即配平台顺丰同城数据显示,情人节当天其...
14:21
微新创想:2026年夏季 国产科幻电影《星河入梦》将通过Netflix面向全球上线 影片已于2026年春节在国内院线定档上映 讲述近未来虚拟梦境系统“良梦”引发的危机故事 《星河入梦》由国内知名制作团队打造 以科技与人性的碰撞为主线 展现了一个充满想象力的未来世界 在这个世界中 虚拟梦境技术已经高度发达 人们可以通过“良梦”系统进入一个完全由人工智能构建的梦...
14:03
声明:本文来自于微信公众号盒饭财经(ID:daxiongfan),作者:沈三又,授权站长之家转载发布。美团收购叮咚买菜一事尘埃落定后,外界的疑问反而更多了。美团有小象超市了,为什么还要买叮咚买菜?为什么在这个时间点?为什么是叮咚?叮咚买菜一定要卖吗?2月5日下午,美团在港交所披露的一则交易公告。公告称,收购方、转让方及梁昌霖先生...
14:03
微新创想 Linux Kernel 7.0 的发布标志着开源社区正式与 Intel 440BX 芯片组告别。此次更新中,开发人员彻底移除了 440BX 的 EDAC 驱动程序,而非仅作临时禁用。这一决定意味着现代 Linux 系统将不再为这款上世纪 90 年代的经典硬件提供官方支持。 Intel 440BX 芯片组诞生于 1998 年,距今已近 30 年...
14:03
微新创想:科乐美正式官宣《恶魔城》系列全新正统续作《恶魔城:贝尔蒙特的诅咒》 这是为了纪念系列诞生 40 周年而打造的作品 《恶魔城:贝尔蒙特的诅咒》由与科乐美与《死亡细胞》的开发商 Motion Twin共同制作 故事背景设定在 15 世纪的巴黎 时间线位于《恶魔城:德古拉的诅咒》事件 23 年之后 主角作为贝尔蒙特家族的后裔 将手持系列标志性的圣鞭 吸血...