声明:本文源自微信公众号“DoNews”(ID:ilovedonews),作者李熙,编辑杨博丞,经微新创想授权转载发布。众所周知,科幻作家们曾预言了潜艇、卫星、人工智能等未来科技成就,但他们的预言中也不乏应验的“乌鸦嘴”,例如DDoS网络攻击、个人生物信息盗窃以及人工智能模型的退化。2023年2月,美国华裔科幻作家特德·姜在文章中指出,ChatGPT等大语言模型本质上是对互联网语料库的有损模糊压缩,类似于JPEG格式对原始高清图片的处理。他认为,用大语言模型生成的文本来训练新模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多信息,最终导致模型质量持续下降。随着大语言模型生成的文本在网络上泛滥,信息网络本身也变得越来越模糊,获取真实有效信息的难度日益增加。2023年6月,牛津大学、剑桥大学、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者联合发布论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》,该论文在业界引发广泛关注。实验结果证实了特德·姜的预言:用AI生成数据训练新的AI模型,最终会导致模型退化甚至崩溃。

01.“粪口循环”9次,大语言模型就会崩溃

这些研究者发现,在训练新的神经网络AI模型时,如果使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一退化过程与结果称为“模型崩溃”。论文指出,无论新模型的功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使在近乎理想状态的长时间学习条件下也是如此。论文第一作者伊利亚·苏玛利沃夫表示,AI生成数据中的错误会迅速累积,最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期和晚期两个阶段。在早期,被喂食生成数据的AI模型会开始失去原始数据分布的信息;在晚期,被喂食生成数据的AI模型会吐出完全不符合现实、与原始底层数据无关的结果。与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI会一直保留对之前学习过的原始底层数据的记忆,但会极其固执地强化错误结论,导致模型持续甚至强化将错误结果视为正确的结论。论文中展示了“模型崩溃”过程的示意图。

研究者们先用小模型进行试验,用相同模型生成的数据来训练同一模型。以高斯混合模型(GMM)为例,实验结果显示,在训练50次后,模型开始出现错误,无法分辨原始底层数据;训练到2000次后,模型的错误结果收敛到每次基本雷同且毫无变化。同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原始底层数据无关,20次后错误结果就开始收敛至基本雷同。

为了验证这一现象在小模型之外是否同样成立,研究者们使用Meta公司开发的OPT-125m文本生成模型进行实验。该模型参数量达1.25亿。研究者先用包含1亿词元的“维基文本库2”数据集喂给模型,然后跑出同样词元量的生成结果数据集,再用生成结果数据集反复训练OPT-125m模型。实验结果显示,在研究者输入提示词后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句;被如此训练1次后,大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文;被如此训练7次后,大模型吐出的是完全与初始提示词无关的文本;而到了第9次,大模型的生成文本就完全不知所云,变成了毫无意义的车轱辘话。

02.“模型崩溃”的根源:AI与生俱来的统计特性

“模型崩溃”的原因其实并不复杂。正如特德·姜、马斯克等名人所嘲笑生成式AI的说法,这些大模型本质上只是高端统计学应用,距离真正的“智能”还有很长的路要走。用AI生成内容来训练AI,不可避免地会陷入“统计近似值偏差”的陷阱。本质上,这些高端统计程序的神经网络模型天然会高估、过度重视大概率的通常值,而低估、过度忽视小概率的非常值。这些模型生成的结果无法规避上述缺陷,如果持续用来再训练新模型,数据的多样性会越来越小,符合真实的正确度会越来越有限,“近似值拟合”会越来越严重。

用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。论文作者之一罗斯·安德森将这一过程比喻为用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品来训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格,也不会有莫扎特的灵光。

除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质上都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。

03.模型生成内容充斥网络后,真人数据将成AI维生必需

对于业界而言,这一发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。

在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。数据饥渴的AI公司们,现在两种继续发掘高质量数据的办法都在用。一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。二是老实花钱买。北京时间6月17日0点,《金融时报》独家报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。

最新快讯

2026年05月04日

17:42
微新创想:5月4日,北京机器人初创公司灵心巧手透露,计划在下一轮融资中寻求60亿美元估值,较刚完成的B+轮融资(30亿美元)翻倍。公司成立两年即成独角兽,专注高灵巧度人形机械手,占全球该市场超80%份额。其O6型机械手仅重370克、负载50公斤,已实现穿针、拧螺丝等精密操作。当前月产能近5000台,目标年内提升至1万台。投资方包括蚂蚁集团、红杉中国及中关村科...
17:42
微新创想:2026年5月8日14:30,海信与旗下品牌Vidda将在北京举办全场景新品发布会。此次发布会将带来五款全新产品,涵盖多个应用场景,满足不同用户的需求。其中包括Vidda户外三色激光投影仪,这款产品专为户外使用设计,具备出色的亮度与色彩表现,适合在各种光照条件下使用。 海信UX和GX Ultra Mini LED显示器也将在本次发布会上亮相。这两款...
17:42
微新创想:2026年5月3日,鸿海科技集团在东八区时间成功发射两颗第二代低轨卫星PEARL-1A与PEARL-1B,并顺利进入预定近地轨道。此次发射标志着鸿海在太空科技领域迈出了重要一步。 卫星采用6U XL构型,设计寿命为5年。这一构型不仅提升了卫星的载荷能力,也为未来的多功能应用提供了更广阔的空间。PEARL-1A与PEARL-1B的主要任务是开展Ka频...
17:42
微新创想:2026年5月4日,英国伦敦萨顿区的15所中学正式启动了一项VR心理干预试点项目。该项目旨在通过虚拟现实技术,帮助学生缓解考试焦虑、改善ADHD症状,并为家庭困难的学生提供心理支持。作为试点的一部分,学校引入了Phase Space公司开发的7分钟VR程序,该程序被设计为一种高效且易于操作的心理干预工具。 该项目由校方与NHS心理健康信托共同合作开...
16:33
微新创想:《夺宝奇兵:古老之圈》即将登陆任天堂Switch 2平台 5月12日,《夺宝奇兵:古老之圈》将正式登陆任天堂Switch 2平台。这款备受期待的动作冒险游戏终于迎来了新的版本,为玩家带来更加丰富的游戏体验。 MachineGames创意总监Axel Torvenius确认了游戏在Switch 2上的表现细节。游戏主机模式的分辨率为1080p,而掌机...
16:33
微新创想:2026年5月4日,育碧《刺客信条黑旗:记忆重置》开发总监Richard Knight在AMA活动中透露,本作将新增舰船自动驾驶功能,全面重做所有支线内容并回归通缉系统。这一系列更新不仅丰富了游戏玩法,也提升了整体的沉浸感。 游戏仍采用16×16公里地图,但新增岛屿与地点以增强世界密度。这些新增内容将为玩家带来更加广阔的探索空间,同时保持原有的地图...
16:33
微新创想:2026年5月4日 追觅科技CEO俞浩在微博公开表示“追觅为什么可以超越苹果?因为苹果不创新了”并宣称要“继承乔布斯遗志,打败苹果”。他同步发起互动 向公众征集iPhone使用痛点及手机行业创新创意。此举发生于追觅手机团队1月亮相西南欧经销商大会 展示高奢与模块化旗舰机型之后。俞浩此前多次表态 称追觅手机将与苹果、三星全球三分天下 并冲击世界第一。...
16:33
微新创想:2026年5月2日,伯克希尔·哈撒韦CEO格雷格·阿贝尔在奥马哈股东大会上表示,公司不会为追热点而投资AI。这一表态引发了广泛讨论,显示出伯克希尔在AI领域的独特立场。 阿贝尔代表伯克希尔·哈撒韦公司,明确表达了对人工智能投资的态度。他强调,伯克希尔不会盲目追逐AI热潮,而是坚持只在能够创造增量价值的领域应用AI技术。 阿贝尔指出,AI的应用必须具...
16:33
微新创想:2026年5月4日,英特尔正式推出锐炫Arc显卡Windows图形驱动32.0.101.8737版本。此次更新主要面向酷睿Ultra 100/200/300系列处理器以及所有Arc独立显卡型号,包括A系列和B系列。该驱动版本旨在提供更稳定的系统运行环境,确保用户在使用过程中能够获得更好的兼容性与性能表现。 微新创想:尽管本次驱动更新未包含针对新游戏...
16:33
微新创想:2026年5月4日,YouTube网页版被曝存在前端逻辑缺陷,导致Firefox、Brave及Edge等浏览器播放视频时频繁卡顿、标签页无响应。这一问题主要出现在用户与视频互动时,例如点击点赞、点踩或分享按钮,这些操作引发了前端代码的无限显示与隐藏循环。 微新创想:由于该循环问题,浏览器在处理视频播放时每秒会进行数千次重排计算,这不仅严重影响了用户...
16:33
微新创想:5月4日,Claymore Game Studios宣布《盟军敢死队:起源》大型DLC“不弃袍泽”正式登陆Xbox Series X|S、PS5及PC(Steam/Windows)平台。此次更新为玩家带来了全新的任务内容,聚焦营救被困战友与摧毁纳粹超级武器原型,延续了经典潜入玩法的精髓。 DLC任务设定于二战时期的法国战场,玩家将扮演指挥官,带领多...
16:01
微新创想:2026年6月14日至18日,铠侠与闪迪将在美国夏威夷举行的VLSI Symposium研讨会上联合展出多层堆叠单元架构QLC NAND闪存。此次展示标志着他们在3D NAND技术领域的重大进展,目标是突破1000层的极限。 微新创想:双方已提前公布MSA-CBA器件架构及FIB-SEM堆叠图像,为行业提供了宝贵的参考。这些图像和数据不仅展示了技术...