声明:本文源自微信公众号“DoNews”(ID:ilovedonews),作者李熙,编辑杨博丞,经微新创想授权转载发布。众所周知,科幻作家们曾预言了潜艇、卫星、人工智能等未来科技成就,但他们的预言中也不乏应验的“乌鸦嘴”,例如DDoS网络攻击、个人生物信息盗窃以及人工智能模型的退化。2023年2月,美国华裔科幻作家特德·姜在文章中指出,ChatGPT等大语言模型本质上是对互联网语料库的有损模糊压缩,类似于JPEG格式对原始高清图片的处理。他认为,用大语言模型生成的文本来训练新模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多信息,最终导致模型质量持续下降。随着大语言模型生成的文本在网络上泛滥,信息网络本身也变得越来越模糊,获取真实有效信息的难度日益增加。2023年6月,牛津大学、剑桥大学、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者联合发布论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》,该论文在业界引发广泛关注。实验结果证实了特德·姜的预言:用AI生成数据训练新的AI模型,最终会导致模型退化甚至崩溃。

01.“粪口循环”9次,大语言模型就会崩溃

这些研究者发现,在训练新的神经网络AI模型时,如果使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一退化过程与结果称为“模型崩溃”。论文指出,无论新模型的功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使在近乎理想状态的长时间学习条件下也是如此。论文第一作者伊利亚·苏玛利沃夫表示,AI生成数据中的错误会迅速累积,最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期和晚期两个阶段。在早期,被喂食生成数据的AI模型会开始失去原始数据分布的信息;在晚期,被喂食生成数据的AI模型会吐出完全不符合现实、与原始底层数据无关的结果。与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI会一直保留对之前学习过的原始底层数据的记忆,但会极其固执地强化错误结论,导致模型持续甚至强化将错误结果视为正确的结论。论文中展示了“模型崩溃”过程的示意图。

研究者们先用小模型进行试验,用相同模型生成的数据来训练同一模型。以高斯混合模型(GMM)为例,实验结果显示,在训练50次后,模型开始出现错误,无法分辨原始底层数据;训练到2000次后,模型的错误结果收敛到每次基本雷同且毫无变化。同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原始底层数据无关,20次后错误结果就开始收敛至基本雷同。

为了验证这一现象在小模型之外是否同样成立,研究者们使用Meta公司开发的OPT-125m文本生成模型进行实验。该模型参数量达1.25亿。研究者先用包含1亿词元的“维基文本库2”数据集喂给模型,然后跑出同样词元量的生成结果数据集,再用生成结果数据集反复训练OPT-125m模型。实验结果显示,在研究者输入提示词后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句;被如此训练1次后,大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文;被如此训练7次后,大模型吐出的是完全与初始提示词无关的文本;而到了第9次,大模型的生成文本就完全不知所云,变成了毫无意义的车轱辘话。

02.“模型崩溃”的根源:AI与生俱来的统计特性

“模型崩溃”的原因其实并不复杂。正如特德·姜、马斯克等名人所嘲笑生成式AI的说法,这些大模型本质上只是高端统计学应用,距离真正的“智能”还有很长的路要走。用AI生成内容来训练AI,不可避免地会陷入“统计近似值偏差”的陷阱。本质上,这些高端统计程序的神经网络模型天然会高估、过度重视大概率的通常值,而低估、过度忽视小概率的非常值。这些模型生成的结果无法规避上述缺陷,如果持续用来再训练新模型,数据的多样性会越来越小,符合真实的正确度会越来越有限,“近似值拟合”会越来越严重。

用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。论文作者之一罗斯·安德森将这一过程比喻为用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品来训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格,也不会有莫扎特的灵光。

除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质上都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。

03.模型生成内容充斥网络后,真人数据将成AI维生必需

对于业界而言,这一发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。

在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。数据饥渴的AI公司们,现在两种继续发掘高质量数据的办法都在用。一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。二是老实花钱买。北京时间6月17日0点,《金融时报》独家报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。

最新快讯

2025年12月19日

02:39
2025年12月19日,全球领先的金融服务机构花旗集团发布最新运营报告,宣布旗下大部分核心项目已成功达成或接近既定发展目标。该集团在声明中特别强调,通过全面优化标准化作业流程、大力推行自动化管理手段以及深化数字化管控体系,运营效率实现了显著提升。这一系列变革举措不仅有效简化了业务流程,更在显著降低运营成本的同时,大幅增强了风险防范与控制能力。花旗集团表示,这...
02:39
2025年12月19日,国际权威信用评级机构标普全球评级正式宣布,将法国知名汽车制造商雷诺的信用评级上调至备受青睐的投资级。这一重要评级调整,不仅是对雷诺近年来在多个关键领域取得显著成就的充分肯定,更凸显了其稳健发展的市场信心。评级上调的背后,是雷诺在财务健康度、业务结构优化以及电动化战略转型等方面取得的突破性进展,为公司的长远发展奠定了坚实基础。 标普评级...
02:39
2025年12月19日,国际评级机构标普全球评级正式宣布,将欧洲航空巨头空客的信用评级展望从稳定上调至正面,同时维持其“A”级投资信用评级不变。这一重要评级调整基于多方面积极因素,尤其是空客近年来持续产生的稳健自由现金流,充分展现了该公司在当前复杂全球经济环境下的卓越财务韧性。标普分析师在报告中指出,随着全球民用航空市场逐步走出疫情阴影,需求呈现显著复苏态势...
01:38
2025年12月19日,科郦有限公司正式向香港交易所递交主板上市申请,标志着这家企业迈向资本市场的重要里程碑。作为本次上市的独家保荐人,中国国际金融公司(中金公司)将为科郦的上市之路提供全方位的专业支持。此次公开募股不仅旨在为科郦筹集发展所需资金,更将助力公司进一步扩大业务版图,增强市场竞争力。目前,关于具体的融资规模及发行价格等关键信息尚未公布,市场普遍期...
01:08
2025年12月,OpenAI在高校市场取得重大突破,已成功向全美约35所公立大学出售超过70万份ChatGPT使用许可,覆盖学生与教职员工两大群体。这一战略举措不仅有效缓解了高校管理层对AI技术的顾虑,更为OpenAI赢得了宝贵的时间窗口,抢先锁定下一代职场用户的核心群体。与微软Copilot主要依托现有软件生态不同,ChatGPT凭借其独立且灵活的应用模...
01:08
12月17日,备受瞩目的第四届算力网络与数字经济论坛在上海隆重举行,同期举办的2025年“算力浦江”大会也吸引了众多行业精英参与。此次盛会不仅汇聚了顶尖专家学者,更向外界展示了上海在算力网络领域的最新发展成果。 会议披露了一组令人瞩目的数据:截至2025年6月,上海在用数据中心数量已达到136个,标准机架规模累计达到64.4万架。特别是在智能计算领域,上海在...
01:08
2025年12月19日,黑石集团首席执行官苏世民在公开场合明确表示,数据中心业务并非市场炒作的产物,而是具备坚实发展基础的稳健产业。他着重强调,该业务模式的核心理念在于极致的审慎与稳健,黑石集团始终致力于为财务状况良好、发展前景明确的企业提供高质量的数据中心服务。苏世民进一步阐述,黑石通过大规模投资建设现代化数据中心,并选择像英伟达这样信用评级极高的科技巨头...
00:38
2025年12月19日,Epic游戏平台正式公布本周免费游戏福利,为玩家带来一场不容错过的游戏盛宴。本周的限时免费游戏是备受期待的动作大作《巨人杀手:暗黑之潮》,这款游戏将支持PC平台,让玩家能够沉浸其中,体验刺激的战斗与丰富的剧情。为了确保每位玩家都能顺利领取,请务必在规定时间内访问Epic商店页面,完成领取操作。值得一提的是,一旦成功领取,该游戏将永久加...
00:07
2025年12月18日,备受瞩目的光合组织2025人工智能创新大会(HAIC2025)在昆山隆重举行。在此次盛会中,中科曙光携其尖端科技成果——scaleX万卡超集群震撼登场,正式面向全球发布并进行了实物展示。这一系统不仅代表了全球大规模智能计算技术的最新巅峰,更开创性地实现了国产万卡级AI集群的首次真机亮相,为全球AI领域带来了前所未有的震撼体验。 sca...
00:07
截至12月18日22时45分,2025年贺岁档电影总票房强势突破40亿元大关,这一亮眼成绩再次彰显了中国电影市场的蓬勃生机与巨大潜力。本次贺岁档从11月28日正式启动,至12月31日圆满收官,历时整整34天,期间电影市场持续火爆,观影热情高涨。根据各大网络平台权威数据显示,多部备受瞩目的重点影片集中上映,成功点燃了观众的观影热情,形成了持续攀升的票房热潮。这...
00:07
联想即将在2026年CES展会震撼发布全新掌机Legion Go 2,这款备受期待的设备将成为联想首款出厂预装SteamOS的掌机产品,为移动游戏体验带来革命性突破。作为一款高性能便携游戏设备,Legion Go 2将搭载AMD锐龙Z2 Extreme旗舰处理器,配合最高32GB内存与2TB高速固态硬盘,确保流畅运行各类大型游戏。其配备的8.8英寸OLED屏...
00:07
2026年1月6日至9日,全球领先的家电品牌海信将亮相美国拉斯维加斯CES 2026展会,以“创新点亮生活”为核心主题,向全球观众展示一系列颠覆性的科技创新成果。本次展会焦点之一是海信自主研发的最新RGB Mini LED屏幕技术,该技术通过精密优化光源系统,实现了前所未有的色彩自然度与能效表现,为用户带来更加沉浸式的视觉体验。 此次CES 2026展会还将...