AI生成数据训练会导致模型崩溃现象解析

2023-06-21 09:22:58 互联网 75 次阅读

声明：本文源自微信公众号“DoNews”（ID:ilovedonews），作者李熙，编辑杨博丞，经微新创想授权转载发布。众所周知，科幻作家们曾预言了潜艇、卫星、人工智能等未来科技成就，但他们的预言中也不乏应验的“乌鸦嘴”，例如DDoS网络攻击、个人生物信息盗窃以及人工智能模型的退化。2023年2月，美国华裔科幻作家特德·姜在文章中指出，ChatGPT等大语言模型本质上是对互联网语料库的有损模糊压缩，类似于JPEG格式对原始高清图片的处理。他认为，用大语言模型生成的文本来训练新模型，如同反复以JPEG格式存储同一图像，每次都会丢失更多信息，最终导致模型质量持续下降。随着大语言模型生成的文本在网络上泛滥，信息网络本身也变得越来越模糊，获取真实有效信息的难度日益增加。2023年6月，牛津大学、剑桥大学、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者联合发布论文预印本《递归之诅咒：用生成数据训练会使模型遗忘》，该论文在业界引发广泛关注。实验结果证实了特德·姜的预言：用AI生成数据训练新的AI模型，最终会导致模型退化甚至崩溃。

01.“粪口循环”9次，大语言模型就会崩溃

这些研究者发现，在训练新的神经网络AI模型时，如果使用大语言模型生成的内容作为训练数据集，会导致训练出的模型出现不可逆转的缺陷，即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一退化过程与结果称为“模型崩溃”。论文指出，无论新模型的功能是以文字生成文字还是以图片生成图片，只要使用其他模型生成的内容来训练，这个过程是不可避免的，即使在近乎理想状态的长时间学习条件下也是如此。论文第一作者伊利亚·苏玛利沃夫表示，AI生成数据中的错误会迅速累积，最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期和晚期两个阶段。在早期，被喂食生成数据的AI模型会开始失去原始数据分布的信息；在晚期，被喂食生成数据的AI模型会吐出完全不符合现实、与原始底层数据无关的结果。与症状类似的“灾难性遗忘”不同，“模型崩溃”的AI会一直保留对之前学习过的原始底层数据的记忆，但会极其固执地强化错误结论，导致模型持续甚至强化将错误结果视为正确的结论。论文中展示了“模型崩溃”过程的示意图。

研究者们先用小模型进行试验，用相同模型生成的数据来训练同一模型。以高斯混合模型（GMM）为例，实验结果显示，在训练50次后，模型开始出现错误，无法分辨原始底层数据；训练到2000次后，模型的错误结果收敛到每次基本雷同且毫无变化。同样方法训练变分自编码器（VAE）模型，训练5次后模型开始出错，10次后模型的错误结果开始与原始底层数据无关，20次后错误结果就开始收敛至基本雷同。

为了验证这一现象在小模型之外是否同样成立，研究者们使用Meta公司开发的OPT-125m文本生成模型进行实验。该模型参数量达1.25亿。研究者先用包含1亿词元的“维基文本库2”数据集喂给模型，然后跑出同样词元量的生成结果数据集，再用生成结果数据集反复训练OPT-125m模型。实验结果显示，在研究者输入提示词后，起初的OPT-125m模型吐出的是带有乱码但大体成文的语句；被如此训练1次后，大模型吐出的是带有瞎编内容的幻觉性文本，但仍然成文；被如此训练7次后，大模型吐出的是完全与初始提示词无关的文本；而到了第9次，大模型的生成文本就完全不知所云，变成了毫无意义的车轱辘话。

02.“模型崩溃”的根源：AI与生俱来的统计特性

“模型崩溃”的原因其实并不复杂。正如特德·姜、马斯克等名人所嘲笑生成式AI的说法，这些大模型本质上只是高端统计学应用，距离真正的“智能”还有很长的路要走。用AI生成内容来训练AI，不可避免地会陷入“统计近似值偏差”的陷阱。本质上，这些高端统计程序的神经网络模型天然会高估、过度重视大概率的通常值，而低估、过度忽视小概率的非常值。这些模型生成的结果无法规避上述缺陷，如果持续用来再训练新模型，数据的多样性会越来越小，符合真实的正确度会越来越有限，“近似值拟合”会越来越严重。

用研究者的话来说，用AI生成数据来训练新的AI，是在毒化模型对真实世界的认知。论文作者之一罗斯·安德森将这一过程比喻为用莫扎特作品来训练AI，结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品来训练新的模型，如此反复五六次后，最终模型的音乐作品既不会有莫扎特的风格，也不会有莫扎特的灵光。

除了这一主因外，“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质上都算是有限的通用函数近似器，但总会出现函数近似值过度表达或不充分表达带来的结果不精确。理论上来说，“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果，有少许可能，这些偏差恰好会消除真实数据中的噪音值，让AI模型的生成结果更符合真实数据分布。然而更大的可能是，这些误差会放大、加乘数据噪音。在罗斯·安德森的个人博客中，有人评论这是热力学中的熵、生物学中的近亲繁殖退化，在AI界的复现。

03.模型生成内容充斥网络后，真人数据将成AI维生必需

对于业界而言，这一发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称，在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后，互联网以后也会被大语言模型生成的低质量结果污染。反过来说，真实人类创造的数据如同洁净的空气与饮水，是日后生成式AI必须依赖的维生补给。

在如此背景下，不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源，马斯克们是绝不愿继续免费让OpenAI们拿去用的。数据饥渴的AI公司们，现在两种继续发掘高质量数据的办法都在用。一是扒完当代互联网数据后，继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”，在5月底称网站之前短暂崩溃，是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求，导致网站无法承载。二是老实花钱买。北京时间6月17日0点，《金融时报》独家报道，称最近数月内，谷歌、OpenAI、微软等公司在与新闻业界的大企业，如新闻集团（News Corp）、纽约时报和卫报在内的出版商接触，寻求AI训练数据材料的持续来源并避免未来的版权纠纷。虽然商洽还在早期阶段，但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用，媒体巨头们开出的价位是年均500-2000万美元。

标签：CHATGPT ChatGPT指令 CHATGPT提示词 ChatGPT提问大全 ChatGPT提问模板 CHATGPT模型训练 OpenAI 微想AI

2026年05月04日

17:42

AI生成数据训练会导致模型崩溃现象解析

最新快讯

2026年05月04日

灵心巧手拟融资60亿美元估值成独角兽引领高灵巧机械手市场

海信Vidda5月8日发布5款全场景新品强化显示与智能终端布局

鸿海第二代低轨卫星PEARL-1A/B成功入轨开启太空通信新纪元

英国15所中学试点VR减压系统应对焦虑ADHD提升学生专注力与心理健康

《夺宝奇兵：古老之圈》Switch 2版5月12日发布支持30帧动态分辨率

刺客信条黑旗记忆重置新机制画质升级全面解析

追觅CEO俞浩豪言超越苹果并公开征集iPhone改进建议

伯克希尔CEO阿贝尔明确表态不盲目押注AI投资

英特尔Arc显卡32.0.101.8737驱动发布适配Ultra系列及全系独立显卡

YouTube网页版重大Bug致浏览器卡顿崩溃原因解析

《盟军敢死队：起源》新DLC“不弃袍泽”上线限时优惠攻略指南

铠侠闪迪联手展示千层级QLC NAND技术突破3D存储新高度