声明:本文源自微信公众号“DoNews”(ID:ilovedonews),作者李熙,编辑杨博丞,经微新创想授权转载发布。众所周知,科幻作家们曾预言了潜艇、卫星、人工智能等未来科技成就,但他们的预言中也不乏应验的“乌鸦嘴”,例如DDoS网络攻击、个人生物信息盗窃以及人工智能模型的退化。2023年2月,美国华裔科幻作家特德·姜在文章中指出,ChatGPT等大语言模型本质上是对互联网语料库的有损模糊压缩,类似于JPEG格式对原始高清图片的处理。他认为,用大语言模型生成的文本来训练新模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多信息,最终导致模型质量持续下降。随着大语言模型生成的文本在网络上泛滥,信息网络本身也变得越来越模糊,获取真实有效信息的难度日益增加。2023年6月,牛津大学、剑桥大学、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者联合发布论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》,该论文在业界引发广泛关注。实验结果证实了特德·姜的预言:用AI生成数据训练新的AI模型,最终会导致模型退化甚至崩溃。

01.“粪口循环”9次,大语言模型就会崩溃

这些研究者发现,在训练新的神经网络AI模型时,如果使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一退化过程与结果称为“模型崩溃”。论文指出,无论新模型的功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使在近乎理想状态的长时间学习条件下也是如此。论文第一作者伊利亚·苏玛利沃夫表示,AI生成数据中的错误会迅速累积,最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期和晚期两个阶段。在早期,被喂食生成数据的AI模型会开始失去原始数据分布的信息;在晚期,被喂食生成数据的AI模型会吐出完全不符合现实、与原始底层数据无关的结果。与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI会一直保留对之前学习过的原始底层数据的记忆,但会极其固执地强化错误结论,导致模型持续甚至强化将错误结果视为正确的结论。论文中展示了“模型崩溃”过程的示意图。

研究者们先用小模型进行试验,用相同模型生成的数据来训练同一模型。以高斯混合模型(GMM)为例,实验结果显示,在训练50次后,模型开始出现错误,无法分辨原始底层数据;训练到2000次后,模型的错误结果收敛到每次基本雷同且毫无变化。同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原始底层数据无关,20次后错误结果就开始收敛至基本雷同。

为了验证这一现象在小模型之外是否同样成立,研究者们使用Meta公司开发的OPT-125m文本生成模型进行实验。该模型参数量达1.25亿。研究者先用包含1亿词元的“维基文本库2”数据集喂给模型,然后跑出同样词元量的生成结果数据集,再用生成结果数据集反复训练OPT-125m模型。实验结果显示,在研究者输入提示词后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句;被如此训练1次后,大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文;被如此训练7次后,大模型吐出的是完全与初始提示词无关的文本;而到了第9次,大模型的生成文本就完全不知所云,变成了毫无意义的车轱辘话。

02.“模型崩溃”的根源:AI与生俱来的统计特性

“模型崩溃”的原因其实并不复杂。正如特德·姜、马斯克等名人所嘲笑生成式AI的说法,这些大模型本质上只是高端统计学应用,距离真正的“智能”还有很长的路要走。用AI生成内容来训练AI,不可避免地会陷入“统计近似值偏差”的陷阱。本质上,这些高端统计程序的神经网络模型天然会高估、过度重视大概率的通常值,而低估、过度忽视小概率的非常值。这些模型生成的结果无法规避上述缺陷,如果持续用来再训练新模型,数据的多样性会越来越小,符合真实的正确度会越来越有限,“近似值拟合”会越来越严重。

用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。论文作者之一罗斯·安德森将这一过程比喻为用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品来训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格,也不会有莫扎特的灵光。

除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质上都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。

03.模型生成内容充斥网络后,真人数据将成AI维生必需

对于业界而言,这一发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。

在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。数据饥渴的AI公司们,现在两种继续发掘高质量数据的办法都在用。一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。二是老实花钱买。北京时间6月17日0点,《金融时报》独家报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。

最新快讯

2025年12月18日

16:30
12月16日,越南银行学院(BAV)与享誉国际的Vantage基金会于河内正式签署谅解备忘录,双方将携手建立战略合作伙伴关系,共同推动金融教育领域的创新发展。此次合作标志着越南金融教育领域迈入新阶段,双方将聚焦未来教育项目,计划于2026年正式启动一系列联合项目,为越南乃至亚洲地区的金融人才培养注入新活力。 在合作框架下,双方将重点开展三大领域的深度合作。首...
16:30
2025年12月18日,家居行业领军企业顶固家居正式宣布完成对航天材料领域的创新布局,成功参股航天材料技术公司航聚科技,并持有其5.8018%的股权。这一战略性投资不仅彰显了顶固家居在材料科学领域的远见卓识,更标志着家居产业与尖端航天科技的深度融合迈出了关键一步。 航聚科技作为航天飞行器热防护领域的核心企业,专注于高温绝热材料、防热涂层、舱段隔热系统等关键技...
16:30
2025年12月18日,微软正式发布了备受关注的Windows 11系统12月累积更新KB5072033,标志着系统版本号成功跃升至26100.7462(适用于24H2版本)和26200.7462(适用于25H2版本)。此次更新旨在优化系统稳定性与用户体验,通过修复多项已知问题为用户带来更流畅的操作环境。然而,尽管微软在此次更新中解决了部分技术漏洞,但深色模...
16:30
2025年12月18日,Sage在新加坡隆重宣布正式推出Sage Intacct解决方案这一创新云平台。该平台专为追求卓越的财务团队量身打造,通过深度集成自动化流程、智能数据分析以及实时可视化功能,能够显著提升工作效率,将传统的财务结算周期大幅缩短高达70%。Sage Intacct致力于简化复杂的财务流程,同时为企业提供强大的扩展支持,助力业务持续增长。 ...
16:30
迅策科技近日成功斩获约3957万美元的基石投资,彰显了资本市场对其发展潜力的高度认可。本次融资活动吸引了中视金桥、Alphahill基金、富策控股(龚虹嘉先生全资)、Infini、蔷薇香港、New Golden Future Limited、Cithara基金、FMF、Joy Mobile等多家知名机构的联合参与,阵容强大,显示出行业对迅策科技未来发展的坚定...
16:30
2025年12月18日,国内领先的卫星通信企业中科星辰正式宣布成功完成A+轮融资。本次融资吸引了多家知名投资机构的积极参与,包括彬复资本、四川发展产业引导基金、宽桥恒松、西博创投以及新微资本等。作为卫星通信领域的创新先锋,中科星辰长期致力于卫星移动通信终端的销售、卫星技术综合应用系统集成以及移动通信设备的研发。此次融资的顺利完成,不仅彰显了市场对中科星辰技术...
16:30
2025年12月18日,中国黄金行业迎来重大战略布局,招金集团正式宣布成功完成对山东金都100%股权的收购。这一举措标志着山东省招远市黄金产业的千亿级整合计划已圆满收官,为区域经济高质量发展注入强劲动力。 山东金都作为一家专注于黄金矿业、电子材料及资产管理的综合性产业投资平台,其战略价值在此次收购中得以充分凸显。招远市素有“中国金都”的美誉,此次招金集团...
16:30
2025年12月18日,北京时间,全球知名的半导体巨头英伟达与汽车零部件供应商法雷奥就前员工Mohammad Moniruzzaman商业间谍案达成和解协议。这一事件自去年曝光以来,引发了业界的广泛关注。Moniruzzaman于2021年加入英伟达,却在一次与梅赛德斯-奔驰合作的智能驾驶项目视频会议中,被法雷奥方面发现展示涉及公司核心源代码的内容。 法雷奥...
16:30
2026年,位于沙迦与迪拜之间的一处秘境——Mleiha国家公园,将向全球游客揭开全新沉浸式沙漠体验的神秘面纱。仅需一小时车程,您便能抵达这片融合了自然奇观与人文历史的独特天地。在这里,奢华与探险将完美交织,为您带来前所未有的沙漠度假体验。 全新沉浸式沙漠体验将包含三大核心项目:豪华露营、天文观测和户外探险。在远离城市光污染的纯净夜空下,游客可以参与专业天文...
16:30
2025年12月18日,中国领先的特种材料企业弘德光电正式宣布成功完成总额数千万元人民币的A轮融资,投资方为知名风险投资机构博灏创投。此次融资不仅为弘德光电注入强劲发展动力,更彰显了资本市场对其技术创新实力和市场前景的高度认可。 作为国内光学材料与功能性材料领域的先行者,弘德光电始终坚持以自主研发为核心驱动力。通过多年持续的技术攻关与产学研深度合作,公司在胶...
16:30
2025年12月18日,备受瞩目的医疗机器人企业唯精医疗正式宣布成功完成A+轮融资,此次投资由实力雄厚的国泰君安创新投资领投。作为国内微创手术智能化领域的领军者,唯精医疗始终专注于手术机器人核心技术的研发与创新,并积极推动智能化手术平台的临床应用与市场推广。公司凭借在精密机械控制、人工智能算法优化以及多模态信息融合等领域的深厚积累,已逐步构建起完善的技术壁垒...
16:30
2025年12月18日,长缆科技在官方互动平台正式宣布,公司已成功将特种电缆、箱柜设备、连接器模块及机电类产品全面应用于商业航天领域。这一重要里程碑不仅标志着长缆科技正式进军航天行业,更意味着企业成功拓展了高端应用场景,开启了全新的市场增长机遇。通过持续的技术研发创新与行业深度对接,长缆科技实现了核心产品在航天领域的完美应用落地,显著提升了市场竞争力。此次突...