声明:本文源自微信公众号“DoNews”(ID:ilovedonews),作者李熙,编辑杨博丞,经微新创想授权转载发布。众所周知,科幻作家们曾预言了潜艇、卫星、人工智能等未来科技成就,但他们的预言中也不乏应验的“乌鸦嘴”,例如DDoS网络攻击、个人生物信息盗窃以及人工智能模型的退化。2023年2月,美国华裔科幻作家特德·姜在文章中指出,ChatGPT等大语言模型本质上是对互联网语料库的有损模糊压缩,类似于JPEG格式对原始高清图片的处理。他认为,用大语言模型生成的文本来训练新模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多信息,最终导致模型质量持续下降。随着大语言模型生成的文本在网络上泛滥,信息网络本身也变得越来越模糊,获取真实有效信息的难度日益增加。2023年6月,牛津大学、剑桥大学、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者联合发布论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》,该论文在业界引发广泛关注。实验结果证实了特德·姜的预言:用AI生成数据训练新的AI模型,最终会导致模型退化甚至崩溃。

01.“粪口循环”9次,大语言模型就会崩溃

这些研究者发现,在训练新的神经网络AI模型时,如果使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一退化过程与结果称为“模型崩溃”。论文指出,无论新模型的功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使在近乎理想状态的长时间学习条件下也是如此。论文第一作者伊利亚·苏玛利沃夫表示,AI生成数据中的错误会迅速累积,最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期和晚期两个阶段。在早期,被喂食生成数据的AI模型会开始失去原始数据分布的信息;在晚期,被喂食生成数据的AI模型会吐出完全不符合现实、与原始底层数据无关的结果。与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI会一直保留对之前学习过的原始底层数据的记忆,但会极其固执地强化错误结论,导致模型持续甚至强化将错误结果视为正确的结论。论文中展示了“模型崩溃”过程的示意图。

研究者们先用小模型进行试验,用相同模型生成的数据来训练同一模型。以高斯混合模型(GMM)为例,实验结果显示,在训练50次后,模型开始出现错误,无法分辨原始底层数据;训练到2000次后,模型的错误结果收敛到每次基本雷同且毫无变化。同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原始底层数据无关,20次后错误结果就开始收敛至基本雷同。

为了验证这一现象在小模型之外是否同样成立,研究者们使用Meta公司开发的OPT-125m文本生成模型进行实验。该模型参数量达1.25亿。研究者先用包含1亿词元的“维基文本库2”数据集喂给模型,然后跑出同样词元量的生成结果数据集,再用生成结果数据集反复训练OPT-125m模型。实验结果显示,在研究者输入提示词后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句;被如此训练1次后,大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文;被如此训练7次后,大模型吐出的是完全与初始提示词无关的文本;而到了第9次,大模型的生成文本就完全不知所云,变成了毫无意义的车轱辘话。

02.“模型崩溃”的根源:AI与生俱来的统计特性

“模型崩溃”的原因其实并不复杂。正如特德·姜、马斯克等名人所嘲笑生成式AI的说法,这些大模型本质上只是高端统计学应用,距离真正的“智能”还有很长的路要走。用AI生成内容来训练AI,不可避免地会陷入“统计近似值偏差”的陷阱。本质上,这些高端统计程序的神经网络模型天然会高估、过度重视大概率的通常值,而低估、过度忽视小概率的非常值。这些模型生成的结果无法规避上述缺陷,如果持续用来再训练新模型,数据的多样性会越来越小,符合真实的正确度会越来越有限,“近似值拟合”会越来越严重。

用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。论文作者之一罗斯·安德森将这一过程比喻为用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品来训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格,也不会有莫扎特的灵光。

除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质上都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。

03.模型生成内容充斥网络后,真人数据将成AI维生必需

对于业界而言,这一发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。

在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。数据饥渴的AI公司们,现在两种继续发掘高质量数据的办法都在用。一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。二是老实花钱买。北京时间6月17日0点,《金融时报》独家报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。

最新快讯

2025年09月18日

17:25
2025年9月18日,备受瞩目的2025国家网络安全宣传周人工智能安全治理分论坛在昆明成功举办。在此重要场合,中文互联网基础语料3.0版本正式对外发布,标志着我国在人工智能数据资源建设领域迈出了坚实一步。新版本语料库规模宏大,总数据量高达120GB,为大模型训练和人工智能技术的持续创新提供了强大的数据支撑。 此次中文互联网基础语料3.0的问世,是在中央网信办...
17:25
今日,我们荣幸宣布正式推出 Ring-mini-2.0,这是一款基于 Ling-mini-2.0 架构深度优化的高性能推理型 MoE 模型。Ring-mini-2.0 拥有高达 16B 的总参数量,但在实际运行中仅需激活 1.4B 参数,便能展现出相当于 10B 级别以下密集模型的强大推理能力。这款模型在逻辑推理、编程和数学任务中表现卓越,支持长达 128K...
17:25
Meta 公司近期发布了一款名为 MobileLLM-R1 的小型推理模型,这一创新举措迅速引发了业界对“小型 AI”在企业应用潜力的高度关注。与以往动辄数百亿甚至数万亿参数规模的人工智能模型不同,MobileLLM-R1 系列展现了小型语言模型(SLMs)的独特魅力,其包含 140M、360M 和 950M 三种参数规模,专门针对数学、编码和科学推理场景进...
17:25
可灵AI视频生成平台近日重磅推出全新数字人功能,成功实现了从静态图片到动态视频的跨越式突破。这一创新技术让用户只需上传一张角色图片,并配合文字描述或音频输入,即可在短时间内生成1080p高清分辨率、48FPS流畅帧率、最长1分钟的专业级数字人视频。 据官方技术团队介绍,该数字人功能的核心在于多模态理解技术与视频生成模型的深度整合。通过先进的算法架构,系统...
17:25
字节跳动智能创作团队携手清华大学,共同研发了一款名为 HuMo 的开源框架,为人体视频生成(HCVG)领域注入了新的活力。该框架的核心亮点在于其卓越的多模态输入处理能力,能够同时融合文本、图像和音频三种信息源,协同生成令人惊叹的高质量视频内容。HuMo 的命名 "Human-Modal" 精妙地诠释了其以人为中心、聚焦人类活动的研发理念。 HuMo 的成功突...
17:25
蜀道装备于9月18日发布重要公告,宣布控股子公司蜀道丰田公司与四川路桥盛通建筑工程有限公司正式签署氢燃料电池智能制造基地生产线技术改造施工合同,项目总金额(含税)高达2468.38万元。此次合作标志着蜀道集团在新能源领域布局再进一步,通过此次技改施工,将有效推进氢燃料系统生产线的建设进程。 据悉,该项目工期设定为90天,将采用分阶段付款的方式确保工程顺利进行...
17:25
人形机器人领域的创新先锋Figure公司近日正式宣布,与全球顶尖另类资产管理巨头Brookfield达成深度战略合作。Brookfield作为全球资产管理规模超万亿美元的领导者,旗下管理着超过10万套住宅物业,其遍布全球的实体场景资源将成为Figure构建全球最大规模、最具多元化真实环境机器人预训练数据集的关键支撑。这一数据集将全面赋能Figure自主研发的...
17:25
Valve正式宣布了一项重要决定:自2026年1月1日起,Steam客户端将全面停止对32位Windows操作系统的支持。根据最新数据显示,目前全球仅有极少数用户(约0.01%)仍在使用Windows 10 32位版本。尽管这些设备在过渡期内仍可暂时运行旧版Steam客户端,但将彻底失去功能更新、安全补丁以及官方技术支持。 这一举措旨在推动游戏生态向更高效、...
17:25
面壁智能今日重磅发布全新"小钢炮"系列语音生成模型——VoxCPM,这款参数量仅为0.5B的基座模型凝聚了面壁智能与清华大学深圳国际研究生院人机语音交互实验室(THUHCSI)的顶尖研发实力。官方数据显示,VoxCPM在语音自然度、音色相似度及韵律表现力三大核心指标上均达到当前行业顶尖水平(SOTA),特别是在Zero-shot音色克隆任务中展现出惊人的适应...
17:25
9月18日,明阳电气在官方互动平台上作出明确声明,公司目前尚未开展光伏逆变器业务。作为行业领先者,明阳电气的核心产品主要集中在智能变压器、箱式变电站以及智能成套开关设备三大领域。这些产品凭借卓越性能,已广泛应用于风能发电、光伏利用、储能系统以及智能电网等前沿领域。值得一提的是,公司自主研发的光伏逆变升压一体化装置技术已达到国际顶尖水平,展现出强大的市场竞争力...
17:25
澳大利亚领先的自主机器人研发企业Puralink近日成功斩获230万澳元Pre-种子轮融资,该轮融资由知名投资机构Peak XV Partners独家领投,同时吸引了Wollemi Capital Group、Side Stage Ventures、Robyn、NZVC及Startmate等多家投资方联合参投。这一重要融资将为Puralink的创新发展注入强...
17:25
容百科技正式宣布其固态电池硫化物电解质中试线即将迎来历史性突破,预计在2026年初实现规模化量产。这一重要里程碑的达成,标志着容百科技在固态电池技术领域又迈出了坚实一步。据悉,该公司已成功实现硫化物电解质材料的小批量出货,并获得了包括国内外多家知名企业在内的客户的高度认可,这充分证明了其产品的卓越性能和广阔的市场前景。 目前,中试线建设工作正有条不紊地推进,...