声明:本文源自微信公众号“DoNews”(ID:ilovedonews),作者李熙,编辑杨博丞,经微新创想授权转载发布。众所周知,科幻作家们曾预言了潜艇、卫星、人工智能等未来科技成就,但他们的预言中也不乏应验的“乌鸦嘴”,例如DDoS网络攻击、个人生物信息盗窃以及人工智能模型的退化。2023年2月,美国华裔科幻作家特德·姜在文章中指出,ChatGPT等大语言模型本质上是对互联网语料库的有损模糊压缩,类似于JPEG格式对原始高清图片的处理。他认为,用大语言模型生成的文本来训练新模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多信息,最终导致模型质量持续下降。随着大语言模型生成的文本在网络上泛滥,信息网络本身也变得越来越模糊,获取真实有效信息的难度日益增加。2023年6月,牛津大学、剑桥大学、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者联合发布论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》,该论文在业界引发广泛关注。实验结果证实了特德·姜的预言:用AI生成数据训练新的AI模型,最终会导致模型退化甚至崩溃。

01.“粪口循环”9次,大语言模型就会崩溃

这些研究者发现,在训练新的神经网络AI模型时,如果使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一退化过程与结果称为“模型崩溃”。论文指出,无论新模型的功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使在近乎理想状态的长时间学习条件下也是如此。论文第一作者伊利亚·苏玛利沃夫表示,AI生成数据中的错误会迅速累积,最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期和晚期两个阶段。在早期,被喂食生成数据的AI模型会开始失去原始数据分布的信息;在晚期,被喂食生成数据的AI模型会吐出完全不符合现实、与原始底层数据无关的结果。与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI会一直保留对之前学习过的原始底层数据的记忆,但会极其固执地强化错误结论,导致模型持续甚至强化将错误结果视为正确的结论。论文中展示了“模型崩溃”过程的示意图。

研究者们先用小模型进行试验,用相同模型生成的数据来训练同一模型。以高斯混合模型(GMM)为例,实验结果显示,在训练50次后,模型开始出现错误,无法分辨原始底层数据;训练到2000次后,模型的错误结果收敛到每次基本雷同且毫无变化。同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原始底层数据无关,20次后错误结果就开始收敛至基本雷同。

为了验证这一现象在小模型之外是否同样成立,研究者们使用Meta公司开发的OPT-125m文本生成模型进行实验。该模型参数量达1.25亿。研究者先用包含1亿词元的“维基文本库2”数据集喂给模型,然后跑出同样词元量的生成结果数据集,再用生成结果数据集反复训练OPT-125m模型。实验结果显示,在研究者输入提示词后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句;被如此训练1次后,大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文;被如此训练7次后,大模型吐出的是完全与初始提示词无关的文本;而到了第9次,大模型的生成文本就完全不知所云,变成了毫无意义的车轱辘话。

02.“模型崩溃”的根源:AI与生俱来的统计特性

“模型崩溃”的原因其实并不复杂。正如特德·姜、马斯克等名人所嘲笑生成式AI的说法,这些大模型本质上只是高端统计学应用,距离真正的“智能”还有很长的路要走。用AI生成内容来训练AI,不可避免地会陷入“统计近似值偏差”的陷阱。本质上,这些高端统计程序的神经网络模型天然会高估、过度重视大概率的通常值,而低估、过度忽视小概率的非常值。这些模型生成的结果无法规避上述缺陷,如果持续用来再训练新模型,数据的多样性会越来越小,符合真实的正确度会越来越有限,“近似值拟合”会越来越严重。

用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。论文作者之一罗斯·安德森将这一过程比喻为用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品来训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格,也不会有莫扎特的灵光。

除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质上都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。

03.模型生成内容充斥网络后,真人数据将成AI维生必需

对于业界而言,这一发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。

在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。数据饥渴的AI公司们,现在两种继续发掘高质量数据的办法都在用。一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。二是老实花钱买。北京时间6月17日0点,《金融时报》独家报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。

最新快讯

2026年03月20日

09:35
微新创想:nnSteam平台于2026年3月20日启动春季特卖活动。此次促销活动将持续至3月27日凌晨1点,为全球玩家带来一场为期八天的游戏盛宴。活动期间,众多热门游戏将参与折扣,包括《无人深空》《森林之子》《方舟:生存飞升》等,折扣力度从0.5折到8折不等,部分游戏价格低至5.9元,极具吸引力。nnnn除了游戏折扣,Steam还为用户准备了额外福利。在活动...
09:35
微新创想:2026年3月19日,德国知名散热品牌ARCTIC正式发布了新一代桌下式无风扇迷你主机Senza AI 370。这款产品延续了ARCTIC在迷你主机领域的创新理念,同时在性能与设计上实现了新的突破。 Senza AI 370搭载了AMD锐龙AI 9 HX 370处理器,为用户带来强大的计算能力和能效表现。该处理器不仅提升了整体性能,还进一步优化了功...
09:35
微新创想:2026年3月20日,受强气旋影响,力拓集团临时关闭位于澳大利亚北部的铝土矿矿山。事件发生于西澳大利亚州皮尔巴拉及金伯利地区,涉及多个露天开采作业点。 关闭系出于人员安全与设施防护需要,属预防性措施。力拓表示正持续监测气象变化,重启时间将视气旋路径及灾后评估结果而定。 此次停产可能短期影响全球铝土矿供应,但公司称库存充足,客户交付计划暂未调整。力拓...
09:35
微新创想:3月20日8时22分(北京时间)南极洲南设德兰群岛发生7.0级地震震源深度17.2公里 此次地震由美国地质调查局测定震中位于人迹罕至的南设德兰群岛区域 由于当地没有常住人口和基础设施目前暂无人员伤亡和财产损失的报告 地震发生后未引发海啸预警相关海域的海平面保持平稳 科研站点监测数据显示周边冰架出现短暂振动但未出现明显崩解迹象 地震对当地环境的影响尚...
09:35
微新创想:2026年3月20日,兴业银行上海分行迎来了成立30周年的重要时刻。作为兴业银行首家跨区域分行,同时也是上海首次接纳的兄弟省市商业银行分行,它在推动区域金融合作方面发挥了重要作用。 三十年来,上海分行始终致力于深度融入上海国际金融中心的建设进程。通过不断优化金融服务体系,积极适应市场变化,分行在多个领域取得了显著成就。截至2025年末,分行总资产已...
09:35
微新创想:3月20日,小米在北京举行春季新品发布会,正式推出新一代SU7轿车。这款新车作为小米“人车家全生态”战略的核心产品,承载了品牌在智能电动汽车领域的进一步探索与布局。 新车共分标准版、Pro版和Max版,售价分别为21.99万元、24.99万元和30.39万元。不同版本在配置与性能上有所差异,满足了不同消费者的需求。用户在购车时可选配车漆、轮毂、内饰...
09:35
微新创想:2026年3月,三星显示(SDC)在韩国恢复量子点纳米棒LED(QNED)研发。这项技术以氮化镓纳米棒蓝光LED作为光源,通过喷墨印刷的方式实现红绿光的转换。QNED技术在显示领域展现出独特的优势,它不仅避免了Micro LED技术中面临的巨量转移难题,还显著提升了生产良率。 微新创想:与QD-OLED相比,QNED省去了复杂的沉积工艺,从而在成本...
09:35
微新创想:3月20日下午 我国第二艘国产大型邮轮“爱达·花城号”在上海外高桥造船厂完成7天出坞作业 正式转入码头建造调试阶段 “爱达·花城号”以岭南文化为主题 总吨位达到14.19万吨 船体长度为341米 宽度为37.2米 设有2130个房间 可载客超过5200人 在出坞期间 该船顺利完成了倾斜试验 救生艇脱钩及巡游试验等多项关键验证 这些测试对于确保船舶的...
09:35
微新创想:2026年3月20日,爆料人@Evleaks在X平台发布三星Galaxy A57和A37的高清渲染图,引发了广泛关注。这两款新机在设计和配置上都有不少亮点,显示出三星在中端市场持续发力的决心。 两款手机均采用6.7英寸Super AMOLED屏幕,支持120Hz高刷新率,带来流畅的视觉体验。屏幕素质的提升不仅让用户在日常使用中更加舒适,也进一步增强...
09:25
微新创想:为了在 AI 编程赛道彻底甩开对手 OpenAI 再次挥起了支票簿。3月19日 OpenAI 官方宣布收购专门为开发者构建开源工具的初创公司 Astral。收购完成后 Astral 团队将整体并入 OpenAI 核心任务是为人工智能编程助手 Codex 注入新的研发动力。虽然双方并未透露具体的收购金额 但这一动作无疑彰显了 OpenAI 统治开发者...
09:25
微新创想:近日彭博社报道谷歌正在为苹果Mac系统开发一款原生的Gemini人工智能应用目前该应用已经进入内部测试阶段这一举措被广泛视为谷歌在AI领域与竞争对手OpenAI和Anthropic展开激烈竞争的重要一步GeminiAI应用将与现有的ChatGPT和Claude桌面应用展开正面较量其功能包括用户可直接拖拽上传各种文件并具备获取Mac本地应用的访问权限...
09:25
微新创想:据最新报道,谷歌正在为 Mac 开发原生的 Gemini 人工智能应用,目前该项目已进入内部测试阶段。这一动作释放了一个明确信号:在 ChatGPT 和 Claude 纷纷占领桌面入口后,谷歌正试图通过与苹果系统的深度“破冰”来反击。 与网页版不同,Mac 版 Gemini 将具备极高的系统级权限。其核心亮点包括跨应用深度调用:Gemini 未来有...