声明:本文源自微信公众号“DoNews”(ID:ilovedonews),作者李熙,编辑杨博丞,经微新创想授权转载发布。众所周知,科幻作家们曾预言了潜艇、卫星、人工智能等未来科技成就,但他们的预言中也不乏应验的“乌鸦嘴”,例如DDoS网络攻击、个人生物信息盗窃以及人工智能模型的退化。2023年2月,美国华裔科幻作家特德·姜在文章中指出,ChatGPT等大语言模型本质上是对互联网语料库的有损模糊压缩,类似于JPEG格式对原始高清图片的处理。他认为,用大语言模型生成的文本来训练新模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多信息,最终导致模型质量持续下降。随着大语言模型生成的文本在网络上泛滥,信息网络本身也变得越来越模糊,获取真实有效信息的难度日益增加。2023年6月,牛津大学、剑桥大学、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者联合发布论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》,该论文在业界引发广泛关注。实验结果证实了特德·姜的预言:用AI生成数据训练新的AI模型,最终会导致模型退化甚至崩溃。

01.“粪口循环”9次,大语言模型就会崩溃

这些研究者发现,在训练新的神经网络AI模型时,如果使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一退化过程与结果称为“模型崩溃”。论文指出,无论新模型的功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使在近乎理想状态的长时间学习条件下也是如此。论文第一作者伊利亚·苏玛利沃夫表示,AI生成数据中的错误会迅速累积,最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期和晚期两个阶段。在早期,被喂食生成数据的AI模型会开始失去原始数据分布的信息;在晚期,被喂食生成数据的AI模型会吐出完全不符合现实、与原始底层数据无关的结果。与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI会一直保留对之前学习过的原始底层数据的记忆,但会极其固执地强化错误结论,导致模型持续甚至强化将错误结果视为正确的结论。论文中展示了“模型崩溃”过程的示意图。

研究者们先用小模型进行试验,用相同模型生成的数据来训练同一模型。以高斯混合模型(GMM)为例,实验结果显示,在训练50次后,模型开始出现错误,无法分辨原始底层数据;训练到2000次后,模型的错误结果收敛到每次基本雷同且毫无变化。同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原始底层数据无关,20次后错误结果就开始收敛至基本雷同。

为了验证这一现象在小模型之外是否同样成立,研究者们使用Meta公司开发的OPT-125m文本生成模型进行实验。该模型参数量达1.25亿。研究者先用包含1亿词元的“维基文本库2”数据集喂给模型,然后跑出同样词元量的生成结果数据集,再用生成结果数据集反复训练OPT-125m模型。实验结果显示,在研究者输入提示词后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句;被如此训练1次后,大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文;被如此训练7次后,大模型吐出的是完全与初始提示词无关的文本;而到了第9次,大模型的生成文本就完全不知所云,变成了毫无意义的车轱辘话。

02.“模型崩溃”的根源:AI与生俱来的统计特性

“模型崩溃”的原因其实并不复杂。正如特德·姜、马斯克等名人所嘲笑生成式AI的说法,这些大模型本质上只是高端统计学应用,距离真正的“智能”还有很长的路要走。用AI生成内容来训练AI,不可避免地会陷入“统计近似值偏差”的陷阱。本质上,这些高端统计程序的神经网络模型天然会高估、过度重视大概率的通常值,而低估、过度忽视小概率的非常值。这些模型生成的结果无法规避上述缺陷,如果持续用来再训练新模型,数据的多样性会越来越小,符合真实的正确度会越来越有限,“近似值拟合”会越来越严重。

用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。论文作者之一罗斯·安德森将这一过程比喻为用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品来训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格,也不会有莫扎特的灵光。

除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质上都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。

03.模型生成内容充斥网络后,真人数据将成AI维生必需

对于业界而言,这一发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。

在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。数据饥渴的AI公司们,现在两种继续发掘高质量数据的办法都在用。一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。二是老实花钱买。北京时间6月17日0点,《金融时报》独家报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。

最新快讯

2025年08月04日

10:48
印度社交游戏平台STAN成功斩获850万美元股权融资,谷歌旗下AI未来基金鼎力参与,彰显了全球资本对印度游戏社交市场的热切关注。此次融资吸引了万代南梦宫娱乐、史克威尔艾尼克斯、Reazon Holdings等国际知名投资方,进一步印证了该领域的巨大潜力。STAN虽以新加坡为总部,却致力于打造一款能与Discord抗衡的游戏社区平台,其独特市场策略令人瞩目。 ...
10:48
8月4日,中国机械工业联合会最新发布的数据显示,截至今年6月末,我国机械工业应收账款总额已攀升至9.3万亿元,同比增长9.4%,这一数字占全国工业应收账款总额的35%,成为工业领域的重要构成部分。值得注意的是,机械工业应收账款的平均回收期达到105.3天,显著高于全国工业平均水平的70.8天,整整长35.5天,反映出行业在资金周转效率方面仍存在提升空间。 从...
10:48
2025年8月4日,备受市场关注的农业科技企业小菜园(股票代码00999)正式发布上半年业绩预告,公告显示公司预计实现净利润3.6亿元至3.8亿元,较去年同期大幅增长约28.57%至35.71%。这一亮眼表现不仅彰显了公司稳健的盈利能力,更折射出其精细化运营战略的成功实践。公司管理层在公告中明确指出,净利润的显著提升主要源于三大核心驱动因素:运营效率的持续优...
10:48
2025年8月4日,星图金融研究院副院长薛洪言在行业研讨会上发表重要观点,指出银行理财净值化转型正深刻重塑市场格局与投资者行为模式。这一变革的核心在于打破了传统理财产品的"刚兑"预期,促使投资者风险意识显著提升,对含权类理财产品的接受度也随之提高。在净值化时代背景下,投资者需要重新认识"收益非线性增长"的市场特征,并积极调整投资策略。 薛洪言强调,面对净值化...
10:48
2025年8月4日,A股市场迎来一则重要消息,知名券商ETF(代码:512000)正式宣布实施份额拆分,比例高达1拆2。这一举措旨在优化基金流动性,降低投资门槛,从而吸引更多元化的投资者参与。与此同时,技术分析显示MACD指标形成金叉,释放出积极的看涨信号,市场情绪随之出现明显回暖。受此利好影响,部分前期表现强势的个股也纷纷放量上涨,展现出较强的市场动能。 ...
10:48
2025年7月,新疆灰枣主产区遭遇罕见气候挑战,沙尘暴与极端高温天气交织,导致枣树开花坐果率严重受损。一茬花坐果效果远低于正常水平,而二三茬花坐果率也未能达到预期标准。综合各方面数据,今年新疆灰枣总产量预估仅为42万吨,较正常年份的65万吨大幅减产35%,减产幅度惊人。 为准确评估减产情况,调研团队深入走访了233个枣园样本,通过挂果抽样与专家现场评估相...
10:48
华为常务董事、终端BG董事长余承东近日惊喜宣布,备受瞩目的尊界S800自正式上市以来,仅用短短67天时间,大定数量便强势突破10000台这一里程碑。这一亮眼成绩充分彰显了消费者对华为智能汽车解决方案的高度认可与市场信心。作为华为在智能汽车领域的重要布局,尊界S800凭借其卓越性能表现、创新智能体验以及前瞻设计理念,迅速在市场上脱颖而出,成为华为智能汽车业务版...
10:48
我国近日成功牵头制定并发布全球首项鞋类有机溶剂测定国际标准,这一里程碑事件标志着我国在鞋类安全检测领域取得重大突破。该标准创新性地采用先进的气相色谱-质谱联用技术,能够同时精准检测15种常见的有毒有机溶剂,相较于传统检测方法,检测种类数量大幅提升3倍,检测效率更是显著提高3至5倍。这一技术革新不仅有效解决了传统检测方法中存在的检测种类有限、操作流程复杂等核心...
10:48
8月4日,中信证券正式发布了一份关于2025年下半年半导体产业的投资策略报告,其中明确指出当前半导体行业正处在周期性上升的关键阶段。报告强调,人工智能产业的持续高速发展已成为推动半导体行业前进的核心引擎。随着AI技术的不断突破和应用场景的持续拓展,半导体产业的增长动力愈发强劲。 报告详细分析了AI产业在半导体领域的应用现状,指出云端AI需求呈现稳定增长态势,...
10:46
近日,山西太原一对年轻情侣在结束山东之旅返程途中遭遇了一场令人心悸的严重车祸,然而命运却奇迹般地让他们仅受皮外伤。事故过后,这对情侣做出了一个令人意想不到的决定——火速前往民政局办理结婚登记,将这段缘分在生死考验中升华。 据现场处理事故的交警回忆,这起车祸的惨烈程度远超想象。事故车辆的车头车尾严重变形,几乎被金属挤压成铁饼状,后排车顶完全坍塌,金属部件扭曲变...
10:46
8月3日,江苏南通海门区三星镇一家长新开业的丸子汤店因招牌使用不雅词汇而迅速登上网络热搜。据当地网友拍摄的视频显示,该店招牌上赫然印着粗俗不堪的脏话内容,字迹清晰可见,令人瞠目结舌。不少网友在社交媒体上直呼"辣眼睛",称其有损市容市貌,更对当地营商环境造成负面影响。 事件发酵后,三星镇政府的反应速度令人称赞。相关工作人员第一时间向记者证实,当晚便组织执法人员...