声明:本文源自微信公众号“DoNews”(ID:ilovedonews),作者李熙,编辑杨博丞,经微新创想授权转载发布。众所周知,科幻作家们曾预言了潜艇、卫星、人工智能等未来科技成就,但他们的预言中也不乏应验的“乌鸦嘴”,例如DDoS网络攻击、个人生物信息盗窃以及人工智能模型的退化。2023年2月,美国华裔科幻作家特德·姜在文章中指出,ChatGPT等大语言模型本质上是对互联网语料库的有损模糊压缩,类似于JPEG格式对原始高清图片的处理。他认为,用大语言模型生成的文本来训练新模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多信息,最终导致模型质量持续下降。随着大语言模型生成的文本在网络上泛滥,信息网络本身也变得越来越模糊,获取真实有效信息的难度日益增加。2023年6月,牛津大学、剑桥大学、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者联合发布论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》,该论文在业界引发广泛关注。实验结果证实了特德·姜的预言:用AI生成数据训练新的AI模型,最终会导致模型退化甚至崩溃。

01.“粪口循环”9次,大语言模型就会崩溃

这些研究者发现,在训练新的神经网络AI模型时,如果使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一退化过程与结果称为“模型崩溃”。论文指出,无论新模型的功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使在近乎理想状态的长时间学习条件下也是如此。论文第一作者伊利亚·苏玛利沃夫表示,AI生成数据中的错误会迅速累积,最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期和晚期两个阶段。在早期,被喂食生成数据的AI模型会开始失去原始数据分布的信息;在晚期,被喂食生成数据的AI模型会吐出完全不符合现实、与原始底层数据无关的结果。与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI会一直保留对之前学习过的原始底层数据的记忆,但会极其固执地强化错误结论,导致模型持续甚至强化将错误结果视为正确的结论。论文中展示了“模型崩溃”过程的示意图。

研究者们先用小模型进行试验,用相同模型生成的数据来训练同一模型。以高斯混合模型(GMM)为例,实验结果显示,在训练50次后,模型开始出现错误,无法分辨原始底层数据;训练到2000次后,模型的错误结果收敛到每次基本雷同且毫无变化。同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原始底层数据无关,20次后错误结果就开始收敛至基本雷同。

为了验证这一现象在小模型之外是否同样成立,研究者们使用Meta公司开发的OPT-125m文本生成模型进行实验。该模型参数量达1.25亿。研究者先用包含1亿词元的“维基文本库2”数据集喂给模型,然后跑出同样词元量的生成结果数据集,再用生成结果数据集反复训练OPT-125m模型。实验结果显示,在研究者输入提示词后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句;被如此训练1次后,大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文;被如此训练7次后,大模型吐出的是完全与初始提示词无关的文本;而到了第9次,大模型的生成文本就完全不知所云,变成了毫无意义的车轱辘话。

02.“模型崩溃”的根源:AI与生俱来的统计特性

“模型崩溃”的原因其实并不复杂。正如特德·姜、马斯克等名人所嘲笑生成式AI的说法,这些大模型本质上只是高端统计学应用,距离真正的“智能”还有很长的路要走。用AI生成内容来训练AI,不可避免地会陷入“统计近似值偏差”的陷阱。本质上,这些高端统计程序的神经网络模型天然会高估、过度重视大概率的通常值,而低估、过度忽视小概率的非常值。这些模型生成的结果无法规避上述缺陷,如果持续用来再训练新模型,数据的多样性会越来越小,符合真实的正确度会越来越有限,“近似值拟合”会越来越严重。

用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。论文作者之一罗斯·安德森将这一过程比喻为用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品来训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格,也不会有莫扎特的灵光。

除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质上都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。

03.模型生成内容充斥网络后,真人数据将成AI维生必需

对于业界而言,这一发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。

在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。数据饥渴的AI公司们,现在两种继续发掘高质量数据的办法都在用。一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。二是老实花钱买。北京时间6月17日0点,《金融时报》独家报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。

最新快讯

2025年09月18日

16:22
ElevenLabs 隆重推出旗下最新一代音视频创作平台——Studio3.0,为内容创作者带来前所未有的便捷体验。这款创新平台致力于打造一站式音视频解决方案,无论是制作短视频、播客节目、有声读物还是在线课程,都能轻松驾驭。Studio3.0集成了包括AI语音合成、智能配乐推荐、音效生成、自动字幕添加、降噪处理以及视频剪辑在内的全方位功能,让专业级的音视频制...
16:22
近日,生物分子缩合物创新研发企业Dewpoint Therapeutics正式宣布成功完成总额高达数千万美元的D轮融资。作为专注于生物分子缩合物技术领域的领军企业,Dewpoint Therapeutics始终致力于通过其独特的创新平台,开发针对神经退行性疾病和癌症等重大难治性疾病的小分子药物。此次融资的圆满完成,不仅彰显了资本市场对该公司技术实力与发展前景...
16:22
近日,食品安全领域的创新先锋宝嘉优品成功斩获800万元天使轮融资,标志着其致力于科技赋能健康守护的宏伟蓝图迈入新阶段。作为行业内的积极探索者,宝嘉优品始终聚焦于利用前沿科技构筑食品安全防线,以创新解决方案为消费者构筑健康生活的坚实屏障。 其明星产品徕宝嘉活性氧杀菌消毒机凭借突破性的活性氧技术脱颖而出,能够高效分解果蔬表面的农药残留,将农残超标带来的健康隐患降...
16:22
卫材中国旗下重要子公司卫材(辽宁)制药有限公司近日宣布与全球领先的肠外营养和肠内营养解决方案提供商帝斯曼-芬美意旗下业务部门i-health达成战略合作协议。根据协议内容,双方将在中国大陆市场独家合作,共同引进并推广处方药口服乳杆菌LB散剂这一创新微生态制剂产品。此次合作不仅体现了两家企业在肠道健康领域的深度布局,更将显著提升国内微生态制剂市场的产品多样性,...
16:22
欧洲工商管理学院(INSEAD)近日隆重推出全新金融硕士(MIF)项目,专为应届毕业生及早期职业发展人士量身打造。这一创新项目采用独特的14至16个月学制,并依托其全球化的教育网络,实施跨国教学模式。学生将在欧洲校区完成课程的首阶段学习,随后转至亚洲校区继续深造,从而获得跨越东西方的多元文化体验与知识积累。 课程体系是该项目的一大亮点,深度融合了人工智能的前...
16:22
英国皇家建筑师学会(RIBA)近日隆重揭晓首届亚太奖63个入围项目,这些精心遴选的建筑作品集中展现了亚太地区在创新设计与实践领域的卓越成就与深远影响力。作为全球建筑界最具权威性的奖项之一,RIBA亚太奖旨在表彰那些突破传统、引领潮流的建筑杰作,为亚太地区的建筑发展树立新的标杆。 本次入围项目涵盖了住宅、商业、文化、教育等多个领域,充分体现了亚太地区建筑创作的...
16:22
金则利作为电磁不锈钢材料的研发制造领军企业,始终坚持以技术创新为核心驱动力,产品线全面覆盖高、中、低端市场,形成了包含十余个品种、百余种规格的丰富体系。其产品凭借卓越的稳定性和优异性能,已成功应用于制冷设备、气动系统、小家电制造、汽车零部件以及流体阀门控制等关键领域,为众多知名企业提供了可靠的材料解决方案。经过多年深耕,金则利在国内已构建起完善的客户网络,赢...
16:22
2025年9月18日,三维股份发布重要公告,其全资子公司广西三维成功中标两项铁路工程混凝土轨枕采购项目,总中标金额高达1.58亿元。这一喜讯标志着公司在铁路建设领域的市场竞争力再获认可,为未来的发展注入强劲动力。 此次中标项目涵盖了新建深圳至江门铁路以及龙岩至龙川铁路广东段(武平至梅州)的混凝土轨枕供应,项目由厦深铁路广东有限公司正式发出中标通知,包件编号为...
16:22
西门子医疗与史赛克正式宣布达成深度战略合作,双方将携手研发新一代智能机器人系统,专注于神经血管介入手术领域。该系统将突破传统手术方式的局限,能够精准应对脑卒中、脑动脉瘤等多种复杂神经血管疾病的治疗需求。通过整合西门子医疗的尖端影像技术与史赛克在手术机器人领域的丰富经验,这一创新系统将显著提升手术操作的精准度和稳定性,同时大幅缩短手术时间,优化患者预后。 ...
16:22
金赛药业近日宣布与全球过敏免疫治疗领域的领军企业ALK达成深度战略合作,双方将携手在中国市场共同开发并推广ALK的变应原特异性免疫治疗产品。此次合作堪称强强联合,金赛药业凭借其在本土医药市场的深厚积累和卓越运营能力,将与ALK在过敏免疫治疗领域的全球技术优势形成完美互补,共同为中国过敏患者带来更优质的治疗选择。 此次战略合作的核心目标,是通过整合双方资源优势...
16:22
迈威生物与Aditum Bio近日联合宣布正式成立合资企业Kalexo Bio,双方同时达成一项具有里程碑意义的全球独家授权协议,将共同致力于双靶点siRNA创新药物2MW7141的研发工作。这款创新药物聚焦于心血管疾病治疗领域,有望为该领域带来突破性治疗方案。此次合作不仅标志着迈威生物与Aditum Bio在RNA干扰疗法合作方面取得重大进展,更彰显了双方...
16:22
近日,专注于神经系统健康领域的医疗器械领军企业Helius Medical成功完成新一轮战略融资,多家知名投资机构积极参与其中,包括Avenir Growth Capital、Animoca Brands、Pantera Capital以及Summer Capital等。这一重要里程碑不仅彰显了市场对Helius Medical创新技术的认可,更为其未来发展...