声明:本文源自微信公众号“DoNews”(ID:ilovedonews),作者李熙,编辑杨博丞,经微新创想授权转载发布。众所周知,科幻作家们曾预言了潜艇、卫星、人工智能等未来科技成就,但他们的预言中也不乏应验的“乌鸦嘴”,例如DDoS网络攻击、个人生物信息盗窃以及人工智能模型的退化。2023年2月,美国华裔科幻作家特德·姜在文章中指出,ChatGPT等大语言模型本质上是对互联网语料库的有损模糊压缩,类似于JPEG格式对原始高清图片的处理。他认为,用大语言模型生成的文本来训练新模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多信息,最终导致模型质量持续下降。随着大语言模型生成的文本在网络上泛滥,信息网络本身也变得越来越模糊,获取真实有效信息的难度日益增加。2023年6月,牛津大学、剑桥大学、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者联合发布论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》,该论文在业界引发广泛关注。实验结果证实了特德·姜的预言:用AI生成数据训练新的AI模型,最终会导致模型退化甚至崩溃。

01.“粪口循环”9次,大语言模型就会崩溃

这些研究者发现,在训练新的神经网络AI模型时,如果使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一退化过程与结果称为“模型崩溃”。论文指出,无论新模型的功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使在近乎理想状态的长时间学习条件下也是如此。论文第一作者伊利亚·苏玛利沃夫表示,AI生成数据中的错误会迅速累积,最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期和晚期两个阶段。在早期,被喂食生成数据的AI模型会开始失去原始数据分布的信息;在晚期,被喂食生成数据的AI模型会吐出完全不符合现实、与原始底层数据无关的结果。与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI会一直保留对之前学习过的原始底层数据的记忆,但会极其固执地强化错误结论,导致模型持续甚至强化将错误结果视为正确的结论。论文中展示了“模型崩溃”过程的示意图。

研究者们先用小模型进行试验,用相同模型生成的数据来训练同一模型。以高斯混合模型(GMM)为例,实验结果显示,在训练50次后,模型开始出现错误,无法分辨原始底层数据;训练到2000次后,模型的错误结果收敛到每次基本雷同且毫无变化。同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原始底层数据无关,20次后错误结果就开始收敛至基本雷同。

为了验证这一现象在小模型之外是否同样成立,研究者们使用Meta公司开发的OPT-125m文本生成模型进行实验。该模型参数量达1.25亿。研究者先用包含1亿词元的“维基文本库2”数据集喂给模型,然后跑出同样词元量的生成结果数据集,再用生成结果数据集反复训练OPT-125m模型。实验结果显示,在研究者输入提示词后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句;被如此训练1次后,大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文;被如此训练7次后,大模型吐出的是完全与初始提示词无关的文本;而到了第9次,大模型的生成文本就完全不知所云,变成了毫无意义的车轱辘话。

02.“模型崩溃”的根源:AI与生俱来的统计特性

“模型崩溃”的原因其实并不复杂。正如特德·姜、马斯克等名人所嘲笑生成式AI的说法,这些大模型本质上只是高端统计学应用,距离真正的“智能”还有很长的路要走。用AI生成内容来训练AI,不可避免地会陷入“统计近似值偏差”的陷阱。本质上,这些高端统计程序的神经网络模型天然会高估、过度重视大概率的通常值,而低估、过度忽视小概率的非常值。这些模型生成的结果无法规避上述缺陷,如果持续用来再训练新模型,数据的多样性会越来越小,符合真实的正确度会越来越有限,“近似值拟合”会越来越严重。

用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。论文作者之一罗斯·安德森将这一过程比喻为用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品来训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格,也不会有莫扎特的灵光。

除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质上都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。

03.模型生成内容充斥网络后,真人数据将成AI维生必需

对于业界而言,这一发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。

在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。数据饥渴的AI公司们,现在两种继续发掘高质量数据的办法都在用。一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。二是老实花钱买。北京时间6月17日0点,《金融时报》独家报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。

最新快讯

2025年11月02日

20:11
《我的世界》震撼官宣全球销量突破3.5亿份,正式加冕史上最畅销电子游戏桂冠。这一里程碑式成就获得吉尼斯世界纪录权威认证,更令人惊叹的是,该数据仅用时一年多便跨越3亿销量大关,刷新了游戏行业销量增长速度纪录。Mojang工作室最新发布的《我的世界2026年度报告》揭示,持续推出的创新内容更新与日益繁荣的社区生态,正驱动着这款经典IP开启新一轮爆发式增长。 自2...
20:11
剑桥大学与科技巨头Meta共同完成的一项突破性研究揭示了人眼对黑白图像的解析能力远超传统认知。这项发表于国际顶级期刊《自然-通讯》的成果表明,人类视觉系统在识别黑白图像时,其分辨率极限可达惊人的94 PPD(每度像素数),较先前认为的60 PPD上限高出近50%。研究人员通过创新的可移动4K显示装置,在严格控制的实验环境中,系统性地测试了不同视网膜偏角与色彩...
20:10
近日有权威消息透露,药明巨诺研发的CAR-T药物瑞基奥仑赛注射液已正式进入商业保险创新药目录的谈判阶段。作为国内首个获批上市的国产1类CAR-T细胞治疗产品,该药物单针定价高达129万元。一旦成功纳入商保目录,将大幅减轻患者的经济压力,为更多血液瘤患者带来福音。这一举措不仅有助于提升创新疗法的可及性,更将推动高值医疗产品在临床应用中的普及化进程。
20:10
行业权威媒体近日披露,全球科技领军企业三星电子正积极规划高带宽内存(HBM)生产线的扩建计划,旨在有效应对当前持续攀升的市场需求。据三星内部消息透露,其明年HBM产能已全面售罄,新增订单仍源源不断涌入。业内资深分析师指出,三星已率先向英伟达提供新一代HBM3E产品,这一高性能存储解决方案标志着其技术迭代迈上新台阶。虽然公司方面对具体客户合作细节暂未公开,但明...
20:10
2025年11月2日,以色列一项突破性研究发现,嗜酸性粒细胞在抵御白色念珠菌感染方面发挥着关键作用。这种真菌被世界卫生组织列为四大高威胁真菌病原体之一,其侵袭性感染不仅治疗难度极大,还常常在医院环境中传播,对公共健康构成严重威胁。该研究首次揭示了嗜酸性粒细胞在免疫防御中的全新功能,这一发现不仅有助于深入理解人体免疫系统,更为开发新型抗真菌疗法提供了重要线索。...
20:10
11月1日,长沙市住建局成功召开住建领域安全生产视频调度会议,重点研讨岁末年初的安全形势与应对策略。会议深入剖析了当前小散工程普遍存在的“小、散、远、隐”四大特点,并针对性地提出强化巡查执法力度,严格落实安全责任体系的部署方案。随着各类风险隐患的交织叠加,安全生产压力日益凸显,全市住建系统将全面压实监管责任,采取一系列有力措施,包括但不限于加强日常巡查、完善...
20:10
OpenAI于10月29日对ChatGPT的使用政策进行了重要更新,明确禁止该平台在医疗诊断、法律咨询和财务建议等高风险领域提供具体指导。这一举措旨在严格遵守欧盟《人工智能法案》及美国FDA的监管要求,确保生成的内容不会构成具有法律约束力或专业责任的建议。值得注意的是,这一政策调整并不意味着ChatGPT将完全退出相关领域,而是通过更精细化的服务边界来保障用...
20:10
近日海南省商务厅正式公布2025年汽车报废更新补贴政策重大调整方案自2025年11月4日零时起所有申请补贴的个人消费者必须确保其报废旧车及购买新车的注册登记地均位于海南省内这一新规旨在进一步规范补贴发放范围有效遏制跨区域套取补贴行为同时通过精准补贴政策更好地激发本省居民汽车消费热情促进海南汽车消费市场持续健康发展据悉此次政策调整后符合条件海南居民仍可按规定流...
19:10
2025年11月2日,中际旭创通过官方互动平台正式宣布,其自主研发的1.6T光模块产品已成功整合硅光和EML两种先进技术方案。这一创新举措不仅彰显了公司在高速光模块领域的持续技术突破,更体现了其针对多元化市场需求的技术战略布局。通过同时采用硅光芯片和EML发射芯片两种技术路径,中际旭创能够为不同客户群体提供更具灵活性和适配性的产品解决方案,从而有效满足数据中...
19:10
Wine 项目团队近日正式发布了备受期待的 Wine 10.18 稳定版更新,为 Linux 用户带来了 Windows 应用与游戏体验的又一次飞跃性提升。本次升级聚焦于图形渲染性能优化,特别引入了基于 Vulkan 技术的 OpenGL 内存映射功能,通过创新性的渲染机制显著改善了混合 32/64 位环境下的图形处理效率,让复杂应用运行更加流畅。 在多线程...
18:40
2025年11月2日,理想汽车正式发布了其2025年10月份的交付报告,数据显示该公司当月成功交付新车31,767辆,这一稳健的交付成绩再次印证了其在新能源汽车市场的强劲竞争力。值得注意的是,这一交付量不仅延续了理想汽车保持的稳定增长态势,更标志着其产品在中高端新能源汽车细分市场的持续受欢迎。 截至2025年10月31日,理想汽车的历史累计交付量已突破145...
18:40
2025年11月2日,京东快递正式宣布其创新的车牌寄递服务已在全国多个主要城市全面上线。作为“交管12123”平台的重要合作伙伴,京东快递将承担起新车车牌、行驶证等关键证件的专业寄递任务,为用户提供高效便捷的证件送达服务。 该服务依托京东快递覆盖城乡的强大物流网络,特别推出了“特安”专项服务。通过定制化包装、专属专线运输以及专人全程处理,确保证件在运输过...