声明:本文源自微信公众号“DoNews”(ID:ilovedonews),作者李熙,编辑杨博丞,经微新创想授权转载发布。众所周知,科幻作家们曾预言了潜艇、卫星、人工智能等未来科技成就,但他们的预言中也不乏应验的“乌鸦嘴”,例如DDoS网络攻击、个人生物信息盗窃以及人工智能模型的退化。2023年2月,美国华裔科幻作家特德·姜在文章中指出,ChatGPT等大语言模型本质上是对互联网语料库的有损模糊压缩,类似于JPEG格式对原始高清图片的处理。他认为,用大语言模型生成的文本来训练新模型,如同反复以JPEG格式存储同一图像,每次都会丢失更多信息,最终导致模型质量持续下降。随着大语言模型生成的文本在网络上泛滥,信息网络本身也变得越来越模糊,获取真实有效信息的难度日益增加。2023年6月,牛津大学、剑桥大学、伦敦帝国学院、爱丁堡大学、多伦多大学等高校的AI研究者联合发布论文预印本《递归之诅咒:用生成数据训练会使模型遗忘》,该论文在业界引发广泛关注。实验结果证实了特德·姜的预言:用AI生成数据训练新的AI模型,最终会导致模型退化甚至崩溃。

01.“粪口循环”9次,大语言模型就会崩溃

这些研究者发现,在训练新的神经网络AI模型时,如果使用大语言模型生成的内容作为训练数据集,会导致训练出的模型出现不可逆转的缺陷,即使模型最初的基础架构原始数据来自真实世界的实际数据。研究者们将这一退化过程与结果称为“模型崩溃”。论文指出,无论新模型的功能是以文字生成文字还是以图片生成图片,只要使用其他模型生成的内容来训练,这个过程是不可避免的,即使在近乎理想状态的长时间学习条件下也是如此。论文第一作者伊利亚·苏玛利沃夫表示,AI生成数据中的错误会迅速累积,最终导致从生成数据中学习的模型进一步错误地感知现实。

“模型崩溃”分为早期和晚期两个阶段。在早期,被喂食生成数据的AI模型会开始失去原始数据分布的信息;在晚期,被喂食生成数据的AI模型会吐出完全不符合现实、与原始底层数据无关的结果。与症状类似的“灾难性遗忘”不同,“模型崩溃”的AI会一直保留对之前学习过的原始底层数据的记忆,但会极其固执地强化错误结论,导致模型持续甚至强化将错误结果视为正确的结论。论文中展示了“模型崩溃”过程的示意图。

研究者们先用小模型进行试验,用相同模型生成的数据来训练同一模型。以高斯混合模型(GMM)为例,实验结果显示,在训练50次后,模型开始出现错误,无法分辨原始底层数据;训练到2000次后,模型的错误结果收敛到每次基本雷同且毫无变化。同样方法训练变分自编码器(VAE)模型,训练5次后模型开始出错,10次后模型的错误结果开始与原始底层数据无关,20次后错误结果就开始收敛至基本雷同。

为了验证这一现象在小模型之外是否同样成立,研究者们使用Meta公司开发的OPT-125m文本生成模型进行实验。该模型参数量达1.25亿。研究者先用包含1亿词元的“维基文本库2”数据集喂给模型,然后跑出同样词元量的生成结果数据集,再用生成结果数据集反复训练OPT-125m模型。实验结果显示,在研究者输入提示词后,起初的OPT-125m模型吐出的是带有乱码但大体成文的语句;被如此训练1次后,大模型吐出的是带有瞎编内容的幻觉性文本,但仍然成文;被如此训练7次后,大模型吐出的是完全与初始提示词无关的文本;而到了第9次,大模型的生成文本就完全不知所云,变成了毫无意义的车轱辘话。

02.“模型崩溃”的根源:AI与生俱来的统计特性

“模型崩溃”的原因其实并不复杂。正如特德·姜、马斯克等名人所嘲笑生成式AI的说法,这些大模型本质上只是高端统计学应用,距离真正的“智能”还有很长的路要走。用AI生成内容来训练AI,不可避免地会陷入“统计近似值偏差”的陷阱。本质上,这些高端统计程序的神经网络模型天然会高估、过度重视大概率的通常值,而低估、过度忽视小概率的非常值。这些模型生成的结果无法规避上述缺陷,如果持续用来再训练新模型,数据的多样性会越来越小,符合真实的正确度会越来越有限,“近似值拟合”会越来越严重。

用研究者的话来说,用AI生成数据来训练新的AI,是在毒化模型对真实世界的认知。论文作者之一罗斯·安德森将这一过程比喻为用莫扎特作品来训练AI,结果会得出一个风格类似莫扎特但缺乏灵气的“萨列尼”模型。再用“萨列尼”模型的作品来训练新的模型,如此反复五六次后,最终模型的音乐作品既不会有莫扎特的风格,也不会有莫扎特的灵光。

除了这一主因外,“函数近似值误差”也会为“模型崩溃”推波助澜。任何神经网络AI在本质上都算是有限的通用函数近似器,但总会出现函数近似值过度表达或不充分表达带来的结果不精确。理论上来说,“统计近似值偏差”与“函数近似值误差”并不必然会带来恶果,有少许可能,这些偏差恰好会消除真实数据中的噪音值,让AI模型的生成结果更符合真实数据分布。然而更大的可能是,这些误差会放大、加乘数据噪音。在罗斯·安德森的个人博客中,有人评论这是热力学中的熵、生物学中的近亲繁殖退化,在AI界的复现。

03.模型生成内容充斥网络后,真人数据将成AI维生必需

对于业界而言,这一发现再次凸显了真实人类创造的数据的稀缺性。罗斯·安德森戏称,在海洋布满不可降解塑料垃圾、空气里充满二氧化碳排放物后,互联网以后也会被大语言模型生成的低质量结果污染。反过来说,真实人类创造的数据如同洁净的空气与饮水,是日后生成式AI必须依赖的维生补给。

在如此背景下,不难理解为何推特与Reddit这些用户活跃的社交媒体纷纷取消应用程序接口扒数据的权限。这些社交媒体上的真人互动内容都是以后越来越值钱的不可再生资源,马斯克们是绝不愿继续免费让OpenAI们拿去用的。数据饥渴的AI公司们,现在两种继续发掘高质量数据的办法都在用。一是扒完当代互联网数据后,继续扒古旧文本与图像数据。保存了远至两百年前书籍扫描件的“互联网档案馆”,在5月底称网站之前短暂崩溃,是因为托管在亚马逊云服务器上的数十个虚拟接口做出了每秒数万次的数据查询请求,导致网站无法承载。二是老实花钱买。北京时间6月17日0点,《金融时报》独家报道,称最近数月内,谷歌、OpenAI、微软等公司在与新闻业界的大企业,如新闻集团(News Corp)、纽约时报和卫报在内的出版商接触,寻求AI训练数据材料的持续来源并避免未来的版权纠纷。虽然商洽还在早期阶段,但信源透露出的信息是AI巨头企业们愿意为作为AI模型训练数据的新闻内容向媒体巨头们支付定期订阅费用,媒体巨头们开出的价位是年均500-2000万美元。

最新快讯

2025年11月03日

09:48
2025年湖南张家界“七星山·骆驼杯”国际极限荒野求生挑战赛第二季正在如火如荼地进行中,这场汇聚了近百名顶尖选手的极限盛宴,以其严苛的生存环境和残酷的淘汰机制备受瞩目。经过24天的极限考验,仅剩21名选手顽强坚持,而其中唯一的女选手“冷美人”更是凭借其超乎常人的毅力和独特魅力,成为全网热议的焦点。 这位被称为“冷美人”的13号选手,自参赛以来便以“瘦成闪电”...
09:43
谷歌近日宣布与印度最大电信运营商信实Jio达成深度战略合作,将向超过5亿Jio用户免费提供Gemini人工智能服务。这一创新合作计划首阶段将聚焦于18至25岁的年轻群体,每位用户均可享受价值约35,100卢比(约合396美元)的高阶AI权益,这一举措标志着AI技术正从专业精英工具加速迈向大众基础设施时代。 Gemini2.5Pro领衔,打造"AI+云"一体化...
09:43
历经多轮更名与迭代后的沉寂期,百度旗下AI助手终于以“文心”之名强势回归,最新发布的5.0.0版本不仅完成了品牌正名,更在功能维度实现了跨越式的突破性进展。这款自2023年7月4日上线、最初以智能助手身份面世的AI平台,如今已进化为集创作、搜索、交互与多媒体生成于一体的全能型AI平台,为用户带来前所未有的智能化体验。 “魔法漫画”:普通人也能成为漫画家 “文...
09:43
特斯拉创始人埃隆・马斯克近期在一场备受瞩目的播客访谈中,就未来科技发展趋势发表了极具前瞻性的观点,其大胆预测引发了科技界和社会的广泛关注。马斯克明确指出,在接下来的五到六年时间内,人工智能将全面渗透并主导人类社会的日常运作,届时我们所熟知的传统手机及各类应用程序将逐渐被历史淘汰。 谈及这一历史性转折点时,马斯克描绘了一幅未来图景:未来的各种智能设备将不再扮演...
09:43
特斯拉近期在美国市场重磅推出创新服务“Tesla Ride”,为消费者提供难得的机会亲身体验其尖端的全自动驾驶(FSD)技术。该项目旨在通过沉浸式体验,让参与者直观感受监督式FSD的驾驶魅力,并深度互动特斯拉内置AI助手Grokr。在45分钟的体验过程中,参与者将坐在驾驶座上,由专业特斯拉顾问全程陪同指导。这位经验丰富的顾问将坐在副驾驶座,不仅会详细讲解最新...
09:43
阿里通义千问重磅发布最新旗舰语言模型 Qwen3-Max,正式开启其核心新功能“深度思考”模式。这一创新模式通过显著增强推理链分析能力与多步骤问题拆解效率,为复杂任务的处理带来了革命性突破,大幅提升了任务执行的精准性与效率。Qwen3-Max 作为通义团队迄今为止构建的规模最大、能力最强的语言模型,其参数量达到了令人惊叹的1万亿级别,预训练数据量更是高达36...
09:42
人工智能搜索初创公司Perplexity近日与全球顶级视觉内容平台Getty Images达成一项具有里程碑意义的多年授权合作,正式获准在其先进的AI驱动搜索与发现平台中展示Getty Images的丰富图片资源。这一战略性合作不仅标志着Perplexity在内容生态建设上的重大突破,更被视为该公司积极修复声誉、重塑合规形象的关键举措。 据TechCrunc...
09:18
赛力斯集团今日正式宣布,公司H股发行最终定价确定为每股131.50港元,并预计将于2025年11月5日登陆香港联交所主板进行挂牌交易。这一重要举措标志着赛力斯集团全球化战略的深入推进,同时也是公司构建国际化资本运作平台的关键一步,将为未来的发展注入强劲动力。 根据最新披露的财务数据,赛力斯集团在2024年取得了令人瞩目的成绩。全年实现营业收入1451.76亿...
09:18
近日,网络上传言称发行商505 Games因拖欠款项导致《明末:渊虚之羽》的QA工作陷入停滞。针对这一不实指控,505 Games选择在B站发布官方声明,以正视听。声明明确指出,所谓拖欠款项阻碍QA工作的说法纯属无稽之谈,毫无根据的揣测。 声明中,505 Games特别澄清,公司从未委托Keywords Studio为《明末:渊虚之羽》提供质量保证服务,...
09:18
深圳市汉森软件股份有限公司近日正式向香港交易所主板提交了上市申请,国金证券(香港)与中信证券将联手担任本次联席保荐人。作为一家成立于2006年的全链条数字打印解决方案供应商,汉森软件凭借其在打印控制系统、打印基础设施及创新服务三大核心业务板块的卓越表现,已在全球独立打印控制系统供应商中脱颖而出,于2024年收入排行榜中位列榜首。 最新发布的财务报告进一步...
09:18
美国领先的业务流程外包服务商Conduent近日发布重大安全警报,公司于2024年10月至2025年1月期间遭遇了严重的黑客攻击,导致超过1000万客户的敏感个人信息遭到非法窃取。根据该公司向美国缅因州总检察长办公室提交的详细报告显示,泄露的数据包罗万象,包括客户姓名、社会安全号码、医疗保险信息以及完整的医疗记录等高度敏感的隐私内容。 在发现系统异常迹象后,...
09:18
10月29日,青岛力克川液压股份有限公司正式在青岛证监局完成IPO辅导备案,标志着这家专注于液压驱动装置的企业迈出了北交所上市的关键一步。作为本次发行的保荐机构,长江证券将全程参与并承销保荐工作,为力克川的资本之路保驾护航。 力克川液压成立于2006年,注册资本高达7008万元,是一家在液压驱动装置领域深耕多年的创新型企业。公司法定代表人王金铂同时也是控股股...