用AI生成的数据来训练AI,只会导致性能下降,不会有魔法,只会被反噬。近日,莱斯大学和斯坦福大学的研究团队发现,将AI生成的内容输入模型进行训练,只会加速模型的性能衰退。研究人员提出了一种解释,称为「模型自噬障碍」(MAD)。该论文已发布在arXiv上,具体地址为https://arxiv.org/abs/2307.01850。

研究发现,在使用AI数据训练模型时,经过第5次迭代后,模型就会逐渐出现MAD现象。这意味着,如果不能为模型提供「新鲜的真实数据」,即由人类标注的数据,其输出质量将会受到严重影响。这种现象被称为「模型内耗」,即模型在自我生成的数据中不断循环训练,最终导致性能下降。

目前,MAD尚未被证实会影响所有AI模型,但研究人员已经对自编码器、高斯混合模型、大语言模型进行了验证。作者指出,「世界正在奔向一个未来,生成式AI的爆发,导致了互联网上的合成数据,很快就会超过真实数据。」因此,当前的AI模型正在不知不觉中接受越来越多的人工智能合成数据的训练。

例如,目前已知且开源的最大规模多模态数据集LAION-5B,已经用于训练当前最先进的文本-图像模型,包括Stable Diffusion。这个数据集包含了从早期生成模型中采样的合成图像。合成数据之所以受欢迎,主要有以下四个原因:

1. 合成训练数据比获取真实世界的样本更容易、更快、更便宜。
2. 在某些情况下,合成数据增强可以提高AI系统的性能。
3. 可以在医学成像或医疗记录等敏感应用中保护隐私。
4. 最重要的一点,随着深度学习模型参数越来越庞大,现几乎没有真实数据可用了。

为了获取更多真实数据,就连OpenAI近日也与美联社签订协议,双方将共享部分新闻内容和技术。然而,无论是有意还是无意使用合成数据,已经背离了标准的AI训练实践。

一代又一代地重复这一过程,形成了一个自噬循环(autophagous loop),也就是自耗(self-consuming)。不同的自噬环变化取决于,现有的真实数据和合成数据如何组合到未来的训练集中。然而,根据合成数据的生成方式,还会出现其他变化。比如,研究者或算法通常会通过手动「挑选」合成数据来引入采样偏差,以权衡感知质量(即图像/文本看起来不错)与多样性(不同类型图像/文本)。

研究者介绍,「质量」和「多样性」两个非正式概念,分别与精确度和召回率的统计指标密切相关。如果合成数据已经存在于我们今天的训练数据集中,那么自噬循环在未来几乎是不可避免的。

那么影响究竟有多大?研究人员表示,无论训练集的组成,或采样方法如何,自噬循环对生成模型的属性和性能的潜在影响仍知之甚少。而有一点可以确定的是,使用合成数据重复训练可能会逐渐放大任何生成模型中存在的偏差和伪影。

这项研究有三个重要贡献:

1. 自噬循环的真实模型:团队研究了自噬循环的3种变体:完全合成循环,其中生成模型仅在前几代的合成样本上进行训练;合成增强循环,其中训练集还包括一组固定的真实数据;新数据循环,其中训练集还包括每一代的一组新的真实数据。所有这3种自噬循环模型的底线是,如果每一代没有足够的新鲜真实数据,未来的生成模型注定会MAD。

2. 采样偏差在自噬循环中起着关键作用:模型实践者倾向于手动挑选合成数据,更喜欢高质量的样本,并删除低质量的样本。此外,最先进的生成模型通常具有可控参数,可以以牺牲多样性为代价来提高合成质量。研究证明,通过这种质量多样性(精确召回)权衡引起的采样偏差,对自噬训练循环的行为有重大影响。具体来讲,在没有采样偏差的情况下,自噬会导致质量和多样性的快速下降,而在采样偏差的情况下,质量可以保持,但多样性下降得更快。

3. 自噬循环行为适用于各种生成模型和数据集:除了对简单多元高斯和高斯混合模型的分析和实证研究之外,团队还在正文和附录中,证明了主要结论适用于各种生成模型。部分实验结果在没有采样偏差的全合成循环中,完全使用合成数据训练生成模型,其合成数据的质量和多样性都会逐代下降。

所有这些会出现MAD症状的模型都已经广泛应用,并运行一段时间了:自编码器可以处理诸如流行预测(例如社交媒体应用程序的算法)、图像压缩、图像去噪和图像生成等任务;高斯混合模型用于密度估计、聚类和图像分割等目的,在统计学和数据科学中特别有用。如今流行的ChatBot,其应用的大型语言模型(如ChatGPT,和Anthropic的Claude)使用自己生成的内容进行训练时,也容易在训练中出现MAD现象。

这项研究提供了一种窥探「AI技术黑箱」的方法。但也粉碎了我们从某些AI模型中制造一个「仓鼠轮」的希望:将数据输入模型,然后将其自身生成的数据再次输入模型,产生更多的数据再反馈进模型的过程。反而这种训练方式会对当前存在的模型,以及这些模型的应用造成威胁。如果一个已经商业化使用的模型事实上是通过对其自身的输出进行训练的,那么该模型很可能已经向其平均值回归(记住,这需要大约5个输入输出周期才能显现)。模型崩溃过程示意图

如果该模型向其平均值回归,那么它在某种程度上已经存在着偏见,因为它没有考虑到本应属于少数派的数据。这也可以称之为算法上的偏见。研究结果中得出的另一个重要观点是对数据来源的关注。现在更加重要的是能够将「原始」数据与「人工」数据区分开来。如果无法确定哪些数据是由LLM或生成图像应用程序创建的,可能会不小心将其包含在下一代产品的训练数据中。

不幸的是,这个问题很可能已经无法挽回:这些类型的网络已经产生了大量未标记的数据,并被纳入其他系统中。即使我们在ChatGPT或Midjourney的爆发之前拥有整个互联网的快照,但长期以来AI生成的数据每天都在大量涌入全球网络,更别说它们运行时产生的巨量数据。模型崩溃成因的示意图

但即便如此,至少我们已经知道了这一点。知道这一点,意味着寻找一种可以识别AI生成内容的水印(这是绝对正确的)已经成为一项更为重要和更有利可图的工作,标记AI生成数据的责任也变得更为严肃。除此之外,还有其他方法可以弥补这些偏差。其中一种方法是简单改变模型的权重:增加分布尾部的结果的相关性或频率,它们将自然地沿着钟形曲线移动,靠近均值。这意味着它们就不太容易被修剪掉,从而避免了自动生成训练中的数据丧失。模型仍然会丢失曲线边缘的数据,但这些数据不再是唯一的数据来源了。

但是,权重是如何决定的?权重应该如何调整?频率应该增加多少?此外,我们也有责任了解模型微调的影响、以及这些影响的后果如何影响模型最终的生成内容。以上每个问题的回答都会引发一系列其他问题的关注:与模型回答背后的真实性相关的问题(其中偏差被称为幻觉);模型是否存在偏见,以及这种偏见的根源(如果是来自训练数据本身或用于创建网络的权重过程,现在我们也从MAD过程中了解到了);当模型训练自己的数据时会发生什么……但如我们所看到的,最后结果并不理想。

同样地,这个问题也是不可忽视的:就像不接触新知识的人会越来越固步自封和偏执。这与「模型在自己生成的内容上训练时,它会崩溃」是相同的道理。参考资料:https://www.tomshardware.com/news/generative-ai-goes-mad-when-trained-on-artificial-data-over-five-timeshttps://arxiv.org/pdf/2307.01850.pdfhttps://futurism.com/ai-trained-ai-generated-datahttps://www.tweaktown.com/news/92328/scientists-make-ai-go-crazy-by-feeding-it-generated-content/index.html

最新快讯

2026年02月11日

05:34
微新创想:2026年2月11日,黑石集团宣布投资2亿美元参与人工智能公司Anthropic新一轮融资。据知情人士透露,按3500亿美元估值计算,黑石对Anthropic的持股总规模升至约10亿美元。这表明黑石集团对Anthropic的技术实力和未来发展前景充满信心。 Anthropic总部位于美国旧金山,专注于开发Claude系列大语言模型。公司自成立以来,...
05:34
微新创想:2月11日凌晨4时44分,斐济群岛地区发生了一次6.2级左右的地震。根据中国地震台网的自动测定,此次地震的震中位于南纬20.99度,西经178.42度。地震的震源深度属于深源,这意味着地震能量释放的位置较深,通常对地表的影响相对较小。 此次地震发生后,相关部门迅速进行了监测和评估。目前尚未发布海啸预警,表明地震可能不会引发大规模的海啸灾害。同时,地...
04:29
微新创想:2026年2月11日,阿布扎比投资机构MGX据称正接近参与人工智能公司Anthropic的新一轮融资。该交易涉及阿联酋阿布扎比与美国加州(Anthropic总部所在地)之间的资本合作。MGX与Anthropic的合作将有助于推动中东地区在全球人工智能领域中的影响力。 此次投资被认为是对Anthropic现有业务模式的重要补充。Anthropic作为...
02:56
微新创想:2026年2月11日 美国科技巨头Alphabet在欧洲市场完成债券发售 累计募资110亿美元 此举使其2026年以来全球债券发行总额达300.1亿美元 发债地点为欧洲主要金融中心 发行主体为Alphabet Inc. 资金将用于一般公司用途 包括回购股票 偿还到期债务及营运资本补充 此次发债反映其在低利率环境下优化资本结构的战略意图 亦显示国际投...
01:51
微新创想:2026年2月11日 特斯拉宣布任命现任欧洲、中东和非洲区副总裁乔·沃德接任全球销售业务负责人 此次调整自即日起生效 公司表示此举旨在整合区域销售资源 强化全球市场协同与交付效率 乔·沃德自2019年起在特斯拉任职 历任英国 德国等多国销售高管 具备丰富的国际市场管理经验 公司强调此次任命不涉及组织架构大规模变动 原有区域销售团队保持稳定运行 以确...
00:13
微新创想:2026年2月10日,吉利银河全新插混SUV M7在意大利米兰正式亮相。该车为银河L7中期改款车型,车身加长60mm,风阻系数优化至0.27cd。采用“飞檐虎视”前脸、“旭日东升”尾灯等东方美学设计,彰显出中国智造的独特魅力。 搭载EM-i插混系统,该车型提供两种电池版本,纯电续航最高可达225km。满油满电综合续航达到1730km,大幅提升了用户...
00:13
微新创想:2026年2月,奥迪在中国市场启动入华以来规模最大的产品攻势,全年将推出8款全新及改款车型。此次布局覆盖燃油、插混、纯电三大动力形式,涵盖Q5L、A6L、A6L e-tron及纯电车型E7X等重点车型。 微新创想:行动旨在应对豪华车市场电动化转型趋势,延续油电并进策略,依托PPC燃油平台与PPE纯电平台,强化本土化智能座舱与驾驶辅助系统适配。 微新...
00:13
微新创想:据Insider Gaming编辑Tom Henderson在2月7日的播客中透露,R星可能在2026年8月初以“无预告突袭”的方式发布《GTA6》第三支预告片。这一举动不仅是为了吸引玩家关注,更旨在配合Take-Two当季的财报电话会议,通过预告片强化投资者对游戏未来的期待。 R星一直以来都以高调且富有创意的营销策略著称。此次选择在财报会议上发布...
00:13
微新创想:2026年2月10日 卡普空《生化危机5》Xbox Series版现身ESRB官网 标注含“内购”内容 暗示为完整重制版 2026年2月10日 卡普空宣布《生化危机5》Xbox Series版已出现在ESRB官网 并标注了“内购”内容 这一举动引发了玩家对游戏版本的猜测 认为可能是完整重制版 虽未列PS5版 但索尼定于2月13日举行State of...

2026年02月10日

23:12
微新创想:2026年2月10日,深圳第零智能科技股份有限公司正式向香港交易所递交上市申请。公司注册地及运营主体位于广东深圳,拟通过首次公开发行股票募集发展资金。本次IPO由民银资本独家保荐。 递表标志着该公司迈出港股上市关键一步,旨在拓展资本市场融资渠道,支持其在智能硬件与AI终端领域的研发及商业化进程。作为一家专注于智能硬件与AI终端技术的企业,第零智能近...
23:12
微新创想:2026年2月10日,摩根大通策略师Dubravko Lakos-Bujas团队指出,市场对AI短期颠覆软件行业的担忧不切实际,软件股正迎来反弹契机 该行认为,近期无差别抛售已导致板块估值处于历史低位,叠加持仓出清、悲观情绪过度及基本面稳健,风险平衡转向上行 建议投资者增配高质量、抗AI颠覆能力强的软件股 此次调整源于市场担忧AI工具冲击传统Saa...
23:12
微新创想:2026年2月10日,谷歌在美国正式推出升级版隐私搜索结果管理功能。这一更新旨在进一步增强用户对个人隐私的控制能力,让用户能够更方便地管理网络上的个人信息。 用户可以通过“关于你的搜索结果”页面,提交驾照、护照号、社安号(SSN)等敏感信息。系统会自动扫描互联网,查找包含这些信息的网页链接,并通知用户。用户可以申请移除对应的搜索结果,从而减少个人信...