用AI生成的数据来训练AI,只会导致性能下降,不会有魔法,只会被反噬。近日,莱斯大学和斯坦福大学的研究团队发现,将AI生成的内容输入模型进行训练,只会加速模型的性能衰退。研究人员提出了一种解释,称为「模型自噬障碍」(MAD)。该论文已发布在arXiv上,具体地址为https://arxiv.org/abs/2307.01850。

研究发现,在使用AI数据训练模型时,经过第5次迭代后,模型就会逐渐出现MAD现象。这意味着,如果不能为模型提供「新鲜的真实数据」,即由人类标注的数据,其输出质量将会受到严重影响。这种现象被称为「模型内耗」,即模型在自我生成的数据中不断循环训练,最终导致性能下降。

目前,MAD尚未被证实会影响所有AI模型,但研究人员已经对自编码器、高斯混合模型、大语言模型进行了验证。作者指出,「世界正在奔向一个未来,生成式AI的爆发,导致了互联网上的合成数据,很快就会超过真实数据。」因此,当前的AI模型正在不知不觉中接受越来越多的人工智能合成数据的训练。

例如,目前已知且开源的最大规模多模态数据集LAION-5B,已经用于训练当前最先进的文本-图像模型,包括Stable Diffusion。这个数据集包含了从早期生成模型中采样的合成图像。合成数据之所以受欢迎,主要有以下四个原因:

1. 合成训练数据比获取真实世界的样本更容易、更快、更便宜。
2. 在某些情况下,合成数据增强可以提高AI系统的性能。
3. 可以在医学成像或医疗记录等敏感应用中保护隐私。
4. 最重要的一点,随着深度学习模型参数越来越庞大,现几乎没有真实数据可用了。

为了获取更多真实数据,就连OpenAI近日也与美联社签订协议,双方将共享部分新闻内容和技术。然而,无论是有意还是无意使用合成数据,已经背离了标准的AI训练实践。

一代又一代地重复这一过程,形成了一个自噬循环(autophagous loop),也就是自耗(self-consuming)。不同的自噬环变化取决于,现有的真实数据和合成数据如何组合到未来的训练集中。然而,根据合成数据的生成方式,还会出现其他变化。比如,研究者或算法通常会通过手动「挑选」合成数据来引入采样偏差,以权衡感知质量(即图像/文本看起来不错)与多样性(不同类型图像/文本)。

研究者介绍,「质量」和「多样性」两个非正式概念,分别与精确度和召回率的统计指标密切相关。如果合成数据已经存在于我们今天的训练数据集中,那么自噬循环在未来几乎是不可避免的。

那么影响究竟有多大?研究人员表示,无论训练集的组成,或采样方法如何,自噬循环对生成模型的属性和性能的潜在影响仍知之甚少。而有一点可以确定的是,使用合成数据重复训练可能会逐渐放大任何生成模型中存在的偏差和伪影。

这项研究有三个重要贡献:

1. 自噬循环的真实模型:团队研究了自噬循环的3种变体:完全合成循环,其中生成模型仅在前几代的合成样本上进行训练;合成增强循环,其中训练集还包括一组固定的真实数据;新数据循环,其中训练集还包括每一代的一组新的真实数据。所有这3种自噬循环模型的底线是,如果每一代没有足够的新鲜真实数据,未来的生成模型注定会MAD。

2. 采样偏差在自噬循环中起着关键作用:模型实践者倾向于手动挑选合成数据,更喜欢高质量的样本,并删除低质量的样本。此外,最先进的生成模型通常具有可控参数,可以以牺牲多样性为代价来提高合成质量。研究证明,通过这种质量多样性(精确召回)权衡引起的采样偏差,对自噬训练循环的行为有重大影响。具体来讲,在没有采样偏差的情况下,自噬会导致质量和多样性的快速下降,而在采样偏差的情况下,质量可以保持,但多样性下降得更快。

3. 自噬循环行为适用于各种生成模型和数据集:除了对简单多元高斯和高斯混合模型的分析和实证研究之外,团队还在正文和附录中,证明了主要结论适用于各种生成模型。部分实验结果在没有采样偏差的全合成循环中,完全使用合成数据训练生成模型,其合成数据的质量和多样性都会逐代下降。

所有这些会出现MAD症状的模型都已经广泛应用,并运行一段时间了:自编码器可以处理诸如流行预测(例如社交媒体应用程序的算法)、图像压缩、图像去噪和图像生成等任务;高斯混合模型用于密度估计、聚类和图像分割等目的,在统计学和数据科学中特别有用。如今流行的ChatBot,其应用的大型语言模型(如ChatGPT,和Anthropic的Claude)使用自己生成的内容进行训练时,也容易在训练中出现MAD现象。

这项研究提供了一种窥探「AI技术黑箱」的方法。但也粉碎了我们从某些AI模型中制造一个「仓鼠轮」的希望:将数据输入模型,然后将其自身生成的数据再次输入模型,产生更多的数据再反馈进模型的过程。反而这种训练方式会对当前存在的模型,以及这些模型的应用造成威胁。如果一个已经商业化使用的模型事实上是通过对其自身的输出进行训练的,那么该模型很可能已经向其平均值回归(记住,这需要大约5个输入输出周期才能显现)。模型崩溃过程示意图

如果该模型向其平均值回归,那么它在某种程度上已经存在着偏见,因为它没有考虑到本应属于少数派的数据。这也可以称之为算法上的偏见。研究结果中得出的另一个重要观点是对数据来源的关注。现在更加重要的是能够将「原始」数据与「人工」数据区分开来。如果无法确定哪些数据是由LLM或生成图像应用程序创建的,可能会不小心将其包含在下一代产品的训练数据中。

不幸的是,这个问题很可能已经无法挽回:这些类型的网络已经产生了大量未标记的数据,并被纳入其他系统中。即使我们在ChatGPT或Midjourney的爆发之前拥有整个互联网的快照,但长期以来AI生成的数据每天都在大量涌入全球网络,更别说它们运行时产生的巨量数据。模型崩溃成因的示意图

但即便如此,至少我们已经知道了这一点。知道这一点,意味着寻找一种可以识别AI生成内容的水印(这是绝对正确的)已经成为一项更为重要和更有利可图的工作,标记AI生成数据的责任也变得更为严肃。除此之外,还有其他方法可以弥补这些偏差。其中一种方法是简单改变模型的权重:增加分布尾部的结果的相关性或频率,它们将自然地沿着钟形曲线移动,靠近均值。这意味着它们就不太容易被修剪掉,从而避免了自动生成训练中的数据丧失。模型仍然会丢失曲线边缘的数据,但这些数据不再是唯一的数据来源了。

但是,权重是如何决定的?权重应该如何调整?频率应该增加多少?此外,我们也有责任了解模型微调的影响、以及这些影响的后果如何影响模型最终的生成内容。以上每个问题的回答都会引发一系列其他问题的关注:与模型回答背后的真实性相关的问题(其中偏差被称为幻觉);模型是否存在偏见,以及这种偏见的根源(如果是来自训练数据本身或用于创建网络的权重过程,现在我们也从MAD过程中了解到了);当模型训练自己的数据时会发生什么……但如我们所看到的,最后结果并不理想。

同样地,这个问题也是不可忽视的:就像不接触新知识的人会越来越固步自封和偏执。这与「模型在自己生成的内容上训练时,它会崩溃」是相同的道理。参考资料:https://www.tomshardware.com/news/generative-ai-goes-mad-when-trained-on-artificial-data-over-five-timeshttps://arxiv.org/pdf/2307.01850.pdfhttps://futurism.com/ai-trained-ai-generated-datahttps://www.tweaktown.com/news/92328/scientists-make-ai-go-crazy-by-feeding-it-generated-content/index.html

最新快讯

2025年08月04日

20:39
微新创想8月4日电 一场突如其来的意外,一次与死神赛跑的救援,近日在川蜀大地上演了感人至深的一幕。据媒体报道,7月29日四川广元,一名9岁男孩在玩耍时不慎被养殖娃娃鱼咬断左手小指,危急时刻,在铁路部门、医疗团队及社会各界的紧急协作下,通过高铁绿色通道,成功实现5小时内断指再植的医学奇迹。 据悉,这起意外发生在四川广元某养殖场。当时男孩正在养殖池边玩耍,突然...
20:39
微新创想8月4日重磅消息,小米正式宣布米家空调Pro系列迎来全链路OTA升级,为用户带来更智能便捷的家居体验。此次升级聚焦于两大核心功能——空气管理和智能气流联动,全面覆盖米家空调Pro系列产品,让家庭空气管理进入全新阶段。 空气管理功能实现跨设备智能联动,用户只需在米家APP一键开启全屋空气管理模式。当室内空气质量监测系统检测到PM2.5、甲醛等指标超标时...
20:39
2025年8月4日,资本市场迎来多家公司的重要公告,引发投资者广泛关注。上纬新材宣布,经过严格的核查工作,公司将于8月5日正式复牌,恢复交易。然而,公司也同时披露了业绩方面的挑战,预计2025年上半年净利润将同比大幅减少32.91%,显示出当前市场环境对公司经营带来的压力。 隆扬电子在公告中透露,其研发的HVLP铜箔相关产品目前仍处于客户验证阶段,尚未实现销...
20:39
2025年8月4日,禾信仪器(股票代码688622)正式发布其2025年半年财务报告,数据显示公司上半年营业收入仅为5281.57万元,与去年同期相比大幅下滑48.88%。更为严峻的是,公司净利润出现亏损,亏损额高达1745.96万元。这一业绩表现明显反映出市场环境的深刻调整以及下游行业投资节奏的明显放缓,多重因素叠加导致公司经营业绩面临严峻挑战。从行业周期...
20:39
8月4日,中国无人驾驶出行企业萝卜快跑正式宣布与美国领先的出行平台Lyft达成深度战略合作,双方将携手在欧洲市场拓展无人驾驶出行服务。根据合作协议,萝卜快跑将借助Lyft成熟的欧洲运营网络,在欧洲多国提供自动驾驶出租车服务,标志着中国智能出行技术首次大规模进入欧美主流市场。 此次合作被视为全球无人驾驶领域的重要里程碑。萝卜快跑CEO张文表示:"与Lyft的合...
20:39
2025年8月4日,中电环保(股票代码300172)正式发布其2025年半年度财务报告。报告数据显示,公司在上半年的营业收入总额为3.15亿元,相较去年同期出现了10.7%的下降。然而,在营收下滑的背景下,归母净利润却实现了5393.68万元的同比增长,增幅达到2.87%。这一看似矛盾的经营结果,背后主要得益于公司有效的成本控制策略和显著提升的运营效率。 ...
20:39
2025年8月4日,全球化工巨头科慕、杜邦和科迪华联合宣布与美国新泽西州达成一项历史性和解协议,正式解决长期存在的PFAS污染指控及其他环境纠纷。根据该协议条款,三家公司将在未来25年内分阶段向新泽西州政府支付总额高达8.75亿美元的赔偿金,其中科慕承担50%的份额即4.375亿美元,杜邦承担35.5%即3.1125亿美元,科迪华则承担14.5%即1.262...
20:39
2024年,ST宁科(股票代码600165.SH)的股价遭遇重挫,全年累计下跌28.11%。然而,令人瞠目结舌的是,公司时任首席财务官董春香的个人薪酬却实现了惊人飞跃,从2023年的12.18万元飙升至45.10万元,涨幅高达270.28%。这一反差巨大的薪酬增长,与公司同期急剧恶化的经营状况形成了鲜明对比,迅速引发了市场的广泛关注和质疑。 在董春香执掌财务...
20:39
2024年,北方导航的财务总监周静薪酬高达172.48万元,同比暴涨117.94%,这一惊人涨幅与公司业绩形成鲜明对比。尽管公司股价全年重挫16.87%,营收和净利润分别大幅下滑22.91%和69.29%,周静的薪酬却逆势飙升。这一现象引发了市场对上市公司高管薪酬与公司业绩关联性的广泛关注。 周静拥有深厚的军工央企管理背景,自2018年起便担任北方导航的CF...
20:05
微新创想8月4日电 经典电影《汉江怪物》为韩国著名汉江增添了神秘传奇色彩,而近日一则关于汉江现“真怪物”的视频再次将这条江推上风口浪尖。一位韩国网友在首尔国会大厦附近一处停车场夜钓时,意外拍下了一段令人震惊的视频,画面中汉江水面漂浮着一个巨大的黑色不明物体。据拍摄者描述,该黑色物体体长估计在6至10米之间,粗壮程度远超人体,且其形态在夜色中显得格外诡异。这...
20:05
2025年8月,金融监管总局正式公布对“明天系”旗下华夏人寿及相关责任人的最终处罚决定,这一举措标志着备受关注的保险机构风险处置工作已全面落锤收官。自2020年华夏人寿被依法接管以来,监管机构对这一风险事件展开了系统性治理,最终形成了一整套完整的处罚方案。 在责任追究方面,监管机构共对华夏人寿、天安人寿、天安财险、易安财险及华夏久盈资管等机构的相关责任人处以...
20:05
2025年8月3日,三一重工正式对外发布重要公告,披露了其近期积极的资本运作策略。根据公告内容,截至7月底,公司已累计投入13.55亿元人民币,成功回购7267.92万股流通股份,占公司总股本的0.86%。此次回购行动的价格区间设定在每股17.39元至19.39元之间,充分体现了公司对自身发展前景的坚定信心。 此次回购计划是基于4月份审议通过的专项议案实施的...