人类创作的文本始终比AI生成的文本更具价值。随着GPT-4、Stable Diffusion和Midjourney等生成式AI技术的迅速崛起,越来越多的人开始将其融入工作和生活。甚至有研究者尝试利用AI生成的数据来训练新的AI模型,试图打造所谓的「数据永动机」。然而,牛津大学、剑桥大学和帝国理工学院等顶尖机构的研究人员发现,如果在训练过程中过度依赖AI内容,会导致模型出现灾难性的「模型崩溃」,造成不可逆转的缺陷。这意味着,随着时间的推移,AI模型会逐渐遗忘真实的基础数据。即使在理想的长期学习环境下,这一问题也无法避免。因此,研究人员强烈呼吁,为了维持大规模数据训练带来的模型优势,必须重视人类原创文本的价值。相关研究论文可查阅:https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图

然而,现实情况更为复杂——你以为的「人类数据」,可能并非完全由人类创作。洛桑联邦理工学院(EPFL)的最新研究表明,高达33%-46%的人类数据实际上是由AI生成的。这意味着,当前训练AI模型所依赖的数据中,相当一部分是「垃圾数据」。尽管GPT-4等大语言模型已展现出惊人的文本生成能力,能够模仿人类写作风格,但它们的训练数据主要源自过去几十年互联网上的公开交流。如果未来模型继续依赖网络爬取,不可避免地会纳入自身生成的文本,从而加剧模型崩溃的风险。研究人员预测,随着GPT系列的迭代发展,这一问题将日益严重。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图1

在这种背景下,为AI模型准备高质量的人类原创数据变得至关重要。亚马逊的Mechanical Turk(MTurk)自2005年上线以来,已成为许多人的兼职选择。科研人员通过MTurk发布各种需要人类智能的任务,如图像标注、问卷调查等,这些任务往往难以通过计算机算法完成。MTurk也因此成为预算有限的科研人员和企业的「优选方案」,就连贝佐斯曾戏称其为「人工人工智能」。除了MTurk,Prolific等众包平台也已成为研究者和行业实践者的核心数据来源,提供创建、标注和总结各类数据的方法。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图2

但EPFL的研究揭示了一个令人担忧的事实:在这些关键的人类数据来源中,近半数内容是由标注员使用AI工具生成的。相关论文链接:https://arxiv.org/abs/2306.07899v1

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图3

「模型崩溃」是指当AI模型被大量AI生成数据「喂养」后,会出现的跨代退化现象。具体来说,新一代模型的训练数据会被前代模型的生成内容污染,导致对现实世界的认知产生偏差。更严重的是,这种崩溃可能引发基于性别、种族等敏感属性的歧视问题。例如,如果AI逐渐只生成某个种族的描述而忽略其他种族,模型最终会「忘记」这些种族的存在。值得注意的是,模型崩溃与灾难性遗忘(catastrophic forgetting)不同——模型不会完全遗忘已学数据,而是会扭曲错误认知并将其误认为现实,并不断强化这种错误信念。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图4

以一个包含100张猫图片的数据集为例:其中10张是蓝毛猫,90张是黄毛猫。模型可能得出「黄毛猫更普遍」的结论,并在生成新数据时将蓝毛猫「想象」成偏黄的版本。随着训练的持续,蓝毛猫的特征会逐渐被侵蚀,从蓝色演变为绿色甚至黄色。模型崩溃可分为两种类型:早期模型崩溃(模型丢失分布尾部信息)和后期模型崩溃(模型与原始分布模式混淆,最终收敛到与原始分布差异巨大的状态)。造成模型崩溃的两大主因是统计近似误差和函数近似误差。统计近似误差源于重采样过程中信息的丢失,而函数近似误差则与模型表达能力不足或超出原始分布支持范围有关。研究人员Ilia Shumailov指出:「生成数据中的错误会不断累积,最终导致模型对现实产生更严重的误解。模型崩溃的发生速度惊人,模型会迅速遗忘最初学习的真实数据。」

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图5

幸运的是,研究人员提出了两种避免模型崩溃的方法。第一种是保留高质量的人类原创数据集副本,避免与AI生成数据混合,并定期使用这些原始数据重新训练或从头训练模型。第二种方法是持续引入全新的、干净的人类原创数据,确保少数派群体在后续数据中得到公正表征。为了实现这一目标,开发者需要建立大规模的标记机制来区分AI生成内容与人类创作内容。目前已有GPTZero、OpenAI Detector等工具,但它们在特殊文本中效果有限。例如,在EPFL研究中,ChatGPT生成的10个总结中,GPTZero仅检测出6个是AI合成的。研究人员通过微调模型开发了定制的「合成-真实分类器」,在真实MTurk回应中实现了高达99%的准确率。实验表明,AI生成的文本通常与原始内容差异巨大,表明其正在生成新文本而非简单复制粘贴。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图6

「人类数据」的价值在AI时代愈发凸显。随着LLM塑造人类「信息生态系统」,依赖合成数据训练的模型性能会显著下降,甚至出现「痴呆症」现象。虽然众包工作者使用ChatGPT等工具能提高效率,但拯救LLM免于崩溃的关键仍在于真实的人类原创数据。人类数据在科学研究中始终不可或缺,过度依赖合成数据可能导致偏见固化。随着AI模型的普及,人类创作的内容作为原始训练数据的价值将不断提升——尽管人类数据可能包含低概率劣质内容,但生成式AI往往过度拟合流行数据而忽略边缘案例。在生成式AI泛滥的未来,人类创作的内容将成为稀缺资源,其价值将远超以往。参考资料:https://arxiv.org/abs/2306.07899v1https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图7

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图8

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图9

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图10

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图11

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图12

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图13

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图14

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图15

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图16

最新快讯

2025年12月15日

15:02
2025年,全球AI算力军备竞赛已进入白热化阶段,一家名不见经传的荷兰公司Nebius却以雷霆之势震惊四座,接连斩获微软194亿美元、Meta 30亿美元的超级订单。短短三个月内,这家“新锐”企业营收同比暴增355%,股价飙升210%,更豪言到2026年建成2.5GW算力集群——相当于部署100万至125万块英伟达GPU,年耗电量将逼近三峡大坝发电量的五分之...
15:02
12月15日重磅消息,蚂蚁集团旗下AI健康应用AQ完成品牌升级,正式更名为“蚂蚁阿福”,并同步发布全新App版本。此次升级聚焦“健康+”战略,将应用定位从传统AI工具转变为更贴近用户的AI健康朋友,致力于像真人朋友一样,全方位、个性化地帮助用户及家人管理健康,打造专业全能、私人专属、服务丰富的健康管理新体验。目前,“蚂蚁阿福”App月活跃用户已突破1500万...
14:32
自12月14日起,我国大部分地区迎来了气温逐步回升的暖意。未来一周,东北、长江中下游等地的局部地区将感受到明显的暖意,气温较常年同期明显偏高。尽管期间会有弱冷空气穿插,但整体回暖趋势难以被改变。预计从19日后,一股较强冷空气将自北向南影响我国,导致气温出现明显下降。东北、江南等地区将面临大幅降温,气温将由之前的偏高转为正常甚至偏低水平。此次气温变化过程提醒我...
14:32
2025年12月15日,国内领先的基层医疗健康服务运营商信中行正式宣布成功斩获1000万元人民币天使轮融资。本轮融资不仅为信中行注入了强劲发展动力,更彰显了资本市场对其创新模式的深度认可。作为社区医疗领域的先行者,信中行将这笔关键资金将重点投向三大核心领域:一是加速构建覆盖广泛的社区医疗连锁网络,二是深入推进"3公里基础医疗服务网络"战略布局,三是全面升级标...
14:32
2025年12月15日,国内领先的机器人核心部件供应商因克斯正式宣布成功完成总额近2亿元人民币的新一轮战略融资。此次融资由华控基金与深创投集团联合领投,普华资本积极跟投,同时老股东绿洲资本和锦秋资本也持续加码投资,明论资本则担任本次交易的独家财务顾问。 作为专注于高端机器人核心部件研发的企业,因克斯在一体化机器人关节、电机驱动系统及精密减速器技术领域展现出强...
14:32
2025年12月15日,银邦股份通过官方互动平台正式宣布,其位于安徽淮北的现代化工厂项目已成功进入试生产阶段这一重要里程碑。该工厂项目由银邦股份全额投资兴建,专注于研发和生产新能源汽车用再生低碳铝热传输材料,是公司布局新能源产业链的关键布局之一。项目达产后预计将新增年产35万吨的强大生产能力,不仅大幅提升公司在新能源汽车轻量化材料领域的市场供应能力,更将有效...
14:32
2025年12月15日,长安汽车股份有限公司(股票代码:SZ000625)正式发布公告,宣布将加大对深蓝汽车的资本支持力度,计划以无形资产及现金形式进行增资,总额不超过31.22亿元人民币。此举旨在全面助力深蓝汽车加速发展,巩固其在新能源汽车市场的领先地位。据悉,深蓝汽车将同步通过公开挂牌与非公开协议两种方式,筹集总额约61.22亿元人民币的资金,重点投向新...
14:32
2025年12月15日起,麦当劳中国正式实施新一轮价格调整,部分餐品价格将上调0.5至1元人民币。此次调价范围广泛,涵盖了多款热门汉堡、特色小食以及多种套餐组合,主要影响堂食及外带消费渠道。值得注意的是,位于深圳、广州等一线城市的门店已率先完成价格更新,消费者可观察到菜单上的价格变动。 尽管麦当劳方面强调“1+1随心配”套餐的基础价格仍维持在13.9元起,但...
14:32
2025年12月15日,恒基金属正式收到北京证券交易所下发的IPO审核问询函,标志着其上市之路迎来关键考验。这一问询函的发布,不仅牵动着资本市场投资者的目光,更凸显了公司在股权结构与管理层稳定性方面面临的挑战。 据悉,恒基金属的实际控制人孙志恒、孙凌峰及萧卫苹于2023年10月签署《一致行动协议》,通过该协议明确了三者之间的一致行动安排。然而,近期曝出的重大...
14:32
2025年12月15日,江阴市赛英电子股份有限公司正式披露了其在北京证券交易所的IPO问询回复文件,并透露将择期递交上会申请。作为一家专注于功率半导体配套产品研发、生产与销售的高新技术企业,赛英电子的实际控制人陈国贤及其家族成员在公司发展中扮演着关键角色。此次IPO计划不仅彰显了公司的发展雄心,也为其未来的技术升级和市场拓展奠定了坚实基础。 为满足日益增长的...
14:32
2025年12月12日,中国领先的独立第三方换电服务商奥动新能源正式向香港交易所主板提交上市申请,标志着这家新能源领域的创新企业迈向资本市场的重要一步。作为国内换电模式的先行者,奥动新能源目前已构建起覆盖广泛的服务网络,运营着267座现代化换电站,为超过13万辆电动汽车提供高效便捷的能源补给服务。这一庞大的服务规模不仅彰显了奥动在换电领域的市场领导地位,更体...
14:32
2025年12月14日,北京五一视界数字孪生科技股份有限公司成功通过香港交易所上市聆讯,正式宣布以18C章上市计划。这家成立于2015年的创新企业,始终专注于数字孪生技术的研发与应用,目前已实现3D图形、仿真模拟与人工智能技术的深度融合,在行业内树立了技术标杆。 根据招股书披露的数据,五一视界在2024年实现了2.87亿元的营业收入,这一成绩使其稳居行业营收...