人类创作的文本始终比AI生成的文本更具价值。随着GPT-4、Stable Diffusion和Midjourney等生成式AI技术的迅速崛起,越来越多的人开始将其融入工作和生活。甚至有研究者尝试利用AI生成的数据来训练新的AI模型,试图打造所谓的「数据永动机」。然而,牛津大学、剑桥大学和帝国理工学院等顶尖机构的研究人员发现,如果在训练过程中过度依赖AI内容,会导致模型出现灾难性的「模型崩溃」,造成不可逆转的缺陷。这意味着,随着时间的推移,AI模型会逐渐遗忘真实的基础数据。即使在理想的长期学习环境下,这一问题也无法避免。因此,研究人员强烈呼吁,为了维持大规模数据训练带来的模型优势,必须重视人类原创文本的价值。相关研究论文可查阅:https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图

然而,现实情况更为复杂——你以为的「人类数据」,可能并非完全由人类创作。洛桑联邦理工学院(EPFL)的最新研究表明,高达33%-46%的人类数据实际上是由AI生成的。这意味着,当前训练AI模型所依赖的数据中,相当一部分是「垃圾数据」。尽管GPT-4等大语言模型已展现出惊人的文本生成能力,能够模仿人类写作风格,但它们的训练数据主要源自过去几十年互联网上的公开交流。如果未来模型继续依赖网络爬取,不可避免地会纳入自身生成的文本,从而加剧模型崩溃的风险。研究人员预测,随着GPT系列的迭代发展,这一问题将日益严重。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图1

在这种背景下,为AI模型准备高质量的人类原创数据变得至关重要。亚马逊的Mechanical Turk(MTurk)自2005年上线以来,已成为许多人的兼职选择。科研人员通过MTurk发布各种需要人类智能的任务,如图像标注、问卷调查等,这些任务往往难以通过计算机算法完成。MTurk也因此成为预算有限的科研人员和企业的「优选方案」,就连贝佐斯曾戏称其为「人工人工智能」。除了MTurk,Prolific等众包平台也已成为研究者和行业实践者的核心数据来源,提供创建、标注和总结各类数据的方法。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图2

但EPFL的研究揭示了一个令人担忧的事实:在这些关键的人类数据来源中,近半数内容是由标注员使用AI工具生成的。相关论文链接:https://arxiv.org/abs/2306.07899v1

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图3

「模型崩溃」是指当AI模型被大量AI生成数据「喂养」后,会出现的跨代退化现象。具体来说,新一代模型的训练数据会被前代模型的生成内容污染,导致对现实世界的认知产生偏差。更严重的是,这种崩溃可能引发基于性别、种族等敏感属性的歧视问题。例如,如果AI逐渐只生成某个种族的描述而忽略其他种族,模型最终会「忘记」这些种族的存在。值得注意的是,模型崩溃与灾难性遗忘(catastrophic forgetting)不同——模型不会完全遗忘已学数据,而是会扭曲错误认知并将其误认为现实,并不断强化这种错误信念。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图4

以一个包含100张猫图片的数据集为例:其中10张是蓝毛猫,90张是黄毛猫。模型可能得出「黄毛猫更普遍」的结论,并在生成新数据时将蓝毛猫「想象」成偏黄的版本。随着训练的持续,蓝毛猫的特征会逐渐被侵蚀,从蓝色演变为绿色甚至黄色。模型崩溃可分为两种类型:早期模型崩溃(模型丢失分布尾部信息)和后期模型崩溃(模型与原始分布模式混淆,最终收敛到与原始分布差异巨大的状态)。造成模型崩溃的两大主因是统计近似误差和函数近似误差。统计近似误差源于重采样过程中信息的丢失,而函数近似误差则与模型表达能力不足或超出原始分布支持范围有关。研究人员Ilia Shumailov指出:「生成数据中的错误会不断累积,最终导致模型对现实产生更严重的误解。模型崩溃的发生速度惊人,模型会迅速遗忘最初学习的真实数据。」

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图5

幸运的是,研究人员提出了两种避免模型崩溃的方法。第一种是保留高质量的人类原创数据集副本,避免与AI生成数据混合,并定期使用这些原始数据重新训练或从头训练模型。第二种方法是持续引入全新的、干净的人类原创数据,确保少数派群体在后续数据中得到公正表征。为了实现这一目标,开发者需要建立大规模的标记机制来区分AI生成内容与人类创作内容。目前已有GPTZero、OpenAI Detector等工具,但它们在特殊文本中效果有限。例如,在EPFL研究中,ChatGPT生成的10个总结中,GPTZero仅检测出6个是AI合成的。研究人员通过微调模型开发了定制的「合成-真实分类器」,在真实MTurk回应中实现了高达99%的准确率。实验表明,AI生成的文本通常与原始内容差异巨大,表明其正在生成新文本而非简单复制粘贴。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图6

「人类数据」的价值在AI时代愈发凸显。随着LLM塑造人类「信息生态系统」,依赖合成数据训练的模型性能会显著下降,甚至出现「痴呆症」现象。虽然众包工作者使用ChatGPT等工具能提高效率,但拯救LLM免于崩溃的关键仍在于真实的人类原创数据。人类数据在科学研究中始终不可或缺,过度依赖合成数据可能导致偏见固化。随着AI模型的普及,人类创作的内容作为原始训练数据的价值将不断提升——尽管人类数据可能包含低概率劣质内容,但生成式AI往往过度拟合流行数据而忽略边缘案例。在生成式AI泛滥的未来,人类创作的内容将成为稀缺资源,其价值将远超以往。参考资料:https://arxiv.org/abs/2306.07899v1https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图7

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图8

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图9

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图10

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图11

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图12

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图13

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图14

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图15

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图16

最新快讯

2025年12月18日

16:30
12月16日,越南银行学院(BAV)与享誉国际的Vantage基金会于河内正式签署谅解备忘录,双方将携手建立战略合作伙伴关系,共同推动金融教育领域的创新发展。此次合作标志着越南金融教育领域迈入新阶段,双方将聚焦未来教育项目,计划于2026年正式启动一系列联合项目,为越南乃至亚洲地区的金融人才培养注入新活力。 在合作框架下,双方将重点开展三大领域的深度合作。首...
16:30
2025年12月18日,家居行业领军企业顶固家居正式宣布完成对航天材料领域的创新布局,成功参股航天材料技术公司航聚科技,并持有其5.8018%的股权。这一战略性投资不仅彰显了顶固家居在材料科学领域的远见卓识,更标志着家居产业与尖端航天科技的深度融合迈出了关键一步。 航聚科技作为航天飞行器热防护领域的核心企业,专注于高温绝热材料、防热涂层、舱段隔热系统等关键技...
16:30
2025年12月18日,微软正式发布了备受关注的Windows 11系统12月累积更新KB5072033,标志着系统版本号成功跃升至26100.7462(适用于24H2版本)和26200.7462(适用于25H2版本)。此次更新旨在优化系统稳定性与用户体验,通过修复多项已知问题为用户带来更流畅的操作环境。然而,尽管微软在此次更新中解决了部分技术漏洞,但深色模...
16:30
2025年12月18日,Sage在新加坡隆重宣布正式推出Sage Intacct解决方案这一创新云平台。该平台专为追求卓越的财务团队量身打造,通过深度集成自动化流程、智能数据分析以及实时可视化功能,能够显著提升工作效率,将传统的财务结算周期大幅缩短高达70%。Sage Intacct致力于简化复杂的财务流程,同时为企业提供强大的扩展支持,助力业务持续增长。 ...
16:30
迅策科技近日成功斩获约3957万美元的基石投资,彰显了资本市场对其发展潜力的高度认可。本次融资活动吸引了中视金桥、Alphahill基金、富策控股(龚虹嘉先生全资)、Infini、蔷薇香港、New Golden Future Limited、Cithara基金、FMF、Joy Mobile等多家知名机构的联合参与,阵容强大,显示出行业对迅策科技未来发展的坚定...
16:30
2025年12月18日,国内领先的卫星通信企业中科星辰正式宣布成功完成A+轮融资。本次融资吸引了多家知名投资机构的积极参与,包括彬复资本、四川发展产业引导基金、宽桥恒松、西博创投以及新微资本等。作为卫星通信领域的创新先锋,中科星辰长期致力于卫星移动通信终端的销售、卫星技术综合应用系统集成以及移动通信设备的研发。此次融资的顺利完成,不仅彰显了市场对中科星辰技术...
16:30
2025年12月18日,中国黄金行业迎来重大战略布局,招金集团正式宣布成功完成对山东金都100%股权的收购。这一举措标志着山东省招远市黄金产业的千亿级整合计划已圆满收官,为区域经济高质量发展注入强劲动力。 山东金都作为一家专注于黄金矿业、电子材料及资产管理的综合性产业投资平台,其战略价值在此次收购中得以充分凸显。招远市素有“中国金都”的美誉,此次招金集团...
16:30
2025年12月18日,北京时间,全球知名的半导体巨头英伟达与汽车零部件供应商法雷奥就前员工Mohammad Moniruzzaman商业间谍案达成和解协议。这一事件自去年曝光以来,引发了业界的广泛关注。Moniruzzaman于2021年加入英伟达,却在一次与梅赛德斯-奔驰合作的智能驾驶项目视频会议中,被法雷奥方面发现展示涉及公司核心源代码的内容。 法雷奥...
16:30
2026年,位于沙迦与迪拜之间的一处秘境——Mleiha国家公园,将向全球游客揭开全新沉浸式沙漠体验的神秘面纱。仅需一小时车程,您便能抵达这片融合了自然奇观与人文历史的独特天地。在这里,奢华与探险将完美交织,为您带来前所未有的沙漠度假体验。 全新沉浸式沙漠体验将包含三大核心项目:豪华露营、天文观测和户外探险。在远离城市光污染的纯净夜空下,游客可以参与专业天文...
16:30
2025年12月18日,中国领先的特种材料企业弘德光电正式宣布成功完成总额数千万元人民币的A轮融资,投资方为知名风险投资机构博灏创投。此次融资不仅为弘德光电注入强劲发展动力,更彰显了资本市场对其技术创新实力和市场前景的高度认可。 作为国内光学材料与功能性材料领域的先行者,弘德光电始终坚持以自主研发为核心驱动力。通过多年持续的技术攻关与产学研深度合作,公司在胶...
16:30
2025年12月18日,备受瞩目的医疗机器人企业唯精医疗正式宣布成功完成A+轮融资,此次投资由实力雄厚的国泰君安创新投资领投。作为国内微创手术智能化领域的领军者,唯精医疗始终专注于手术机器人核心技术的研发与创新,并积极推动智能化手术平台的临床应用与市场推广。公司凭借在精密机械控制、人工智能算法优化以及多模态信息融合等领域的深厚积累,已逐步构建起完善的技术壁垒...
16:30
2025年12月18日,长缆科技在官方互动平台正式宣布,公司已成功将特种电缆、箱柜设备、连接器模块及机电类产品全面应用于商业航天领域。这一重要里程碑不仅标志着长缆科技正式进军航天行业,更意味着企业成功拓展了高端应用场景,开启了全新的市场增长机遇。通过持续的技术研发创新与行业深度对接,长缆科技实现了核心产品在航天领域的完美应用落地,显著提升了市场竞争力。此次突...