人类创作的文本始终比AI生成的文本更具价值。随着GPT-4、Stable Diffusion和Midjourney等生成式AI技术的迅速崛起,越来越多的人开始将其融入工作和生活。甚至有研究者尝试利用AI生成的数据来训练新的AI模型,试图打造所谓的「数据永动机」。然而,牛津大学、剑桥大学和帝国理工学院等顶尖机构的研究人员发现,如果在训练过程中过度依赖AI内容,会导致模型出现灾难性的「模型崩溃」,造成不可逆转的缺陷。这意味着,随着时间的推移,AI模型会逐渐遗忘真实的基础数据。即使在理想的长期学习环境下,这一问题也无法避免。因此,研究人员强烈呼吁,为了维持大规模数据训练带来的模型优势,必须重视人类原创文本的价值。相关研究论文可查阅:https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图

然而,现实情况更为复杂——你以为的「人类数据」,可能并非完全由人类创作。洛桑联邦理工学院(EPFL)的最新研究表明,高达33%-46%的人类数据实际上是由AI生成的。这意味着,当前训练AI模型所依赖的数据中,相当一部分是「垃圾数据」。尽管GPT-4等大语言模型已展现出惊人的文本生成能力,能够模仿人类写作风格,但它们的训练数据主要源自过去几十年互联网上的公开交流。如果未来模型继续依赖网络爬取,不可避免地会纳入自身生成的文本,从而加剧模型崩溃的风险。研究人员预测,随着GPT系列的迭代发展,这一问题将日益严重。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图1

在这种背景下,为AI模型准备高质量的人类原创数据变得至关重要。亚马逊的Mechanical Turk(MTurk)自2005年上线以来,已成为许多人的兼职选择。科研人员通过MTurk发布各种需要人类智能的任务,如图像标注、问卷调查等,这些任务往往难以通过计算机算法完成。MTurk也因此成为预算有限的科研人员和企业的「优选方案」,就连贝佐斯曾戏称其为「人工人工智能」。除了MTurk,Prolific等众包平台也已成为研究者和行业实践者的核心数据来源,提供创建、标注和总结各类数据的方法。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图2

但EPFL的研究揭示了一个令人担忧的事实:在这些关键的人类数据来源中,近半数内容是由标注员使用AI工具生成的。相关论文链接:https://arxiv.org/abs/2306.07899v1

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图3

「模型崩溃」是指当AI模型被大量AI生成数据「喂养」后,会出现的跨代退化现象。具体来说,新一代模型的训练数据会被前代模型的生成内容污染,导致对现实世界的认知产生偏差。更严重的是,这种崩溃可能引发基于性别、种族等敏感属性的歧视问题。例如,如果AI逐渐只生成某个种族的描述而忽略其他种族,模型最终会「忘记」这些种族的存在。值得注意的是,模型崩溃与灾难性遗忘(catastrophic forgetting)不同——模型不会完全遗忘已学数据,而是会扭曲错误认知并将其误认为现实,并不断强化这种错误信念。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图4

以一个包含100张猫图片的数据集为例:其中10张是蓝毛猫,90张是黄毛猫。模型可能得出「黄毛猫更普遍」的结论,并在生成新数据时将蓝毛猫「想象」成偏黄的版本。随着训练的持续,蓝毛猫的特征会逐渐被侵蚀,从蓝色演变为绿色甚至黄色。模型崩溃可分为两种类型:早期模型崩溃(模型丢失分布尾部信息)和后期模型崩溃(模型与原始分布模式混淆,最终收敛到与原始分布差异巨大的状态)。造成模型崩溃的两大主因是统计近似误差和函数近似误差。统计近似误差源于重采样过程中信息的丢失,而函数近似误差则与模型表达能力不足或超出原始分布支持范围有关。研究人员Ilia Shumailov指出:「生成数据中的错误会不断累积,最终导致模型对现实产生更严重的误解。模型崩溃的发生速度惊人,模型会迅速遗忘最初学习的真实数据。」

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图5

幸运的是,研究人员提出了两种避免模型崩溃的方法。第一种是保留高质量的人类原创数据集副本,避免与AI生成数据混合,并定期使用这些原始数据重新训练或从头训练模型。第二种方法是持续引入全新的、干净的人类原创数据,确保少数派群体在后续数据中得到公正表征。为了实现这一目标,开发者需要建立大规模的标记机制来区分AI生成内容与人类创作内容。目前已有GPTZero、OpenAI Detector等工具,但它们在特殊文本中效果有限。例如,在EPFL研究中,ChatGPT生成的10个总结中,GPTZero仅检测出6个是AI合成的。研究人员通过微调模型开发了定制的「合成-真实分类器」,在真实MTurk回应中实现了高达99%的准确率。实验表明,AI生成的文本通常与原始内容差异巨大,表明其正在生成新文本而非简单复制粘贴。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图6

「人类数据」的价值在AI时代愈发凸显。随着LLM塑造人类「信息生态系统」,依赖合成数据训练的模型性能会显著下降,甚至出现「痴呆症」现象。虽然众包工作者使用ChatGPT等工具能提高效率,但拯救LLM免于崩溃的关键仍在于真实的人类原创数据。人类数据在科学研究中始终不可或缺,过度依赖合成数据可能导致偏见固化。随着AI模型的普及,人类创作的内容作为原始训练数据的价值将不断提升——尽管人类数据可能包含低概率劣质内容,但生成式AI往往过度拟合流行数据而忽略边缘案例。在生成式AI泛滥的未来,人类创作的内容将成为稀缺资源,其价值将远超以往。参考资料:https://arxiv.org/abs/2306.07899v1https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图7

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图8

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图9

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图10

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图11

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图12

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图13

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图14

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图15

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图16

最新快讯

2025年11月03日

13:23
2025年11月3日,绿景中国地产在香港交易所发布重要公告,宣布高等法院已正式批准将针对公司的清盘聆讯时间表大幅推迟至2026年2月16日。这一关键性延期决策,为绿景中国地产提供了宝贵的缓冲期,使其能够更有序地处理棘手的债务问题。据悉,此次清盘呈请是由公司债权人方面主动提出的,核心诉求在于绿景中国地产未能按照既定计划履行债务偿还义务。面对严峻的财务挑战,绿景...
13:23
2025年11月3日,智元机器人传来振奋人心的消息,其自主研发的真机强化学习技术已成功在龙旗科技的精密制造产线上完成验证与应用。这项突破性技术使机器人在真实工业环境中得以自主学习并持续优化作业流程,有效突破了传统精密制造产线在刚性方面的诸多瓶颈。此次深度合作不仅标志着强化学习技术从实验室研究阶段正式迈向工业实践领域,更在显著提升柔性制造效率与适应性的同时,为...
13:23
近日,上海市计量测试技术研究院有限公司传来喜讯,成功研制出两款具有里程碑意义的灭活基孔肯雅病毒RNA标准物质。这两款标准物质已正式获批为国家二级标准物质,分别对应ECSA-IOL型和亚洲型两种关键亚型。与市面上传统标准物质不同,该成果创新性地采用灭活病毒形式,既保留了完整病毒的结构特征,又完整保留了全基因组核酸序列,从而能够高度模拟真实样本在核酸提取与检测过...
13:23
2025年11月3日11时47分,我国在海南文昌航天发射场成功执行遥感四十六号卫星发射任务,长征七号改运载火箭精准将卫星送入预定轨道,任务取得圆满成功。这是长征系列运载火箭的第605次飞行,再次展现了中国航天技术的强大实力和可靠性能。 此次发射的遥感四十六号卫星,将承担起重要的防灾减灾、国土资源勘察以及水利气象监测等关键任务,为相关行业提供精准、高效的数据支...
13:23
2024年,湖北民营经济迎来高质量发展新篇章。武汉大学经济与管理学院副院长罗知教授近日指出,全省民营经济增加值已突破3.94万亿元大关,占GDP比重高达65.7%,彰显出其强大的经济支撑力。作为湖北经济版图中的中坚力量,民营经济不仅吸纳了超过80%的就业人口,更在创新驱动发展方面表现突出,国家级专精特新“小巨人”企业中,民营经济占比超过90%,成为推动产业升...
13:23
联想在京东双十一电脑大促中再创辉煌,截至11月2日零时,已强势斩获23项冠军头衔,彰显其全品类、全渠道的卓越市场掌控力。这一亮眼成绩不仅巩固了联想在智能消费领域的领先地位,更凸显了其产品矩阵的强大竞争力。特别是在平板电脑领域,联想更是表现抢眼,包揽安卓&鸿蒙平板销量与销售额双料榜首,充分证明了其技术创新与用户需求的精准把握。在全品类自营与POP渠道及...
12:54
菲仕电机今日正式向香港交易所递交招股书,这一重要举措标志着这家专注于伺服系统创新的技术研发商正式迈入资本化发展的新阶段。作为业内领先的电机技术企业,菲仕电机凭借其深厚的技术积累和持续的创新精神,在伺服电机领域展现出强大的竞争力。其产品矩阵丰富多元,涵盖了五大伺服电机系列,包括性能均衡的U标准系列、高度集成的TW集成系列、高效直驱的TK直驱系列、超高密度的T系...
12:54
豪特节能近日正式向香港交易所提交了上市申请材料,这一举动迅速成为市场焦点。作为绿色能源与节能环保领域的领军企业,公司致力于提供全方位的解决方案,其核心业务聚焦于节能空调系统、光伏空调系统以及智能开关面板等产品的研发与应用。这些创新产品不仅广泛应用于酒店、家居等多元化场景,更体现了公司对节能减排技术的深刻理解和持续投入。 在技术研发方面,豪特节能始终保持着高度...
12:53
五菱汽车重磅官宣,旗下全新MPV车型星光730将于今年11月正式登陆市场。这款备受期待的家用MPV车型已于10月15日全面开启预售,首批意向用户可提前锁定心仪座驾。新车提供燃油版与新能源版两种动力选择,预售价格区间设定在7.68万元至11.28万元之间。值得一提的是,限时置换补贴活动已同步启动,参与用户可享受额外优惠,实际成交价格将下探至7.38万元至10....
12:21
11月1日,浙江金华迎来了一场别开生面的趣味活动,而全场目光的焦点,则是一只独具特色的小猪。这只小猪凭借其一系列令人惊叹的才艺表演,尤其是用鼻子灵活转圈的绝技,成功俘获了在场小朋友们的喜爱,赢得了他们此起彼伏的热烈喝彩。活动现场洋溢着欢快的气氛,小猪与孩子们的互动场景温馨而有趣,每一次表演都引得孩子们笑声连连,为这个平凡的日子注入了无限的欢乐与活力。
12:21
11月1日,山西某煤矿发生了一个令人动容的故事。一名矿工正在井下辛勤作业,突然接到矿上电话,告知妻子即将临盆。他二话不说,顾不上脱下沾满煤灰的工装,以最快速度赶往医院。到达时,他浑身漆黑,却坚定地站在手术室外,眼神中流露着无尽的牵挂与期盼,安静地等待着新生命的降临。 事后回忆起当时的情景,矿工坦言自己当时正全神贯注地工作,接到消息后内心既焦急又兴奋。尽管身心...
12:21
声明:本文源自微信公众号新播场,作者场妺,经站长之家授权转载发布。短剧“霸总”纷纷跨界带货,副业收入亮眼。近期,众多短剧顶流纷纷涌入直播间开启带货模式:“短剧一哥”柯淳现身十月稻田直播间,单场销售额即突破百万;演员何健麒也接连亮相Babycare和羽西直播间,人气与销量齐飞……显然,短剧演员的商业价值正获得品牌方的深度认可。经过多年发展,短剧早已不再局限于单...