人类创作的文本始终比AI生成的文本更具价值。随着GPT-4、Stable Diffusion和Midjourney等生成式AI技术的迅速崛起,越来越多的人开始将其融入工作和生活。甚至有研究者尝试利用AI生成的数据来训练新的AI模型,试图打造所谓的「数据永动机」。然而,牛津大学、剑桥大学和帝国理工学院等顶尖机构的研究人员发现,如果在训练过程中过度依赖AI内容,会导致模型出现灾难性的「模型崩溃」,造成不可逆转的缺陷。这意味着,随着时间的推移,AI模型会逐渐遗忘真实的基础数据。即使在理想的长期学习环境下,这一问题也无法避免。因此,研究人员强烈呼吁,为了维持大规模数据训练带来的模型优势,必须重视人类原创文本的价值。相关研究论文可查阅:https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图

然而,现实情况更为复杂——你以为的「人类数据」,可能并非完全由人类创作。洛桑联邦理工学院(EPFL)的最新研究表明,高达33%-46%的人类数据实际上是由AI生成的。这意味着,当前训练AI模型所依赖的数据中,相当一部分是「垃圾数据」。尽管GPT-4等大语言模型已展现出惊人的文本生成能力,能够模仿人类写作风格,但它们的训练数据主要源自过去几十年互联网上的公开交流。如果未来模型继续依赖网络爬取,不可避免地会纳入自身生成的文本,从而加剧模型崩溃的风险。研究人员预测,随着GPT系列的迭代发展,这一问题将日益严重。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图1

在这种背景下,为AI模型准备高质量的人类原创数据变得至关重要。亚马逊的Mechanical Turk(MTurk)自2005年上线以来,已成为许多人的兼职选择。科研人员通过MTurk发布各种需要人类智能的任务,如图像标注、问卷调查等,这些任务往往难以通过计算机算法完成。MTurk也因此成为预算有限的科研人员和企业的「优选方案」,就连贝佐斯曾戏称其为「人工人工智能」。除了MTurk,Prolific等众包平台也已成为研究者和行业实践者的核心数据来源,提供创建、标注和总结各类数据的方法。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图2

但EPFL的研究揭示了一个令人担忧的事实:在这些关键的人类数据来源中,近半数内容是由标注员使用AI工具生成的。相关论文链接:https://arxiv.org/abs/2306.07899v1

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图3

「模型崩溃」是指当AI模型被大量AI生成数据「喂养」后,会出现的跨代退化现象。具体来说,新一代模型的训练数据会被前代模型的生成内容污染,导致对现实世界的认知产生偏差。更严重的是,这种崩溃可能引发基于性别、种族等敏感属性的歧视问题。例如,如果AI逐渐只生成某个种族的描述而忽略其他种族,模型最终会「忘记」这些种族的存在。值得注意的是,模型崩溃与灾难性遗忘(catastrophic forgetting)不同——模型不会完全遗忘已学数据,而是会扭曲错误认知并将其误认为现实,并不断强化这种错误信念。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图4

以一个包含100张猫图片的数据集为例:其中10张是蓝毛猫,90张是黄毛猫。模型可能得出「黄毛猫更普遍」的结论,并在生成新数据时将蓝毛猫「想象」成偏黄的版本。随着训练的持续,蓝毛猫的特征会逐渐被侵蚀,从蓝色演变为绿色甚至黄色。模型崩溃可分为两种类型:早期模型崩溃(模型丢失分布尾部信息)和后期模型崩溃(模型与原始分布模式混淆,最终收敛到与原始分布差异巨大的状态)。造成模型崩溃的两大主因是统计近似误差和函数近似误差。统计近似误差源于重采样过程中信息的丢失,而函数近似误差则与模型表达能力不足或超出原始分布支持范围有关。研究人员Ilia Shumailov指出:「生成数据中的错误会不断累积,最终导致模型对现实产生更严重的误解。模型崩溃的发生速度惊人,模型会迅速遗忘最初学习的真实数据。」

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图5

幸运的是,研究人员提出了两种避免模型崩溃的方法。第一种是保留高质量的人类原创数据集副本,避免与AI生成数据混合,并定期使用这些原始数据重新训练或从头训练模型。第二种方法是持续引入全新的、干净的人类原创数据,确保少数派群体在后续数据中得到公正表征。为了实现这一目标,开发者需要建立大规模的标记机制来区分AI生成内容与人类创作内容。目前已有GPTZero、OpenAI Detector等工具,但它们在特殊文本中效果有限。例如,在EPFL研究中,ChatGPT生成的10个总结中,GPTZero仅检测出6个是AI合成的。研究人员通过微调模型开发了定制的「合成-真实分类器」,在真实MTurk回应中实现了高达99%的准确率。实验表明,AI生成的文本通常与原始内容差异巨大,表明其正在生成新文本而非简单复制粘贴。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图6

「人类数据」的价值在AI时代愈发凸显。随着LLM塑造人类「信息生态系统」,依赖合成数据训练的模型性能会显著下降,甚至出现「痴呆症」现象。虽然众包工作者使用ChatGPT等工具能提高效率,但拯救LLM免于崩溃的关键仍在于真实的人类原创数据。人类数据在科学研究中始终不可或缺,过度依赖合成数据可能导致偏见固化。随着AI模型的普及,人类创作的内容作为原始训练数据的价值将不断提升——尽管人类数据可能包含低概率劣质内容,但生成式AI往往过度拟合流行数据而忽略边缘案例。在生成式AI泛滥的未来,人类创作的内容将成为稀缺资源,其价值将远超以往。参考资料:https://arxiv.org/abs/2306.07899v1https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图7

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图8

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图9

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图10

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图11

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图12

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图13

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图14

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图15

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图16

最新快讯

2025年11月03日

21:13
2025年11月3日,路维光电传来振奋人心的消息,正式宣布其180nm制程节点的半导体掩膜版已成功实现量产。这一里程碑不仅彰显了公司在先进半导体制造领域的强大实力,更标志着中国半导体产业链自主可控能力的显著提升。作为行业技术先锋,路维光电在150nm/130nm产品线方面同样表现卓越,这些产品已顺利通过客户严格验证,并已进入小批量生产阶段,为全球半导体市场提...
21:13
2025年11月3日,工大高科(股票代码688367)正式发布公告,宣布拟出售一处长期闲置的房产资产。根据公告内容,该房产交易价格为660万元人民币(含税),相较于其账面价值实现了高达471.85万元的溢价。这一交易预计将为公司带来超过100万元的净利润,更是超过了公司最近一个会计年度经审计净利润的10%。 此次资产出售不仅能为工大高科带来显著的财务收益...
21:13
近期,Windows 11的24H2与25H2版本用户曝出任务管理器关闭后进程残留的异常问题,导致系统资源被不断占用的恶性循环。这一技术漏洞引发广泛关注,但微软尚未发布正式补丁解决该问题。官方给出的临时处理建议是通过命令行执行"taskkill.exe /im taskmgr.exe /f"命令强制关闭任务管理器进程,但这一措施治标不治本。 据科技媒体Neo...
21:13
2025年10月22日,工业和信息化部发布最新通报,公布20款存在侵害用户权益问题的智能终端产品,其中,冠捷科技旗下子公司冠捷视听推出的“家庭网络摄像机”赫然在列。面对此次监管行动,冠捷科技迅速作出回应,表示已立即启动应急措施,主动将该产品从所有销售平台全面下架,并已成立专项整改小组,严格按照相关部门要求推进整改工作。公司方面强调,将以此为契机,全面排查并优...
21:13
2025年11月3日,字节跳动正式宣布启动内部创新激励计划——“豆包股”,旨在通过长期股权激励策略,吸引并留住顶尖AI人才。该计划将重点面向大模型业务的核心团队,通过股权纽带增强人才粘性,为大模型领域的持续突破提供坚实的人才保障。作为公司在大模型领域战略投入的重要举措,“豆包股”计划不仅彰显了字节跳动对AI技术发展的坚定决心,更体现了其构建高端人才生态的长远...
21:13
奇瑞iCAR品牌旗下全新中型增程SUV V27即将于明年3月3日震撼开启预售,并于3月20日正式上市。作为iCAR品牌迄今为止尺寸最大的车型,V27不仅延续了V23标志性的硬派设计风格,更在车身尺寸上实现了突破,长宽高分别为4909/1976/1855(或1894)mm,轴距达到2910mm,整体外观更显霸气,气场十足。 新车特别提供了两种极具特色的“小书包...
21:13
2025年11月3日,中国黄金行业迎来重要合作里程碑。招金矿业全资附属公司香港招金矿业有限公司与全球领先的区块链及人工智能技术提供商SigmaLayer Company Limited正式签署战略合作备忘录,共同开启黄金产业数字化转型新篇章。此次合作将聚焦三大核心领域:一是利用区块链技术实现海外黄金资产的数字化与通证化,打造安全透明的数字黄金生态;二是基于人...
21:13
2025年11月3日,汽车之家重磅宣布正式上线汽车之家商城,标志着国内汽车电商领域迎来全新里程碑。作为国内领先的汽车资讯服务平台,汽车之家依托其强大的品牌影响力和海量用户资源,以O2O模式为核心,打造了一个覆盖汽车产业链全生态的综合性电商平台。该商城通过整合从研发设计到生产销售再到售后服务的完整链条,成功构建了"看车、选车、购车、用车、置换"五位一体的服务闭...
21:13
广汽埃安重磅推出首款增程车型AION i6,正式开启预售,以“国民增程大五座SUV”的全新定位震撼来袭。新车提供纯电与增程双版本选择,纯电版售价11.98万元,增程版定价12.68万元,为消费者带来更多元化的出行方案。 AION i6完美延续AION V系列的设计精髓,展现出优雅而动感的造型语言。车身尺寸达到4685/1854/1660mm,轴距更是长达27...
20:43
美国科学家团队在南极洲东部艾伦丘陵地区取得重大突破,成功发现了一层距今约600万年的古老冰层,这一发现刷新了人类对最古老冰层记录的认知。该研究成果已正式发表在权威学术期刊《美国国家科学院院刊》上,为全球气候变化研究提供了全新的视角和宝贵数据。 这些被时间封存的冰层中,保存着地球气候演变的微小气泡样本,如同自然界的"时间胶囊",为科学家们还原过去气候状态提供了...
20:43
岩石星即将震撼发布全新MF 9mm f/2.8半画幅超广角镜头,这款备受期待的镜头将于11月6日正式登陆市场。作为岩石星在超广角领域的又一力作,该镜头不仅拥有出色的光学性能,更在设计和便携性上达到了新的高度 镜头采用全金属镜身设计,复古风格外观彰显专业质感,重量仅为300克,在保证坚固耐用的同时兼顾了极致的便携性。其等效全画幅视角达到惊人的13.5mm,视场...
20:43
苹果公司近日正式宣布,将在英国地区启动年度圣诞创意活动,特别邀请当地iPad用户参与设计独特的圣诞树图案。这项活动旨在通过科技与艺术的融合,为节日增添更多创意与惊喜。据悉,所有获奖作品将有机会被投影至伦敦巴特西发电站总部塔楼,这一举措不仅延续了苹果公司多年的年度传统,更将科技艺术展示推向全新高度。 全球市场高级副总裁格雷格·乔斯维亚克在活动中表示,新款iPa...