人类创作的文本始终比AI生成的文本更具价值。随着GPT-4、Stable Diffusion和Midjourney等生成式AI技术的迅速崛起,越来越多的人开始将其融入工作和生活。甚至有研究者尝试利用AI生成的数据来训练新的AI模型,试图打造所谓的「数据永动机」。然而,牛津大学、剑桥大学和帝国理工学院等顶尖机构的研究人员发现,如果在训练过程中过度依赖AI内容,会导致模型出现灾难性的「模型崩溃」,造成不可逆转的缺陷。这意味着,随着时间的推移,AI模型会逐渐遗忘真实的基础数据。即使在理想的长期学习环境下,这一问题也无法避免。因此,研究人员强烈呼吁,为了维持大规模数据训练带来的模型优势,必须重视人类原创文本的价值。相关研究论文可查阅:https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图

然而,现实情况更为复杂——你以为的「人类数据」,可能并非完全由人类创作。洛桑联邦理工学院(EPFL)的最新研究表明,高达33%-46%的人类数据实际上是由AI生成的。这意味着,当前训练AI模型所依赖的数据中,相当一部分是「垃圾数据」。尽管GPT-4等大语言模型已展现出惊人的文本生成能力,能够模仿人类写作风格,但它们的训练数据主要源自过去几十年互联网上的公开交流。如果未来模型继续依赖网络爬取,不可避免地会纳入自身生成的文本,从而加剧模型崩溃的风险。研究人员预测,随着GPT系列的迭代发展,这一问题将日益严重。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图1

在这种背景下,为AI模型准备高质量的人类原创数据变得至关重要。亚马逊的Mechanical Turk(MTurk)自2005年上线以来,已成为许多人的兼职选择。科研人员通过MTurk发布各种需要人类智能的任务,如图像标注、问卷调查等,这些任务往往难以通过计算机算法完成。MTurk也因此成为预算有限的科研人员和企业的「优选方案」,就连贝佐斯曾戏称其为「人工人工智能」。除了MTurk,Prolific等众包平台也已成为研究者和行业实践者的核心数据来源,提供创建、标注和总结各类数据的方法。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图2

但EPFL的研究揭示了一个令人担忧的事实:在这些关键的人类数据来源中,近半数内容是由标注员使用AI工具生成的。相关论文链接:https://arxiv.org/abs/2306.07899v1

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图3

「模型崩溃」是指当AI模型被大量AI生成数据「喂养」后,会出现的跨代退化现象。具体来说,新一代模型的训练数据会被前代模型的生成内容污染,导致对现实世界的认知产生偏差。更严重的是,这种崩溃可能引发基于性别、种族等敏感属性的歧视问题。例如,如果AI逐渐只生成某个种族的描述而忽略其他种族,模型最终会「忘记」这些种族的存在。值得注意的是,模型崩溃与灾难性遗忘(catastrophic forgetting)不同——模型不会完全遗忘已学数据,而是会扭曲错误认知并将其误认为现实,并不断强化这种错误信念。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图4

以一个包含100张猫图片的数据集为例:其中10张是蓝毛猫,90张是黄毛猫。模型可能得出「黄毛猫更普遍」的结论,并在生成新数据时将蓝毛猫「想象」成偏黄的版本。随着训练的持续,蓝毛猫的特征会逐渐被侵蚀,从蓝色演变为绿色甚至黄色。模型崩溃可分为两种类型:早期模型崩溃(模型丢失分布尾部信息)和后期模型崩溃(模型与原始分布模式混淆,最终收敛到与原始分布差异巨大的状态)。造成模型崩溃的两大主因是统计近似误差和函数近似误差。统计近似误差源于重采样过程中信息的丢失,而函数近似误差则与模型表达能力不足或超出原始分布支持范围有关。研究人员Ilia Shumailov指出:「生成数据中的错误会不断累积,最终导致模型对现实产生更严重的误解。模型崩溃的发生速度惊人,模型会迅速遗忘最初学习的真实数据。」

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图5

幸运的是,研究人员提出了两种避免模型崩溃的方法。第一种是保留高质量的人类原创数据集副本,避免与AI生成数据混合,并定期使用这些原始数据重新训练或从头训练模型。第二种方法是持续引入全新的、干净的人类原创数据,确保少数派群体在后续数据中得到公正表征。为了实现这一目标,开发者需要建立大规模的标记机制来区分AI生成内容与人类创作内容。目前已有GPTZero、OpenAI Detector等工具,但它们在特殊文本中效果有限。例如,在EPFL研究中,ChatGPT生成的10个总结中,GPTZero仅检测出6个是AI合成的。研究人员通过微调模型开发了定制的「合成-真实分类器」,在真实MTurk回应中实现了高达99%的准确率。实验表明,AI生成的文本通常与原始内容差异巨大,表明其正在生成新文本而非简单复制粘贴。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图6

「人类数据」的价值在AI时代愈发凸显。随着LLM塑造人类「信息生态系统」,依赖合成数据训练的模型性能会显著下降,甚至出现「痴呆症」现象。虽然众包工作者使用ChatGPT等工具能提高效率,但拯救LLM免于崩溃的关键仍在于真实的人类原创数据。人类数据在科学研究中始终不可或缺,过度依赖合成数据可能导致偏见固化。随着AI模型的普及,人类创作的内容作为原始训练数据的价值将不断提升——尽管人类数据可能包含低概率劣质内容,但生成式AI往往过度拟合流行数据而忽略边缘案例。在生成式AI泛滥的未来,人类创作的内容将成为稀缺资源,其价值将远超以往。参考资料:https://arxiv.org/abs/2306.07899v1https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图7

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图8

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图9

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图10

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图11

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图12

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图13

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图14

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图15

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图16

最新快讯

2025年09月18日

16:22
ElevenLabs 隆重推出旗下最新一代音视频创作平台——Studio3.0,为内容创作者带来前所未有的便捷体验。这款创新平台致力于打造一站式音视频解决方案,无论是制作短视频、播客节目、有声读物还是在线课程,都能轻松驾驭。Studio3.0集成了包括AI语音合成、智能配乐推荐、音效生成、自动字幕添加、降噪处理以及视频剪辑在内的全方位功能,让专业级的音视频制...
16:22
近日,生物分子缩合物创新研发企业Dewpoint Therapeutics正式宣布成功完成总额高达数千万美元的D轮融资。作为专注于生物分子缩合物技术领域的领军企业,Dewpoint Therapeutics始终致力于通过其独特的创新平台,开发针对神经退行性疾病和癌症等重大难治性疾病的小分子药物。此次融资的圆满完成,不仅彰显了资本市场对该公司技术实力与发展前景...
16:22
近日,食品安全领域的创新先锋宝嘉优品成功斩获800万元天使轮融资,标志着其致力于科技赋能健康守护的宏伟蓝图迈入新阶段。作为行业内的积极探索者,宝嘉优品始终聚焦于利用前沿科技构筑食品安全防线,以创新解决方案为消费者构筑健康生活的坚实屏障。 其明星产品徕宝嘉活性氧杀菌消毒机凭借突破性的活性氧技术脱颖而出,能够高效分解果蔬表面的农药残留,将农残超标带来的健康隐患降...
16:22
卫材中国旗下重要子公司卫材(辽宁)制药有限公司近日宣布与全球领先的肠外营养和肠内营养解决方案提供商帝斯曼-芬美意旗下业务部门i-health达成战略合作协议。根据协议内容,双方将在中国大陆市场独家合作,共同引进并推广处方药口服乳杆菌LB散剂这一创新微生态制剂产品。此次合作不仅体现了两家企业在肠道健康领域的深度布局,更将显著提升国内微生态制剂市场的产品多样性,...
16:22
欧洲工商管理学院(INSEAD)近日隆重推出全新金融硕士(MIF)项目,专为应届毕业生及早期职业发展人士量身打造。这一创新项目采用独特的14至16个月学制,并依托其全球化的教育网络,实施跨国教学模式。学生将在欧洲校区完成课程的首阶段学习,随后转至亚洲校区继续深造,从而获得跨越东西方的多元文化体验与知识积累。 课程体系是该项目的一大亮点,深度融合了人工智能的前...
16:22
英国皇家建筑师学会(RIBA)近日隆重揭晓首届亚太奖63个入围项目,这些精心遴选的建筑作品集中展现了亚太地区在创新设计与实践领域的卓越成就与深远影响力。作为全球建筑界最具权威性的奖项之一,RIBA亚太奖旨在表彰那些突破传统、引领潮流的建筑杰作,为亚太地区的建筑发展树立新的标杆。 本次入围项目涵盖了住宅、商业、文化、教育等多个领域,充分体现了亚太地区建筑创作的...
16:22
金则利作为电磁不锈钢材料的研发制造领军企业,始终坚持以技术创新为核心驱动力,产品线全面覆盖高、中、低端市场,形成了包含十余个品种、百余种规格的丰富体系。其产品凭借卓越的稳定性和优异性能,已成功应用于制冷设备、气动系统、小家电制造、汽车零部件以及流体阀门控制等关键领域,为众多知名企业提供了可靠的材料解决方案。经过多年深耕,金则利在国内已构建起完善的客户网络,赢...
16:22
2025年9月18日,三维股份发布重要公告,其全资子公司广西三维成功中标两项铁路工程混凝土轨枕采购项目,总中标金额高达1.58亿元。这一喜讯标志着公司在铁路建设领域的市场竞争力再获认可,为未来的发展注入强劲动力。 此次中标项目涵盖了新建深圳至江门铁路以及龙岩至龙川铁路广东段(武平至梅州)的混凝土轨枕供应,项目由厦深铁路广东有限公司正式发出中标通知,包件编号为...
16:22
西门子医疗与史赛克正式宣布达成深度战略合作,双方将携手研发新一代智能机器人系统,专注于神经血管介入手术领域。该系统将突破传统手术方式的局限,能够精准应对脑卒中、脑动脉瘤等多种复杂神经血管疾病的治疗需求。通过整合西门子医疗的尖端影像技术与史赛克在手术机器人领域的丰富经验,这一创新系统将显著提升手术操作的精准度和稳定性,同时大幅缩短手术时间,优化患者预后。 ...
16:22
金赛药业近日宣布与全球过敏免疫治疗领域的领军企业ALK达成深度战略合作,双方将携手在中国市场共同开发并推广ALK的变应原特异性免疫治疗产品。此次合作堪称强强联合,金赛药业凭借其在本土医药市场的深厚积累和卓越运营能力,将与ALK在过敏免疫治疗领域的全球技术优势形成完美互补,共同为中国过敏患者带来更优质的治疗选择。 此次战略合作的核心目标,是通过整合双方资源优势...
16:22
迈威生物与Aditum Bio近日联合宣布正式成立合资企业Kalexo Bio,双方同时达成一项具有里程碑意义的全球独家授权协议,将共同致力于双靶点siRNA创新药物2MW7141的研发工作。这款创新药物聚焦于心血管疾病治疗领域,有望为该领域带来突破性治疗方案。此次合作不仅标志着迈威生物与Aditum Bio在RNA干扰疗法合作方面取得重大进展,更彰显了双方...
16:22
近日,专注于神经系统健康领域的医疗器械领军企业Helius Medical成功完成新一轮战略融资,多家知名投资机构积极参与其中,包括Avenir Growth Capital、Animoca Brands、Pantera Capital以及Summer Capital等。这一重要里程碑不仅彰显了市场对Helius Medical创新技术的认可,更为其未来发展...