人类创作的文本始终比AI生成的文本更具价值。随着GPT-4、Stable Diffusion和Midjourney等生成式AI技术的迅速崛起,越来越多的人开始将其融入工作和生活。甚至有研究者尝试利用AI生成的数据来训练新的AI模型,试图打造所谓的「数据永动机」。然而,牛津大学、剑桥大学和帝国理工学院等顶尖机构的研究人员发现,如果在训练过程中过度依赖AI内容,会导致模型出现灾难性的「模型崩溃」,造成不可逆转的缺陷。这意味着,随着时间的推移,AI模型会逐渐遗忘真实的基础数据。即使在理想的长期学习环境下,这一问题也无法避免。因此,研究人员强烈呼吁,为了维持大规模数据训练带来的模型优势,必须重视人类原创文本的价值。相关研究论文可查阅:https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图

然而,现实情况更为复杂——你以为的「人类数据」,可能并非完全由人类创作。洛桑联邦理工学院(EPFL)的最新研究表明,高达33%-46%的人类数据实际上是由AI生成的。这意味着,当前训练AI模型所依赖的数据中,相当一部分是「垃圾数据」。尽管GPT-4等大语言模型已展现出惊人的文本生成能力,能够模仿人类写作风格,但它们的训练数据主要源自过去几十年互联网上的公开交流。如果未来模型继续依赖网络爬取,不可避免地会纳入自身生成的文本,从而加剧模型崩溃的风险。研究人员预测,随着GPT系列的迭代发展,这一问题将日益严重。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图1

在这种背景下,为AI模型准备高质量的人类原创数据变得至关重要。亚马逊的Mechanical Turk(MTurk)自2005年上线以来,已成为许多人的兼职选择。科研人员通过MTurk发布各种需要人类智能的任务,如图像标注、问卷调查等,这些任务往往难以通过计算机算法完成。MTurk也因此成为预算有限的科研人员和企业的「优选方案」,就连贝佐斯曾戏称其为「人工人工智能」。除了MTurk,Prolific等众包平台也已成为研究者和行业实践者的核心数据来源,提供创建、标注和总结各类数据的方法。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图2

但EPFL的研究揭示了一个令人担忧的事实:在这些关键的人类数据来源中,近半数内容是由标注员使用AI工具生成的。相关论文链接:https://arxiv.org/abs/2306.07899v1

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图3

「模型崩溃」是指当AI模型被大量AI生成数据「喂养」后,会出现的跨代退化现象。具体来说,新一代模型的训练数据会被前代模型的生成内容污染,导致对现实世界的认知产生偏差。更严重的是,这种崩溃可能引发基于性别、种族等敏感属性的歧视问题。例如,如果AI逐渐只生成某个种族的描述而忽略其他种族,模型最终会「忘记」这些种族的存在。值得注意的是,模型崩溃与灾难性遗忘(catastrophic forgetting)不同——模型不会完全遗忘已学数据,而是会扭曲错误认知并将其误认为现实,并不断强化这种错误信念。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图4

以一个包含100张猫图片的数据集为例:其中10张是蓝毛猫,90张是黄毛猫。模型可能得出「黄毛猫更普遍」的结论,并在生成新数据时将蓝毛猫「想象」成偏黄的版本。随着训练的持续,蓝毛猫的特征会逐渐被侵蚀,从蓝色演变为绿色甚至黄色。模型崩溃可分为两种类型:早期模型崩溃(模型丢失分布尾部信息)和后期模型崩溃(模型与原始分布模式混淆,最终收敛到与原始分布差异巨大的状态)。造成模型崩溃的两大主因是统计近似误差和函数近似误差。统计近似误差源于重采样过程中信息的丢失,而函数近似误差则与模型表达能力不足或超出原始分布支持范围有关。研究人员Ilia Shumailov指出:「生成数据中的错误会不断累积,最终导致模型对现实产生更严重的误解。模型崩溃的发生速度惊人,模型会迅速遗忘最初学习的真实数据。」

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图5

幸运的是,研究人员提出了两种避免模型崩溃的方法。第一种是保留高质量的人类原创数据集副本,避免与AI生成数据混合,并定期使用这些原始数据重新训练或从头训练模型。第二种方法是持续引入全新的、干净的人类原创数据,确保少数派群体在后续数据中得到公正表征。为了实现这一目标,开发者需要建立大规模的标记机制来区分AI生成内容与人类创作内容。目前已有GPTZero、OpenAI Detector等工具,但它们在特殊文本中效果有限。例如,在EPFL研究中,ChatGPT生成的10个总结中,GPTZero仅检测出6个是AI合成的。研究人员通过微调模型开发了定制的「合成-真实分类器」,在真实MTurk回应中实现了高达99%的准确率。实验表明,AI生成的文本通常与原始内容差异巨大,表明其正在生成新文本而非简单复制粘贴。

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图6

「人类数据」的价值在AI时代愈发凸显。随着LLM塑造人类「信息生态系统」,依赖合成数据训练的模型性能会显著下降,甚至出现「痴呆症」现象。虽然众包工作者使用ChatGPT等工具能提高效率,但拯救LLM免于崩溃的关键仍在于真实的人类原创数据。人类数据在科学研究中始终不可或缺,过度依赖合成数据可能导致偏见固化。随着AI模型的普及,人类创作的内容作为原始训练数据的价值将不断提升——尽管人类数据可能包含低概率劣质内容,但生成式AI往往过度拟合流行数据而忽略边缘案例。在生成式AI泛滥的未来,人类创作的内容将成为稀缺资源,其价值将远超以往。参考资料:https://arxiv.org/abs/2306.07899v1https://arxiv.org/abs/2305.17493v2

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图7

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图8

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图9

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图10

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图11

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图12

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图13

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图14

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图15

GPT-5陷模型崩溃危机 AI训AI或致严重缺陷插图16

最新快讯

2025年08月04日

12:52
随着《凡人修仙传》《利剑·玫瑰》强势开播,《定风波》也正式定档,预计将接棒《朝雪录》,长剧市场新一轮的激烈交锋正式拉开帷幕。2025年暑期档已进入下半场,尽管六七月间《以法之名》《朝雪录》《临江仙》等剧集诞生了平台破万剧,司法刑侦剧也实现了多部连播,打破了以往古装剧独大的局面,但客观而言,今年的暑期档整体热度并不算高。以目前多方数据平台认证的暑期档头名选手《...
12:52
声明:本文源自微信公众号《游戏价值论》,作者李亚倢,经站长之家授权转载发布。2025年7月31日,中国国际数字娱乐产业大会(CDEC)在上海浦东嘉里酒店隆重召开,正式发布了《2025年1-6月中国游戏产业报告》。数据显示,2025年上半年国内游戏市场实际销售收入达1680亿元,同比增长14.08%,这一增速自2020年以来首次重回两位数。与此同时,自研游戏海...
12:52
2025年8月4日,中电控股正式发布其上半年财务报告,数据显示公司整体营收达到428.5亿港元,净利润更是高达56.2亿港元,展现出强劲的盈利能力。这一亮眼业绩充分印证了中电控股在电力领域的卓越运营水平与市场竞争力。为回馈股东,公司同时宣布将派发第二期每股中期股息,金额为0.63港元,彰显了其稳健的财务策略与对股东价值的持续关注。此次财报发布不仅体现了公司在...
12:52
2025年8月4日,香港宽频正式对外发布重要公告,宣布中国移动香港有限公司将进行一项战略性股权收购。根据公告内容,中国移动香港计划以每股5.075港元的固定价格,从Twin Holding Ltd手中悉数收购其持有的213,570,097股股份。这一交易规模庞大,涉及的股份数量约占香港宽频当前已发行股本的14.44%,总交易金额高达10.84亿港元,标志着中...
12:52
8月4日,北京市防汛指挥部紧急宣布,全市7个区同步启动防汛一级应急响应,将防汛工作提升至最高级别。受强降雨天气持续影响,延庆、怀柔、密云等山区及重点区域已全面进入最高级别应急状态,全力应对可能出现的极端天气挑战。 市防汛指挥部高度重视此次汛情,特别提醒广大市民非必要情况下避免外出,减少不必要的人员流动。同时,要求各企事业单位积极响应,合理安排工作安排,避...
12:52
2025年8月4日,广东省持续遭遇强降雨袭击,多地出现洪涝灾害。为保障旅客生命财产安全,国铁广州局紧急启动防洪应急响应机制,对途经京九铁路的普速旅客列车实施全面停运,并调整部分列车运行区段。受影响线路旅客可通过官方渠道办理退票或改签手续。 与此同时,贵广高铁、杭深高铁及甬广高铁部分动车组列车也因强降雨影响采取限速运行或暂停服务措施。铁路部门提醒广大旅客密切关...
12:52
2025年上半年,百望股份交出了一份令人瞩目的成绩单,预计净利润将实现300万至500万元的突破,成功实现同比扭亏为盈。这一成绩与去年同期净亏损4.46亿元形成鲜明对比,彰显了公司经营策略的重大转变。在总收入方面,百望股份预计将达到3.3亿至3.8亿元,较去年同期实现显著增长。这一增长主要得益于AI业务板块的强劲表现以及财税数字化解决方案市场的持续扩张,充分...
12:52
2025年8月4日,绿景中国地产(股票代码:00095)正式对外发布重要公告,宣布高等法院已作出裁决,将原定聆讯进一步延后至2025年11月3日举行。这一延期决定为绿景中国地产赢得了宝贵的时间窗口,使其能够更从容地处理与聆讯相关的各项事务,并进一步优化应对策略。此次延期不仅体现了法院对案件复杂性的考量,也彰显了绿景中国地产在当前形势下积极应对的稳健姿态。对于...
12:52
2025年7月28日,财通基金正式宣布沈健升任公司总经理助理一职,这标志着该基金公司近期高管团队调整的延续。值得注意的是,就在5月份,刘江已出任同级别职务,此次沈健的晋升再次凸显了财通基金在管理层上的积极布局。作为拥有多年基金行业从业经验的资深人士,沈健曾在多家知名金融机构担任核心要职,其丰富的行业履历和卓越的管理能力,无疑将为财通基金当前的发展注入新的动力...
12:52
2025年上半年,中国三江化工(02198)交出亮眼业绩,预计权益持有人应占纯利将突破人民币3亿元,较2024年同期约1.54亿元实现高达95%的显著增长。这一亮眼表现主要源于公司业务运营效率的持续提升以及市场需求的明显改善。通过优化生产流程、强化成本控制,三江化工成功提升了盈利能力;同时,随着经济复苏和行业需求的回暖,公司产品市场表现强劲,进一步推动了业绩...
12:52
极智嘉-W(02590)于2025年8月3日宣布启动部分超额配股权行使计划,涉及约1666.98万股H股,发行价格定为每股16.80港元。根据公告显示,此次配股规模约占全球发售项下可供认购股份总数的10.3%,彰显了市场对公司发展前景的高度认可。值得注意的是,公司同步宣布稳定价格期已于当日正式结束,标志着本次发行进入新的阶段。 此次部分行使超额配股权是极智嘉...
12:52
2025年8月4日最新数据显示,南向资金净卖出额已突破90亿港元大关。这一显著的资金流出现象,主要源于当前市场环境的剧烈波动,促使众多投资者纷纷调整其持仓策略。在这样的大背景下,港股通资金也出现了大规模的净流出情况,反映出市场情绪的微妙变化。这一数据不仅揭示了资金流动的动态,也为我们提供了观察市场趋势的重要窗口。随着港股市场的持续演变,投资者需密切关注资金流...