AI大模型的秘密配方究竟是什么?答案或许令人意外:海量的“盗版内容”。这已成为行业内公开的秘密。2023年,《纽约时报》以一纸诉状将OpenAI和微软告上法庭,正式掀开了这场旷日持久的诉讼序幕。战火迅速蔓延至硅谷,Meta因Llama模型涉嫌盗用版权书籍面临集体诉讼,Anthropic也因Claude的训练数据被告上法庭,几乎所有头部玩家都被卷入这场风暴。大模型与版权方的核心争议在于:未经授权将海量受版权保护作品用于AI训练,究竟是合法的“变革性使用”,还是“侵权盗用”?在众多悬而未决的案件中,Anthropic案进展最快。2025年6月的里程碑式裁决中,法院给出了一个极具分量的参考信号:模型训练行为本身因其能创造出全新事物,具有高度“变革性”,可能不构成侵权;但获取训练数据的方式,若涉及盗版网站或未经授权复制,则几乎无法被“合理使用”原则豁免。根据计算,Anthropic或将面临7500亿美元的天价诉讼赔款。这一信号让所有AI公司都深感不安。大模型厂商“先污染,后治理”的野蛮生长模式,或许已走到尽头。

大模型的N种数据“盗取”路径

为了满足无止境的数据需求,各大模型厂商各显神通,走出了一条充满争议甚至堪称“脑洞大开”的野路子,每一种都游走在法律边缘。

一、从公开抓取到蓄意“清洗”

这是AI数据积累最原始、最普遍的方式。AI公司利用强大的网络爬虫,像撒下一张覆盖全球互联网的巨网,不加区分地捕捞新闻网站、专业博客、学术论坛、社交媒体上的公开内容,构建起初期的训练数据集。例如,OpenAI构建WebText数据集时,就抓取了Reddit上数百万个外部链接,间接将海量受版权保护的内容纳入囊中,《纽约时报》的文章赫然在列。除了抓取,更致命的是清洗行为。在《纽约时报》和Daily News的诉讼中,原告指出,OpenAI在抓取新闻内容时,主动并系统性地移除版权声明、作者署名、页脚等关键版权管理信息(CMI)。这一行为被判定为数据获取性质的根本转变——从可能无意的“顺手牵羊”,升级为具有明确规避意图的“数据清洗”。

二、格式转换:从视频和纸书中提取文本

随着高质量公开文本数据日益枯竭,厂商们将目光投向了其他格式的内容载体,通过技术手段将其转换为可供模型训练的纯文本,这种做法更为隐蔽。一种典型手法是OpenAI对其语音识别工具Whisper的“妙用”。据称,OpenAI利用Whisper转录了超过一百万小时的YouTube视频内容。这意味着,无论是深度访谈、专业课程还是纪录片解说,这些视频中最核心的“语言资产”,在未经视频创作者许可的情况下,被悄然提取出来,直接“喂”给GPT-4,绕过了视频本身的视听版权。Anthropic也采用了一种戏剧性的手法。在意识到直接使用盗版书库的巨大法律风险后,Anthropic聘请了前谷歌图书扫描项目的负责人Tom Turvey,启动了一项成本高昂、操作复杂的“物理世界洗白计划”:第一步,批量采购:斥巨资从图书分销商和零售商处购买数百万本纸质书,其中不乏二手书。第二步,物理转化:将这些书运至服务商处,由机器拆掉装订、裁切书页,然后逐页进行高速扫描,生成包含图像和可机读文本的PDF数字文件。第三步,销毁原件:扫描完成后,纸质原件被直接丢弃。此举的核心目的,是在法律上论证这是一种“格式转换”,而非创造了“额外副本”,从而规避侵权指控。第四步,数据建库:为这些数字化的图书建立详细的书目信息数据库,并进行分词、清理等一系列复杂的预处理,最终形成一个来源上看似“合法”的高质量训练数据集。但这一行为,恰恰证明了:第一,AI公司已充分认识到高质量数据的版权价值;第二,获取合规数据的成本,远比想象中要惊人得多。

三、“影子图书馆”在争分夺秒的技术竞赛和巨大的性能压力下,部分公司选择了一条最高效,也最高风险的捷径——直接拥抱明确的盗版资源库。Meta在训练其开源模型Llama时,就被直接指控使用了来自“影子图书馆”(如Library Genesis、Books3)的非法书籍副本。无独有偶,Anthropic的内部文件也显示,其联合创始人在公司创立初期,就下载了包含近20万本书的盗版库Books3,并对这些资源的盗版性质心知肚明。

Anthropic面临7500亿天价赔款 大模型“盗版”数据采集乱象解析插图

四、平台借助隐私协议获取数据与上述几种“硬核”盗版方式不同,巨头们展示了一种更具平台特色的“阳谋”。它不依赖于外部抓取或盗版,而是利用其庞大的用户生态系统,通过服务条款来“合法”地将用户数据内化为自己的训练资源。谷歌的隐私政策中,明确表示可能会使用用户公开分享的信息来训练其AI模型。这意味着,当一个普通用户在Google Docs上协作一份文档,在Google Maps上写下一段评论,或是在Blogger上发布一篇文章时,这些内容都可能在用户不经意间,被纳入谷歌的AI训练数据池,由此谷歌也构建起了一道竞争对手难以逾越的数据护城河。

这些五花八门、游走在法律边缘的数据获取方式,显示出在AI发展的“圈地”阶段,大模型们都在以最低的成本、最快的速度,获取最大规模的数据,数据来源的合规风险置于次要位置。然而,版权方的一系列诉讼彻底打破了这种默契,他们将攻击焦点精准地对准了最脆弱的一环:数据的原始获取路径。

一个更昂贵的AI时代来了

AI版权战争的真正转折点,是诉讼焦点的变化:不再纠缠AI“如何使用”数据,而是直击它“从何获取”数据。最初,双方的法律攻防主要围绕AI“使用”数据的性质展开。AI公司认为,它们的行为并非传统意义的“复制”,而是“学习”,模型在内化数据中的模式、语法和知识,就像一个学生阅读海量书籍以形成自己的写作风格,其目的是创造全新的东西,因此是一种高度“变革性”的使用。版权方则反驳,AI的商业化产品会直接与原作形成市场竞争,替代用户对新闻订阅和书籍购买的需求,从而损害其核心商业利益。然而,在这两个战场上,版权方都打得异常艰难。

在这种胶着状态下,版权方的诉讼策略发生了一次决定性的转向,他们找到了一个更根本、也更致命的攻击点——数据的来源合法性。法院的阶段性审理,也给出了一个极其微妙且影响深远的信号:一方面,初步裁决认为AI的输出内容和训练行为本身,因其“变革性”,或许不构成直接侵权,这在某种程度上为大模型的发展留下了空间,避免了技术创新被彻底扼杀;但另一方面,法院对“来源合法性”划出了明确的红线,严厉打击了使用盗版资源的行为。

而面对如雪片般飞来的诉讼,大模型厂商中的激进派也在向保守派转变。保守派的代表就是苹果,它从一开始就将用户隐私和规则置于更重要的位置,宁愿在AI竞赛中起步较晚,也要通过明确授权许可(如与图片库Shutterstock的合作)和自有数据来规避法律风险。而激进派的Meta和早期的OpenAI,则是信奉“移动快,打破规则”的硅谷信条,将潜在的法律诉讼视为一种可以计算和承受的商业成本。但在诉讼缠身后,OpenAI迅速转变为积极的数据“购买者”,斥巨资与美联社、金融时报等数十家媒体签署内容许可协议;Anthropic则上演了从使用盗版书库,到斥巨资购买、扫描、销毁实体书的“苦力式洗白”。这些都意味着,“数据免费”的黄金时代已一去不复返,数据将成为AI公司财报上一个明确且高昂的成本项。

从整个行业来看,手握优质内容的内容出版商、新闻机构,将从被动的受害者,转变为AI产业链上游一个手握筹码、拥有强大议价权的关键参与者;这反过来又会急剧抬高行业的竞争壁垒,拥有强大现金流和顶尖法务团队的科技巨头相比AI创业公司将有着更强的竞争优势。AI行业的竞争,已从单纯的算法和算力竞赛,扩展到了一场关于数据供应链管理、商业谈判和法务合规能力的全面战争。当那些充满争议的盗版“野路子”被一条条堵死,一个更加昂贵的AI时代,已经来了。

最新快讯

2025年11月18日

11:01
声明:本文来自于微信公众号 白鲸出海,作者:李爽,授权站长之家转载发布。在 AI 语言学习的领域,我们曾关注到一些另辟蹊径的产品,比如用 AI 帮移民纠正口音的「BoldVoice」,曾在不到两年的时间内做到单月流水接近百万美元。最近,又有一款名为「Voice Image」的产品引起了我们的注意,它关注到了声音和沟通技巧对人们表...
11:01
声明:本文源自微信公众号数字生命卡兹克,作者数字生命卡兹克,授权站长之家转载发布。继千问之后,今日全新AI助手灵光正式加入战场。这款来自蚂蚁集团——也就是支付宝背后的公司——的AI产品,似乎预示着阿里系即将掀起一场大AI入口之战。但经过亲身体验,我必须承认,蚂蚁的灵光确实值得大力推荐。它不仅设计精致优雅,更凭借独特的闪应用理念与支付宝生态的结合,展现出巨大的...
11:01
阿里Qwen模型逆袭GPT的策略,准备再次对打OpenAI 2018年,OpenAI推出GPT1模型占据技术先机,但随后走向封闭。几乎同时,阿里开始研发大模型技术,到2023年推出通义千问时,却选择了完全不同的道路——直接开源模型,允许开发者免费使用、改进和集成。这一策略让Qwen逐步积累规模,如今全球已有17万个衍生模型基于Qwen发布,总下载量超过6亿,...
10:56
哈曼国际12日重磅宣布,旗下Ready Display车用显示屏成功斩获业内首张HDR10+ Automotive权威认证,这一里程碑事件标志着汽车显示技术迈入全新纪元。该认证由哈曼、三星、松下三大行业巨头联合制定,旨在建立车规级HDR显示技术新标杆,确保在汽车座舱多变的复杂照明环境中,依然能够精准还原HDR内容的震撼画质。 认证显示屏凭借其卓越性能,在不同...
10:56
恒坤新材今日正式在上海证券交易所科创板鸣锣开市,证券代码688727,标志着这家专注于先端材料资源开发与整合的系统解决方案提供商正式迈入资本市场。公司发行价定为14.99元/股,对应市盈率高达71.42倍,显示出市场对其未来发展潜力的高度认可。 作为行业领先的先端材料解决方案提供商,恒坤新材致力于为全球客户提供从资源开发到产品化的全流程集成服务。其业务范围广...
10:56
北矿检测今日正式登陆北京证券交易所,证券代码920160,发行价格定为6.7元/股,对应市盈率14.99倍。作为业内领先的有色金属检测服务商,公司业务范围广泛,涵盖矿石与矿产品检测、冶炼及再生资源分析、环境样品检测、先进材料性能测试、选冶药剂分析等多个专业领域。此外,公司还积极开展资源评价、物理检测及测试技术研发与标准化工作,致力于推动行业技术进步与标准完善...
10:56
2025年11月18日,闲鱼循环商店在武汉后湖大道新荣天街盛大开业,正式宣告其华中区域中心店落成。这一重要里程碑不仅标志着闲鱼线下布局的加速推进,更彰显了其深耕区域市场的决心与实力。作为闲鱼继华东、华南区域中心店之后的又一力作,武汉新荣天街店将成为华中地区二手商品流通与循环经济的重要枢纽。 今年以来,闲鱼线下拓展步伐显著加快。下半年以来,其先后在深圳、苏州、...
10:56
2024年将见证小米在家电领域国际化战略的全新篇章。小米集团合伙人兼总裁卢伟冰于11月18日正式宣布,这一年将成为小米大家电产品出海的启航之年。这一重要布局的信号已经通过实际行动释放,此前小米西班牙市场便率先行动。10月30日,米家智能冰箱率先登陆西班牙市场,紧接着11月17日米家洗烘一体机也紧随其后推出。卢伟冰在社交媒体上转发相关产品信息时兴奋地表示,目前...
10:56
Qt Group于11月17日正式发布了备受期待的Axivion 7.11工具集最新版本,此次更新引入了一项突破性的自动检测功能,能够精准验证采用英伟达加速计算的程序是否严格遵循CUDA编码安全规则。这一创新举措为安全关键行业的开发者提供了强大的技术支持,通过先进的静态代码分析与架构验证技术,有效辅助开发人员构建具备顶尖图形处理与人工智能功能的高性能应用程序...
10:56
11月18日,《科创板日报》独家获悉,日本松下与国内知名电子元器件制造商汇创达成功中标华为Mate80系列手机侧键防水开关的量产供应项目。此外,汇创达还一举获得该系列手机屏幕罩的订单。这一系列合作不仅彰显了华为在高端手机核心部件供应上的多元化布局,更凸显了其通过深化国内外供应链合作,持续提升产品防护性能与用户使用体验的战略决心。 作为华为Mate80系列的关...
10:56
2025年6G发展大会隆重召开,GSMA大中华区总裁斯寒在会上发表重要演讲,为全球6G发展描绘了清晰的蓝图。她透露,随着全球技术迭代加速,6G部署有望在2030年率先在部分领先国家和地区启动,这意味着6G标准将在这一时间节点完成最终确立,为后续的商业化进程扫清障碍。据权威预测,到2040年,全球6G连接规模将突破50亿大关,届时将占据移动连接总量的半壁江山,...
10:56
11月18日清晨,A股市场再度掀起AI应用概念的浪潮,榕基软件强势斩获两连板,展现出强劲的上涨势头。石基信息更是以涨停板报收,成为板块中的亮点。值得买、宣亚国际等个股也表现不俗,涨幅均超过10%。思创医惠、创业慧康、汉仪股份、久其软件等企业纷纷紧随其后,股价呈现普涨态势。这一轮行情的爆发,主要得益于11月17日阿里巴巴发布的千问APP公测版消息,该应用基于开...