
微新创想:3月18日,苹果公司因涉嫌使用含有盗版书籍的“The Pile”数据集进行人工智能训练,再次被心灵鸡汤出版社(Chicken Soup for the Soul, LLC)列为版权侵权诉讼的被告方。此次诉讼涉及范围广泛,除了苹果之外,还包括Meta、xAI、谷歌、Anthropic、OpenAI、Perplexity及英伟达等全球知名的科技企业。这些公司都被指控在AI模型的训练过程中使用了未经授权的文学作品数据。
案件的核心争议点聚焦于“The Pile”数据集中的“Books3”模块,该模块被指包含大量受版权保护的书籍内容。这一部分数据的使用引发了出版方的强烈不满,认为科技公司利用未经许可的资源进行模型训练,严重侵犯了知识产权。
面对指控,苹果公司表示自2024年起已致力于以合法且合乎道德的方式构建AI数据集。公司强调,其研究人员曾在OpenELMs开源项目中使用过“The Pile”数据集,但该项目仅用于公开研究目的,并未用于驱动苹果的核心Apple Intelligence系统。

然而,法律界人士指出,由于苹果的基座模型在训练过程中曾借助Google Gemini进行辅助,若谷歌在相关案件中被判定存在违规行为,苹果可能因技术供应链的关联而面临连带法律责任。这种责任的牵连不仅涉及法律层面,还可能对企业的商业信誉和技术发展路径产生深远影响。
目前,Perplexity等公司已针对其网络抓取行为提出辩护,声称其数据收集方式符合行业标准。而苹果则坚持其模型训练过程的透明度和合规性,表示已采取多项措施确保数据来源的合法性。
随着全球AI监管政策逐步收紧,这起针对底层训练数据的集体诉讼,不仅体现了创作者群体对科技巨头“数据掠夺”行为的强烈反对,也促使整个行业重新思考在模型训练过程中如何平衡技术创新与版权保护之间的关系。未来,数据溯源的合规成本和技术边界将成为AI企业必须面对的重要议题。
