
近日,美国俄勒冈州知名作家伊丽莎白·莱昂向Adobe公司提起了集体诉讼,指控其在开发一款名为SlimLM的小型语言模型时,涉嫌使用包含其盗版作品在内的非法数据集进行训练。这一事件不仅引发了广泛关注,也再次将AI领域的数据版权问题推向了风口浪尖。
SlimLM是Adobe推出的一系列轻量化语言模型中的代表产品,专为移动设备上的文档辅助任务设计,包括文本摘要、内容改写以及智能问答等功能。然而,根据莱昂的诉讼指控,这款模型的训练过程存在严重问题。Adobe官方曾表示,SlimLM基于SlimPajama-627B数据集进行预训练,而该数据集是由AI芯片公司Cerebras于2023年6月发布的开源、去重、多来源语料库。但莱昂的诉状揭露了这一说法的漏洞:SlimPajama实际上是RedPajama数据集的衍生版本,而RedPajama又直接复制了备受争议的Books3数据集。
Books3数据集包含约19.1万本受版权保护的图书,长期被指控大量收录自网络盗版资源,如知名盗版平台The Bibliotik。莱昂的诉状中明确指出:”SlimPajama作为RedPajama的衍生复制,必然包含Books3中的内容,其中包括原告及集体成员的受版权保护作品。”作为多本非虚构写作指南的作者,莱昂声称自己的作品就曾被非法用于训练数据之中。她强烈指控Adobe在未经授权、未署名、未支付任何费用的情况下,将其文字用于商业AI产品的开发,严重侵犯了版权法赋予作者的专有权利。
这并非孤例。Books3和RedPajama已成为AI行业版权诉讼中的”高频词”。2024年9月,苹果公司被诉使用Books3训练其Apple Intelligence系统;同月,Anthropic与作家群体达成15亿美元和解,这一案件被视为AI版权诉讼的里程碑事件;10月,Salesforce也被指控依赖RedPajama训练其AI系统。随着生成式AI技术对海量文本数据的依赖日益加深,训练数据的合法性问题正从道德争议演变为法律雷区。
Adobe此次被诉,再次凸显了AI行业的普遍困境:即使使用标榜为”开源”的数据集,若其源头包含侵权内容,下游开发者仍可能承担连带责任。在Anthropic天价和解案的阴影下,Adobe如何应对此次诉讼,不仅关系到其自身商业利益,更将影响整个AI行业对训练数据溯源与合规审查的重视程度。而对内容创作者而言,这场诉讼不仅是维权行动,更是对”AI时代创作价值归属”的一次关键确认,标志着数字时代知识产权保护的新方向。
