微新创想(Idea2003.com) 7月10日电 喜剧演员兼作家 Sarah Silverman 与作家 Christopher Golden 及 Richard Kadrey 联合在美国地方法院对 OpenAI 和 Meta 提起集体诉讼,正式指控这两家科技巨头侵犯版权。诉讼的核心指控是,OpenAI 的 ChatGPT 和 Meta 的 LLaMA 人工智能模型,在训练过程中非法使用了包含他们作品的数据集,而这些数据集的来源被指为 Bibliotik、Library Genesis、Z-Library 等备受争议的「影子图书馆」网站,这些网站通过种子系统大规模提供受版权保护的书籍内容。
在针对 OpenAI 的诉讼中,原告方提供了有力证据,证明 ChatGPT 在被询问时能够精准总结他们的书籍内容,从而构成了版权侵权行为。Silverman 的《Bedwetter》、Golden 的《Ararat》以及 Kadrey 的《Sandman Slim》均被用于佐证这一指控。值得注意的是,诉讼中特别指出,ChatGPT 在生成内容时并未尊重原告作品中的版权管理信息,完全无视了这些信息的存在。
与此同时,针对 Meta 的独立诉讼则声称,原告的书籍出现在 Meta 用于训练 LLaMA 模型的数据集中。LLaMA 是 Meta 于今年2月推出的四款开源AI模型之一。诉讼详细列举了原告认为这些数据集具有非法来源的证据链,并指出 Meta 在其官方文档中承认训练数据集的来源之一是 ThePile 数据集,该数据集由 EleutherAI 公司整合而成。进一步调查显示,ThePile 数据集在 EleutherAI 的内部文件中被描述为「Bibliotik 私人追踪器的内容副本」,而 Bibliotik 及其他同类「影子图书馆」被原告方定性为「公然非法的」。
在这两起诉讼中,三位作者一致表示他们「从未同意将其受版权保护的书籍用于训练 AI 模型」。他们的诉讼分别包含六项指控,涵盖了版权侵权、过失、不当得利以及不公平竞争等多个方面。原告方寻求的赔偿包括法定损害赔偿金、非法所得利润返还等。代表这三位作者的律师 Joseph Saveri 和 Matthew Butterick 在其 LLMlitigation 网站上公开表示,他们已收到大量来自作家、作者和出版商的来信,这些来信普遍表达了对 ChatGPT 能够生成大量类似受版权保护文本材料的深切担忧。
值得一提的是,Saveri 律师此前还代表程序员和艺术家群体起诉了多家 AI 公司。此外, Getty Images 也已提起诉讼,指控 Stability AI 在开发 AI 图像生成工具 Stable Diffusion 时,未经授权使用了数百万受版权保护的图像。Saveri 和 Butterick 还代表作家 Mona Awad 和 Paul Tremblay 提起了类似的诉讼,针对该公司的聊天机器人产品。这一系列诉讼不仅给 OpenAI 和其他人工智能公司带来了巨大压力,更引发了关于版权保护边界的深刻讨论。事实上,每当版权法成为热议话题时,类似的诉讼案例便屡见不鲜,持续考验着法律与技术的边界。