
近日,全球知名的软件巨头Adobe公司卷入了一场备受瞩目的集体诉讼风波,其被指控在训练人工智能模型时涉嫌非法使用大量盗版书籍数据。这场法律纠纷由俄勒冈州著名作者伊丽莎白·里昂(Elizabeth Lyon)发起,她代表众多受影响群体向Adobe提起了诉讼,直指该公司在开发名为SlimLM的轻量级语言模型过程中,系统性地采用了包含其作品在内的盗版书籍数据集。
据悉,该诉讼详细揭露了Adobe在模型开发过程中的违规行为。SlimLM模型是在一个名为SlimPajama-627B的开源数据集上进行预训练的,而这一数据集恰恰被指控包含了臭名昭著的Books3子集。Books3子集据称收录了约19.1万本未经授权的电子书,其非法性质早已引起业界广泛关注。伊丽莎白·里昂在诉讼中明确指出,Adobe在开发过程中不仅使用了这些盗版书籍,还未经任何合法授权就将其纳入训练数据,严重侵犯了原作者的版权权益。
这场诉讼并非孤例。事实上,Adobe并非唯一面临此类法律风险的科技巨头。此前,苹果公司(Apple)、Salesforce以及人工智能初创企业Anthropic等知名企业,都因使用包含Books3内容的RedPajama或类似数据集而陷入法律纠纷。这些案件反映出当前人工智能行业在数据合规性方面存在的普遍性问题,也暴露了企业在追求技术进步过程中可能忽视的法律边界。
被指控的SlimLM模型主要用于优化移动设备上的文档辅助任务,其轻量化的设计使其在智能手机等终端设备上具有广泛的应用前景。然而,正是这种便捷性背后隐藏的数据合规风险,最终将Adobe推上了被告席。目前,Adobe公司尚未就此次诉讼发表任何官方声明,但其面临的压力已不容小觑。随着人工智能技术的快速发展和大规模商业化应用,训练数据的合规性问题正逐渐成为整个行业的转折点,相关法律博弈也日益激烈。这场诉讼不仅关乎Adobe的声誉和法律责任,更可能为整个AI行业的未来发展划定新的合规红线。
