Salesforce 公司近日陷入了一场备受瞩目的法律风波,其 xGen 系列大语言模型被指控在训练过程中涉嫌大规模使用盗版书籍数据。两位美国小说家莫莉・坦泽(Molly Tanzer)和詹妮弗・吉尔摩(Jennifer Gilmore)于10月15日在旧金山的美国地方法院提起了集体诉讼,直指 Salesforce 未经授权下载、存储、复制并利用了大量受版权保护的书籍数据集。这一指控不仅针对 Salesforce,更折射出 AI 行业普遍存在的数据来源合规性问题。
这一事件并非孤例。就在上个月,生成性 AI 公司 Anthropic 也因使用数百万本盗版书籍训练 AI 模型而达成了高达15亿美元的和解协议。伊利诺伊大学芝加哥分校的数据科学与 AI 战略副校长迈克尔・贝内特(Michael Bennett)指出,Salesforce 的案件与 Anthropic 的案件在法律性质上高度相似。在 Anthropic 案中,法官明确裁定:合法获取的作品用于模型训练可被视为”合理使用”,而非法获取的作品则不享有此法律保护。目前,业界普遍预测 Salesforce 的案件很可能通过和解方式解决,其结果或将与 Anthropic 保持高度一致。
RPA2AI 的创始人兼资深分析师卡夏普・孔佩拉(Kashyap Kompella)认为,这一系列诉讼事件充分表明,版权拥有者在法律上已具备对抗 AI 公司侵权行为的有效武器。他强调,训练数据的来源问题不仅是商业策略的选择,更是一个亟待解决的法律难题。这场诉讼对 Salesforce 可能造成深远影响,尤其是会削弱其企业客户对其 AI 模型及训练数据集的信任基础。孔佩拉特别提醒,企业客户在选择 AI 供应商时,必须严格审核数据来源的合法性、可审计性及合理性,这直接关系到企业自身的合规风险。

随着 AI 技术应用的普及,类似的版权诉讼可能会成为制约行业发展的关键障碍。企业在选择 AI 供应商时,不仅需要关注技术性能,更应深入调查训练数据的来源合法性以及潜在的赔偿条款。这一事件为整个 AI 行业敲响了警钟:数据合规性已不再是可忽视的细节,而是决定企业能否长期稳健发展的核心要素。
