Salesforce AI侵权案引企业信任危机书籍数据成焦点

2025-10-21 09:51:56 AI动态 25 次阅读

Salesforce 公司近日陷入了一场备受瞩目的法律风波，其 xGen 系列大语言模型被指控在训练过程中涉嫌大规模使用盗版书籍数据。两位美国小说家莫莉・坦泽（Molly Tanzer）和詹妮弗・吉尔摩(Jennifer Gilmore)于10月15日在旧金山的美国地方法院提起了集体诉讼，直指 Salesforce 未经授权下载、存储、复制并利用了大量受版权保护的书籍数据集。这一指控不仅针对 Salesforce，更折射出 AI 行业普遍存在的数据来源合规性问题。

这一事件并非孤例。就在上个月，生成性 AI 公司 Anthropic 也因使用数百万本盗版书籍训练 AI 模型而达成了高达15亿美元的和解协议。伊利诺伊大学芝加哥分校的数据科学与 AI 战略副校长迈克尔・贝内特（Michael Bennett）指出，Salesforce 的案件与 Anthropic 的案件在法律性质上高度相似。在 Anthropic 案中，法官明确裁定：合法获取的作品用于模型训练可被视为”合理使用”，而非法获取的作品则不享有此法律保护。目前，业界普遍预测 Salesforce 的案件很可能通过和解方式解决，其结果或将与 Anthropic 保持高度一致。

RPA2AI 的创始人兼资深分析师卡夏普・孔佩拉（Kashyap Kompella）认为，这一系列诉讼事件充分表明，版权拥有者在法律上已具备对抗 AI 公司侵权行为的有效武器。他强调，训练数据的来源问题不仅是商业策略的选择，更是一个亟待解决的法律难题。这场诉讼对 Salesforce 可能造成深远影响，尤其是会削弱其企业客户对其 AI 模型及训练数据集的信任基础。孔佩拉特别提醒，企业客户在选择 AI 供应商时，必须严格审核数据来源的合法性、可审计性及合理性，这直接关系到企业自身的合规风险。