AI版权风暴来袭 7500亿美元赔偿风险拷问巨头合规之路

2025-08-15 18:08:44 AI动态 76 次阅读

近年来，人工智能技术的迅猛发展将大型 AI 模型的训练数据来源问题推向了业界焦点。众多知名企业在构建 AI 模型时，似乎都倾向于使用大量未授权的版权内容作为数据基础，这一做法引发了激烈的法律争议，将硅谷的科技巨头们推上了风口浪尖。2023年，《纽约时报》率先对 OpenAI 和微软提起诉讼，正式拉开了这场法律之战的序幕。随后，Meta 因其 Llama 模型涉嫌使用盗版书籍而面临集体诉讼，Anthropic 也因 Claude 模型的训练数据受到指控。几乎所有主要 AI 玩家都陷入法律困境，究竟在未经授权的情况下，使用受版权保护的作品作为 AI 训练数据，是否属于“合理使用”？2025年6月，法院在对 Anthropic 案的裁决中给出了一个重要信号：尽管模型训练本身可能被视为一种高度“变革性”的使用，但如果数据来源涉及盗版，基本上就无法逃避侵权的指控。预计 Anthropic 可能面临高达7500亿美元的赔偿，这一消息令所有 AI 公司心惊胆战。

为了满足对数据的需求，各大模型公司采用了多种“创意”方式来获取数据，有的甚至游走在法律边缘。例如，OpenAI 利用网络爬虫广泛抓取网络内容，甚至在抓取过程中清除版权信息；而在高质量文本资源逐渐枯竭后，AI 公司又转向视频和纸书等其他格式的数据，利用技术手段进行提取。此外，有些公司甚至选择了直接使用盗版书籍。例如，Meta 在训练 Llama 模型时，就被指控使用来自“影子图书馆”的盗版书籍。与此相反，苹果等保守派企业则选择通过合法授权和自有数据来规避法律风险。