2025年12月2日,美国加州地方法院法官Ona Wang作出一项具有里程碑意义的裁决,要求OpenAI在12月8日前全面公开其删除Books1和Books2盗版书籍数据集时的所有内部沟通记录。这起备受关注的集体诉讼由多位作家提起,他们指控OpenAI在ChatGPT模型的训练过程中非法使用了未经授权的书籍内容。法官在判决书中严厉批评了OpenAI的矛盾行为——以”未使用”为由删除数据集,却试图将相关的内部讨论标记为特权信息。这种做法被法官形容为”令人难以置信的虚伪”,并强调这种信息隐藏与声称”善意使用”之间存在明显冲突。
法官进一步指示OpenAI的内部律师必须在12月19日前接受质询,以确保相关证据的充分披露。这些内部文件将成为判断是否构成恶意侵权的关键依据。法官认为,隐藏决策过程不仅违背了透明原则,更可能暗示着侵权行为的故意性。根据现行法律,如果最终认定构成恶意侵权,每部被侵权的作品将面临高达15万美元的巨额赔偿。这一裁决不仅对OpenAI构成重大压力,也预示着AI行业在数据合规方面的监管将更加严格。
此次判决凸显了AI训练数据来源合法性的核心问题。随着ChatGPT等大型语言模型的普及,如何平衡技术创新与知识产权保护成为全球关注的焦点。作家们通过法律途径维护自身权益的举动,可能为未来类似案件树立重要先例。值得注意的是,Books1和Books2数据集曾被视为OpenAI训练ChatGPT的关键资源,其突然删除引发了业界的广泛猜测。如今,这些内部沟通的公开将揭开这一事件的真相,也为AI行业的数据治理提供重要参考。
