2023年6月28日,首例具有代表性的ChatGPT版权侵权诉讼正式进入公众视野。两名作家在美国加州北区法院对Open AI公司提起集体诉讼,指控其未经授权利用享有版权的图书训练ChatGPT,并从中谋取商业利益。原告Paul Tremblay和Mona Awad分别居住于马萨诸塞州,是涉案作品《The Cabin at the End of the World》和《13 Ways of Looking at a Fat Girl and Bunny》的版权所有者;被告Open AI则是ChatGPT的创建者和运营者,该产品目前主要由GPT-3.5和GPT-4两大语言模型驱动。

起诉状指出,尽管原告未授权Open AI使用其作品进行模型训练,但ChatGPT却能根据prompts指令准确输出涉案图书的摘要,这只有在被告将图书纳入语料库进行训练的情况下才可能实现。原告表示,Open AI的训练数据集中包含大量版权保护作品,其中就包括其享有版权的图书。然而,Open AI既未获得原告同意,也未标注内容来源或支付相应费用,而原告的图书上具有明确的版权管理信息,包括出版号、版权号、版权人姓名及使用条款等。原告认为,ChatGPT之所以能准确生成图书摘要,唯一合理的解释是Open AI未经授权获取并复制了涉案图书,用于训练旗下大语言模型。

原告的测试显示,当通过prompts指令要求ChatGPT总结两部涉案图书时,其输出的摘要较为准确(尽管存在少量错误)。这表明ChatGPT保存了被训练数据集中特定作品的内容,并能根据指令输出对应文本。与此同时,ChatGPT的设计原理使其输出内容不会包含原有的版权管理信息。

本案的有趣之处在于,原告在证明Open AI侵权的过程中,对ChatGPT原理的介绍是通过与ChatGPT对话,让其“自我介绍”的方式实现的。具体内容如下:Open AI已公开多款大语言模型,包括GPT-1(2018年6月)、GPT-2(2019年2月)、GPT-3(2020年5月)、GPT-3.5(2022年3月)以及最新的GPT-4(2023年3月)。这些模型通过统计学方法模拟人类逻辑和推理,专门用于解析和输出自然语言。Open AI以每月20美元的价格通过网页提供ChatGPT服务,用户可选择GPT-3.5或GPT-4版本;同时,ChatGPT也以API形式向开发者提供,按使用量计费。无论以何种方式提供服务,ChatGPT都会积极响应用户的prompts请求——回答问题、执行指令或总结图书摘要。

原告着重论证的观点是,大语言模型不同于传统软件由工程师编写代码,而是通过“训练”方式研发:收集海量内容语料并“投喂”给模型,这些语料被称为训练数据集。大语言模型会不断调整输出,以接近被训练作品中的文字组合顺序。值得注意的是,图书一直是训练数据集中的核心素材,因其提供了高质量长篇写作的最佳范例。2018年6月,Open AI在《通过生成式预训练提升语言理解力》的企业论文中披露,GPT-1的训练依赖于“BookCorpus”数据集,该数据集包含7000本涵盖探险、奇幻、浪漫等领域的图书。Open AI指出,图书作为训练语料尤为重要,因其包含长篇幅连续文本,有助于生成式模型学习处理长文本信息的能力。包括Open AI、谷歌、亚马逊在内的多家AI研发企业,都曾利用“BookCorpus”进行模型训练。2015年,一个AI研究团队创建了该数据集,其图书来源于Smashwords.com网站,但收录时未获得版权人授权。

原告通过公开检索Open AI披露的企业论文,试图论证GPT系列模型的训练建立在未经授权侵权利用海量图书内容的基础之上。2020年7月,Open AI在《语言模型是小样本学习者》的企业论文中披露,GPT-3训练数据集中15%的内容来源于两个名为“Books1”“Books2”的电子图书语料库。尽管Open AI未说明这两个语料库的具体情况,但可通过线索推断:第一,两个语料库均来自网络;第二,规模均远超“BookCorpus”。“Books1”的规模是BookCorpus的9倍(约6.3万本书),Books2是42倍(约29.4万本书)。现实中,只有极少数数据库能提供如此规模的图书语料。一方面,“Books1”极可能来源于“古登堡项目”或“古登堡语料库标准化项目”;另一方面,“Books2”很可能来源于网络上的“影子图书馆”。2023年3月,Open AI发布GPT-4企业论文,但表示“出于行业竞争形势和产品应用安全角度考量,不再对训练数据集的结构和内容进行相关披露。”

原告针对Open AI提出六项指控,其中前三项涉及版权侵权,第四项涉及不正当竞争,第五和第六项涉及注意义务和不当得利。

第一,版权直接侵权。原告指出,Open AI未经授权复制、制作演绎作品,并在缺乏授权的情况下公开展示、分发上述复制品或演绎作品。此外,因Open AI大语言模型需从原告图书中提取和保存表达性信息才能运行,故在缺乏授权的情况下,大语言模型本身构成侵权演绎作品。

第二,版权替代侵权。原告强调,在缺乏授权的情况下,大模型每次输出的内容都构成侵权演绎作品。因Open AI有权和能力控制大模型内容输出,并从中获利,故构成版权替代侵权。在美国判例法体系下,“替代侵权”与“帮助侵权”“教唆侵权”共同构成版权间接侵权。

第三,违反DMCA中版权管理信息的规定。ChatGPT输出内容不会保留作品版权管理信息,故被告故意移除原告作品版权管理信息的行为违反《数字千年版权法》(DMCA)。此外,在未获授权的情况下,被告分发的不含版权管理信息的侵权演绎作品也违反了DMCA。“版权管理信息”是识别作品权利人、权利归属和使用条件的相关信息。无论在美国或中国,删除或改变版权管理信息,或向公众提供被删除或改变版权管理信息的作品,均构成违法。

第四,不正当竞争。Open AI未经授权使用原告受版权保护的作品进行模型训练,违反了《加利福尼亚州商业和职业条例》,因其具有不正当性、不道德性、强迫性并损害消费者利益。被告有意设计ChatGPT,可在不标明内容出处的情况下输出原告作品片段和摘要,通过隐瞒作者、复制被侵权作品内容和观点的方式,研发商业产品获取不公平利益和名声。

第五,过失侵权即违反注意义务。Open AI需承担《加州民法典》规定的注意义务——所有人对于他人应当采取合理行为方式。这一义务基于行业惯例、商业实践、被告掌握的信息以及基于信息所拥有的控制能力。被告一旦为训练GPT模型收集原告享有版权的作品,便需负有一定注意义务:当预见到未经授权将作品进行模型训练会对原告造成损害时,便不应再侵权利用这些作品。

第六,不当得利。原告为创作涉案图书付出了实质性的时间和精力。因自身作品被未经授权用来训练GPT模型,原告被剥夺了从作品中原本可以获利的权利。通过使用原告作品训练GPT模型获得商业利益,占据这些利益对于被告而言是不公平的。除非加以禁止或限制,被告的行为将会给原告造成难以弥补的损害。

写在最后:本案待探讨的三个问题。作为ChatGPT版权侵权的首例代表性诉讼,加州北区法院做出正式判决仍将经历一个漫长的过程。但在此之前,针对原告起诉状中的具体内容,仍有一些问题值得关注和思考。

关注一:发现模型侵权不容易。大语言模型的训练本质上是一种机器内部的、非外显性作品利用行为,版权人存在发现自身作品被侵权的现实难题。一般来说,只能通过比对模型生成内容和自身作品存在实质性相似,倒推出模型训练阶段存在未经授权的作品利用行为。本案中,原告之所以能指控自身图书被Open AI旗下的大语言模型侵权训练,便是从发现ChatGPT输出了自身作品的摘要,倒推而来。但这一主张是否成立仍有待探讨。若ChatGPT输出的作品摘要,仅是建立自身在收集网络上原告图书公开介绍资料的基础上,而非直接对原告图书进行复制和训练,那么该侵权指控的正当性便会受到动摇。原告也承认ChatGPT输出的自身图书摘要存在少部分事实错误,一定程度也表明大模型可能并未完整学习涉案图书。

关注二:侵犯何种权利待论证。目前来看,虽然“作品数据的储存行为”形式上可以落入版权法“复制权”的规制范畴,但核心的“作品数据的训练行为”,是否侵权以及侵犯何种版权法上的权利尚未有一致结论。本案中,原告强调大语言模型的正常运行和内容输出,建立在对作品语料的训练基础之上,故大模型训练便构成版权侵权,大模型本身也构成侵权演绎作品。这一主张亦仍有待探讨。除了少数类似于本案“以prompts方式要求概括、总结、翻译特定版权作品”这类特殊内容生成需求之外,绝大多数情况下大模型接收开放式内容生成指令(不限定特定作品、特定作家风格),基本不会输出特定作品甚至说特定作品的片段,也就不构成版权法上的侵权。

关注三:上下游责任需明确。在大模型版权领域,模型研发者对于大模型本身享有相关权利,故承担模型训练涉及的版权责任;而对于大模型输出的内容,从目前行业实践来看,通行做法是通过合同方式,明确权利和责任均属于使用者。2023年7月10日,网信办发布的《生成式人工智能服务管理暂行办法》也明确认可,“提供者应当与使用者签订服务协议,明确双方权利义务。”值得关注的是,从原告诉讼请求看,亦遵循了模型训练和内容输出两个阶段,权利责任二分的思路。原告对于版权直接侵权的主张,聚焦于Open AI模型训练阶段:一是,未经原告授权在模型训练过程中制作了图书的复制品;二是在缺乏原告授权的情况下,大语言模型本身构成侵权演绎作品。原告对于ChatGPT输出内容侵权的指控,仅是主张Open AI构成版权间接侵权(替代侵权)。这也意味着对于大模型输出的内容,是由使用者承担版权直接侵权责任,因为其享有对应的权利。

本文为专栏作者授权微新创想发表,版权归原作者所有。文章系作者个人观点,不代表微新创想立场,转载请联系原作者。如有任何疑问,请联系http://www.idea2003.com/。

最新快讯

2026年02月10日

14:10
微新创想:近日,一名15岁少年凭借超强臂力在网络上迅速走红,被网友赞誉为“现代版李元霸”,其展现出的惊人力量引发了全网的广泛关注和热烈讨论。这段视频迅速成为热门话题,吸引了大量观众的关注和转发。 在一段网络视频中,这位来自辽宁的15岁少年先是在镜头前神色从容,徒手将一个苹果均匀掰成八瓣,动作轻松自然,仿佛在做一件稀松平常之事。随后,他双手握住一根标称80公斤...
14:10
微新创想:当下,年轻一代正以独特的方式重新定义年货的意义,继整顿职场之后,又将“整顿”之风吹向了年货领域。如今的年轻人不再遵循传统的年货购置模式,而是按照自己的喜好和需求来挑选年货,把年货从以往的“人情负担”转变为“自我犒赏”。 以往过年,酒水、牛奶、糖果、瓜子等是年货清单上的常客,人们购置年货更多是为了满足他人的期待、维持人情往来。然而,现在年轻人的消费偏...
14:10
微新创想:今日,游戏科学官方为玩家们送上了一份特别的新年礼物——时长6分钟的《黑神话:钟馗》贺岁实机小短片。在这段短片中,呈现了人和鬼共同烹制菜肴的奇妙场景,给观众带来了别样的视觉体验。视频发布后,游戏科学创始人兼游戏制作人冯骥也在微博上分享了自己的看法。 他幽默地发问:“不知各位看完后,是会心微笑?一头雾水?还是马上分析出一堆细节隐喻、剧情方向或者新的技术...
14:05
微新创想:2月10日,健康AI应用“蚂蚁阿福”正式成为央视CCTV健康生活合作伙伴。这一合作标志着阿福在健康科技领域的影响力进一步扩大,也体现了其在推动全民健康服务方面的积极作用。 作为一款专业的健康AI应用,蚂蚁阿福自上线以来便受到用户的热烈欢迎。其用户数量迅速增长,单日健康咨询解答量突破1000万次,展现了强大的服务能力与用户需求的契合度。 蚂蚁阿福不仅...
14:05
微新创想:大模型落地端侧的“减脂增肌”迎来重大突破 腾讯混元今日正式发布面向消费级硬件的极小模型 HY-1.8B-2Bit。该模型通过首个产业级2Bit量化方案将等效参数量精简至0.3B 内存占用仅约600MB 体积甚至小于部分常用的手机应用 技术突破 2Bit量化的“不可能任务”在模型部署中 量化位数越低 精度损失通常越大 为攻克这一难题 腾讯混元团队放弃...
13:54
微新创想:2026年2月9日,基于Arch Linux的pearOS 26.2正式发布 pearOS 26.2版本带来了诸多令人期待的更新与改进。此次发布不仅延续了pearOS一贯的简洁与高效风格,还在视觉体验与系统功能上实现了全面升级。该版本深度整合了KDE Plasma 6.5.5桌面环境,为用户提供了更加流畅的操作体验 在界面设计方面,pearOS 2...
13:54
微新创想:2026年2月10日12:00,《明日方舟》PC端技术性开放测试正式上线 本次测试为不限量、不删档模式,所有玩家均可参与。游戏官方特别推出PC端版本,支持Windows 10和Windows 11操作系统,满足不同用户的设备需求 测试内容涵盖多平台数据互通功能,确保玩家在不同设备间可以无缝切换并继续游戏进度。同时,PC端优化了键盘和鼠标的操作体验,...
13:54
微新创想:2026年2月10日,阿里巴巴达摩院正式发布具身智能基础模型RynnBrain并开源全系列7个模型,其中包含业界首个30B MoE架构的具身模型。这一突破标志着具身智能领域迈出了重要的一步,为机器人技术的发展提供了更强大的基础支持。 该模型首次赋予机器人时空记忆与物理空间推理能力,使其在复杂环境中具备更强的自主决策和任务执行能力。通过这些创新功能,...
13:54
微新创想:2026年2月上旬,北京礼达慧凡科技有限公司宣布完成天使轮融资。这一重要里程碑标志着公司在高科技领域的发展迈出了坚实一步。 微新创想:公司主营业务聚焦于人工智能、智能装备及工业软件等前沿科技方向,致力于技术研发与工程应用的深度融合。凭借先进的技术理念和创新的解决方案,礼达慧凡科技正在逐步构建起具有竞争力的科技生态体系。 微新创想:本轮融资将主要用于...
13:54
微新创想:2026年2月,迈迪克宣布完成A+轮融资,由泓创资本、松禾资本联合投资。此次融资标志着公司在智慧化医疗器械领域迈出了坚实一步,为后续的技术研发与市场拓展提供了有力支撑。 公司聚焦智慧化医疗器械细分领域,主攻血站、医院及疾控系统。通过持续的技术创新与产品优化,迈迪克已在该领域深耕四年,完成了从试用到升级再到商用的全过程验证。目前,公司已正式进入市场推...
13:54
微新创想:2026年2月9日,珠海锐翔智能科技股份有限公司披露了北交所第二轮审核问询函的回复。公司正计划在北交所上市,其保荐机构为国泰海通。此次问询主要围绕实际控制人陈良华与其兄陈良柱在2010年股权赠予及2017年股权转让的背景与真实性展开。 锐翔智能在回复中解释称,2010年的股权赠予是为了强化市场开拓能力,公司通过赠予方式让渡各10%的股权给陈良柱。此...
13:54
微新创想:2026年2月9日 谷歌向部分媒体开放位于台北的Pixel硬件实验室 其在美国以外规模最大的研发基地 该实验室拥有超50个专业工程实验室 本次开放5个核心实验室 涵盖可靠性 坐压 滚筒 跌落 折叠寿命及音频测试等环节 通过IPX4级喷水 臀部压力模拟 20万次铰链开合 消声室音频调校等严苛测试 确保Pixel设备耐用性与功能稳定性 此举旨在强化全球...