
随着人工智能(AI)技术的飞速发展,版权问题日益凸显,成为制约行业健康发展的关键瓶颈。近期,Anthropic 与版权方达成高达15亿美元的和解协议,更是将这一议题推向了风口浪尖。这一事件不仅引发了业界对数据合法性的深刻反思,也催生了多起未授权数据使用的诉讼案件。据统计,目前已有超过40起相关诉讼正在审理中,其中不乏Midjourney因制作超人形象而被起诉的典型案例。在缺乏有效授权体系的情况下,AI企业若继续忽视版权问题,将面临大规模诉讼的巨大风险,整个行业的前景也因此蒙上了一层阴影。
面对这一严峻挑战,一群技术专家和网络出版商共同研发出了一套名为Real Simple Licensing(RSL)的创新授权系统。该系统致力于解决AI行业大规模数据授权的难题,旨在为训练数据的合法使用提供标准化解决方案。目前,Reddit、Quora和Yahoo等大型网络出版商已率先对该系统表示支持,但能否吸引更多主流AI实验室参与,仍是业界关注的焦点。RSL联合创始人Eckart Walther强调,他们的目标是为互联网构建一个广泛适用的训练数据授权框架。他指出:”我们需要为互联网提供机器可读的许可协议,而RSL正是实现这一愿景的关键工具。”
回顾过去,数据提供者联盟等组织长期致力于推动数据采集的规范化实践,但RSL却开创性地将技术与法律基础设施相结合,为行业提供了切实可行的解决方案。从技术层面来看,RSL协议详细规定了出版商可为其内容设定的许可条款,包括AI公司是否需要定制授权或采用知识共享(Creative Commons)协议等选项。参与网页将通过在”robots.txt”文件中嵌入条款信息,实现数据保护范围的透明化展示。在法律层面,RSL团队创立了RSL Collective集体许可组织,仿照音乐行业的ASCAP或电影行业的MPLC模式,为出版商谈判许可条款并收取版税。目前,Yahoo、Reddit和Medium等知名出版商已纷纷加入该集体。

然而,在实际操作中仍面临诸多挑战。如何准确追踪AI模型具体使用了哪些训练数据,是计算版税的核心难题。对于谷歌AI搜索摘要这类实时获取网络数据的产品,数据使用追踪相对容易实现,但若训练过程缺乏记录,确认特定文档是否被某大型语言模型(LLM)使用将变得异常困难。尽管如此,RSL创始团队对行业前景仍持乐观态度。另一位联合创始人Doug Leeds表示:”AI公司在之前的授权协议中已展现出数据使用报告能力,因此解决这一难题并非不可能。只要系统足够完善,就能确保各方获得应有的回报。”
RSL的未来成功,最终取决于AI企业是否愿意接纳这一新体系。随着越来越多的行业领袖呼吁建立标准化授权机制,RSL团队正期待着AI企业能够信守承诺,共同推动行业健康发展。这一创新举措若能获得广泛支持,不仅将有效缓解当前的版权纠纷,更为AI行业的可持续发展奠定了坚实基础。
