微新创想(idea2003.com) 8月15日讯:据权威媒体Adweek最新披露,纽约时报于本月初对其服务条款进行了重大修订,明确禁止将旗下所有文章及图片用于人工智能模型的训练工作。这一举措正值科技企业通过ChatGPT、Google Bard等AI语言应用大规模未经授权抓取数据的现象愈演愈烈之际。
新修订的服务条款中,纽约时报在第2.1节明确规定,其内容仅限于读者个人非商业用途,而”开发任何软件程序,包括但不限于训练机器学习或人工智能系统”则被排除在此范畴之外。在第4.1节中,条款进一步强调,任何未经事先书面许可,不得将时报内容用于开发任何软件程序,尤其是用于训练机器学习或人工智能系统。若违反相关规定,纽约时报将保留采取民事、刑事及行政处罚的权利,包括但不限于罚款或制裁协助用户的人员。
值得注意的是,尽管这一限制性条款看似严厉,但此前互联网内容被转化为机器学习数据集的现象已屡见不鲜。当前所有主流大型语言模型,包括OpenAI的GPT-4、Anthropic的Claude 2、Meta的Llama 2以及Google的PaLM 2,均基于从互联网抓取的大量材料进行训练。通过无监督学习这一技术手段,将网络数据输入神经网络,AI模型通过分析单词间的关系来理解语言概念。
使用抓取数据训练AI模型的争议在美国司法界尚未得到最终裁决,目前已引发至少一起指控OpenAI剽窃的诉讼。上周,美联社联合多家新闻机构发表公开信,呼吁”必须制定法律框架来保护驱动AI应用的内容”,并表达了其他相关关切。
面对潜在的法律挑战,OpenAI可能已开始积极应对。近期该公司宣布,网站运营商现可阻止其GPTBot网络爬虫抓取网站内容。这一举措导致部分网站及作者公开表示将采取行动阻止该爬虫。与此同时,微软也在其条款和条件中新增限制,禁止用户使用其AI产品”创建、训练或改进任何其他人工智能服务”,并禁止从其AI工具中抓取或以其他方式提取数据。
值得注意的是,目前纽约时报的内容已作为GPT-4训练的一部分被抓取。未来我们或许要等到GPT-5的问世,才能看到OpenAI或其他AI供应商是否真正尊重内容所有者排除在外的意愿。若情况未得到改善,新的AI诉讼或相关法规的出台或将不可避免。