随着生成式人工智能技术的迅猛发展,Google 和 OpenAI 等科技巨头正面临日益严峻的版权法挑战,这直接影响了它们通过机器人(如 GoogleBot 和 GPTBot)抓取互联网数据的能力。近年来,ChatGPT 和 Bard 等先进 AI 系统的广泛应用,使得对高质量训练数据的需求呈指数级增长。这些 AI 模型需要海量的文本、图像和视频素材进行深度学习,但与此同时,严格的版权法规正逐渐限制其数据收集的广度和深度。
AI 模型的持续优化离不开人类生成的内容,然而,在数据获取方式上,企业面临着付费采购还是直接从互联网抓取的艰难抉择。OpenAI 在训练 GPT-4 时,虽然强调其学习过程依赖于经批准且公开可用的数据源,但公众对未经授权抓取互联网数据的担忧日益加剧。未来,人类生成的内容可能成为稀缺资源,其市场价值有望大幅提升。
值得注意的是,OpenAI 近期开始利用 ChatGPT 自身生成的数据集来训练 GPT-4,但过度依赖此类数据可能导致模型性能退化。当 AI 模型过度依赖其他模型生成的数据时,其学习过程可能偏离真实数据分布,最终导致准确性下降。此外,未经原作者授权或未署名使用作品的行为,已成为备受争议的焦点。上个月,数千名作家联合签署请愿书,强烈呼吁 AI 公司停止未经许可使用其创作成果。
面对这一困境,OpenAI 和 Google 均将责任转移至出版商,要求其自行决定是否允许生成式 AI 抓取内容。Google 建议建立类似 robots.txt 的社区标准机制,赋予出版商拒绝 AI 抓取其作品的权力。OpenAI 已率先采取行动,通过在网站的 robot.txt 文件中添加 GPTBot 限制,让网站所有者自主选择是否允许该机器人访问。同时,OpenAI 还与美联社达成合作,获取实时新闻数据进行模型训练,并积极探索避免法律纠纷、补偿创作者的可行方案。这一系列举措旨在平衡技术创新与版权保护,为 AI 产业的可持续发展铺平道路。