谷歌OpenAI呼吁修改版权法以获取AI训练数据

2023-08-14 10:17:30 互联网 34 次阅读

随着生成式人工智能技术的迅猛发展，Google 和 OpenAI 等科技巨头正面临日益严峻的版权法挑战，这直接影响了它们通过机器人（如 GoogleBot 和 GPTBot）抓取互联网数据的能力。近年来，ChatGPT 和 Bard 等先进 AI 系统的广泛应用，使得对高质量训练数据的需求呈指数级增长。这些 AI 模型需要海量的文本、图像和视频素材进行深度学习，但与此同时，严格的版权法规正逐渐限制其数据收集的广度和深度。

AI 模型的持续优化离不开人类生成的内容，然而，在数据获取方式上，企业面临着付费采购还是直接从互联网抓取的艰难抉择。OpenAI 在训练 GPT-4 时，虽然强调其学习过程依赖于经批准且公开可用的数据源，但公众对未经授权抓取互联网数据的担忧日益加剧。未来，人类生成的内容可能成为稀缺资源，其市场价值有望大幅提升。

值得注意的是，OpenAI 近期开始利用 ChatGPT 自身生成的数据集来训练 GPT-4，但过度依赖此类数据可能导致模型性能退化。当 AI 模型过度依赖其他模型生成的数据时，其学习过程可能偏离真实数据分布，最终导致准确性下降。此外，未经原作者授权或未署名使用作品的行为，已成为备受争议的焦点。上个月，数千名作家联合签署请愿书，强烈呼吁 AI 公司停止未经许可使用其创作成果。

面对这一困境，OpenAI 和 Google 均将责任转移至出版商，要求其自行决定是否允许生成式 AI 抓取内容。Google 建议建立类似 robots.txt 的社区标准机制，赋予出版商拒绝 AI 抓取其作品的权力。OpenAI 已率先采取行动，通过在网站的 robot.txt 文件中添加 GPTBot 限制，让网站所有者自主选择是否允许该机器人访问。同时，OpenAI 还与美联社达成合作，获取实时新闻数据进行模型训练，并积极探索避免法律纠纷、补偿创作者的可行方案。这一系列举措旨在平衡技术创新与版权保护，为 AI 产业的可持续发展铺平道路。

2026年02月10日

16:14

谷歌OpenAI呼吁修改版权法以获取AI训练数据

最新快讯

2026年02月10日

17年后，它依旧是休闲游戏的顶流

“砖头机”销量激增148%，墨水屏卖出超10亿，用户不爱看屏幕了？

2026年年夜饭新趋势：专业博主拆解硬菜教你轻松复刻传统美味

全球首款5吨级eVTOL“V5000天际龙”完成昆山全流程试飞验证

现代途胜2026中期改款路测曝光隐藏门把手提升科技感

银欣XE420单路服务器专用高性能AIO水冷散热器发布

谷歌Aluminum OS深度整合Gemini助手打造全新系统级体验

淘宝闪购上海试点AI老年助餐提升用餐便利性与数字化体验

宁波警方破获无人机非法破解案 5人提供221次服务获刑

问界M6增程版2026春季发布三款纯电续航版本详解

现代第八代伊兰特2027发布方正设计对标豪华电动车

AYANEO官方回应恶意造谣声明并报警维权