微新创想(Idea2003.com) 7月6日讯 谷歌近日对其隐私政策进行了重要更新,明确确认将利用从互联网上收集的公开数据来训练其人工智能模型及服务,这一举措涉及其知名聊天机器人 Bard 以及具备实时生成查询答案功能的搜索引擎。谷歌隐私政策的 PDF 版本中详细写道:”谷歌致力于利用信息优化服务,并开发能够为用户和公众带来福祉的新产品、功能和技术。具体而言,我们采用公开可获取的信息来辅助训练谷歌的人工智能模型,并构建包括 Google 翻译、Bard 以及 Cloud AI 在内的各类产品与服务。”这一政策修订显著界定了谷歌在人工智能训练领域的操作范围。值得注意的是,此前政策中仅提及”语言模型”并关联 Google 翻译,而现行措辞已升级为涵盖”AI 模型”,明确将 Bard 及其他基于其云平台开发的应用系统纳入监管范畴。
谷歌官方发言人表示,此次隐私政策更新并未从根本上改变其人工智能模型的训练方式。该发言人通过声明强调:”我们的隐私政策始终透明地披露谷歌通过公开网络资源训练 Google 翻译等服务的语言模型。本次更新仅是对 Bard 等新兴服务适用范围的明确说明。在开发人工智能技术过程中,我们始终遵循 AI 原则,将隐私保护理念融入技术设计,确保用户权益得到充分保障。”事实上,人工智能系统的开发长期以来依赖于从互联网、个人相册、数字图书馆、社交网络、源代码库、音乐资源及各类文章中采集训练数据。然而这一过程始终伴随着争议,因为采集内容通常涉及版权保护、使用条款及各类许可证限制,相关诉讼案例屡见不鲜。
部分内容创作者对自身作品被用于构建机器学习系统表示强烈不满,担忧这一行为可能威胁其职业生计。更有甚者,部分 AI 模型的输出结果与原始版权内容存在高度相似性,因其未经修改便直接复制了训练数据。尽管 AI 开发者常以”合理使用”原则辩护,并主张模型输出属于全新创作而非原始数据的简单复制,但这一争议至今未获定论。典型案例包括 Stability AI 因未经授权收集滥用数百万张图片训练文本到图像工具,被 Getty Images 提起诉讼;OpenAI 及其母公司微软也面临多项诉讼指控,涉及其从互联网、图书、文章、网站及帖子中获取”3000 亿字”内容,并从公共代码库提取源代码开发 GitHub Copilot 等协作编程工具。
面对公众对 AI 训练数据的关注,部分互联网企业已开始向开发者收取数据访问费用。例如,Stack Overflow、Reddit 和 Twitter 今年相继推出 API 内容访问收费机制或新规。与此同时,Shutterstock 和 Getty 等图像平台选择将授权内容提供给 AI 模型开发者,并与 Meta、英伟达等科技巨头展开深度合作。值得注意的是,谷歌发言人并未就该公司是否会从受版权保护的数据或社交媒体帖子中获取训练数据这一敏感问题作出明确回应。随着公众对 AI 训练机制认知的深化,数据获取与使用的边界问题正成为行业亟待解决的关键议题。