微新创想(idea2003.com) 9月2日讯:人工智能内容检测器Originality.AI最新发布的数据揭示了一个令人关注的现象——全球前1000个网站中近20%已主动阻止爬虫机器人收集网络数据用于AI服务。这一举措的背后,是当前AI领域在版权管理方面的法律与监管空白。从大型企业到中小型网站,纷纷自行采取行动,以保护自身数据资源。
OpenAI于8月初推出的GPTBot爬虫程序,引发了广泛关注。该程序明确表示所收集的数据”可能被用于改进未来模型”,并承诺排除付费内容,同时为网站提供了禁止该爬虫的操作指南。然而,此举并未得到所有网站的认可。知名新闻媒体如《纽约时报》、路透社和CNN纷纷加入阻止GPTBot的行列,许多其他网站也紧随其后。Originality.AI的数据显示,在全球前1000个最受欢迎的网站中,阻止OpenAI ChatGPT bot的比例从8月22日的9.1%攀升至8月29日的12%。其中,亚马逊、Quora和Indeed成为封锁ChatGPT bot的主要平台。数据显示,规模较大的网站更倾向于屏蔽AI爬虫机器人。
Common Crawl Bot是另一个用于收集AI服务所需Web数据的爬虫程序,在全球前1000个顶级网站上的屏蔽率为6.77%。值得注意的是,任何可通过Web浏览器访问的页面都可能被爬虫程序”抓取”。这些爬虫程序类似于浏览器,但将收集到的内容存储在数据库中而非直接展示给用户。这正是搜索引擎如Google收集信息的方式。网站所有者一直拥有发布指令,要求爬虫程序离开其网站的权利,但这一合作完全是自愿性质,恶意操作者可以无视这些指令。
谷歌及其他网络公司认为其数据爬虫工作属于合理使用范围,然而许多出版商和知识产权持有人长期以来一直反对这种做法,并因此面临多起诉讼。随着大型语言模型和生成式AI的兴起,这一争议再次成为焦点。AI公司通过派出自己的爬虫程序收集数据,用于训练模型和提供聊天机器人所需素材。自Google和其他搜索网站将用户引导至其支持广告的网站以来,一些出版商至少认为允许搜索爬虫程序进入其网站具有一定的价值。但在AI时代,出版商更积极地阻止爬虫程序进入其网站,因为暂时看不到将其数据交给AI公司的明显好处。
目前,许多媒体公司正与AI公司就授权其数据进行费用谈判,但这些谈判仍处于早期阶段。一些媒体机构对OpenAI等快速商业化的AI服务持敌意态度,甚至表示”我们不会再上当”。据The Information报道,OpenAI预计在未来一年内将带来超过10亿美元的收入。新闻媒体公司正在努力寻找平衡点,在接受和抵制人工智能之间挣扎。一方面,该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。另一方面,在人们对新闻媒体公司的信任度处于历史低点之际,将人工智能引入新闻编辑室的工作流程,会带来具有挑战性的道德问题。
如果太多的网站阻碍AI爬虫,其所有者可能会发现更难改进和更新他们的人工智能产品,同时优质数据也将变得更加难以获取。Originality.AI的发现显示,前1000个网站中GPTBot的屏蔽率每周增加约5%,这一趋势预示着AI领域在数据获取方面将面临更大的挑战。
