全球近20%网站阻止OpenAI爬虫访问内容

2023-09-05 08:22:37 互联网 83 次阅读

微新创想(idea2003.com) 9月2日讯：人工智能内容检测器Originality.AI最新发布的数据揭示了一个令人关注的现象——全球前1000个网站中近20%已主动阻止爬虫机器人收集网络数据用于AI服务。这一举措的背后，是当前AI领域在版权管理方面的法律与监管空白。从大型企业到中小型网站，纷纷自行采取行动，以保护自身数据资源。

OpenAI于8月初推出的GPTBot爬虫程序，引发了广泛关注。该程序明确表示所收集的数据”可能被用于改进未来模型”，并承诺排除付费内容，同时为网站提供了禁止该爬虫的操作指南。然而，此举并未得到所有网站的认可。知名新闻媒体如《纽约时报》、路透社和CNN纷纷加入阻止GPTBot的行列，许多其他网站也紧随其后。Originality.AI的数据显示，在全球前1000个最受欢迎的网站中，阻止OpenAI ChatGPT bot的比例从8月22日的9.1%攀升至8月29日的12%。其中，亚马逊、Quora和Indeed成为封锁ChatGPT bot的主要平台。数据显示，规模较大的网站更倾向于屏蔽AI爬虫机器人。

Common Crawl Bot是另一个用于收集AI服务所需Web数据的爬虫程序，在全球前1000个顶级网站上的屏蔽率为6.77%。值得注意的是，任何可通过Web浏览器访问的页面都可能被爬虫程序”抓取”。这些爬虫程序类似于浏览器，但将收集到的内容存储在数据库中而非直接展示给用户。这正是搜索引擎如Google收集信息的方式。网站所有者一直拥有发布指令，要求爬虫程序离开其网站的权利，但这一合作完全是自愿性质，恶意操作者可以无视这些指令。

谷歌及其他网络公司认为其数据爬虫工作属于合理使用范围，然而许多出版商和知识产权持有人长期以来一直反对这种做法，并因此面临多起诉讼。随着大型语言模型和生成式AI的兴起，这一争议再次成为焦点。AI公司通过派出自己的爬虫程序收集数据，用于训练模型和提供聊天机器人所需素材。自Google和其他搜索网站将用户引导至其支持广告的网站以来，一些出版商至少认为允许搜索爬虫程序进入其网站具有一定的价值。但在AI时代，出版商更积极地阻止爬虫程序进入其网站，因为暂时看不到将其数据交给AI公司的明显好处。

目前，许多媒体公司正与AI公司就授权其数据进行费用谈判，但这些谈判仍处于早期阶段。一些媒体机构对OpenAI等快速商业化的AI服务持敌意态度，甚至表示”我们不会再上当”。据The Information报道，OpenAI预计在未来一年内将带来超过10亿美元的收入。新闻媒体公司正在努力寻找平衡点，在接受和抵制人工智能之间挣扎。一方面，该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。另一方面，在人们对新闻媒体公司的信任度处于历史低点之际，将人工智能引入新闻编辑室的工作流程，会带来具有挑战性的道德问题。

如果太多的网站阻碍AI爬虫，其所有者可能会发现更难改进和更新他们的人工智能产品，同时优质数据也将变得更加难以获取。Originality.AI的发现显示，前1000个网站中GPTBot的屏蔽率每周增加约5%，这一趋势预示着AI领域在数据获取方面将面临更大的挑战。

2025年12月15日

18:05

全球近20%网站阻止OpenAI爬虫访问内容

最新快讯

2025年12月15日

四通云酷发布全球首台RTX5090浸没式智算整机方案

福建水泥子公司获深海基建水泥生产许可

smart全新纯电微型车路测曝光延续经典基因

奇瑞机器人墨茵迪拜残运会首次担纲颁奖中国具身智能技术闪耀国际舞台

晶科科技1700万设储能基金巩固能源服务布局

大族激光子公司上海富创得终止创业板上市辅导

复星医药产业14.12亿控股绿谷医药加强创新药合作

南都电源控股股东控制权变更筹划中股票停牌引关注

中航光电产品成功配套主流火箭型号助力航天事业发展

上海艾录与南方路机达成干混砂浆战略合作共推纸袋出海

粤车南下香港12月23日启程首批车主预约通道开启

广汽高域发布三款飞行汽车 GOVY AirCar AirCab AirJet 首款量产级AirCab将量产交付