根据互联网基础设施提供商 Cloudflare 发布的最新研究报告,人工智能初创公司 Perplexity 在抓取网站内容时被指控无视明确的阻止指令。Cloudflare 指出,他们发现 Perplexity 在尝试抓取网页时会隐藏自身身份,以此规避网站的访问偏好设置。图源备注:图片由AI生成,图片授权服务商Midjourney
Perplexity 等人工智能产品通常依赖于从互联网收集海量数据来支持其功能,但这些初创公司长期以来在未获许可的情况下抓取文本、图像和视频。近年来,许多网站通过部署标准的 Robots.txt 文件来应对这一问题,该文件明确指示搜索引擎和AI公司哪些页面可被索引,哪些页面需被禁止。然而,这些措施的实际效果并不理想。Cloudflare 的分析显示,Perplexity 似乎通过修改其机器人的“用户代理”来规避这些限制。所谓“用户代理”,是指用于识别网站访问者设备类型和版本的信息信号。此外,Cloudflare 还观察到 Perplexity 更改了其自治系统网络(ASN),这一数字标识用于识别互联网上的大型网络。通过对数万个域名和数百万个请求的分析,Cloudflare 凭借机器学习和网络信号监测技术成功识别了这一爬虫行为。
Perplexity 发言人 Jesse Dwyer 对 Cloudflare 的指控提出反驳,称其博客文章为“带有商业目的的宣传”。他补充表示,文中截图并未显示实际访问内容。他还进一步声明,Cloudflare 提及的爬虫并非 Perplexity 所属。Cloudflare 表示,他们最初注意到这些问题的原因是客户投诉 Perplexity 仍持续抓取其网站内容,尽管这些网站已通过 Robots 文件明确禁止该爬虫访问。Cloudflare 的深入分析表明,Perplexity 不仅使用了其声明的用户代理,在被阻止时还会伪装成模拟 Google Chrome 的通用浏览器。最终,Cloudflare 决定将 Perplexity 的爬虫从其验证列表中移除,并部署新技术来阻止其抓取活动。
值得注意的是,Cloudflare 近期对人工智能爬虫表达了强烈反对,并推出了一个创新市场,允许网站所有者向访问其网站的AI爬虫收取费用,以此保护网站内容。Cloudflare 首席执行官马修·普林斯曾公开警告,人工智能正在破坏互联网的商业模式,特别是对出版商的盈利模式造成冲击。这并非 Perplexity 首次面临未经授权抓取的指控,去年《连线》杂志等媒体就曾指控 Perplexity 抄袭其原创内容。
划重点:🌐 Cloudflare 指控 Perplexity 在抓取内容时忽视网站的阻止指令
🤖 Perplexity 通过更改用户代理和网络标识试图绕过网站保护措施
📉 Cloudflare 推出市场允许网站向 AI 爬虫收费,以保护网站内容