近日 Cloudflare 发布了一份令人关注的报告揭露了人工智能搜索初创公司 Perplexity 在网络爬虫访问限制方面存在违规行为。根据 Cloudflare 揭示的信息 Perplexity 爬虫在遭遇网站设置的限制时会采取隐蔽身份的方式试图绕过这些障碍这些限制包括 robots.txt 文件中声明的规则以及 Web 应用程序防火墙(WAF)的设置。这一指控进一步引发了外界对 Perplexity 是否在未经授权的情况下获取内容的担忧。
此前 Perplexity 曾因强行突破付费墙以及无视 robots.txt 文件等行为遭到批评。当时 Perplexity 首席执行官 Aravind Srinivas 将责任归咎于第三方爬虫。为了验证客户的投诉 Cloudflare 设置了一个具有类似访问限制的新域名进行测试。测试结果显示 Perplexity 爬虫(最初名为“PerplexityBot”或“Perplexity-User”)在遭到阻断后会立即更改用户代理伪装成“在 macOS 上运行的 Google Chrome”。
Cloudflare 指出这种“未声明的爬虫”还采用了轮换 IP 地址和改变自治系统网络(ASN)等手段来逃避封锁。据 Cloudflare 观察 Perplexity 的规避行为涉及“数万个域名和每天数百万个请求”。面对 Cloudflare 的指控 Perplexity 发言人 Jesse Dwyer 在一份声明中称 Cloudflare 的报告是“炒作”并表示其中存在“很多误解”。
尽管 Perplexity 对 Cloudflare 的指控提出异议 Cloudflare 还是决定将 Perplexity 从其已验证机器人名单中移除。同时 Cloudflare 还发布了针对 Perplexity “隐形爬行”的阻止方法。这一事件不仅凸显了人工智能搜索领域在数据获取方面的伦理问题也提醒网站运营者需要更加重视爬虫访问控制以保护自身内容安全。随着人工智能技术的快速发展如何平衡数据利用与隐私保护将成为行业持续探讨的重要议题。