Reddit 在纽约联邦法院正式对 Perplexity AI 及三家合作实体提起诉讼,指控其通过大规模非法抓取手段,未经许可复制数百万用户评论用于商业目的。这场诉讼不仅揭示了 AI 产业数据获取的灰色地带,更凸显了内容平台与科技巨头之间日益紧张的数据权益冲突。
Reddit 在诉讼中详细揭露了被告的侵权行为:总部位于旧金山的 Perplexity AI、立陶宛数据抓取公司 Oxylabs UAB、疑似源自”前俄罗斯僵尸网络”的 AWMProxy,以及德州搜索服务商 SerpApi,这些公司通过绕过防护机制,从谷歌搜索结果中抓取 Reddit 内容,并利用代理工具隐藏真实身份。Reddit 首席法律官 Ben Lee 在声明中形象地比喻道:”这些公司如同银行劫匪,闯入装甲卡车大肆盗窃数据。”他强调 Reddit 成为诉讼目标的关键原因——作为全球最大、最活跃的人类对话集合,其数据价值无可替代。Lee 进一步指出,Perplexity AI 明知数据来源非法,仍选择购买而非通过正规授权途径获取。
面对诉讼,Perplexity AI 发表回应称尚未收到正式起诉,但强调将”积极捍卫公众获取知识的权利”,并重申公司始终负责任地使用人工智能技术。SerpApi 与 Oxylabs 均公开否认所有指控,表示将积极应诉,其中 Oxylabs 特别强调”公共数据不应被垄断或高价出售”。目前,AWMProxy 尚未对诉讼做出回应。
这起诉讼是继 Reddit 6月起诉 Anthropic 后的又一重要案件。值得注意的是,Reddit 与 Google、OpenAI 等公司已达成授权协议,允许后者付费使用其内容进行 AI 模型训练。这一系列法律行动预示着生成式 AI 数据合规或将迎来关键转折点,未来 AI 公司在训练数据来源与版权授权方面将面临更严格的监管审查。业内专家指出,此案可能为整个行业树立数据获取的标杆,推动形成更规范的数据交易秩序。