微新创想(idea2003.com) 9月2日讯:人工智能内容检测器Originality.AI最新发布的数据揭示了一个令人关注的现象——全球前1000个网站中近20%已主动阻止爬虫机器人收集网络数据用于AI服务。这一举措的背后,是当前AI领域在版权管理方面的法律与监管空白。从大型企业到中小型网站,纷纷自行采取行动,以保护自身数据资源。

OpenAI于8月初推出的GPTBot爬虫程序,引发了广泛关注。该程序明确表示所收集的数据”可能被用于改进未来模型”,并承诺排除付费内容,同时为网站提供了禁止该爬虫的操作指南。然而,此举并未得到所有网站的认可。知名新闻媒体如《纽约时报》、路透社和CNN纷纷加入阻止GPTBot的行列,许多其他网站也紧随其后。Originality.AI的数据显示,在全球前1000个最受欢迎的网站中,阻止OpenAI ChatGPT bot的比例从8月22日的9.1%攀升至8月29日的12%。其中,亚马逊、Quora和Indeed成为封锁ChatGPT bot的主要平台。数据显示,规模较大的网站更倾向于屏蔽AI爬虫机器人。

Common Crawl Bot是另一个用于收集AI服务所需Web数据的爬虫程序,在全球前1000个顶级网站上的屏蔽率为6.77%。值得注意的是,任何可通过Web浏览器访问的页面都可能被爬虫程序”抓取”。这些爬虫程序类似于浏览器,但将收集到的内容存储在数据库中而非直接展示给用户。这正是搜索引擎如Google收集信息的方式。网站所有者一直拥有发布指令,要求爬虫程序离开其网站的权利,但这一合作完全是自愿性质,恶意操作者可以无视这些指令。

谷歌及其他网络公司认为其数据爬虫工作属于合理使用范围,然而许多出版商和知识产权持有人长期以来一直反对这种做法,并因此面临多起诉讼。随着大型语言模型和生成式AI的兴起,这一争议再次成为焦点。AI公司通过派出自己的爬虫程序收集数据,用于训练模型和提供聊天机器人所需素材。自Google和其他搜索网站将用户引导至其支持广告的网站以来,一些出版商至少认为允许搜索爬虫程序进入其网站具有一定的价值。但在AI时代,出版商更积极地阻止爬虫程序进入其网站,因为暂时看不到将其数据交给AI公司的明显好处。

目前,许多媒体公司正与AI公司就授权其数据进行费用谈判,但这些谈判仍处于早期阶段。一些媒体机构对OpenAI等快速商业化的AI服务持敌意态度,甚至表示”我们不会再上当”。据The Information报道,OpenAI预计在未来一年内将带来超过10亿美元的收入。新闻媒体公司正在努力寻找平衡点,在接受和抵制人工智能之间挣扎。一方面,该行业迫切需要寻找创新方法来提高劳动密集型业务的利润率。另一方面,在人们对新闻媒体公司的信任度处于历史低点之际,将人工智能引入新闻编辑室的工作流程,会带来具有挑战性的道德问题。

如果太多的网站阻碍AI爬虫,其所有者可能会发现更难改进和更新他们的人工智能产品,同时优质数据也将变得更加难以获取。Originality.AI的发现显示,前1000个网站中GPTBot的屏蔽率每周增加约5%,这一趋势预示着AI领域在数据获取方面将面临更大的挑战。

最新快讯

2026年02月11日

00:13
微新创想:2026年2月10日,吉利银河全新插混SUV M7在意大利米兰正式亮相。该车为银河L7中期改款车型,车身加长60mm,风阻系数优化至0.27cd。采用“飞檐虎视”前脸、“旭日东升”尾灯等东方美学设计,彰显出中国智造的独特魅力。 搭载EM-i插混系统,该车型提供两种电池版本,纯电续航最高可达225km。满油满电综合续航达到1730km,大幅提升了用户...
00:13
微新创想:2026年2月,奥迪在中国市场启动入华以来规模最大的产品攻势,全年将推出8款全新及改款车型。此次布局覆盖燃油、插混、纯电三大动力形式,涵盖Q5L、A6L、A6L e-tron及纯电车型E7X等重点车型。 微新创想:行动旨在应对豪华车市场电动化转型趋势,延续油电并进策略,依托PPC燃油平台与PPE纯电平台,强化本土化智能座舱与驾驶辅助系统适配。 微新...
00:13
微新创想:据Insider Gaming编辑Tom Henderson在2月7日的播客中透露,R星可能在2026年8月初以“无预告突袭”的方式发布《GTA6》第三支预告片。这一举动不仅是为了吸引玩家关注,更旨在配合Take-Two当季的财报电话会议,通过预告片强化投资者对游戏未来的期待。 R星一直以来都以高调且富有创意的营销策略著称。此次选择在财报会议上发布...
00:13
微新创想:2026年2月10日 卡普空《生化危机5》Xbox Series版现身ESRB官网 标注含“内购”内容 暗示为完整重制版 2026年2月10日 卡普空宣布《生化危机5》Xbox Series版已出现在ESRB官网 并标注了“内购”内容 这一举动引发了玩家对游戏版本的猜测 认为可能是完整重制版 虽未列PS5版 但索尼定于2月13日举行State of...

2026年02月10日

23:12
微新创想:2026年2月10日,深圳第零智能科技股份有限公司正式向香港交易所递交上市申请。公司注册地及运营主体位于广东深圳,拟通过首次公开发行股票募集发展资金。本次IPO由民银资本独家保荐。 递表标志着该公司迈出港股上市关键一步,旨在拓展资本市场融资渠道,支持其在智能硬件与AI终端领域的研发及商业化进程。作为一家专注于智能硬件与AI终端技术的企业,第零智能近...
23:12
微新创想:2026年2月10日,摩根大通策略师Dubravko Lakos-Bujas团队指出,市场对AI短期颠覆软件行业的担忧不切实际,软件股正迎来反弹契机 该行认为,近期无差别抛售已导致板块估值处于历史低位,叠加持仓出清、悲观情绪过度及基本面稳健,风险平衡转向上行 建议投资者增配高质量、抗AI颠覆能力强的软件股 此次调整源于市场担忧AI工具冲击传统Saa...
23:12
微新创想:2026年2月10日,谷歌在美国正式推出升级版隐私搜索结果管理功能。这一更新旨在进一步增强用户对个人隐私的控制能力,让用户能够更方便地管理网络上的个人信息。 用户可以通过“关于你的搜索结果”页面,提交驾照、护照号、社安号(SSN)等敏感信息。系统会自动扫描互联网,查找包含这些信息的网页链接,并通知用户。用户可以申请移除对应的搜索结果,从而减少个人信...
22:38
微新创想:2026年2月10日,AOC爱攻正式发布24G4ZR与27G4ZR两款电竞显示器。这两款显示器分别采用了23.8英寸和27英寸的Fast IPS面板,为玩家带来更宽广的视野和更清晰的画质。它们的原生刷新率达到了240Hz,同时支持超频至260Hz,确保在高速游戏场景中流畅无拖影。 两款显示器的分辨率均为1920×1080,满足大多数玩家的日常使用和...
22:38
微新创想:2月6日,全国首单数字人民币智能合约在四川成都建筑行业工资发放场景成功应用。此次应用标志着数字人民币在实际场景中的深度落地,为农民工工资支付提供了全新的解决方案。 由中国人民银行数字货币研究所、四川省住房和城乡建设厅以及成都高新区管委会共同见证,一智科技与交通银行四川分行等机构携手推进,实现了对104名工人的精准薪酬发放,总金额超过100万元。所有...
22:08
微新创想:2025年春运期间,全国铁路运输迎来高峰。自2月2日春运正式启动至2月10日,全国铁路累计发送旅客已突破1亿人次。随着春节临近,返乡客流持续攀升,铁路部门不断加大运力投入以满足出行需求。 2月10日作为北方小年,预计全国铁路将发送旅客1395万人次。为应对客流高峰,铁路部门当天加开列车1363列,全力保障旅客出行。相比前一日,2月9日的发送量为14...
22:08
微新创想:2026年2月10日,苹果公司针对英国竞争与市场管理局(CMA)的反垄断调查,正式宣布了四项承诺。这些承诺旨在回应监管机构对其在应用分发和系统内自我优待行为的质疑,涵盖多个关键领域。首先,苹果承诺确保App Store的审核与排名机制更加公平透明,杜绝任何形式的偏袒。其次,公司将严格保护第三方开发者的数据安全,防止未经授权的数据访问或滥用。此外,苹...
22:08
微新创想:2026年2月10日,挪威国家石油公司宣布,计划在2030年前将国际石油产量提升至90万桶油当量/日。这一战略举措旨在优化全球资产组合,进一步强化公司在海外市场的业务布局。公司表示,此次增产计划将有助于提升其在全球能源市场中的竞争力。 微新创想:尽管公司未公布具体的投资金额以及重点增产区域,但明确指出该计划将兼顾低碳转型的目标。这意味着在扩大石油产...