如何阻止 AI 爬网程序

某些 AI Web 爬网程序会在未经原创内容所有者同意的情况下,从网站抓取内容、训练大型语言模型 (LLM) 并生成 AI 摘要。了解如何阻止此类 AI Web 爬网程序。

学习目标

阅读本文后,您将能够:

  • 了解 AI 爬网程序的工作原理
  • 了解 AI 爬网程序可能造成的问题
  • 确定识别和限制 AI 爬网程序的步骤

复制文章链接

如何阻止 AI 爬网程序

Web 爬网程序(也称为 Web 抓取工具)是一种机器人,它会访问、下载,和/或索引源自整个互联网的内容。其中某些机器人由搜索引擎发送,用于索引并分类互联网中的内容。其他则可能是恶意机器人,用于在未经网站所有者许可的情况下,擅自抓取和下载内容。

人工智能 (AI) 爬网程序是一种 Web 爬网程序,它利用抓取的内容来训练大型语言模型 (LLM) 或辅助此类模型生成回复。

AI 爬网程序的工作原理与传统搜索引擎爬网程序的工作原理类似,它们都会索引信息并利用这些信息来回答用户查询。然而,二者的某些功能可能会给网站所有者带来问题。了解这些问题是重新掌控原创内容的第一步。

AI 爬网程序会导致哪些问题?

AI 爬网程序可能会给内容发布者带来一些问题。具体可能包括:

     
  • 忽略保护内容的网站策略:当 AI 爬网程序发送 HTTP 请求以下载网站内容时,它们应向网站发布公告,然后解析内容、文本、链接、元数据和标记。它们应遵守网站策略、robots.txt 文件协议,以及通用网站指南。然而,许多 AI 爬网程序会直接忽略特定网站的一系列规则和规定,以及无论是否获得许可,都会抓取其能够找到的任何内容。
  •  
  • 窃取知识产权 (IP):AI 爬网程序及其 LLM 可能会在未适当署名的情况下,将原创内容作为 AI 摘要重新发布。爬网程序和 LLM 也可能不加区分地整合源自多个网站的内容,在未正确评估某些观点的准确性或重要性的情况下,过度强调或轻描淡写某些内容。
  •  
  • 减少原创内容的访问者:虽然 AI 生成的摘要可能包含原始网站的链接,但如果搜索者可以轻松访问这些 AI 生成的摘要信息,其访问原始网站的几率会降低。因此,网站所有者会面临流量下降和广告收入减少的问题。
  •  
  • 引入偏见并生成不准确的信息:AI 爬网程序可能会放大抓取数据中已有的偏见和蓄意的虚假信息,并且在未充分评估这些信息真伪的情况下,展现 AI 生成的摘要。AI 模型也容易产生“幻觉”,即:AI 模型基本上会凭空捏造缺失的信息。
  •  
  • 网站性能下降当机器人反复抓取某个网站时,这可能会降低服务器速度、增加页面加载时间,以及提高带宽成本。

内容提供商可以采取哪些措施来识别和限制 AI 爬网程序?

管理 AI 爬取活动的第一步是更好地了解此类活动的特点并提高其可见性。了解哪些爬网程序正在访问您的网站、访问频率以及它们发送的推荐次数,这将有助于您制定后续策略。

接着,网站所有者可以实施多层策略,以允许某些爬网程序访问,并阻止其他爬网程序。这些策略包括:

     
  • 更新 robots.txt 文件,限制 AI 爬网程序访问特定内容。但请注意,某些爬网程序可能仍然会忽略该文件及其指令。
  •  
  • 使用元标记,阻止 AI 爬网程序使用网站的全部或特定部分内容来训练 LLM。
  •  
  • 区分真人与机器人,在不减缓真人用户体验的情况下,限制机器人活动。虽然网站过去一直使用验证码测试来核实用户是否为真人,但采用更先进的技术(例如 Cloudflare Turnstile)不仅可以核实真人用户,而且还可以减轻用户的挫败感。这是限制那些忽略 robots.txt 文件指令的 AI 爬网程序的绝佳方法。
  •  
  • 区分善意机器人与恶意机器人,以便继续受益于善意机器人。现代化机器人管理解决方案有助于阻止恶意机器人,同时允许其他善意机器人访问网站。
  •  
  • 利用 Web 应用防火墙 (WAF) 解决方案实施速率限制,阻止或减缓 AI 爬网程序过度尝试访问特定内容。
  •  
  • 部署 WAF,排除某些已知的 AI 爬网程序 IP 地址,从而阻止它们访问网站。
  •  
  • 使用 Cloudflare AI 迷宫等工具捕获行为不当的爬网程序,此类工具会向已被识别为忽略网站 robots.txt 文件的 AI 机器人提供大量无意义的内容和错综复杂的链接。
  •  
  • 默认阻止爬网程序,以便重新开始。在推出新网站时,可以选择首先阻止所有爬网程序。然后,部署一些安全功能,以便识别爬网程序、监测其行为并选择允许哪些爬网程序爬取网站内容,并设置一些限制。

Cloudflare 如何帮助防范 AI 爬网程序?

Cloudflare AI Crawl Control 可以帮助网站内容所有者重新掌控 AI 爬网程序。Cloudflare 保护着全球大约 20% 的 Web 资产,因此,能够深入了解各种爬网程序活动。这种可见性让内容所有者能够使用 AI Crawl Control 来:

     
  • 了解 Web 资产中 AI 爬网程序的爬取模式,可以按爬网程序、按域名,或按页面进行分析
  • 通过阻止或允许规则,管理爬网程序活动
  • 通过可自定义的 HTTP 402 响应或 Cloudflare 构建的按抓取付费系统,要求 AI 爬网程序按抓取付费

单击此处,开始免费试用

常见问题解答

AI 爬网程序的定义及其工作原理是什么?

AI 爬网程序是一种 Web 爬网程序(或 Web 抓取工具),它会访问、下载和索引源自互联网的内容。它会利用抓取的内容来训练大型语言模型 (LLM),或辅助此类模型生成回复。

AI 爬网程序可能会给网站所有者造成哪些主要问题?

AI 爬网程序可能会忽略网站策略(例如 robots.txt 文件中的策略),窃取知识产权 (IP),减少原创内容的访问者,降低网站性能,引入偏见并生成不准确的信息。

内容提供商可以采取哪些措施来限制 AI 爬网程序访问其网站?

内容提供商可以实施多层策略,其中包括:更新 robots.txt 文件、使用元标记来阻止爬网程序访问网站特定部分的内容、区分真人与机器人、实施速率限制,以及捕获行为不当的爬网程序。

内容提供商如何区分善意与恶意 Web 爬网程序?

内容提供商可以利用现代化机器人管理解决方案,帮助阻止恶意机器人,同时允许善意爬网程序访问其网站。此外,他们也可以在推出新网站时,默认阻止所有爬网程序。

Cloudflare AI Crawl Control 如何帮助网站所有者管理 AI 爬网程序活动?

Cloudflare AI Crawl Control 可以帮助内容所有者了解爬取模式、管理爬网程序活动,并要求 AI 爬网程序所有者按抓取付费。