What are AI crawlers and how do they work?

AI crawlers are a type of web crawler (or web scraper) that access, download, and index content from the Internet. They use scraped content to train large language models (LLMs) or contribute to the responses those models generate.

What are the main problems AI crawlers can cause for website owners?

AI crawlers might ignore site policies (like those found in the robots.txt file), steal intellectual property (IP), reduce visitors for original content, degrade site performance, introduce biases, and generate inaccurate information.

What steps can content providers take to limit AI crawlers' access to their sites?

Content providers can implement a multi-tiered strategy, which includes updating their robots.txt file, using meta tags to block crawlers from some parts of a site, distinguishing humans from bots, employing rate limiting, and trapping misbehaving crawlers.

How can content providers differentiate between good and bad web crawlers?

Content providers can use modern bot management solutions to help block malicious bots while allowing beneficial crawlers to access their site. Additionally, they can start by blocking all crawlers by default on a new website.

How does Cloudflare AI Crawl Control help website owners manage AI crawler activity?

Cloudflare AI Crawl Control helps content owners understand crawling patterns, manage crawler activity, and request payment from AI crawler owners.

如何阻止 AI 爬网程序

某些 AI Web 爬网程序会在未经原创内容所有者同意的情况下，从网站抓取内容、训练大型语言模型 (LLM) 并生成 AI 摘要。了解如何阻止此类 AI Web 爬网程序。

学习目标

阅读本文后，您将能够：

了解 AI 爬网程序的工作原理
了解 AI 爬网程序可能造成的问题
确定识别和限制 AI 爬网程序的步骤

如何阻止 AI 爬网程序

Web 爬网程序（也称为 Web 抓取工具）是一种机器人，它会访问、下载或索引源自整个互联网的内容。其中某些机器人由搜索引擎发送，用于索引并分类互联网中的内容。其他则可能是恶意机器人，用于在未经网站所有者许可的情况下，擅自抓取和下载内容。

人工智能 (AI) 爬网程序是一种 Web 爬网程序，它利用抓取的内容来训练大型语言模型 (LLM) 或辅助此类模型生成回复。

AI 爬网程序的工作原理与传统搜索引擎爬网程序的工作原理类似，它们都会索引信息并利用这些信息来回答用户查询。然而，二者的某些功能可能会给网站所有者带来问题。了解这些问题是重新掌控原创内容的第一步。

AI 爬网程序会导致哪些问题？

AI 爬网程序可能会给内容发布者带来一些问题。具体可能包括：

忽略保护内容的网站策略：当 AI 爬网程序发送 HTTP 请求以下载网站内容时，它们应向网站发布公告，然后解析内容、文本、链接、元数据和标记。它们应遵守网站策略、robots.txt 文件协议，以及通用网站指南。然而，许多 AI 爬网程序会直接忽略特定网站的一系列规则和规定，以及无论是否获得许可，都会抓取其能够找到的任何内容。
窃取知识产权 (IP)：AI 爬网程序及其 LLM 可能会在未适当署名的情况下，将原创内容作为 AI 摘要重新发布。爬网程序和 LLM 也可能不加区分地整合源自多个网站的内容，在未正确评估某些观点的准确性或重要性的情况下，过度强调或轻描淡写某些内容。
减少原创内容的访问者：虽然 AI 生成的摘要可能包含原始网站的链接，但如果搜索者可以轻松访问这些 AI 生成的摘要信息，其访问原始网站的几率会降低。因此，网站所有者会面临流量下降和广告收入减少的问题。
引入偏见并生成不准确的信息：AI 爬网程序可能会放大抓取数据中已有的偏见和蓄意的虚假信息，并且在未充分评估这些信息真伪的情况下，展现 AI 生成的摘要。AI 模型也容易产生“幻觉”，即：AI 模型基本上会凭空捏造缺失的信息。
网站性能下降：当机器人反复抓取某个网站时，这可能会降低服务器速度、增加页面加载时间，以及提高带宽成本。

内容提供商可以采取哪些措施来识别和限制 AI 爬网程序？

管理 AI 爬取活动的第一步是更好地了解此类活动的特点并提高其可见性。了解哪些爬网程序正在访问您的网站、访问频率以及它们发送的推荐次数，这将有助于您制定后续策略。

接着，网站所有者可以实施多层策略，以允许某些爬网程序访问，并阻止其他爬网程序。这些策略包括：

更新 robots.txt 文件，限制 AI 爬网程序访问特定内容。但请注意，某些爬网程序可能仍然会忽略该文件及其指令。
使用元标记，阻止 AI 爬网程序使用网站的全部或特定部分内容来训练 LLM。
区分真人与机器人，在不减缓真人用户体验的情况下，限制机器人活动。虽然网站过去一直使用验证码测试来核实用户是否为真人，但采用更先进的技术（例如 Cloudflare Turnstile）不仅可以核实真人用户，而且还可以减轻用户的挫败感。这是限制那些忽略 robots.txt 文件指令的 AI 爬网程序的绝佳方法。
区分善意机器人与恶意机器人，以便继续受益于善意机器人。现代化机器人管理解决方案有助于阻止恶意机器人，同时允许其他善意机器人访问网站。
利用 Web 应用防火墙 (WAF) 解决方案实施速率限制，阻止或减缓 AI 爬网程序过度尝试访问特定内容。
部署 WAF，排除某些已知的 AI 爬网程序 IP 地址，从而阻止它们访问网站。
使用 Cloudflare AI 迷宫等工具捕获行为不当的爬网程序，此类工具会向已被识别为忽略网站 robots.txt 文件的 AI 机器人提供大量无意义的内容和错综复杂的链接。
默认阻止爬网程序，以便重新开始。在推出新网站时，可以选择首先阻止所有爬网程序。然后，部署一些安全功能，以便识别爬网程序、监测其行为并选择允许哪些爬网程序爬取网站内容，并设置一些限制。

Cloudflare 如何帮助防范 AI 爬网程序？

Cloudflare AI Crawl Control 可以帮助网页内容所有者重新掌控 AI 爬网程序。Cloudflare 为全球大约 20% Web 资产提供服务，因此，能够深入了解各种爬网程序活动。这种可见性让内容所有者能够使用 AI Crawl Control 来：

了解 Web 资产中 AI 爬网程序的爬取模式，可以按爬网程序、按域名，或按页面进行分析
通过阻止或允许规则，管理爬网程序活动
通过可自定义的 HTTP 402 响应或 Cloudflare 构建的按抓取付费系统，要求 AI 爬网程序按抓取付费

单击此处，开始免费试用。

常见问题解答

AI 爬网程序的定义及其工作原理是什么？

AI 爬网程序是一种 Web 爬网程序（或 Web 抓取工具），它会访问、下载和索引源自互联网的内容。它会利用抓取的内容来训练大型语言模型 (LLM)，或辅助此类模型生成回复。

AI 爬网程序可能会给网站所有者造成哪些主要问题？

AI 爬网程序可能会忽略网站策略（例如 robots.txt 文件中的策略），窃取知识产权 (IP)，减少原创内容的访问者，降低网站性能，引入偏见并生成不准确的信息。

内容提供商可以采取哪些措施来限制 AI 爬网程序访问其网站？

内容提供商可以实施多层策略，其中包括：更新 robots.txt 文件、使用元标记来阻止爬网程序访问网站特定部分的内容、区分真人与机器人、实施速率限制，以及捕获行为不当的爬网程序。

内容提供商如何区分善意与恶意 Web 爬网程序？

内容提供商可以利用现代化机器人管理解决方案，帮助阻止恶意机器人，同时允许善意爬网程序访问其网站。此外，他们也可以在推出新网站时，默认阻止所有爬网程序。

Cloudflare AI Crawl Control 如何帮助网站所有者管理 AI 爬网程序活动？

Cloudflare AI Crawl Control 可以帮助内容所有者了解爬取模式、管理爬网程序活动，并要求 AI 爬网程序所有者按抓取付费。

入门指南

人工智能

机器学习

大数据

学习中心