如何检测 AI 爬虫

如果一个网站发现异常活动,可能是因为 AI 爬虫机器人所致。查看网站日志文件可以帮助确定哪些 AI 机器人正在爬取网站。

学习目标

阅读本文后,您将能够:

  • 描述 AI 机器人为什么会爬取网站
  • 了解如何通过用户代理字符串在日志文件中识别机器人和 AI 爬虫
  • 列出主要的 AI 爬虫机器人及其功能

复制文章链接

如何检测 AI 爬虫

机器人在网站页面访问者中占了相当大比例。访问网站的机器人有多种用途,但如今尤其常见的是 AI 爬虫机器人。此类机器人专注于发现 Web 内容,用于训练 AI 模型。AI 机器人还可以帮助 AI 助手检索并展示网页,以回答用户查询。由于大量的机器人流量可能会占用网站资源,网站管理员需要确保能够在日志中识别 AI 爬虫,并在爬虫访问过于频繁时采取措施降低其影响。

经过验证的 AI 爬虫活动可以通过网站日志以及日志分析工具进行监控(因为手动分析数百万条日志几乎不可能实现)。管理员可在日志中搜索请求内容的实体所对应的用户代理字符串,并获得对来自 AI 爬虫的请求数量的可见性。

AI 爬虫机器人有什么作用?

AI 爬虫是一种机器人程序,通过“爬取”或请求网页来探索公网内容,并利用超链接进行深入浏览。爬虫机器人绝非仅此一种:几十年来,搜索引擎爬虫机器人一直在对 Web 内容进行扫描并建立索引,以便在搜索结果中提供给用户。

但 AI 爬虫与搜索引擎爬虫的区别之一在于,AI 爬虫极少会将人类用户流量导向其爬取的页面。相反,此类爬虫会将爬取的页面内容用于训练 AI 模型,后者可直接响应用户查询,用户无需离开 AI 应用或访问相关网站。

因此,Web 服务器可能会处理大量 AI 相关请求,却出现人类访问量下滑的情况;而搜索引擎爬虫发现网页内容后,会为承载该内容的页面引流,二者形成鲜明对比。遇到这种情况的网站可能想要限制或阻止 AI 爬虫机器人,以防其资源白白浪费。相反,一些网站管理员可能希望确保 AI 爬虫可以爬取他们的网站,以便网站内容显示在 AI 概览中。无论哪种方式,识别和管理 AI 爬虫机器人流量对大多数网站来说都是至关重要的。

如何通过用户代理字符串跟踪 AI 爬虫活动

所有访问网络的主体,在其发送的 HTTP 请求中都会附带一条 User-agent 字符串(它与您的 IP 地址相互独立)。对于人类而言,用户代理字符串由浏览器生成,通常表示设备类型和浏览器类型,例如:

  • Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, 如Gecko) Chrome/143.0.0.0 Safari/537.36

机器人不一定使用浏览器或特定的消费者设备,并且大多数爬虫机器人都有简单、定义明确的用户代理字符串,例如:

  • Googlebot

在日志中搜索与已知机器人相关的用户代理字符串,以查看哪些爬虫正在访问某个网站,请求了多少页面,爬取频率等。

最常见的 AI 爬虫 ,以及在任何给定时间最有可能爬取某个站点的爬虫,包括:

  • Meta-ExternalAgent
  • GPTBot (来自 OpenAI)
  • GoogleOther
  • Amazonbot
  • PetalBot (来自华为)

以下提供了这些 AI 爬虫及其用户代理字符串的更完整列表,或者在不断更新、免费提供的 Cloudflare Radar 报告中查看。

哪些 AI 机器人正在爬取您的网站?

AI 机器人可以来自运营 AI 模型的企业组织,也可以来自AI 智能体或其他 AI 产品。一些机器人正在寻找模型的训练数据;另一些则用于获取可用于实时响应用户查询的信息。

以下机器人均经过验证,并具有公共文档。

常见 AI 网络爬虫列表

Meta-ExternalAgent

该机器人来自 Meta(主要以运营 Facebook 和 Instagram 而闻名)。Meta-ExternalAgent 会爬取 Web,以查找用于训练 AI 模型的内容。截至 2026 年,该机器人在所有网络机器人中发送的请求数量位居第二(仅次于搜索爬虫 Googlebot)。

日志文件中的 User-agent 字符串:

  • meta-externalagent/1.1 (+https://developers.facebook.com/docs/sharing/webmasters/crawler)
  • meta-externalagent/1.1

GPTBot

GPTBot 爬虫从 OpenAI 中找到可用于训练 AI 模型的内容,包括广泛使用的 ChatGPT 模型。GPTBot 发送的请求数位居第三,仅次于 Meta-ExternalAgent。(别忘了查看 Cloudflare Radar 上的实时排名。)

日志文件中的 User-agent 字符串:

  • GPTBot

OAI-SearchBot

OAI-SearchBot 同样来自 OpenAI,用于查找可在 ChatGPT 搜索结果中引用的网站。

日志文件中的 User-agent 字符串:

  • Mozilla/5.0 AppleWebKit/537.36 (KHTML, like Gecko); compatible; OAI-SearchBot/1.0;+https://openai.com/searchbot

GoogleOther

这款来自 Google 的爬虫机器人,不同于 Google 用于搜索的爬虫(GoogleBot)。它有很多用途,不仅仅是 AI 模型训练。Google 已提醒不要屏蔽 GoogleOther,因为该爬虫用于寻找在 Google 生态系统多种服务中使用的 Web 内容。

日志文件中的 User-agent 字符串:

  • GoogleOther

Amazonbot

该爬虫来自 Amazon,帮助 Amazon 训练生成式 AI 模型,以及将其爬取的内容用于其他用途。

日志文件中的 User-agent 字符串:

  • Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_1) AppleWebKit/600.2.5 (KHTML, like Gecko) Version/8.0.2 Safari/600.2.5 (Amazonbot/0.1)

PetalBot

PetalBot 来自设备制造商华为,它为华为的搜索引擎 Petal 和华为的其他服务(包括 AI 搜索)爬取 Web 内容。

日志文件中的 User-agent 字符串:

  • Mozilla/5.0 (Linux; Android 7.0;) AppleWebKit/537.36 (KHTML, like Gecko) Mobile Safari/537.36 (compatible; PetalBot;+https://webmaster.petalsearch.com/site/petalbot)
  • Mozilla/5.0 (compatible;PetalBot;+https://webmaster.petalsearch.com/site/petalbot)

Applebot

Applebot 是由 Apple 运营的爬虫,为 Apple 生态内的多项服务提供支持,包括 Spotlight、Siri 和 Safari 中的搜索功能。Applebot 还提供用于训练生成式 AI 模型的内容,这些模型为 Apple 情报、服务和开发人员工具等服务提供支持。

日志文件中的 User-agent 字符串:

  • (Applebot/0.1; +http://www.apple.com/go/applebot)

DuckAssistbot

根据搜索引擎提供商 DuckDuckGo 的说法,DuckAssistbot 是“DuckDuckGo Search 的一款 Web 爬虫,它可以实时爬取页面以获取 AI 辅助答案……这些数据不会以任何方式用于训练 AI 模型。”

日志文件中的 User-agent 字符串:

  • DuckAssistBot/1.1; (+http://duckduckgo.com/duckassistbot.html)

其他爬虫和 AI 助手包括 MistralAI-User、Manus 机器人、Devin 和 Qualified 机器人。

Cloudflare Radar 将这些及其他 AI 机器人分为 AI 爬虫、AI 助手和 AI 搜索。若要查看所有已验证的 AI 机器人,请按类别对 Cloudflare Radar 列表进行排序。

如何阻止机器人和 AI 爬虫

Robots.txt 规则用于告知爬虫可访问与不可访问哪些部分,抑或完全不允许访问。Robots.txt 不具有约束力——遵循它更像是一种礼节。但是,大多数信誉良好的机器人会遵循 robots.txt 规则。通过设置 robots.txt 规则,告诉遵循这些规则的 AI 爬虫机器人,不要抓取网站的部分或全部内容。

例如,robots.txt 文件可能包含以下指令:

User-Agent: Example.com-Bot
Disallow: /

这告诉 Example.com-Bot (非真实爬虫机器人,仅为示例),站点管理员不希望它爬取网站的任何部分。

手动创建这些 robots.txt 规则会耗费时间。为了实现更轻松的 AI 爬虫机器人流量管理,Cloudflare 提供 AI Crawl Control

AI Crawl Control 让网站管理员可以阻止或允许特定的 AI 爬虫,阻止所有 AI 爬虫,甚至就抓取行为向特定爬虫收费。

那未经验证的 AI 爬虫机器人该如何处理?

并非所有机器人都会遵循 robots.txt 或尊重网站管理员的意愿。一些爬虫机器人甚至会伪装自身行为,从而在不被拦截的情况下抓取您的网站内容。这种情况需要使用更高级的机器人管理工具,这类工具能够识别出经过伪装的恶意机器人活动。

Cloudflare AI Crawl Control 利用 机器学习、行为分析和指纹识别来识别所有机器人流量,即使经过伪装也无所遁形。Cloudflare 能够检测并拦截任意网站上的恶意机器人活动。

开始使用 AI Crawl Control

 

常见问题解答

AI 爬虫机器人的主要目的是什么?

这类爬虫会对公开网络进行检索,采集并汇总用于训练人工智能模型的内容,尤其是生成式 AI 模型与大语言模型。一些 AI 爬虫还帮助虚拟助手找到相关网页,为用户的问题提供答案。

AI 爬虫与传统搜索引擎爬虫有何不同?

虽然两者都通过超链接在 Web 进行爬取,但搜索爬虫通常通过搜索结果将访问者引导回源网站。相比之下,AI 爬虫通常在 AI 应用中使用网站数据生成响应,这可能导致源网站的实际人类流量减少。

目前哪些 AI 爬虫通过互联网发送最多请求?

截至 2026 年,Meta-ExternalAgent 是 Web 上第二大活跃的机器人,仅次于搜索爬虫 Googlebot。GPTBot 由 OpenAI 运营,用于训练 ChatGPT 等模型,在总请求量方面排名第三。

要求让机器人不要进入网站的最常见方法是什么?

网站管理员经常使用 robots.txt 文件来提供有关机器人应该或不应该访问网站的哪些部分的说明。尽管这些规则在技术上不具有约束力,但大多数信誉良好的 AI 机器人会尊重管理员设置的规则。

Cloudflare AI Crawl Control 如何协助机器人管理?

该工具允许管理员轻松允许或阻止特定 AI 爬虫,或一次性限制所有爬虫,从而简化了 AI 爬虫管理流程。它还可以使用机器学习和行为分析来识别试图隐藏其身份的未经验证机器人,从而发现伪装的活动。