What is a web crawler?

A web crawler, also known as a spider, is an automated program or bot predominantly used by search engines like Google and Bing to explore and catalog web content across the Internet. Its primary functions are to gather content of nearly every webpage and to facilitate retrieval of that content in search results.

How do web crawlers determine which pages to visit and index?

Web crawlers begin their journey from a predefined list of known website addresses, or URLs. As they process these initial pages, they identify and add new hyperlinks to their list of pages to crawl. Since the Internet is vast, crawlers prioritize pages based on factors like how many other pages link to them and how much traffic they receive, as these often indicate valuable content. They also read and follow instructions in robots.txt files, which are created by website owners and specify which parts of their site bots are permitted to access.

What is the purpose of search indexing?

Search indexing is akin to creating a comprehensive library catalog for the Internet. This process allows search engines to quickly locate and present relevant information when a user performs a search. The indexing process mainly focuses on the text visible on a page and its metadata.

How do AI web crawlers function, and for what purposes are they used?

AI web crawlers are a specific kind of bot that accesses web content for two main reasons. First, they gather vast amounts of content to train large language models (LLMs), helping these models improve their accuracy and utility in generating responses. Second, some AI crawlers are used by AI assistants to pull live information from the web to supplement the answers they provide to users.

Why might a website owner choose to restrict web crawler access, and how can they do it?

Website owners might limit crawler access to conserve server resources, as crawling consumes bandwidth and requires server responses. They might also restrict access to pages not intended for public search, such as specific marketing landing pages where they want to control access or measure precise performance. So some administrators might want to prevent AI models from training on their copyrighted or proprietary content that generates revenue through advertising. Owners can prevent specific pages from appearing in search results by adding a "noindex" tag or completely blocking crawling with a "disallow" tag in the robots.txt file.

What is the distinction between web crawling and web scraping?

Web crawling is generally performed by legitimate bots, such as those from search engines, to index content for search results. Web scraping, however, might involve illicitly collecting website content. These scrapers might ignore robots.txt rules, disregard the strain placed on servers from their requests, and facilitate the use of original content in unauthorized ways. AI and search engine companies using web scrapers should obtain permission to scrape content and pay content creators to use their content.

Why is managing web crawler bots important for search engine optimization (SEO)?

Effective bot management is crucial for SEO because if web crawlers are blocked from accessing a website, the site cannot be indexed and, consequently, will not appear in search results. For website owners seeking organic traffic, ensuring that good bots like search engine crawlers can access and index their content is vital.

什么是 Web 爬网程序？| 网络蜘蛛的工作方式

Web 爬虫或蜘蛛是一种机器人，通常由 Google 和 Bing 等搜索引擎提供商以及 OpenAI、Meta 等 AI 模型提供商运行。它们执行许多不同的任务，包括为网站编制索引以进行搜索，以及抓取内容以用于 AI 模型的训练和运作。

学习目标

阅读本文后，您将能够：

了解 Web 爬网程序（或者网络蜘蛛）的概念
了解 Web 爬网程序如何选择要爬取的页面
说明搜索引擎 Web 爬取与 AI Web 爬取二者的区别
探讨是否应允许在任意既定网页上进行 Web 爬取

想要继续学习吗？

订阅 TheNET，这是 Cloudflare 每月对互联网上最流行见解的总结！

复制文章链接

使用 Cloudflare 解决方案，抵御凭据填充和内容抓取之类的机器人攻击

开始阻止恶意机器人

什么是 Web 爬网程序机器人？

Web 爬虫、蜘蛛或者搜索引擎机器人是一种软件程序，可访问、下载和/或索引来自整个互联网的内容。Web 爬虫运营商可能会尝试检索 Web 上（几乎）每个网页的内容，以便在需要时检索到相关信息。搜索引擎运营商可以使用这些机器人来查找相关页面以显示在搜索结果中。这些机器人被称作“Web 爬虫”，因为爬取是指通过软件程序自动访问网站或者获取数据。

AI Web 爬网程序是一种独立但相关的爬网程序机器人。它们访问 Web 上的内容的主要目的是为了帮助训练大型语言模型 (LLM)，或者帮助 AI 助手向用户提供信息。许多搜索引擎提供商也运营 AI 爬网程序。

搜索引擎 Web 爬网程序

搜索引擎将搜索算法应用于 Web 爬网程序收集到的数据，借此可向用户提供相关链接以响应其搜索查询，在用户向 Google 或 Bing（或者其他搜索引擎）键入搜索内容后形成要呈现的网页列表。

搜索引擎 Web 爬网程序机器人就像一个在混乱无序的图书馆梳理所有书籍的人，这个人整理出卡片目录，方便到访图书馆的任何人都能快速轻松地找到自己所需的信息。整理人员会阅读每本书的标题、摘要和部分内文，从而了解书本内容，这样有助于按照主题将图书馆书籍分门别类。

但是，与图书馆不同，互联网不是由大量的书籍组成的，这使得很难判断所有必要的信息是否已正确索引，或者是否忽略了其中的大量信息。为了试图查找到互联网所能提供的所有相关信息，爬网程序机器人将从一组已知网页开始，然后从这些页面的超链接导到其他页面，再从这些页面的超链接进一步导到其他页面，以此类推。

无人知晓搜索引擎机器人实际上爬取过多少公开可用的互联网内容。某些消息来源估计，只有 40–70% 的互联网已被纳入搜索引擎索引，这相当于数十亿个网页。

AI Web 爬网程序

AI Web 爬虫有三个主要用途：

为 LLM 提供训练数据：LLM 需要大量内容来优化模型，并为用户提供更有用、更准确的回答。新内容帮助它们持续改进。AI 爬网程序会浏览网站寻找新内容。它们会复制并保存发现的任何内容，以供训练使用。
为用户实时检索信息：AI 助手有时会用外部来源的内容来补充其生成的答案。为此，它们可能会将其爬网程序机器人发现的 Web 内容整合到其响应中。
索引内容：与搜索引擎一样，AI 模型需要知道在互联网上哪里可以找到有价值的内容。否则，他们无法响应用户提示，例如执行实时检索。

人们越来越多地通过 AI 工具获得查询的答案，AI 爬取活动现在已经超过了搜索引擎爬虫。不幸的是，对于内容创作者来说（他们通常依靠人们访问他们的网站来赚钱），与传统搜索引擎相比，AI 工具更少将用户引导至其已爬取的网站。

什么是搜索索引？

搜索索引就像为互联网创建图书馆目录卡，以便搜索引擎在人们搜索互联网时知道在互联网上何处提取信息。也可以将其与一本书的索引进行类比，该索引列出了书中提到某个主题或短语所在位置。

索引主要关注页面上出现的文本，以及对用户不可见的页面相关元数据*。大部分搜索引擎在为页面建立索引时，会将页面上所有文字加入索引当中，但在 Google 的情况下，“a”、“an”和“the”等词不会加入索引。在用户搜索这些文字时，搜索引擎会遍历其索引中所有包含这些词语的页面，并筛选出相关性最高的结果。

*在搜索索引的背景下，元数据是告知搜索引擎网页内容的数据。通常，元标题和元描述将出现在搜索引擎结果页面上，而不是用户可见的网页内容。

爬网程序如何工作？

互联网在不断变化和扩展。由于无法知道互联网上总共有多少个网页，因此爬网程序机器人从种子或已知URL列表开始。他们首先在那些URL上爬行网页。当他们爬网这些网页时，他们会找到指向其他URL的超链接，并将它们添加到要爬行的页面列表中。

鉴于互联网上的大量网页都可以被索引以进行搜索，因此该过程几乎可以无限期地进行下去。但是，爬网程序将遵循某些策略，从而使其在选择要爬网的页面、以什么顺序进行爬网以及应该多久重新爬网一次以检查内容更新的时候能更加灵活。

每个网页的相对重要性：大多数网页爬网程序不会也不旨在爬网整个公开可用的互联网；取而代之的是，他们根据其他页面链接到该页面的数量、该页面吸引的访问者数量以及其他表示该页面包含重要信息的可能性等多重因素，来决定是否首先爬取该网页。

其核心逻辑在于：如果一个网页被大量其他网页引用，且访问量很高，那么它很可能包含高质量、权威性的信息。因此，搜索引擎务必将其纳入索引 —— 这就好比图书馆会确保为一本借阅量很大的书准备充足的复本一样。

重新访问网页：Web 内容不断被更新、删除或者移动到新的位置。Web 爬网程序需定期重新访问页面，确保索引的内容为最新版本。

Robots.txt 首选项：Web 爬虫还可以根据 robots.txt 协议（也称为机器人排除协议）决定爬取哪些页面。爬虫通常会在爬取网页之前查看该页面所在 Web 服务器托管的 robots.txt 文件。robots.txt 文件是一种文本文件，其中就机器人访问托管网站或者应用详细说明了相应规则。这些规则界定网站运营者允许机器人抓取哪些页面，以及允许它们跟踪哪些链接。作为示例，请查看 Cloudflare.com 上的 robots.txt 文件。

所有这些要素权重不一，取决于各搜索引擎内置于其蜘蛛机器人的专用算法。不同搜索引擎的 Web 爬虫行为会略有差别，但终极目标都一样：从网页下载内容并为之建立索引。并非所有 Web 爬虫都会遵循 robots.txt 文件中设定的指令。

为什么爬网程序称为“蜘蛛”？

互联网，或者说至少大多数用户所访问的那部分，也被称为万维网 —— 事实上，这正是大多数网站网址中 “www” 部分的由来。搜索引擎机器人在 Web 上爬取页面，就像真实的蜘蛛在蜘蛛网上爬行一般，因此自然而然地被称作“蜘蛛”。

是否应始终允许爬网程序机器人访问Web属性？

这取决于 Web 资源，并受多种因素影响。Web 爬虫要求服务器资源以便索引内容。爬虫提出请求，服务器需做出响应，类似于用户或者其他机器人访问网站。根据各页面上的内容量或者站点上的页面数量，网站运营商最好拒绝频繁的搜索索引，原因是过度索引会给服务器造成过大的负担，增加带宽成本，或者两者兼有。

开发人员或者公司可能不希望通过搜索发现某些网页，除非已向用户发送页面链接（不在付费墙或者登录界面后设置页面）。例如，企业在营销活动中创建专门的登录页面，但不希望非活动目标人群访问该页面。采取这种方式，他们能够量身定制消息功能，或者准确估量页面效果。在该实例中，企业可在登录页面添加“无索引”标签，该页面将不会出现在搜索引擎结果中。企业还可以在页面或者 robots.txt 文件中添加“不允许”标签，搜索引擎蜘蛛则完全不会爬取该页面。

此外，一些 Web 管理员可能不希望其内容被用于训练 LLM。网站内容可能是专有信息或受版权保护。在某些情况下，收集 Web 内容用于训练数据可能会破坏该网站的业务模式——例如，如果网站托管独特的内容并通过销售广告位来获得收入。对于此类网站，管理员可能希望专门限制 AI 爬虫机器人的活动或对其收费，同时仍然允许搜索引擎机器人免费爬取。

网站所有者也可能出于各种其他原因，不希望爬网程序机器人爬取其部分或全部站点。例如，为用户提供网站内搜索功能的网站可能希望阻止搜索结果页面，因为这些页面对大多数用户没有用。其他自动生成的仅对一个用户或几个特定用户有用的页面也应被阻止。

Web 爬取与 Web 抓取二者有何区别？

网页抓取、数据抓取或内容抓取是指机器人在未经许可的情况下载网站内容的行为，通常是出于恶意目的使用该内容。

网页抓取通常比网页爬行更具针对性。网页抓取的目标可能只是特定页面或特定网站，而网页爬取将继续跟踪链接并连续爬取页面。

此外，Web 抓取机器人可能会无视它们对 Web 服务器造成的压力，而 Web 爬虫（尤其是来自主要搜索引擎的那些）更有可能服从 robots.txt 文件并限制其请求，以免使 Web 服务器负担过重。

Web 爬网程序对 SEO 有何影响？

SEO代表搜索引擎优化，它是为搜索索引准备内容的准则，以便网站在搜索引擎结果中显示在更高的位置。

如果蜘蛛机器人没有爬取某个网站，则无法为该网站建立索引，那么该网站也不会出现在搜索结果中。鉴于此，如果网站所有者想从搜索结果中获取自然流量，那么不阻止 Web 爬虫机器人就非常重要了。

然而，SEO 与 Web 流量之间的关系已经发生了变化。AI 聊天机器人的使用增加以及 AI 生成结果的增多，即使是高排名页面的流量也会减少。同时，AI 爬虫机器人请求 Web 内容的频率远高于传统搜索引擎爬虫。Web 爬虫仍然可以为网站带来优势，但依赖于网络流量来获得收入的网站可能会受到 AI 爬虫的负面影响。

搜索 Web 爬网程序列表

来自主要搜索引擎的机器人被称为：

谷歌：Googlebot（实际上是两个抓取工具，Googlebot Desktop和Googlebot Mobile，用于桌面和移动设备搜索）
Bing：Bingbot
DuckDuckGo：DuckDuckBot
雅虎搜索：啜饮
Yandex：YandexBot
百度一下：Baiduspider
逸飞公司：淘宝网

还有许多 Web 爬网程序机器人，其中一些与任何搜索引擎都无关联。

AI 爬网程序列表

以下是一些最常见用于为 LLM 收集数据的 AI 爬网程序机器人：

OpenAI：GPTBot
OpenAI：ChatGPT-User（用于实时检索）
Meta：Meta-ExternalAgent
Google：GoogleOther
华为：PetalBot
Amazon：Amazonbot
ByteDance：Bytespider
Claude：Claudebot

请查看 Cloudflare 的经过验证的机器人列表。

在机器人管理中需将 Web 爬取考虑在内，这点为什么如此重要？

恶意机器人会造成巨大损失，从用户体验不佳、服务器崩溃到数据盗窃，逐步升级。但在阻止恶意机器人的过程中，仍要允许搜索引擎 Web 爬虫等善意机器人访问 Web 资产，这一点很重要。Cloudflare Bot Management允许善意机器人继续访问网站，同时还能减少恶意机器人流量。该产品自动更新 Web 爬虫等善意机器人白名单，确保其畅通无阻。

虽然网站仍然可以从搜索引擎爬取中受益，但搜索引擎和 AI 工具经常在没有将用户引导到网站的情况下回答用户问题。这显著减少了网站接收的流量。AI 爬虫的爬取频率通常远高于搜索引擎机器人，这可能会增加网站的成本。为了保护内容创作者，Cloudflare 允许网站所有者选择允许 AI 爬虫、完全阻止它们，或者使用称为按抓取付费的功能对其访问内容的行为进行收费。

常见问题解答

什么是 Web 爬虫？

Web 爬虫（也称为网络蜘蛛）是一种自动化程序或机器人，主要由 Google 和 Bing 等搜索引擎使用，用于探索和编目互联网上的网页内容。其主要功能是收集几乎每个网页的内容，并在搜索结果中方便检索这些内容。

Web 爬虫如何决定访问和索引哪些页面？

Web 爬虫从预定义的已知网站地址列表（URL）开始抓取流程。在处理这些初始页面时，他们会识别并添加新的超链接到他们的爬取页面列表中。由于互联网规模庞大，爬虫程序会根据链接到页面的其他页面数量和页面接收的流量等因素对页面进行优先级排序，因为这些通常表明内容具有价值。它们还会阅读并遵循 robots.txt 文件中的说明，这些文件由网站所有者创建，并指定机器人被允许访问网站的哪些部分。

搜索索引的目的是什么？

搜索索引就像是为互联网创建一个全面的图书馆目录。这个过程允许搜索引擎在用户执行搜索时快速找到并展示相关信息。索引过程主要关注页面上可见的文本及其元数据。

AI Web 爬虫如何运作，并用于哪些目的？

AI Web 爬虫是一种特定类型的机器人，出于两个主要原因访问 Web 内容。首先，他们收集大量内容来训练大型语言模型（LLM），帮助这些模型提高生成回答的准确性和实用性。其次，一些 AI 爬虫被 AI 助手用来从网络上提取实时信息，以补充其向用户提供的答案。

为什么网站所有者会选择限制 Web 爬虫的访问，他们可以如何做到这一点？

网站所有者可能会限制爬虫的访问权限以节省服务器资源，因为爬虫会消耗带宽并需要服务器响应。他们也可能会限制对不用于公共搜索的页面的访问，例如他们希望控制访问或衡量精确性能的特定营销登陆页面。因此，一些管理员可能希望阻止 AI 模型在其通过广告创收的受版权保护或专有内容上进行训练。所有者可以通过在 robots.txt 文件中添加“noindex”标签来阻止特定页面出现在搜索结果中，或通过在 robots.txt 文件中使用“disallow”标签来完全阻止爬取。

Web 爬取和 Web 抓取之间有什么区别？

Web 爬取通常由合法的机器人（例如来自搜索引擎的机器人）执行，以便为搜索结果建立内容索引。然而，网页抓取可能涉及非法收集网站内容。这些抓取工具可能会忽视 robots.txt 规则，无视其请求对服务器造成的压力，并促进以未经授权的方式使用原始内容。使用网络抓取工具的 AI 和搜索引擎公司应获得抓取内容的许可，并向内容创作者支付费用以使用其内容。

为什么管理 Web 爬虫机器人对搜索引擎优化（SEO）很重要？

有效的机器人管理对 SEO 至关重要，因为如果 Web 爬虫被阻止访问网站，网站将无法被索引，从而不会出现在搜索结果中。对于寻求自然流量的网站所有者来说，确保像搜索引擎爬虫这样的有用机器人能够访问并索引其内容至关重要。

入门指南

关于机器人

机器人攻击

Bot Management

词汇

学习中心导航