Web 爬虫或蜘蛛是一种机器人,通常由 Google 和 Bing 等搜索引擎提供商以及 OpenAI、Meta 等 AI 模型提供商运行。它们执行许多不同的任务,包括为网站编制索引以进行搜索,以及抓取内容以用于 AI 模型的训练和运作。
阅读本文后,您将能够:
复制文章链接
Web 爬虫、蜘蛛或者搜索引擎 机器人是一种软件程序,可访问、下载和/或索引来自整个互联网的内容。Web 爬虫运营商可能会尝试检索 Web 上(几乎)每个网页的内容,以便在需要时检索到相关信息。搜索引擎运营商可以使用这些机器人来查找相关页面以显示在搜索结果中。这些机器人被称作“Web 爬虫”,因为爬取是指通过软件程序自动访问网站或者获取数据。
AI Web 爬网程序是一种独立但相关的爬网程序机器人。它们访问 Web 上的内容的主要目的是为了帮助训练大型语言模型 (LLM),或者帮助 AI 助手向用户提供信息。许多搜索引擎提供商也运营 AI 爬网程序。
搜索引擎将搜索算法应用于 Web 爬网程序收集到的数据,借此可向用户提供相关链接以响应其搜索查询,在用户向 Google 或 Bing(或者其他搜索引擎)键入搜索内容后形成要呈现的网页列表。
搜索引擎 Web 爬网程序机器人就像一个在混乱无序的图书馆梳理所有书籍的人,这个人整理出卡片目录,方便到访图书馆的任何人都能快速轻松地找到自己所需的信息。整理人员会阅读每本书的标题、摘要和部分内文,从而了解书本内容,这样有助于按照主题将图书馆书籍分门别类。
但是,与图书馆不同,互联网不是由大量的书籍组成的,这使得很难判断所有必要的信息是否已正确索引,或者是否忽略了其中的大量信息。为了试图查找到互联网所能提供的所有相关信息,爬网程序机器人将从一组已知网页开始,然后从这些页面的超链接导到其他页面,再从这些页面的超链接进一步导到其他页面,以此类推。
无人知晓搜索引擎机器人实际上爬取过多少公开可用的互联网内容。某些消息来源估计,只有 40–70% 的互联网已被纳入搜索引擎索引,这相当于数十亿个网页。
AI Web 爬虫有三个主要用途:
人们越来越多地通过 AI 工具获得查询的答案,AI 爬取活动现在已经超过了搜索引擎爬虫。不幸的是,对于内容创作者来说(他们通常依靠人们访问他们的网站来赚钱),与传统搜索引擎相比,AI 工具更少将用户引导至其已爬取的网站。
搜索索引就像为互联网创建图书馆目录卡,以便搜索引擎在人们搜索互联网时知道在互联网上何处提取信息。也可以将其与一本书的索引进行类比,该索引列出了书中提到某个主题或短语所在位置。
索引主要关注页面上出现的文本,以及对用户不可见的页面相关元数据*。大部分搜索引擎在为页面建立索引时,会将页面上所有文字加入索引当中,但在 Google 的情况下,“a”、“an”和“the”等词不会加入索引。在用户搜索这些文字时,搜索引擎会遍历其索引中所有包含这些词语的页面,并筛选出相关性最高的结果。
*在搜索索引的背景下,元数据是告知搜索引擎网页内容的数据。通常,元标题和元描述将出现在搜索引擎结果页面上,而不是用户可见的网页内容。
互联网在不断变化和扩展。由于无法知道互联网上总共有多少个网页,因此爬网程序机器人从种子或已知URL列表开始。他们首先在那些URL上爬行网页。当他们爬网这些网页时,他们会找到指向其他URL的超链接,并将它们添加到要爬行的页面列表中。
鉴于互联网上的大量网页都可以被索引以进行搜索,因此该过程几乎可以无限期地进行下去。但是,爬网程序将遵循某些策略,从而使其在选择要爬网的页面、以什么顺序进行爬网以及应该多久重新爬网一次以检查内容更新的时候能更加灵活。
每个网页的相对重要性:大多数网页爬网程序不会也不旨在爬网整个公开可用的互联网;取而代之的是,他们根据其他页面链接到该页面的数量、该页面吸引的访问者数量以及其他表示该页面包含重要信息的可能性等多重因素,来决定是否首先爬取该网页。
其核心逻辑在于:如果一个网页被大量其他网页引用,且访问量很高,那么它很可能包含高质量、权威性的信息。因此,搜索引擎务必将其纳入索引 —— 这就好比图书馆会确保为一本借阅量很大的书准备充足的复本一样。
重新访问网页:Web 内容不断被更新、删除或者移动到新的位置。Web 爬网程序需定期重新访问页面,确保索引的内容为最新版本。
Robots.txt 首选项:Web 爬虫还可以根据 robots.txt 协议(也称为机器人排除协议)决定爬取哪些页面。爬虫通常会在爬取网页之前查看该页面所在 Web 服务器托管的 robots.txt 文件。robots.txt 文件是一种文本文件,其中就机器人访问托管网站或者应用详细说明了相应规则。这些规则界定网站运营者允许机器人抓取哪些页面,以及允许它们跟踪哪些链接。作为示例,请查看 Cloudflare.com 上的 robots.txt 文件。
所有这些要素权重不一,取决于各搜索引擎内置于其蜘蛛机器人的专用算法。不同搜索引擎的 Web 爬虫行为会略有差别,但终极目标都一样:从网页下载内容并为之建立索引。并非所有 Web 爬虫都会遵循 robots.txt 文件中设定的指令。
互联网,或者说至少大多数用户所访问的那部分,也被称为万维网 —— 事实上,这正是大多数网站网址中 “www” 部分的由来。搜索引擎机器人在 Web 上爬取页面,就像真实的蜘蛛在蜘蛛网上爬行一般,因此自然而然地被称作“蜘蛛”。
这取决于 Web 资源,并受多种因素影响。Web 爬虫要求服务器资源以便索引内容。爬虫提出请求,服务器需做出响应,类似于用户或者其他机器人访问网站。根据各页面上的内容量或者站点上的页面数量,网站运营商最好拒绝频繁的搜索索引,原因是过度索引会给服务器造成过大的负担,增加带宽成本,或者两者兼有。
开发人员或者公司可能不希望通过搜索发现某些网页,除非已向用户发送页面链接(不在付费墙或者登录界面后设置页面)。例如,企业在营销活动中创建专门的登录页面,但不希望非活动目标人群访问该页面。采取这种方式,他们能够量身定制消息功能,或者准确估量页面效果。在该实例中,企业可在登录页面添加“无索引”标签,该页面将不会出现在搜索引擎结果中。 企业还可以在页面或者 robots.txt 文件中添加“不允许”标签,搜索引擎蜘蛛则完全不会爬取该页面。
此外,一些 Web 管理员可能不希望 LLM 基于他们的内容进行训练。网站内容可能是专有内容或受版权保护。在某些情况下,收集 Web 内容用于训练数据可能会破坏该网站的业务模式——例如,如果网站托管独特的内容并通过销售广告位来获得收入。对于此类网站,管理员可能希望专门限制 AI 爬虫机器人的活动或对其收费,同时仍然允许搜索引擎机器人免费爬取。
网站所有者也可能出于各种其他原因,不希望爬网程序机器人爬取其部分或全部站点。例如,为用户提供网站内搜索功能的网站可能希望阻止搜索结果页面,因为这些页面对大多数用户没有用。其他自动生成的仅对一个用户或几个特定用户有用的页面也应被阻止。
网页抓取、数据抓取或内容抓取是指机器人在未经许可的情况下载网站内容的行为,通常是出于恶意目的使用该内容。
网页抓取通常比网页爬行更具针对性。网页抓取的目标可能只是特定页面或特定网站,而网页爬取将继续跟踪链接并连续爬取页面。
此外,Web 抓取机器人可能会无视它们对 Web 服务器造成的压力,而 Web 爬虫(尤其是来自主要搜索引擎的那些)更有可能服从 robots.txt 文件并限制其请求,以免使 Web 服务器负担过重。
SEO代表搜索引擎优化,它是为搜索索引准备内容的准则,以便网站在搜索引擎结果中显示在更高的位置。
如果蜘蛛机器人没有爬取某个网站,则无法为该网站建立索引,那么该网站也不会出现在搜索结果中。鉴于此,如果网站所有者想从搜索结果中获取自然流量,那么不阻止 Web 爬虫机器人就非常重要了。
然而,SEO 与 Web 流量之间的关系已经发生了变化。AI 聊天机器人的使用增加以及 AI 生成结果的增多,即使是高排名页面的流量也会减少。同时,AI 爬虫机器人请求 Web 内容的频率远高于传统搜索引擎爬虫。Web 爬虫仍然可以为网站带来优势,但依赖于网络流量来获得收入的网站可能会受到 AI 爬虫的负面影响。
来自主要搜索引擎的机器人被称为:
还有许多 Web 爬网程序机器人,其中一些与任何搜索引擎都无关联。
以下是一些最常见用于为 LLM 收集数据的 AI 爬网程序机器人:
请查看 Cloudflare 的经过验证的机器人列表。
恶意机器人会造成巨大损失,从用户体验不佳、服务器崩溃到数据盗窃,逐步升级。但在阻止恶意机器人的过程中,仍要允许搜索引擎 Web 爬虫等善意机器人访问 Web 资产,这一点很重要。Cloudflare Bot Management允许善意机器人继续访问网站,同时还能减少恶意机器人流量。该产品自动更新 Web 爬虫等善意机器人白名单,确保其畅通无阻。
虽然网站仍然可以从搜索引擎爬取中受益,但搜索引擎和 AI 工具经常在没有将用户引导到网站的情况下回答用户问题。这显著减少了网站接收的流量。AI 爬虫的爬取频率通常远高于搜索引擎机器人,这可能会增加网站的成本。为了保护内容创作者,Cloudflare 允许网站所有者选择允许 AI 爬虫、完全阻止它们,或者使用称为按抓取付费的功能对其访问内容的行为进行收费。