机器人流量是指网站的非人类流量。 虽然某些机器人流量有益,但过多的机器人流量破坏性很强。
阅读本文后,您将能够:
复制文章链接
机器人流量是指访问网站或应用的非人类流量。机器人流量这个词语通常带有负面含义,但实际上机器人流量并非绝对好坏,这完全取决于机器人的用途以及网站运营者的偏好。
有些机器人对搜索引擎和数字助手(如 Siri、Alexa)等实用服务而言,必不可少。多数公司欢迎这类机器人访问其网站。
例如用于凭证填充、数据抓取,以及发动 DDoS 攻击等目的的其他机器人,则可能是恶意机器人。即使是某些较为良性的“恶意”机器人,如未经授权的 Web 爬网程序,也会造成损害,因为这些机器人会对站点分析造成妨碍,并产生点击欺诈。
据信,全部 Internet 流量中,超过 40% 以上是由机器人流量组成,其中很大一部分为恶意机器人流量。这也是许多组织开始寻求方法管理进入其站点的机器人流量的原因。
Web 工程师可直接查看指向其站点的网络请求,并辨别是否为机器人流量。Google Analytics 或 Heap 等集成式 Web 分析工具也可助力机器人流量检测。
以下分析异常标志着网络流量为机器人流量:
如上所述,未经授权的机器人流量会影响分析度量指标,如页面访问量、跳出率、会话持续时间、用户定位以及转换次数。度量指标偏差会给站点所有者带来许多不利影响;对于充斥着机器人活动的站点,很难衡量其性能。尝试通过 A/B 测试以及优化转换率来改善站点性能,也会因机器人造成的统计噪声而受阻。
Google Analytics 提供“排除来自已知机器人和蜘蛛程序的点击”(exclude all hits from known bots and spiders)(蜘蛛程序是指爬取网页的搜索引擎机器人)选项。如能识别机器人流量源,用户也可提供具体 IP 列表,Google Analytics 即会将其忽略。
虽然采取这些措施会阻止某些机器人妨碍分析,但无法阻止所有机器人。此外,大部分恶意机器人目的不只是为了扰乱流量分析,而这些措施除了保存分析数据之外,在缓解有害机器人活动方面毫无作用。
攻击者发动 DDoS 攻击最常用的方式就是发送大量机器人流量。某些类型的 DDoS 攻击活动期间,有大量攻击流量指向网站,以致源服务器负担过重,站点运行变慢或者合法用户根本无法访问。
受恶意机器人流量影响,一些网站即使性能未受影响,也可能蒙受经济损失。依赖于广告推广的站点和销售有限库存商品的站点特别容易遭到攻击。
对于广告服务站点而言,机器人登录站点并点击页面的各种元素,可能触发虚假的广告点击,这就是点击欺诈。虽然这种情况最初可以创造广告营收,但在线广告网络平台在检测机器人点击方面尤为擅长。如果怀疑某一网站正在实施点击欺诈,它们会采取措施,通常是禁止该站点或该站点的所有者访问它们的网络平台。因此,广告服务站点的所有者需时刻留意机器人点击欺诈。
库存有限的站点会成为库存囤积机器人的攻击目标。正如其名,这些机器人会定位到电子商务站点,将大量商品加入其购物车,使得合法购物者无商品可购。在某些情况下,这种操作还会致使供应商或者生产商无谓地重新补充库存。库存囤积机器人从不作出购买行为;它们的设计目的仅仅是为了阻碍库存的可用性。
许多网站依靠制作原创内容来吸引用户流量,并从这些流量中产生收入,有时是通过广告产生收入。2020 年代, AI 工具使用量激增,对此类商业模式产生了负面影响。AI 工具使用来自 Web 的原创内容来训练其底层大型语言模型(LLM),构建搜索索引供这些模型使用,以及响应用户提示实时检索内容。接收 LLM 回复的用户可能永远不会访问该回复所基于的网站。获取原始内容的 AI 爬虫机器人也会给网站运营商带来直接成本,因为它们会发送大量网页请求。
阻止或者管理网站机器人流量,第一步是网站管理员在 robots.txt 文件 中声明其偏好。Robots.txt 文件为机器人提供页面爬取说明,可配置为指示机器人不应访问某些网页或与之交互。但应注意,只有部分机器人会遵守 robots.txt 文件中的规则;这些文件实际上无法阻止机器人爬取网站。Cloudflare 提供了一套复杂的托管 robots.txt 服务,帮助网站管理员向爬虫运营商表达其偏好。
为了监管来自 AI 爬虫机器人的流量,网站运营者应使用类似 Cloudflare AI Audit 的服务。此服务允许网站运营者允许或阻止 AI 爬虫(阻止意味着 AI 爬虫无法出于任何目的访问内容)。通过 AI Audit 的按抓取付费功能,网站运营商还可以选择向 AI 机器人运营者收取爬取费用。
许多其他工具也可以帮助防御机器人流量滥用。速率限制解决方案,例如 Cloudflare 的 WAF 产品,可以检测并防止来自单个 IP 地址的大量滥用性机器人流量。
网络工程师还可以审查流量,手动识别来自一系列 IP 地址的可疑网络请求,以及来自这些 IP 地址的所有请求。然而,这是一个非常耗费人力的过程,并且不太可能阻止网站可能面临的大部分恶意机器人流量。
除速率限制和工程师直接干预外,阻止恶意机器人流量最简单有效的方法就是采用机器人管理解决方案。机器人管理解决方案可以善用智能特性,且能够利用行为分析在恶意机器人访问网站之前对机器人加以阻止。例如,Cloudflare机器人管理利用来自数百万个互联网资产的情报数据,运用机器学习功能主动识别并阻止机器人泛滥这一状况。Super Bot Fight 模式(Pro 和 Business 服务方案可用)为小型组织提供对机器人流量的相似可见性和控制功能。