什么是机器人流量?| 如何阻止机器人流量

机器人流量是指网站的非人类流量。 虽然某些机器人流量有益,但过多的机器人流量破坏性很强。

学习目标

阅读本文后,您将能够:

  • 明确机器人流量的概念。
  • 了解如何分辨机器人流量。
  • 概述恶意机器人所带来的不良后果。
  • 了解如何阻止恶意机器人流量。

相关内容


想要继续学习吗?

订阅 TheNET,这是 Cloudflare 每月对互联网上最流行见解的总结!

参阅 Cloudflare 的隐私政策,了解我们如何收集和处理您的个人数据。

复制文章链接

使用 Cloudflare 解决方案,抵御凭据填充和内容抓取之类的机器人攻击

什么是机器人流量?

机器人流量是指网站或应用程序的非人类流量。机器人流量这个词语通常含有贬义,但实际上机器人流量不一定有益或有害,这主要取决于机器人所要实现的目的。

有些机器人对搜索引擎和数字助手(如 Siri、Alexa)等实用服务而言,必不可少。多数公司欢迎这类机器人访问其网站。

例如用于凭证填充数据抓取,以及发动 DDoS 攻击等目的的其他机器人,则可能是恶意机器人。即使是某些较为良性的“恶意”机器人,如未经授权的 Web 爬网程序,也会造成损害,因为这些机器人会对站点分析造成妨碍,并产生点击欺诈。

据信,全部 Internet 流量中,超过 40% 以上是由机器人流量组成,其中很大一部分为恶意机器人流量。这也是许多组织开始寻求方法管理进入其站点的机器人流量的原因。

如何辨别机器人流量?

Web 工程师可直接查看指向其站点的网络请求,并辨别是否为机器人流量。Google Analytics 或 Heap 等集成式 Web 分析工具也可助力机器人流量检测。

以下分析异常标志着网络流量为机器人流量:

  • 页面访问量异常高:如果站点页面访问量突然毫无预兆地空前暴增,则有可能是机器人在点击浏览该站点。
  • 跳出率异常高:跳出率是指进入站点的单个页面,而后不点击页面任何内容即离开该站点的用户数量。跳出率毫无预兆地上升可能是因为机器人被指向单个页面所致。
  • 会话持续时间过长或过短:会话持续时间或用户在网站停留的时长,应当保持相对稳定。会话持续时间突然增加可能表明机器人正在以异常缓慢的速率浏览该站点。与之相反,会话持续时间突然缩短可能是由于机器人正快速点击页面所致,其点击速率比人类操作快得多。
  • 垃圾转换次数:虚假转换次数剧增,如使用垃圾电子邮件地址创建帐户或者用虚假的姓名和电话号码提交联系人表单,可能是填表机器人或者垃圾邮件机器人活动的结果。
  • 意外位置流量剧增:某一特定区域的用户数量突然猛增,尤其是不可能有很多能够流利说网站本地语言人口的区域,这可能表明是机器人流量。

机器人流量如何对分析造成损害?

如上所述,未经授权的机器人流量会影响分析度量指标,如页面访问量、跳出率、会话持续时间、用户定位以及转换次数。度量指标偏差会给站点所有者带来许多不利影响;对于充斥着机器人活动的站点,很难衡量其性能。尝试通过 A/B 测试以及优化转换率来改善站点性能,也会因机器人造成的统计噪声而受阻。

如何从 Google Analytics 过滤机器人流量?

Google Analytics 提供“排除来自已知机器人和蜘蛛程序的点击”(exclude all hits from known bots and spiders)(蜘蛛程序是指爬取网页的搜索引擎机器人)选项。如能识别机器人流量源,用户也可提供具体 IP 列表,Google Analytics 即会将其忽略。

虽然采取这些措施会阻止某些机器人妨碍分析,但无法阻止所有机器人。此外,大部分恶意机器人目的不只是为了扰乱流量分析,而这些措施除了保存分析数据之外,在进行有害机器人活动防护方面别无他法。

机器人流量如何损害性能?

攻击者发动 DDoS 攻击最常用的方式就是发送大量机器人流量。某些类型的 DDoS 攻击活动期间,有大量攻击流量指向网站,以致源服务器负担过重,站点运行变慢或者合法用户根本无法访问。

机器人流量带来的不利业务影响有哪些?

受恶意机器人流量影响,一些网站即使性能未受影响,也可能蒙受经济损失。依赖于广告推广的站点和销售有限库存商品的站点特别容易遭到攻击。

对于广告服务站点而言,机器人登录站点并点击页面的各种元素,可能触发虚假的广告点击,这就是点击欺诈。虽然这种情况最初可以创造广告营收,但在线广告网络平台在检测机器人点击方面尤为擅长。如果怀疑某一网站正在实施点击欺诈,它们会采取措施,通常是禁止该站点或该站点的所有者访问它们的网络平台。因此,广告服务站点的所有者需时刻留意机器人点击欺诈。

库存有限的站点会成为库存囤积机器人的攻击目标。正如其名,这些机器人会定位到电子商务站点,将大量商品加入其购物车,使得合法购物者无商品可购。在某些情况下,这种操作还会致使供应商或者生产商无谓地重新补充库存。库存囤积机器人从不作出购买行为;它们的设计目的仅仅是为了阻碍库存的可用性。

网站如何管理机器人流量?

阻止或者管理网站机器人流量,第一步是要纳入 robots.txt 文件。这种文件为机器人提供页面爬取说明,可配置为完全防止机器人访问页面或与网页交互。但应注意,只有善意机器人会遵守 robots.txt 文件中的规则;该文件无法防止恶意机器人爬取网站。

有多种工具可用来协助防御机器人流量滥用。速率限制解决方案能够检测并防止源自单一 IP 地址的机器人流量,但这仍会忽视大量恶意机器人流量。除了速率限制以外,网络工程师可以查看站点的流量并识别可疑网络请求,从而提供 IP 地址列表以便 WAF 等过滤工具加以阻止。这一过程会耗费大量人力,而且只能阻止部分恶意机器人流量。

除速率限制和工程师直接干预外,阻止恶意机器人流量最简单有效的方法就是采用机器人管理解决方案。机器人管理解决方案可以善用智能特性,且能够利用行为分析在恶意机器人访问网站之前对机器人加以阻止。例如,Cloudflare机器人管理利用来自数百万个互联网资产的情报数据,运用机器学习功能主动识别并阻止机器人泛滥这一状况。Super Bot Fight 模式(Pro 和 Business 服务方案可用)为小型组织提供对机器人流量的相似可见性和控制功能。