如何管理良性机器人 | 良性机器人与恶意机器人

这不仅是需要管理不良的机器人。机器人管理策略需要避免在阻止不良机器人的同时阻止良性机器人。

学习目标

阅读本文后,您将能够:

  • 了解良性机器人和恶意机器人的区别
  • 了解良性机器人为什么”好“,为什么良性机器人需要能够访问网络属性
  • 学习管理良性和恶意机器人的有效策略

相关内容


想要继续学习吗?

订阅 TheNET,这是 Cloudflare 每月对互联网上最流行见解的总结!

参阅 Cloudflare 的隐私政策,了解我们如何收集和处理您的个人数据。

复制文章链接

什么是良性机器人?

良性机器人:聊天机器人、监控机器人、搜索引擎机器人

机器人是一种计算机程序,可以自动通过互联网与网络媒体资源进行交互。害用户互联网体验的那些机器人。“良性”的机器人是指执行有用或有帮助的任务且不会损由于良性的机器人可以与恶意机器人具备相似的特征,因此现有的挑战是确保在制定机器人管理策略时不会阻止阻挡良性的机器人。

现有的很多良性机器人,各自都是为不同的任务而设计的。以下是一些示例:

  • 搜索引擎机器人:也称为网络爬虫或蜘蛛:这些机器人在互联网的几乎每个网站上“爬行”,搜索或浏览内容,然后对该内容进行索引,以便可以在搜索引擎结果中显示相关内容用户搜索。它们由 Google、Bing 或 Yandex 等搜索引擎运营。
  • 版权机器人:机器人在平台或网站爬行,寻找可能违反版权法的内容。这些机器人可以由拥有版权材料的任何人或公司操作。版权机器人可以查找重复的文本、音乐、图像甚至视频。
  • 站点监视机器人:这些机器人监视网站指标(例如,监视反向链接或系统中断),并可以向用户发出重大更改或停机的警报。例如,Cloudflare 运营着一个名为 Always Online 的爬虫程序机器人,该机器人告诉 Cloudflare 网络在源服务器关闭时提供网页的高速缓存版本。
  • 商业机器人:由商业公司运营的机器人通过互联网搜寻信息。运营这些机器人可能是监视新闻报道或客户评论的市场研究公司,旨在优化广告展示位置的广告网络商,或是抓取客户网站的 SEO 代理商。
  • Feed 机器人:这些机器人在互联网上爬行,寻找具有新闻价值的内容以添加到平台的新闻推送中。内容聚合网站或社交媒体网络可能会运营这些机器人。
  • 聊天机器人:聊天机器人通过用预先编程的响应来回答用户,从而模仿人类对话。一些聊天机器人足够复杂,可以进行冗长的对话。
  • 个人助理机器人:像Siri或Alexa:尽管这些程序比典型的机器人要先进得多,但它们仍然是机器人:在网页上浏览数据的计算机程序。

良性机器人与恶意机器人

Web属性需要确保它们在试图过滤出恶意机器人流量时不会阻止良性机器人。尤其重要的是,不要阻止搜索引擎网络爬虫程序的机器人,因为如果没有它们,网站将无法显示在搜索结果中。

恶意机器人可以窃取数据,闯入用户帐户,通过在线表单提交垃圾数据以及执行其他恶意活动。恶意机器人的类型包括凭证填充机器人内容抓取机器人垃圾邮件机器人点击欺诈机器人

什么是 robots.txt?

良性机器人管理始于在网站的 robots.txt 文件中正确设置规则。robots.txt 文件是驻留在网络服务器上的文本文件,它为所有访问主机网站或应用程序的机器人指定规则。这些规则定义了机器人可以爬网和不能爬网的页面,它们应该和不应该遵循的链接以及其他对机器人行为要求。

良性机器人将遵循这些规则。例如,如果网站所有者不希望其网站上的某个页面显示在Google搜索结果中,则可以在robots.txt文件中编写规则,而谷歌网络抓取程序机器人不会将该页面编入索引。尽管robots.txt文件实际上不能强制执行这些规则,但是良性机器人已被编程为在执行其他任何操作之前先查找文件并遵循规则。

但是,恶意机器人通常会忽略robots.txt文件,或者会阅读该文件以了解网站试图阻止机器人进入哪些内容,然后访问该内容。因此,管理机器人需要采取比在robots.txt文件列出机器人行为的规则更积极的方式。

什么是允许列表?

允许列表可以视为活动的来宾列表。如果不在嘉宾名单上的某人试图进入活动场地,安全人员将阻止他们进入。名单上的任何人都可以自由参加活动。这样的方法是必要的,因为不请自来的客人可能会表现不佳并破坏其他人的聚会。

对于机器人管理,这基本上就是白名单的工作方式。允许列表是允许访问 Web 资产的机器人列表。通常,这通过“用户代理”、机器人的 IP 地址或两者的组合来工作。用户代理是一串文本,用于向 Web 服务器标识用户(或机器人)的类型。

通过确保列表允许良性机器人用户代理(例如属于搜索引擎的机器人)并阻止不在列表中的所有机器人,网页服务器就可以确保良性机器人的访问。

网页服务器还可以将已知的恶意机器人列入阻止列表。

什么是阻止列表?

在网络环境中,阻止列表包含了IP地址、用户代理或其他禁止访问服务器、网络或网页媒体资源的在线身份指示符。这与使用允许列表略有不同:基于阻止列表的机器人管理策略将阻止那些特定的机器人并允许所有其他机器人通过,而允许列表策略仅允许指定的机器人通过并阻止所有其他机器人。

允许列表是否足以让良性机器人进入并阻止恶意机器人?

恶意机器人有可能假冒其用户代理字符串,从而至少在最初看起来像一个良性机器人 – 就像小偷可能使用假身份证伪装在来宾名单上并潜入活动场地一样。

因此,良性机器人允许列表必须与其他方法结合起来,以检测欺骗,例如行为分析或机器学习。除了简单地允许已知的良性机器人外,这还有助于主动识别恶意机器人和未知的良性机器人。

机器人管理器解决方案有什么作用?

机器人管理器产品允许良性机器人访问 Web 资产,同时阻止恶意机器人。Cloudflare 机器人管理使用机器学习和整个网络流量的行为分析来检测恶意机器人,同时自动且持续地将良性机器人列入允许列表。拥有超级机器人抵御模式的小型组织也可以使用类似的功能,现在包含在 Cloudflare Pro 和 Business 服务方案中。