攻击者能够利用 Web 抓取工具,以比预期更快的速度访问数据。 这可能导致数据被用于未经授权的用途。
阅读本文后,您将能够:
复制文章链接
数据抓取,以其最一般的形式,是指一种计算机程序从另一程序生成的输出中提取数据的技术。数据抓取通常体现在网页抓取中,网页抓取是使用应用程序从网站提取有价值信息的过程。
通常,公司不希望其独特内容被下载并重新用于未经授权的目的。因此,它们不会通过开放的 API 或其他便于访问的资源公开所有数据。而另一方面,不管网站怎样限制访问权限,抓取机器人都会尝试对网站数据进行抓取。这样,网页抓取机器人与各种内容保护策略之间就存在一种猫捉老鼠的游戏,道高一尺,魔高一丈。
尽管执行起来可能很复杂,但网页抓取的过程非常简单。网页抓取分为3个步骤:
抓取机器人可以被设计用于多种用途,例如:
通常,网站访问者可以看到的所有内容都必须转移到访问者的计算机上,并且访问者可以访问的任何信息都可以被机器人抓取。
有方法能够限制可能发生的抓取量。以下是三种限制数据抓取工作的方法:
另一种不太常见的防护方法要求将内容嵌入例如图像类的媒体对象中。由于内容不存在于字符串中,因此复制内容要复杂得多,需要光学字符识别 (OCR) 才能从图像文件中提取数据。但这也会给需要从网站复制内容的真实用户带来麻烦,他们将不得不靠记忆或重新输入例如地址或电话号码之类的信息,而无法直接复制。
*无头浏览器是网页浏览器的一种,类似于 Chrome 或 Firefox,但默认情况下它没有可视的用户界面,因此其移动速度比常见的网页浏览器快得多。本质上它是在命令行界面运行,无头浏览器可以避免呈现整个 Web 应用程序。数据抓取工具会编写机器人使用无头浏览器来更快地请求数据,因为没有人会去查看要抓取的每个页面。
完全防止抓取网页的唯一方法是避免将内容完全放在网站上。但是,使用高级的机器人管理解决方案可以帮助网站几乎完全消除抓取机器人的访问权限。
爬取是指 Google 等大型搜索引擎在发送其机器人爬网程序(如 Googlebot)到网络中以建立互联网内容索引时所进行的过程。另一方面,抓取则是明确从特定网站提取数据的一种典型架构。
以下是抓取机器人与网页爬网程序机器人的3种不同行为:
Cloudflare 机器人管理使用机器学习和行为分析来识别例如抓取器等恶意机器人,保护网站独特的内容并防止机器人滥用 Web 资产。相似地,Super Bot Fight 模式现已在 Cloudflare Pro 和 Business 服务方案中提供,旨在帮助较小规模的组织防御爬虫和其他恶意机器人,同时更深入了解其机器人流量。
入门
关于机器人