AI 驱动的 Web 爬网程序和抓取程序窃取原始内容并限制网站访问者。了解网站所有者和内容发布者如何重新掌控网页抓取。
阅读本文后,您将能够:
复制文章链接
网页抓取也称为网站抓取,是指从网站自动提取数据或内容的过程。这是一种成熟的互联网实践,最初旨在帮助搜索引擎更高效地引导用户找到他们想要查看的特定内容。本质上,网络抓取工具(也称为爬虫)会“爬取”网站并提取其内容,以便将网站添加到搜索引擎的索引中。
最初,网络爬虫对大多数用户来说都非常有效:
内容提供者因此有了持续更新内容的动力,整个系统运行相对平稳,用户、搜索引擎和内容提供商都能得到他们想要的东西,并处于一种相对稳定的三角平衡状态。
虽然网页抓取生态系统最初运行良好,但它很容易受到攻击和滥用。例如:
意识到过度网页抓取对其业务构成直接威胁,内容提供商已实施多种防御措施,以防范 IP 盗窃和过度抓取,包括机器人管理和 Web 应用防火墙 (WAF) 解决方案。许多内容提供商还部署了 robots.txt 文件,该文件规定了机器人如何与网站交互的准则,但这些文件依赖于机器人“自觉遵守规则”,因此常常被忽视。
这些网页抓取防御措施可能会被使用规避型机器人、技术和手段的复杂攻击者突破。网站所有者面临着专有数据被盗、定价和产品信息被泄露的困境,所有这些都在削弱他们的竞争优势。
越来越多的搜索引擎和 AI 公司正在使用网络爬虫结合大型语言模型 (LLM) 从网站收集内容,然后向用户呈现摘要版本。阅读搜索引擎或生成式人工智能 (GenAI) 工具生成的摘要可以更快地获取信息,从而节省用户操作步骤。但这种做法也可能对网站所有者和内容发布者造成损害和干扰。
收入减少导致内容发布者缺乏动力和资金来创作原创或及时的内容。如果他们创作的内容减少,LLM 可从合法来源获取的可靠信息也会减少,这将进一步阻碍新信息的流动和传播。
许多博主和其他内容创作者仍然使用 WordPress,因为它界面相对简单易用,无需太多技术知识。WordPress 用户采取了多种策略来防御网页抓取,包括使用 robots.txt 协议来引导合法的爬虫程序访问其内容,以及采用高级验证码识别方法来阻止恶意机器人并将其与合法流量区分开来。一些用户还使用高级安全措施来阻止可疑地址,并采用速率限制来减轻网站的流量负载和资源分配压力。
对于内容发布者而言,内容是他们的核心业务。防止过度和恶意的网页抓取必须是首要任务。
一些最佳实践可以带来巨大的改变:
Cloudflare 让网站所有者和内容发布者能够重新掌控网页抓取。Cloudflare AI Crawl Control 提供对 AI 爬虫和抓取活动的全面可见性。您只需点击一下即可允许或阻止爬虫;将抓取限制在您网站上的特定页面或内容类型;并限制或阻止来自特定 IP 地址的活动。所有操作均可通过一个直观的仪表板完成。Cloudflare Bot Management 可实时区分良性机器人和恶意机器人,让您可以允许良性机器人抓取您的网站,同时阻止有害机器人。
进一步了解 Cloudflare 如何让您重新掌控自己的内容。
网页抓取也称为网站抓取,是一种从网站提取数据或内容的自动化过程。这项技术最初是为了帮助搜索引擎更高效地对内容进行分类,并引导用户找到所需信息而建立的。
最初,网页抓取可帮助用户获取全面且准确的网页内容列表。内容提供商也能将其独特的知识产权 (IP) 变现。
过度抓取网页内容会导致内容盗窃和网站性能下降。当机器人反复抓取网站时,会增加页面加载时间,令用户感到沮丧,同时也会增加内容提供商的成本。
在过去,内容提供商使用机器人管理和 Web 应用防火墙 (WAF) 解决方案等防御措施来防止 IP 盗窃和过度抓取。他们通常也会部署 robots.txt 文件,但恶意机器人往往会忽略该文件。
搜索引擎和 AI 公司使用搭载大型语言模型 (LLM) 的网络爬虫来收集内容,并向用户展示摘要版本。这种做法会导致推荐流量的损失,进而造成发布者的收入损失。
内容发布者应限制不必要的恶意网页抓取行为,例如限制抓取量。他们还可以利用 AI 解决方案来防御复杂的 AI 机器人,并实施补偿模式,向 AI 爬虫收取访问网站的费用。
许多 WordPress 用户采用 robots.txt 协议来引导合法的爬虫程序。他们还使用高级验证码识别方法来阻止恶意机器人,并将其与人类流量区分开来。一些用户还采取安全措施来屏蔽可疑地址并采用速率限制。
Cloudflare AI Crawl Control 提供对 AI 爬虫活动的可见性,并允许发布者一键阻止、限制或减慢特定爬虫的速度。Cloudflare Bot Management 可实时区分良性机器人和恶意机器人,允许有益的机器人抓取网站,同时阻止有害机器人。