我们正在进入一个由 AI 驱动的互联网新时代。这个新时代始于 AI 机器人(包括网站爬虫和抓取程序),它们正在收集越来越多的数据来训练 AI 模型。爬取和抓取内容并非新鲜事务:搜索引擎公司一直在爬取网站和抓取内容以填充搜索结果。这一过程一直以来都让网站所有者受益,因为搜索结果会将流量引导回他们的网站。
但是,通过使用抓取的内容来训练 AI 模型,AI 和搜索引擎公司正在改变用户与网络内容交互的方式。这些 AI 模型开始生成衍生内容,现在显示为搜索引擎结果上方的概述,并作为对生成式 AI(GenAI)工具内查询的响应。用户越来越信任这些衍生内容,他们往往不访问原始来源网站。这对品牌和内容创作者,尤其是媒体出版商,造成了问题,因为他们网站的流量减少会影响他们推广订阅和广告收入的能力。
与此同时,对衍生内容信任度的提升引发了数据来源、知识产权和内容滥用方面的问题:简而言之,内容创作者不再拥有对其内容的控制权。
AI 机器人也为所有行业的每个组织带来了重大安全和合规风险。这些机器人可以窃取知识产权、破坏 Web 应用,并寻找导致安全事件或数据泄露的漏洞。
我们必须直面 AI 机器人带来的安全挑战,并且必须立即采取行动,因为这种威胁将继续增长。作为网络安全领导者,我们需要相应的机制来保护我们的组织免受任一切有害机器人的威胁,同时不限制这个互联网新时代带来的机遇。
当我在攻读数据科学和机器学习的研究生学位时,很明显,人工智能公司将竞相收集大量高质量的数据。您收集的高质量数据越多,您的模型就会越好。
但仅在过去一年中,AI 爬虫活动的快速增长就已经令人震惊:Cloudflare Radar 的数据显示,从 2024 年 7 月至 2025 年 7 月,来自 GPTBot(收集 ChatGPT 训练数据)的原始请求增加了 147%。在同一时期内,来自 Meta-ExternalAgent(用于帮助训练 Meta 的 AI 模型)的原始请求增加了 843%。
与此同时,网站也继续看到其他类型 AI 机器人的活动。例如,恶意机器人并不抓取内容,而是扫描 Web 应用漏洞、入侵用户帐户、进行欺诈性购买、通过在线表单提交垃圾邮件、降低网站性能等。
一个恶意机器人就可能会给组织带来灾难性的后果。设想一下,您将公司季度财务业绩临时放在一个预发布网站上。您计划仅在当天股市收盘后才发布这些结果。但是,假设机器人能够提前访问这些信息,并在用户的搜索查询中分享。这些人可能会根据这一重大非公开信息开始交易您的股票,导致您面临监管罚款和诉讼。
网络安全负责人必须专注于阻止所有可能损害其组织的机器人程序。但这并非易事。
AI 工具使网络犯罪分子和一些 AI 公司更容易创建能够绕过传统防御的机器人。例如,网络犯罪分子可以利用 AI 开发机器人,通过改变机器人的签名或攻击手段,来规避基于位置或 IP 地址阻止之类的控制措施。AI 公司和网络犯罪分子还可以创建模仿人类行为的 AI 机器人,以破解 CAPTCHA 验证。
AI 不仅帮助网络犯罪分子制造“更聪明”的机器人。这也使他们能够以空前的规模和速度发起机器人入侵, 压倒现有的防御和控制措施。
为了阻止恶意 AI 机器人,并控制爬取和内容抓取,组织需要一个多层的安全策略 。这种策略结合了静态控制与更具预测性和动态性的功能以及精细化的管控。
静态控制为多层策略提供基础,阻止大规模机器人攻击的发生,并防止 AI 驱动的机器人绕过传统防御手段。静态控制包括:
无验证码质询阻止机器人而不拖慢实际用户。
多因素身份验证(MFA),可以阻止自动化机器人突破用户名+密码验证环节。