如何保护 AI 系统

AI 安全包括用于保障 AI 应用开发安全、管控员工 AI 使用以及保护 AI 驱动应用和模型的所有资源。

学习目标

阅读本文后,您将能够:

  • 了解保护 AI 系统的重要性
  • 确定主要的 AI 安全风险
  • 采取 5 种做法,保护 AI 系统

复制文章链接

人工智能安全:保护 AI 系统

人工智能 (AI) 已成为各行各业、各种规模的企业不可或缺的一项技术。事实上,在 2025 年年初,71% 的企业表示他们已经在定期使用生成式人工智能 (GenAI)

随着各大企业竞相将 AI 集成到客户服务、网络安全等各个领域,攻击者同样也在不遗余力地利用这些支持 AI 功能的系统来创建全新系统、数据流和决策逻辑。

AI 安全已不再是一个理论问题,而是一项现实中的当务之急。保护模型、数据和基础设施,意味着维护那些日益驱动商业、政府和研究工作的系统的可信性。


为什么保护 AI 系统至关重要

AI 扩大了攻击面

传统应用拥有清晰、明确的边界:Web 服务器、API,以及用户界面。然而,AI 系统引入了一系列新的攻击面,这些攻击面可能会被探测和利用:

     
  • 模型经过训练后的权重可能会泄露专有知识,或者通过逆向工程遭到破解,从而泄露知识产权。  
  • 训练数据:数据集通常来自多个源,可能包含敏感内容或有害内容,或者被攻击者蓄意投毒。  
  • API用于推理的模型端点通常缺乏充分的身份验证,从而可能导致恶意查询、过度使用或模型提取。  
  • 推理管道:连接输入、预处理、模型调用和输出的流程,可能会为注入攻击或数据外泄提供途径。

AI 系统是高价值攻击目标

AI 系统承担着日益重要的工作,这使其输入和输出成为有吸引力的目标。攻击者以 AI 模型和应用为攻击目标,旨在窃取或复制知识产权、破坏决策流程、泄露敏感信息,并削弱公众对 AI 服务的信心。企业对 AI 的依赖程度越高,保护 AI 安全就越重要,这与保护其他核心资产是一样的道理。


AI 安全面临的主要风险有哪些?

虽然 AI 系统继承了许多传统的 IT 风险,但它们也引入了其设计和运行特有的新风险。

影子 AI

影子 AI是指在正式 IT 监管之外使用的 AI 工具或系统,正如“影子 IT”概念一样,后者曾用于描述使用未经批准的云应用。在标准 IT 采购流程之外,员工会尝试使用外部 GenAI 工具,将其连接到内部数据源,甚至在本地服务器上部署自己的开源模型。由于缺乏可见性,企业无法实施一致的控制或合规措施,这为攻击者留下了可乘之机。

数据投毒

数据投毒是指攻击者篡改模型的训练数据,以操纵输出。这对保护大型语言模型 (LLM) 而言是一个特别棘手的问题,因为 LLM 经过训练,能够理解并创建人类语言文本。

数据投毒的目标是操纵模型输出,使其有利于攻击者或降低模型的整体性能。影响可能不会立即显现,但随着时间的推移,中毒的数据会损害模型性能,降低可信度。

对抗性攻击

即便是训练有素的模型,也可能会遭到诱骗。攻击者可能会在输入数据中引入扰动因素(精心设计的微小改动)来欺骗模型。例如,在停车标志的照片中添加一些随机像素,这可能会导致图像识别模型错误地识别该标志。在自然语言模型中,略微修改提示词可能会引发未经授权或有害的输出。这些修改通常难以被人察觉,但足以导致模型生成错误的预测或分类。

提示词注入和操纵

GenAI 模型特别容易受到基于提示词的攻击。恶意用户可能会编写指令来覆盖系统提示词,泄露内部数据,或操纵行为。例如:

     
  • 间接注入提示词,即:外部内容(例如,网页或文档)中包含隐藏的指令。根据开放式 Web 应用安全项目 (OWASP) 的报告,提示词注入通常是最主要的 LLM 攻击类型。  
  • “越狱”提示词,诱使模型忽略安全规则。  
  • 自主 AI 代理长期记忆投毒。

传统威胁加剧

AI 没有取代传统的网络安全问题,反而加剧了这些问题。例如,由于 AI 依赖数据提供商、模型存储库、预训练权重和开源库组成的庞大生态系统,因此,AI 系统可能容易遭受供应链攻击。

现在,攻击者正积极利用 AI 增强自身的攻击能力。GenAI 模型可以快速制作大量以假乱真的网络钓鱼邮件或深度伪造内容。强化学习代理可以优化网络中的横向移动策略。甚至可以利用预测防御响应的 AI 模型,微调 DDoS 攻击防范措施。


保护 AI 系统的五种方法

保护 AI 系统需要采用涵盖资产、数据、访问和策略的整体方法。五个基本步骤如下所述:

1. 盘点 AI 资产

您无法保护自己不知道其存在的东西。第一步是全面了解员工正在使用的 AI 工具以及集成到应用中的各种 AI 组件:

     
  • 对处于开发和生产阶段的所有模型进行编目,无论其位于云、本地,还是已嵌入应用。  
  • 跟踪相关元数据:训练数据集、API、依赖关系,以及维护者。  
  • 包括第三方 AI 服务与集成,这些服务与集成可能具有各自的风险敞口。

自动化发现工具或 AI 安全态势管理平台,有助于识别“影子 AI”实例、模型版本以及跨环境传输的数据流。

2. 评估 AI 环境中的风险

盘点企业中使用的模型、数据源和 AI 应用之后,则可以评估每个组件的漏洞和错误配置。常见的风险包括:

     
  • 模型风险:权重泄露、不安全的端点、易受推理攻击  
  • 数据风险:个人可识别信息 (PII) 泄露、监管不合规、使用未经核实的数据源  
  • 管道风险:输入数据净化处理不彻底,数据不同阶段(收集、准备、输入、处理和输出)之间缺乏隔离  
  • 基础设施风险:身份验证薄弱、系统未打补丁,以及过度权限

每个企业都有各自的风险承受能力和风险缓解方法。不过,一般来说,企业应该像处理软件漏洞管理一样,认真对待 AI 风险,即:扫描漏洞、确定优先级并修复缺陷。

如果贵公司或机构仍然在加深对 AI 风险的理解,则可以参考国际标准化组织 (ISO) 以及美国国家标准与技术研究院 (NIST) 的模型框架等实用资源。

3. 保护数据,以防泄露

由于模型会从训练数据中学习,并且有时会复现训练数据,因此,保护这些数据至关重要。重要做法包括:

     
  • 分类数据:标记敏感数据并限制其在模型训练中的使用。  
  • 实施差分隐私:在训练过程中添加可控干扰信息,以遮掩单个数据点。  
  • 加密管道:使用强加密方法,保护传输中数据与静态数据。  
  • 监测输出:检测模型响应或嵌入中潜在的机密信息泄露。

在医疗和金融等受监管行业中,应用数据最小化原则,例如仅使用所需的数据进行训练,并维护数据源和转换数据的审计日志。

4. 采用更严格的访问控制

AI 系统的访问管理应体现关键应用的访问管理,但也应扩展到新的层面:

     
  • 要求对模型部署和推理实施基于角色的访问控制 (RBAC)。  
  • 使用 API 网关和身份验证令牌,限制访问推理端点。  
  • 隔离开发、测试和生产环境。  
  • 监测拥有重新训练或修改模型权限的用户,因为他们的操作可能会产生连锁效应。

多因素身份验证 (MFA)、密钥轮换,以及精细化日志记录对于防止外部入侵和内部滥用至关重要。

5. 强制实施一致的策略

AI 带来了独特的治理挑战。一致的策略和实践,有助于将安全和伦理因素融入模型本身以及用户互动。建议落实以下措施:

     
  • 模型生命周期治理:定义数据采购、模型重新训练和停用策略。  
  • 提示词管理:强制执行对系统提示词、上下文注入,以及工具访问的限制。  
  • 跨团队协作:协调数据科学、DevSecOps 和合规团队,确保维持一致的标准。

通过配置即代码、持续合规扫描,以及集成持续集成和持续交付 (CI/CD) 管道,可以实现策略执行的自动化。目标是使安全性成为 AI 系统的固有属性,而不是事后才加以考虑。


如何使用 AI 增强整体安全性

AI 也可以成为强大的防御工具。通过适当的保护和管理,AI 驱动型网络安全解决方案可以帮助企业比以往更有效地检测、响应,甚至预测威胁。

大规模检测威胁

AI 擅长模式识别。现代化安全运营中心 (SOC) 将部署模型,以便:

     
  • 识别网络流量或用户行为中的异常情况  
  • 通过行为基准分析,检测 zero-day 攻击  
  • 关联来自多个遥测源的警报

GenAI 通过提供自然语言界面来查询复杂的数据集,进一步扩展了这项功能,可以在数秒内将原始遥测数据转化为切实可行的情报。

自动化响应

自动化可以缩短响应时间,减轻人类疲劳。使用 AI 驱动的安全编排、自动化和响应平台:

     
  • 自动化处理常规事件(例如,隔离端点或重置凭证)。  
  • 基于不断演变的威胁情报,动态生成行动手册。  
  • LLM 可以为分析师总结事件,从而提高分类效率。

借助 AI 驱动的自动化响应,人类分析师能够专注于更高价值的调查和战略防御。

运用预测性安全

除了检测之外,AI 还支持主动防御。预测性安全利用 AI LAI 预测潜在的漏洞或攻击路径,防患于未然,以免漏洞遭到不法分子的利用。

将预测分析应用于配置数据,可以揭示系统是否正朝着有风险的状态发展。生成式模拟可以模拟攻击者在企业环境中横向移动的方式。历史泄露数据可以为风险评分提供信息,有助于确定补丁管理和防御投资的优先级。随着时间的推移,这些见解可以将企业 AI 安全态势从被动响应转变为主动防御。

增强人类安全团队的能力

AI 模型应该增强人类的专业知识,而不是完全取代。借助 AI,那些因警报和日志而感到不知所措的分析师,可以将注意力转移到全局。

对话助手让分析师能够使用自然语言来查询事件。模式识别模型提供上下文增强功能,自动将威胁指标与与已知技术或活动关联起来。AI 助手可以通过提供引导式建议,将初级分析师的表现提升到接近专家的水平。

最终,安全团队将充分利用这场 AI 革命,提高响应快速、做出更明智的决策、提高韧性,而威胁行为者也正试图利用这场革命。


Cloudflare 如何提供协助

使用 Cloudflare AI Security Suite,领导者可以获得可见性工具和安全控制,以简单、一致的方式保护团队和 AI 工具。此平台将连接性、网络安全、应用安全和开发人员工具整合到单个解决方案,让企业能够在整个 AI 生命周期做出更快速、更智能的安全决策,提前防范各种威胁。

进一步了解如何使用 Cloudflare AI Security Suite 保护 AI 系统。

常见问题解答

为什么保护 AI 系统非常重要?

由于攻击者正积极尝试利用 AI 创建的全新系统、数据流和决策逻辑,因此,保护 AI 安全是当务之急。保护模型、数据和基础设施安全,是维持那些为商业、政府和研究提供支持的系统可信度的关键。

AI 系统主要通过哪些方式,扩大了攻击面?

AI 系统引入了多个新的攻击面,包括模型本身、训练数据、API 和推理管道,它们可能会被攻击者加以利用。

什么是“影子 AI”?它为什么是一种安全风险?

影子 AI 是指在 IT 部门正式监督之外使用的 AI 工具或系统。员工尝试使用外部 GenAI 工具或部署开源模型,这种情况下,由于缺乏可见性,企业无法实施一致的安全控制或合规措施,这为攻击者留下了可乘之机。

对抗性攻击如何操纵 AI 模型?

对抗性攻击会在输入数据中引入扰动因素(精心设计的微小改动),这些修改通常难以被人察觉,但会导致模型生成错误的预测或分类。在语言模型中,这可能涉及稍微修改提示词,以得到未经授权或有害的输出。

保护 AI 系统的五个基本步骤是什么?

保护 AI 系统需要采用整体方法,包括:盘点所有 AI 资产;评估 AI 环境中的风险;保护数据,以防泄露;采用更严格的访问控制;以及强制实施一致的策略。

企业如何保护 AI 系统,以防数据泄露?

企业可以通过以下方式保护数据:对敏感数据进行分类,限制其在训练中的使用;实施差分隐私;加密管道,保护传输中数据与静态数据;监测模型输出,以检测潜在的机密信息泄露。

除了检测之外,AI 还可以怎样增强安全团队的能力?

AI 可以通过以下方式增强安全:自动化处理常规事件并生成行动手册;利用预测性安全进行预测,以免漏洞遭到利用;以及通过对话助手来增强人类安全团队的能力,从而提高分析师的效率。

Cloudflare AI Security Suite 如何帮助保护 AI 系统?

Cloudflare AI Security Suite 提供可见性工具和安全控制,以保护团队和 AI 工具。这是整合了连接性、网络安全、应用安全和开发人员工具的单一平台,让企业能够在整个 AI 生命周期做出更快速、更智能的安全决策。