AI 安全包括用于保障 AI 应用开发安全、管控员工 AI 使用以及保护 AI 驱动应用和模型的所有资源。
阅读本文后,您将能够:
复制文章链接
人工智能 (AI) 已成为各行各业、各种规模的企业不可或缺的一项技术。事实上,在 2025 年年初,71% 的企业表示他们已经在定期使用生成式人工智能 (GenAI)。
随着各大企业竞相将 AI 集成到客户服务、网络安全等各个领域,攻击者同样也在不遗余力地利用这些支持 AI 功能的系统来创建全新系统、数据流和决策逻辑。
AI 安全已不再是一个理论问题,而是一项现实中的当务之急。保护模型、数据和基础设施,意味着维护那些日益驱动商业、政府和研究工作的系统的可信性。
传统应用拥有清晰、明确的边界:Web 服务器、API,以及用户界面。然而,AI 系统引入了一系列新的攻击面,这些攻击面可能会被探测和利用:
AI 系统承担着日益重要的工作,这使其输入和输出成为有吸引力的目标。攻击者以 AI 模型和应用为攻击目标,旨在窃取或复制知识产权、破坏决策流程、泄露敏感信息,并削弱公众对 AI 服务的信心。企业对 AI 的依赖程度越高,保护 AI 安全就越重要,这与保护其他核心资产是一样的道理。
虽然 AI 系统继承了许多传统的 IT 风险,但它们也引入了其设计和运行特有的新风险。
影子 AI是指在正式 IT 监管之外使用的 AI 工具或系统,正如“影子 IT”概念一样,后者曾用于描述使用未经批准的云应用。在标准 IT 采购流程之外,员工会尝试使用外部 GenAI 工具,将其连接到内部数据源,甚至在本地服务器上部署自己的开源模型。由于缺乏可见性,企业无法实施一致的控制或合规措施,这为攻击者留下了可乘之机。
数据投毒是指攻击者篡改模型的训练数据,以操纵输出。这对保护大型语言模型 (LLM) 而言是一个特别棘手的问题,因为 LLM 经过训练,能够理解并创建人类语言文本。
数据投毒的目标是操纵模型输出,使其有利于攻击者或降低模型的整体性能。影响可能不会立即显现,但随着时间的推移,中毒的数据会损害模型性能,降低可信度。
即便是训练有素的模型,也可能会遭到诱骗。攻击者可能会在输入数据中引入扰动因素(精心设计的微小改动)来欺骗模型。例如,在停车标志的照片中添加一些随机像素,这可能会导致图像识别模型错误地识别该标志。在自然语言模型中,略微修改提示词可能会引发未经授权或有害的输出。这些修改通常难以被人察觉,但足以导致模型生成错误的预测或分类。
GenAI 模型特别容易受到基于提示词的攻击。恶意用户可能会编写指令来覆盖系统提示词,泄露内部数据,或操纵行为。例如:
AI 没有取代传统的网络安全问题,反而加剧了这些问题。例如,由于 AI 依赖数据提供商、模型存储库、预训练权重和开源库组成的庞大生态系统,因此,AI 系统可能容易遭受供应链攻击。
现在,攻击者正积极利用 AI 增强自身的攻击能力。GenAI 模型可以快速制作大量以假乱真的网络钓鱼邮件或深度伪造内容。强化学习代理可以优化网络中的横向移动策略。甚至可以利用预测防御响应的 AI 模型,微调 DDoS 攻击防范措施。
保护 AI 系统需要采用涵盖资产、数据、访问和策略的整体方法。五个基本步骤如下所述:
您无法保护自己不知道其存在的东西。第一步是全面了解员工正在使用的 AI 工具以及集成到应用中的各种 AI 组件:
自动化发现工具或 AI 安全态势管理平台,有助于识别“影子 AI”实例、模型版本以及跨环境传输的数据流。
盘点企业中使用的模型、数据源和 AI 应用之后,则可以评估每个组件的漏洞和错误配置。常见的风险包括:
每个企业都有各自的风险承受能力和风险缓解方法。不过,一般来说,企业应该像处理软件漏洞管理一样,认真对待 AI 风险,即:扫描漏洞、确定优先级并修复缺陷。
如果贵公司或机构仍然在加深对 AI 风险的理解,则可以参考国际标准化组织 (ISO) 以及美国国家标准与技术研究院 (NIST) 的模型框架等实用资源。
由于模型会从训练数据中学习,并且有时会复现训练数据,因此,保护这些数据至关重要。重要做法包括:
在医疗和金融等受监管行业中,应用数据最小化原则,例如仅使用所需的数据进行训练,并维护数据源和转换数据的审计日志。
AI 系统的访问管理应体现关键应用的访问管理,但也应扩展到新的层面:
多因素身份验证 (MFA)、密钥轮换,以及精细化日志记录对于防止外部入侵和内部滥用至关重要。
AI 带来了独特的治理挑战。一致的策略和实践,有助于将安全和伦理因素融入模型本身以及用户互动。建议落实以下措施:
通过配置即代码、持续合规扫描,以及集成持续集成和持续交付 (CI/CD) 管道,可以实现策略执行的自动化。目标是使安全性成为 AI 系统的固有属性,而不是事后才加以考虑。
AI 也可以成为强大的防御工具。通过适当的保护和管理,AI 驱动型网络安全解决方案可以帮助企业比以往更有效地检测、响应,甚至预测威胁。
AI 擅长模式识别。现代化安全运营中心 (SOC) 将部署模型,以便:
GenAI 通过提供自然语言界面来查询复杂的数据集,进一步扩展了这项功能,可以在数秒内将原始遥测数据转化为切实可行的情报。
自动化可以缩短响应时间,减轻人类疲劳。使用 AI 驱动的安全编排、自动化和响应平台:
借助 AI 驱动的自动化响应,人类分析师能够专注于更高价值的调查和战略防御。
除了检测之外,AI 还支持主动防御。预测性安全利用 AI LAI 预测潜在的漏洞或攻击路径,防患于未然,以免漏洞遭到不法分子的利用。
将预测分析应用于配置数据,可以揭示系统是否正朝着有风险的状态发展。生成式模拟可以模拟攻击者在企业环境中横向移动的方式。历史泄露数据可以为风险评分提供信息,有助于确定补丁管理和防御投资的优先级。随着时间的推移,这些见解可以将企业 AI 安全态势从被动响应转变为主动防御。
AI 模型应该增强人类的专业知识,而不是完全取代。借助 AI,那些因警报和日志而感到不知所措的分析师,可以将注意力转移到全局。
对话助手让分析师能够使用自然语言来查询事件。模式识别模型提供上下文增强功能,自动将威胁指标与与已知技术或活动关联起来。AI 助手可以通过提供引导式建议,将初级分析师的表现提升到接近专家的水平。
最终,安全团队将充分利用这场 AI 革命,提高响应快速、做出更明智的决策、提高韧性,而威胁行为者也正试图利用这场革命。
使用 Cloudflare AI Security Suite,领导者可以获得可见性工具和安全控制,以简单、一致的方式保护团队和 AI 工具。此平台将连接性、网络安全、应用安全和开发人员工具整合到单个解决方案,让企业能够在整个 AI 生命周期做出更快速、更智能的安全决策,提前防范各种威胁。
进一步了解如何使用 Cloudflare AI Security Suite 保护 AI 系统。
由于攻击者正积极尝试利用 AI 创建的全新系统、数据流和决策逻辑,因此,保护 AI 安全是当务之急。保护模型、数据和基础设施安全,是维持那些为商业、政府和研究提供支持的系统可信度的关键。
AI 系统引入了多个新的攻击面,包括模型本身、训练数据、API 和推理管道,它们可能会被攻击者加以利用。
影子 AI 是指在 IT 部门正式监督之外使用的 AI 工具或系统。员工尝试使用外部 GenAI 工具或部署开源模型,这种情况下,由于缺乏可见性,企业无法实施一致的安全控制或合规措施,这为攻击者留下了可乘之机。
对抗性攻击会在输入数据中引入扰动因素(精心设计的微小改动),这些修改通常难以被人察觉,但会导致模型生成错误的预测或分类。在语言模型中,这可能涉及稍微修改提示词,以得到未经授权或有害的输出。
保护 AI 系统需要采用整体方法,包括:盘点所有 AI 资产;评估 AI 环境中的风险;保护数据,以防泄露;采用更严格的访问控制;以及强制实施一致的策略。
企业可以通过以下方式保护数据:对敏感数据进行分类,限制其在训练中的使用;实施差分隐私;加密管道,保护传输中数据与静态数据;监测模型输出,以检测潜在的机密信息泄露。
AI 可以通过以下方式增强安全:自动化处理常规事件并生成行动手册;利用预测性安全进行预测,以免漏洞遭到利用;以及通过对话助手来增强人类安全团队的能力,从而提高分析师的效率。
Cloudflare AI Security Suite 提供可见性工具和安全控制,以保护团队和 AI 工具。这是整合了连接性、网络安全、应用安全和开发人员工具的单一平台,让企业能够在整个 AI 生命周期做出更快速、更智能的安全决策。