如何防范 AI 滥用

防范 AI 模型滥用从架构安全措施入手,包括防护机制、数据校验、提示词验证以及数据丢失防护(DLP)等。

学习目标

阅读本文后,您将能够:

  • 描述 AI 滥用的影响
  • 列出一些可以防止 AI 滥用的技术

复制文章链接

如何防范 AI 滥用

人工智能 (AI) 系统功能强大,许多都嵌入到核心业务流程中。因此,AI 滥用可能破坏应用和基础设施,使组织面临合规 和声誉风险,在极端情况下甚至会危及生命。为防止滥用,AI 模型必须配置防护机制、访问控制、提示词验证和其他安全措施。架构选择,例如在基于 AI 的应用基础设施中纳入人工介入(HITL),也可以减轻滥用风险。

什么是 AI 滥用?

AI 滥用是指将人工智能模型用于模型架构师预期之外的用途,尤其恶意或欺诈性目的。随着 AI 模型继续变得更加有效,防止 AI 滥用变得越来越重要。许多 AI 领域专家对流氓国家与恐怖分子(可能已经在使用 AI 来达成其目标)滥用 AI 的潜在风险表示担忧。

OWASP 大型语言模型 (LLM) 十大风险 列出了一些滥用 AI 模型的方式,例如通过 提示词注入操纵其行为、敏感数据泄露,以及通过入侵下游应用所依赖的 LLM 来引入供应链漏洞。

除了这些风险之外,个人还可能尝试使用 AI 模型来访问或生成危险或非法内容,包括武器制造说明、有害色情内容等。

对于依赖 AI 的日常用户和企业而言,防止 AI 滥用对于保护其数据、品牌和客户,以及遵守数据隐私法规非常重要。

生成式 AI 如何在社会工程学及其他攻击中被滥用?

攻击者可以利用 AI 模型来协助多种类型的网络攻击。生成式 AI 模型AI 智能体可以发现软件漏洞,包括(某些情况下发现)zero-day 漏洞利用。它们可以编写恶意软件程序。它们可以通过制作网络钓鱼信息来协助社会工程活动,而且能识别网络钓鱼目标。智能体式 AI 应用可以自主运行长期的网络钓鱼活动、勒索软件活动和其他网络攻击,赋能高级持续性威胁 (APT) 和有组织犯罪集团。

即便已设置安全防护机制的生成式 AI 模型,仍可能被以此类方式滥用。借助提示词注入与越狱等技术,恶意方可利用这些模型达成其自身目的。

防止滥用 AI 的策略

为防止个人与组织将 AI 应用用于非预期用途,AI 应用与模型开发者应在开发与部署全过程中集成多项安全措施。

训练数据验证

在模型投入生产环境之前,需要对其进行训练。防范 AI 滥用,首先需对训练数据进行验证,确保模型的训练数据不包含任何存在偏见的数据、隐私数据,以及可能导致意外未授权行为的隐藏后门。

由于模型优化需要海量训练数据,这些数据往往来源多样,导致训练数据容易遭受供应链攻击。但恶意分子也可能利用数据投毒攻击破坏训练数据,旨在故意引入偏见或后门。数据投毒攻击者可能从组织外部直接侵入数据库,而内部威胁也可能篡改训练数据。

除了数据验证外,这些安全措施也有助于防止数据投毒攻击:

  • 最低权限原则:将这种 Zero Trust 原则应用于训练数据存储,有助于确保只有绝对需要访问的人员和系统才能访问。这可降低外部攻击者侵入训练数据的风险。
  • 多样化的数据源:从多个来源提取训练数据有助于纠正单一来源数据中可能存在的偏差。
  • 监控和审计: 通过跟踪存储训练数据的更改,组织可以追踪可疑活动,并识别一组训练数据是否已被泄露。
  • 对抗性训练:这是指训练 AI 模型识别故意的误导性输入。

许多组织并未自行训练 LLM。对于位于 LLM 提供商下游的企业而言,了解提供商已采取哪些安全措施来防范模型遭受数据投毒攻击至关重要。

LLM 提供商的客户通常使用 检索增强生成 (RAG)来针对其使用场景优化 LLM 性能。验证和保护用于 RAG 的内部数据集也至关重要。

AI 防护机制

AI 防护机制是用于确保 AI 模型保持在预设边界内的策略与控制措施。例如,防护机制可以允许模型撰写一封电子邮件,但会阻止它撰写网络钓鱼邮件。或者,允许模型编写函数代码,但阻止其编写漏洞利用程序。

防护机制应当在各个方面保护 AI 模型,从训练数据(如上所述)到应用的基础设施。

  • 基础设施防护机制:这涉及使用有效的云原生安全措施(例如API 保护网络安全加密以及身份和访问管理 (IAM)),以保护云 AI 工作负载。
  • 应用防护机制:AI 模型常常通过 API 集成到面向用户的应用中,API 可执行相关策略,拦截绕过模型防护机制的有害或危险内容。
  • 模型防护机制:对模型进行微调以提高准确性,并针对预期目的进行优化。应对模型进行训练,使其明确哪些响应属于不合规内容,从而在推理阶段避免生成此类响应。

企业将 AI 集成到面向公众的应用时,大多会采用现有 AI 模型。在这些情况下,应用和基础设施防护措施是他们最直接控制的领域。他们还应该设法了解模型提供商在模型中内置的防护机制。

提示词验证

AI 模型特别容易受到提示词注入攻击:通过欺骗性提示词,诱导模型突破其防护机制。除蓄意攻击外,部分用户提示词也可能违反模型的服务条款,例如请求提供非法、危险或露骨内容。

提示词验证有助于确保提示词中不包含有害或欺骗性的请求。正如 API 模式验证会阻止不符合 API 模式的非法请求一样,提示词验证可以在提示词中的不安全内容到达 AI 模型之前识别并阻止它们。

人工介入 (HITL)

人工介入 (HITL) 是一种降低无监督 AI 模型决策风险的可行架构方案。HITL 让人类管理人员参与 AI 工作流程,从而可对 AI 模型做出的决策进行审批。模型可通过直接人工反馈进行训练,也可配置为当模型对提示词的合适响应仅能做出低置信度预测时,主动请求人工协助。

数据丢失防护 (DLP)

数据丢失防护 (DLP) 是指一种可阻止机密数据离开受保护环境的技术。DLP 可检查每一个 API 请求与 AI 提示词,并通过数据指纹、关键词匹配、模式匹配等多种技术识别敏感与机密数据,并在必要时拦截相关请求。

DLP 还可以限制从某些网页或应用进行复制和粘贴,以防止内部人员将内部信息提供给外部 LLM。

影子 AI 检测

企业只有全面掌握 AI 滥用可能发生的场景及其潜在影响,才能有效防范此类行为。AI 模型往往会以非预期或未授权的方式嵌入应用基础设施中,这与许多应用开发人员面临的影子 API 问题十分相似。影子 AI 检测可帮助企业确定 AI 滥用风险所在,以便可以采取适当的防护措施和安全措施。

如何通过 Cloudflare 防止 AI 滥用

Cloudflare AI Security Suite 让企业能够发现影子 AI、保护模型免遭滥用、确保 AI 智能体访问安全,并阻止数据暴露。这使得组织组织能够在加快 AI 采用的同时确保安全。了解有关 AI Security Suite 的更多信息。

 

常见问题解答

什么行为构成 AI 滥用?

AI 滥用是指个人或团体利用模型进行模型原始设计范围之外的活动,特别是用于欺骗、非法或有害的目标。这包括使用这些工具来创建危险或受限制的内容,或协助实施欺诈行为。

攻击者可通过哪些方式利用生成式 AI 模型破坏网络安全?

恶意分子可以利用生成式 AI 编写恶意软件,精确定位软件缺陷,并发现 zero-day 漏洞利用。他们还会利用这类工具自动化实施社会工程学攻击,生成具有高迷惑性的钓鱼消息,并为长期鱼叉式钓鱼活动识别潜在目标。此外,针对生成式 AI 模型的提示词注入攻击,攻击者有可能窃取到机密信息。

在模型进入生产阶段之前,开发人员如何确保其安全?

安全防护始于训练阶段,需通过数据验证确保数据不存在偏差、隐私信息或隐藏后门。AI 模型开发人员还应采用多样化数据源,对数据访问遵循最小权限原则,并运用对抗训练,帮助模型识别具有欺骗性的输入内容。

什么是 AI 防护机制?

防护机制是必不可少的策略和控制措施,可将 AI 行为保持在安全、预定义的范围内。

提示词验证如何防止安全漏洞?

提示词验证起到过滤器的作用,在欺骗性或有害请求到达 AI 模型之前对其进行识别并拦截。这一过程有助于阻止用户试图欺骗系统绕过其安全措施的提示词注入攻击。