防范 AI 模型滥用从架构安全措施入手,包括防护机制、数据校验、提示词验证以及数据丢失防护(DLP)等。
阅读本文后,您将能够:
复制文章链接
人工智能 (AI) 系统功能强大,许多都嵌入到核心业务流程中。因此,AI 滥用可能破坏应用和基础设施,使组织面临合规 和声誉风险,在极端情况下甚至会危及生命。为防止滥用,AI 模型必须配置防护机制、访问控制、提示词验证和其他安全措施。架构选择,例如在基于 AI 的应用基础设施中纳入人工介入(HITL),也可以减轻滥用风险。
AI 滥用是指将人工智能模型用于模型架构师预期之外的用途,尤其恶意或欺诈性目的。随着 AI 模型继续变得更加有效,防止 AI 滥用变得越来越重要。许多 AI 领域专家对流氓国家与恐怖分子(可能已经在使用 AI 来达成其目标)滥用 AI 的潜在风险表示担忧。
OWASP 大型语言模型 (LLM) 十大风险 列出了一些滥用 AI 模型的方式,例如通过 提示词注入操纵其行为、敏感数据泄露,以及通过入侵下游应用所依赖的 LLM 来引入供应链漏洞。
除了这些风险之外,个人还可能尝试使用 AI 模型来访问或生成危险或非法内容,包括武器制造说明、有害色情内容等。
对于依赖 AI 的日常用户和企业而言,防止 AI 滥用对于保护其数据、品牌和客户,以及遵守数据隐私法规非常重要。
攻击者可以利用 AI 模型来协助多种类型的网络攻击。生成式 AI 模型和AI 智能体可以发现软件漏洞,包括(某些情况下发现)zero-day 漏洞利用。它们可以编写恶意软件程序。它们可以通过制作网络钓鱼信息来协助社会工程活动,而且能识别网络钓鱼目标。智能体式 AI 应用可以自主运行长期的网络钓鱼活动、勒索软件活动和其他网络攻击,赋能高级持续性威胁 (APT) 和有组织犯罪集团。
即便已设置安全防护机制的生成式 AI 模型,仍可能被以此类方式滥用。借助提示词注入与越狱等技术,恶意方可利用这些模型达成其自身目的。
为防止个人与组织将 AI 应用用于非预期用途,AI 应用与模型开发者应在开发与部署全过程中集成多项安全措施。
在模型投入生产环境之前,需要对其进行训练。防范 AI 滥用,首先需对训练数据进行验证,确保模型的训练数据不包含任何存在偏见的数据、隐私数据,以及可能导致意外未授权行为的隐藏后门。
由于模型优化需要海量训练数据,这些数据往往来源多样,导致训练数据容易遭受供应链攻击。但恶意分子也可能利用数据投毒攻击破坏训练数据,旨在故意引入偏见或后门。数据投毒攻击者可能从组织外部直接侵入数据库,而内部威胁也可能篡改训练数据。
除了数据验证外,这些安全措施也有助于防止数据投毒攻击:
许多组织并未自行训练 LLM。对于位于 LLM 提供商下游的企业而言,了解提供商已采取哪些安全措施来防范模型遭受数据投毒攻击至关重要。
LLM 提供商的客户通常使用 检索增强生成 (RAG)来针对其使用场景优化 LLM 性能。验证和保护用于 RAG 的内部数据集也至关重要。
AI 防护机制是用于确保 AI 模型保持在预设边界内的策略与控制措施。例如,防护机制可以允许模型撰写一封电子邮件,但会阻止它撰写网络钓鱼邮件。或者,允许模型编写函数代码,但阻止其编写漏洞利用程序。
防护机制应当在各个方面保护 AI 模型,从训练数据(如上所述)到应用的基础设施。
企业将 AI 集成到面向公众的应用时,大多会采用现有 AI 模型。在这些情况下,应用和基础设施防护措施是他们最直接控制的领域。他们还应该设法了解模型提供商在模型中内置的防护机制。
AI 模型特别容易受到提示词注入攻击:通过欺骗性提示词,诱导模型突破其防护机制。除蓄意攻击外,部分用户提示词也可能违反模型的服务条款,例如请求提供非法、危险或露骨内容。
提示词验证有助于确保提示词中不包含有害或欺骗性的请求。正如 API 模式验证会阻止不符合 API 模式的非法请求一样,提示词验证可以在提示词中的不安全内容到达 AI 模型之前识别并阻止它们。
人工介入 (HITL) 是一种降低无监督 AI 模型决策风险的可行架构方案。HITL 让人类管理人员参与 AI 工作流程,从而可对 AI 模型做出的决策进行审批。模型可通过直接人工反馈进行训练,也可配置为当模型对提示词的合适响应仅能做出低置信度预测时,主动请求人工协助。
数据丢失防护 (DLP) 是指一种可阻止机密数据离开受保护环境的技术。DLP 可检查每一个 API 请求与 AI 提示词,并通过数据指纹、关键词匹配、模式匹配等多种技术识别敏感与机密数据,并在必要时拦截相关请求。
DLP 还可以限制从某些网页或应用进行复制和粘贴,以防止内部人员将内部信息提供给外部 LLM。
企业只有全面掌握 AI 滥用可能发生的场景及其潜在影响,才能有效防范此类行为。AI 模型往往会以非预期或未授权的方式嵌入应用基础设施中,这与许多应用开发人员面临的影子 API 问题十分相似。影子 AI 检测可帮助企业确定 AI 滥用风险所在,以便可以采取适当的防护措施和安全措施。
Cloudflare AI Security Suite 让企业能够发现影子 AI、保护模型免遭滥用、确保 AI 智能体访问安全,并阻止数据暴露。这使得组织组织能够在加快 AI 采用的同时确保安全。了解有关 AI Security Suite 的更多信息。
AI 滥用是指个人或团体利用模型进行模型原始设计范围之外的活动,特别是用于欺骗、非法或有害的目标。这包括使用这些工具来创建危险或受限制的内容,或协助实施欺诈行为。
恶意分子可以利用生成式 AI 编写恶意软件,精确定位软件缺陷,并发现 zero-day 漏洞利用。他们还会利用这类工具自动化实施社会工程学攻击,生成具有高迷惑性的钓鱼消息,并为长期鱼叉式钓鱼活动识别潜在目标。此外,针对生成式 AI 模型的提示词注入攻击,攻击者有可能窃取到机密信息。
安全防护始于训练阶段,需通过数据验证确保数据不存在偏差、隐私信息或隐藏后门。AI 模型开发人员还应采用多样化数据源,对数据访问遵循最小权限原则,并运用对抗训练,帮助模型识别具有欺骗性的输入内容。
防护机制是必不可少的策略和控制措施,可将 AI 行为保持在安全、预定义的范围内。
提示词验证起到过滤器的作用,在欺骗性或有害请求到达 AI 模型之前对其进行识别并拦截。这一过程有助于阻止用户试图欺骗系统绕过其安全措施的提示词注入攻击。