如何保护训练数据,以免泄露 AI 数据

攻击和事故会导致生成式人工智能 (GenAI) 训练数据泄露。了解如何防止数据泄露并缓解其影响。

学习目标

阅读本文后,您将能够:

  • 了解常见的 AI 训练数据安全风险
  • 确定保护生成式 AI 训练数据的最有效方法
  • 运用保护 AI 训练数据、模型、应用和工作负载的重要原则

复制文章链接

如何保护训练数据,以免泄露 AI 数据

生成式 AI (GenAI) 可以帮助企业提高生产力、做出更明智的决策并加快发展速度,但前提条件是企业使用的大型语言模型 (LLM) 基于海量高质量、相关数据进行训练。对于大多数企业而言,这些训练数据是其最宝贵的知识产权之一。为了安全地将这些数据引入内部或外部的 GenAI 模型,需要采用一种全面的方法来识别和缓解风险。


什么是生成式 AI 训练数据?

生成式 AI 使用深度学习模型生成内容:主要是文本、图像、音频、视频或计算机代码。为此,这些模型需要使用海量原始训练数据,而这些数据通常与模型预期生成的数据类型相似。换句话说,文本生成模型使用文本进行训练,视频生成器使用视频进行训练,以此类推。

在算法的引导下,模型会梳理训练数据并进行分析,了解其中的相关概念、图像或模式。经过多轮训练和优化之后,模型会利用从数据分析中学到的知识,快速响应用户提示词,提供新的、相关的内容。

以音乐作为类比,可能有助于理解:旋律音阶、和弦构成,以及现有的歌曲或作品代表着“训练数据”。音乐家(就像 GenAI 模型一样)进行研究,识别其中有效的模式,并合成新的独奏、和弦以及歌曲(相当于 GenAI 输出)。

在 IT 领域,企业通常使用自己的训练数据来创建 GenAI 模型或微调现有模型,以执行特定任务。训练数据可能来自:

  • 内部文档(例如,技术报告、设计文档、用户手册)
  • 客户函件、支持日志、电子邮件
  • 公开可用的文本、代码存储库和开放数据集
  • 专有知识库、知识产权存档材料
  • 通过 Web 爬取、API 或第三方数据集获取的外部数据源

由于生成式模型依赖于规模,许多企业会整合内部数据与外部数据。但是从安全角度来看,这种数据混合存在风险。内部数据通常会经过更严格的审核,如果将敏感信息或专有信息与外部数据混合,则可能会增加下游信息泄露的风险,例如现代化模型逆向攻击、基于提示词的攻击。


什么是训练数据泄露?

训练数据泄露是指通过模型输出、推理查询、日志或辅助工件(例如嵌入),直接或间接地泄露模型训练数据中的敏感、私密或专有内容。“记忆泄漏”是一种类型的训练数据泄露,它是指模型的输出重现了其部分训练数据。

泄漏可能发生在 GenAI 生命周期的多个阶段:

  • 训练阶段泄漏:敏感内容或受保护的信息无意中进入训练数据集,模型随后将其泄露。
  • 推理阶段泄露:攻击者精心设计提示词,诱使模型泄露内部或私密数据。
  • 梯度或参数泄露:在分布式训练中,如果将大型模型的训练分散在多个处理器,则参数更新可能会无意中泄露训练数据。

为什么保护 AI 训练数据至关重要?

组织机构(尤其是处理敏感或受监管数据的机构)必须像保护其他 IT 资产一样严格保护其 AI 流程,这其中的原因有很多,而且这些原因相互交织。

训练数据对组织机构攻击者而言都非常宝贵

AI 项目经常依赖于内部、专有或受监管的数据,具体包括:客户数据、财务记录、法律合同、商业机密、源代码等。如果模型泄露了个人可识别信息 (PII) 或商业机密,可能会造成严重损失。此类数据泄露可能会导致身份盗窃、竞争风险、监管罚款、声誉受损,以及知识产权 (IP) 盗窃。

即使仅有少量片段(例如,姓名、地址、少量片段代码)泄露,这些数据也可能与外部数据聚合或关联,从而引发更大规模的数据泄露。

侵犯隐私代价高昂

数据隐私法,包括欧洲《通用数据保护条例》(GDPR)、美国加利福尼亚州《加州消费者隐私法》(CCPA) 以及美国《健康保险可携性与责任法案》(HIPAA) 等行业特定法规,对个人数据处理、数据最小化、知情同意以及数据泄露通知等方面做出了严格的规定。泄露个人可识别信息 (PII) 或个人特质的模型,可能会导致企业违反上述这些法律,从而引发罚款、报告要求、审核和集体诉讼。


训练数据安全面临的主要风险有哪些?

模型训练数据面临的主要威胁分为三大类:恶意攻击、因缺乏对 AI 使用情况的可见性导致的威胁,以及 API 和端点漏洞。

恶意行为者的攻击

内部攻击:内部威胁是一个典型的问题:拥有特权的开发人员、机器学习工程师或数据科学家可能会故意外泄训练数据,或将敏感样本注入数据集。他们可能会访问训练日志、参数转储、提示词日志或中间工件,以提取或重构敏感内容。由于这些团队成员通常拥有合法的访问权限,因此,检测恶意行为需要稳健可靠的监测、日志记录和职责分离。

模型逆向攻击:模型逆向(以及成员推理)攻击旨在重构或确认某些数据点是否属于训练集。通过精心制作查询或探测模型的置信度分布,攻击者可以根据模型本身来重构私密的像素级数据(在视觉模型中)或文本数据(在 LLM 中)。

换句话说,“黑盒”模型变成了攻击者用来恢复私密数据的一种手段。

除了逆向工程之外,其他威胁还包括对抗性查询攻击、模型提取,或通过持续查询“窃取”模型。

AI 风险和漏洞

这些风险往往源于团队以不受控制的方式,采用和使用生成式 AI 工具。

影子 AI:“影子 AI”是指在未经监督、审核,或集成集中安全控制措施的情况下,使用 AI 工具。这些 AI 工具可能会在安全团队毫不知情的情况下,将内部文档或数据上传到第三方模型(例如,公共 LLM),从而造成安全盲点和信息泄露。

访问控制不足:如果对训练数据、嵌入、提示词日志、中间表示或模型权重的权限设置过于宽松,则不需要完整访问权限的用户或系统可能会无意中查看或泄露敏感内容。角色权限过高或基于角色的访问控制 (RBAC) 宽松是常见的根本原因。

生成式 AI 输入和输出的疏忽泄露:通过模型输入或输出渠道无意中泄漏数据的情况时有发生。用于训练的内部提示词可能包含敏感文本,或者用户可能无意中将专有内容输入交互式模型。模型的输出可能会回传部分敏感输入以尝试“提供帮助”,从而将这部分数据泄露给下游系统。同样,提示词/响应会话的日志或存档也可能无意中成为私密数据的储存库。

API 和端点漏洞

当模型通过 API 暴露时,这会给服务基础设施带来额外的风险。如果身份验证速率限制、端点清理或输入过滤机制薄弱,攻击者可能会发起以下攻击:

  • 提示词注入攻击:攻击者诱使 AI 模型忽略其指令,并生成有害或非预期的响应。
  • 链式或探测攻击:网络犯罪分子会发送一系列巧妙的问题,逐步获取训练数据或其他关于模型行为的敏感信息。
  • 参数或模型窃取:攻击者反复查询模型,在没有直接访问权限的情况下复制其底层逻辑或训练数据。
  • 在途攻击或侧信道攻击:网络犯罪分子拦截或窃听 API 流量,以窃取数据或篡改结果。
  • API 边界漏洞:API 防御中的任何薄弱环节,都有可能导致敏感数据泄露或遭到滥用。

如何缓解训练数据泄露的风险

为了降低训练数据风险,企业需要采取一种全面的综合性安全方法,有机整合技术、策略与解决方案。这些解决方案应提供以下功能:

监测 AI 使用情况(模型、工具和应用)

了解团队成员使用的 AI 模型、工具和应用,是降低泄露训练数据风险的第一步。

  • AI 盘点与发现:使用扫描、问卷调查或基于代理的监控来识别哪些团队、项目或服务正在使用 AI 工具(公共或内部)。标记未经授权而使用的 AI 工具。
  • 影子 AI 检测:监测与 AI 相关的 SaaS 使用情况、异常出站流量或域连接,检测未经批准的模型上传或 API 调用
  • 治理监督:将 AI 使用与风险、合规和员工治理策略相结合。要求新的模型提案或数据管道必须经过安全或隐私团队的审核之后方可部署。

全面评估 AI 环境风险

在全面了解团队的 AI 使用情况后,分析 AI 环境以发现潜在的漏洞和攻击路径。

  • 数据分类和标记:根据敏感程度(例如,PII、受限制、公开)严格标记训练数据。使用这些标签来强制执行策略。
  • 数据沿袭和出处跟踪:维护完整的数据沿袭记录,包括数据摄取、转换、拆分、增强和过滤。这样做可以准确了解哪些上游数据源为哪些模型提供数据。
  • 风险评分:针对每个数据集或模型,评估其数据泄露风险的严重性和可能性。优先考虑保护高风险资产,加强防护。
  • 威胁建模:针对每个模型或 AI 服务,模拟潜在攻击者的攻击路径、泄露途径及其后果。

实施严密的访问控制

确保只有已获授权的用户才能在适当的时候访问适当的信息。

  • 基于角色的访问控制 (RBAC) 最低权限原则:仅将访问权限授予确有需要的人员或系统。切勿授权建模人员完全随意检查所有原始数据、提示词日志或嵌入的权限。
  • 职责分离:将角色分开(数据摄取、模型训练、提示词管理、推理部署),避免任何单一角色负责所有事务。
  • 基于属性的访问控制 (ABAC):使用基于用户属性、上下文、时间或目的的精细化控制。
  • 访问请求审核和即时配置:尽可能要求对敏感数据访问进行临时权限提升或审批。记录所有访问。
  • 审计跟踪和监测:记录并查看关于谁查询了模型、返回了哪些输出,以及异常检测(例如,异常提示词模式)的日志。
  • 红队演练和渗透测试:定期模拟对抗性访问或提取数据的尝试,测试安全控制措施的效果。

在整个 AI 流程中落实数据安全最佳实践

从训练、验证到推理,在整个 AI 开发生命周期中分层部署安全措施,以确保数据的隐私性和完整性。

  • 数据最小化和匿名化/假名化:仅包含实现训练目标绝对必要的数据。去除或标记个人可识别信息,并尽可能使用差分隐私技术或合成数据。
  • 数据清理和过滤:在训练前,使用模式匹配或启发式方法扫描摄取的数据,检测并移除敏感或不需要的内容。
  • 噪声注入:引入精心调整的噪声数据或混淆信息,降低模型记住极其具体实例的能力。
  • 加密学习:使用加密或分区数据进行训练,确保任何一方都无法看到原始数据。
  • 模型输出过滤和防护:通过过滤器或策略对模型输出进行后处理,阻止或清理敏感内容。
  • 提示词清理和上下文控制:精心设计提示词,最大程度地降低泄露私密上下文的风险。对于检索增强生成 (RAG) 系统,审核并清理检索得到的上下文,然后将其传递给模型。

Cloudflare 如何提供协助

保护 AI 训练数据的最有效方法是让团队能够采用最佳实践,且不增加现有系统的复杂性。Cloudflare AI Security Suite 提供可见性和安全控制功能,帮助企业标准化和简化其保护生成式 AI 与智能体式 AI 的方法。这个统一平台将连接性、网络安全、应用安全和开发人员工具整合到单个解决方案,让企业能够自信从容地应对 AI 安全挑战

进一步了解如何使用 Cloudflare AI Security Suite 保护 AI 系统。

常见问题解答

什么是生成式 AI (GenAI) 训练数据?

GenAI 模型使用大量原始数据进行训练,包括文本、图像和视频等。这些训练数据可能来自内部文档、客户函件、专有知识库或外部公共来源。

GenAI 模型如何发生训练数据泄露?

训练数据泄露是指通过模型输出、日志、推理查询或辅助工件,直接或间接地泄露模型训练数据中的敏感、私密或专有内容。泄漏可能发生在训练阶段、推理阶段,或分布式训练中的梯度或参数泄露。

为什么企业保护其 AI 训练数据的安全至关重要?

保护 AI 训练数据至关重要,因为这些数据通常包含宝贵的、专有或受监管的信息,例如商业机密、客户数据以及财务记录。此类数据泄露可能会造成严重损失,包括身份盗窃、竞争风险、监管罚款(例如 GDPR 或 HIPAA 的规定)、声誉受损和知识产权 (IP) 盗窃。

AI 训练数据安全面临的三大主要风险风险是什么?

模型训练数据面临的主要安全风险分为三大类:恶意攻击、因缺乏对 AI 使用情况的可见性导致的威胁,以及 API 和端点漏洞。具体示例包括:内部人员攻击、“影子 AI”(不受控制地使用 AI 工具),以及针对 API 暴露模型的提示词注入攻击等。

什么是“模型逆向攻击”?它如何破坏训练数据?

模型逆向攻击试图重构或确认训练集中是否包含特定数据点。攻击者通过精心制作查询或探测模型的置信度分布来实现这一目标,本质上是将“黑盒”模型用作恢复私密数据(例如私密文本数据或像素级别信息)的一种手段。

什么是“影子 AI”?它如何造成数据泄露风险?

“影子 AI”是指在未经集中监督、审核,或集成安全控制措施的情况下,使用 AI 工具。这会给安全团队造成管理盲点,因为员工可能会将内部文档或数据上传到未经授权的第三方模型,从而泄露敏感信息或专有信息。

降低训练数据风险的四个关键缓解措施是什么?

为了降低训练数据风险,企业应实施以下对策:(1) 监测 AI 使用情况;(2) 全面评估 AI 环境风险;(3) 实施严密的访问控制;以及 (4) 在整个 AI 流程中落实数据安全最佳实践。

在整个 AI 流程中,可以运用哪些数据安全技术来保护数据隐私?

数据安全最佳实践可以贯穿 AI 生命周期,包括:数据最小化和匿名化、数据清理与过滤、噪声注入、加密学习,以及模型输出过滤,以阻止或清理敏感内容。

---