攻击和事故会导致生成式人工智能 (GenAI) 训练数据泄露。了解如何防止数据泄露并缓解其影响。
阅读本文后,您将能够:
复制文章链接
生成式 AI (GenAI) 可以帮助企业提高生产力、做出更明智的决策并加快发展速度,但前提条件是企业使用的大型语言模型 (LLM) 基于海量高质量、相关数据进行训练。对于大多数企业而言,这些训练数据是其最宝贵的知识产权之一。为了安全地将这些数据引入内部或外部的 GenAI 模型,需要采用一种全面的方法来识别和缓解风险。
生成式 AI 使用深度学习模型生成内容:主要是文本、图像、音频、视频或计算机代码。为此,这些模型需要使用海量原始训练数据,而这些数据通常与模型预期生成的数据类型相似。换句话说,文本生成模型使用文本进行训练,视频生成器使用视频进行训练,以此类推。
在算法的引导下,模型会梳理训练数据并进行分析,了解其中的相关概念、图像或模式。经过多轮训练和优化之后,模型会利用从数据分析中学到的知识,快速响应用户提示词,提供新的、相关的内容。
以音乐作为类比,可能有助于理解:旋律音阶、和弦构成,以及现有的歌曲或作品代表着“训练数据”。音乐家(就像 GenAI 模型一样)进行研究,识别其中有效的模式,并合成新的独奏、和弦以及歌曲(相当于 GenAI 输出)。
在 IT 领域,企业通常使用自己的训练数据来创建 GenAI 模型或微调现有模型,以执行特定任务。训练数据可能来自:
由于生成式模型依赖于规模,许多企业会整合内部数据与外部数据。但是从安全角度来看,这种数据混合存在风险。内部数据通常会经过更严格的审核,如果将敏感信息或专有信息与外部数据混合,则可能会增加下游信息泄露的风险,例如现代化模型逆向攻击、基于提示词的攻击。
训练数据泄露是指通过模型输出、推理查询、日志或辅助工件(例如嵌入),直接或间接地泄露模型训练数据中的敏感、私密或专有内容。“记忆泄漏”是一种类型的训练数据泄露,它是指模型的输出重现了其部分训练数据。
泄漏可能发生在 GenAI 生命周期的多个阶段:
组织机构(尤其是处理敏感或受监管数据的机构)必须像保护其他 IT 资产一样严格保护其 AI 流程,这其中的原因有很多,而且这些原因相互交织。
AI 项目经常依赖于内部、专有或受监管的数据,具体包括:客户数据、财务记录、法律合同、商业机密、源代码等。如果模型泄露了个人可识别信息 (PII) 或商业机密,可能会造成严重损失。此类数据泄露可能会导致身份盗窃、竞争风险、监管罚款、声誉受损,以及知识产权 (IP) 盗窃。
即使仅有少量片段(例如,姓名、地址、少量片段代码)泄露,这些数据也可能与外部数据聚合或关联,从而引发更大规模的数据泄露。
数据隐私法,包括欧洲《通用数据保护条例》(GDPR)、美国加利福尼亚州《加州消费者隐私法》(CCPA) 以及美国《健康保险可携性与责任法案》(HIPAA) 等行业特定法规,对个人数据处理、数据最小化、知情同意以及数据泄露通知等方面做出了严格的规定。泄露个人可识别信息 (PII) 或个人特质的模型,可能会导致企业违反上述这些法律,从而引发罚款、报告要求、审核和集体诉讼。
模型训练数据面临的主要威胁分为三大类:恶意攻击、因缺乏对 AI 使用情况的可见性导致的威胁,以及 API 和端点漏洞。
内部攻击:内部威胁是一个典型的问题:拥有特权的开发人员、机器学习工程师或数据科学家可能会故意外泄训练数据,或将敏感样本注入数据集。他们可能会访问训练日志、参数转储、提示词日志或中间工件,以提取或重构敏感内容。由于这些团队成员通常拥有合法的访问权限,因此,检测恶意行为需要稳健可靠的监测、日志记录和职责分离。
模型逆向攻击:模型逆向(以及成员推理)攻击旨在重构或确认某些数据点是否属于训练集。通过精心制作查询或探测模型的置信度分布,攻击者可以根据模型本身来重构私密的像素级数据(在视觉模型中)或文本数据(在 LLM 中)。
换句话说,“黑盒”模型变成了攻击者用来恢复私密数据的一种手段。
除了逆向工程之外,其他威胁还包括对抗性查询攻击、模型提取,或通过持续查询“窃取”模型。
这些风险往往源于团队以不受控制的方式,采用和使用生成式 AI 工具。
影子 AI:“影子 AI”是指在未经监督、审核,或集成集中安全控制措施的情况下,使用 AI 工具。这些 AI 工具可能会在安全团队毫不知情的情况下,将内部文档或数据上传到第三方模型(例如,公共 LLM),从而造成安全盲点和信息泄露。
访问控制不足:如果对训练数据、嵌入、提示词日志、中间表示或模型权重的权限设置过于宽松,则不需要完整访问权限的用户或系统可能会无意中查看或泄露敏感内容。角色权限过高或基于角色的访问控制 (RBAC) 宽松是常见的根本原因。
生成式 AI 输入和输出的疏忽泄露:通过模型输入或输出渠道无意中泄漏数据的情况时有发生。用于训练的内部提示词可能包含敏感文本,或者用户可能无意中将专有内容输入交互式模型。模型的输出可能会回传部分敏感输入以尝试“提供帮助”,从而将这部分数据泄露给下游系统。同样,提示词/响应会话的日志或存档也可能无意中成为私密数据的储存库。
当模型通过 API 暴露时,这会给服务基础设施带来额外的风险。如果身份验证、速率限制、端点清理或输入过滤机制薄弱,攻击者可能会发起以下攻击:
为了降低训练数据风险,企业需要采取一种全面的综合性安全方法,有机整合技术、策略与解决方案。这些解决方案应提供以下功能:
了解团队成员使用的 AI 模型、工具和应用,是降低泄露训练数据风险的第一步。
在全面了解团队的 AI 使用情况后,分析 AI 环境以发现潜在的漏洞和攻击路径。
确保只有已获授权的用户才能在适当的时候访问适当的信息。
从训练、验证到推理,在整个 AI 开发生命周期中分层部署安全措施,以确保数据的隐私性和完整性。
保护 AI 训练数据的最有效方法是让团队能够采用最佳实践,且不增加现有系统的复杂性。Cloudflare AI Security Suite 提供可见性和安全控制功能,帮助企业标准化和简化其保护生成式 AI 与智能体式 AI 的方法。这个统一平台将连接性、网络安全、应用安全和开发人员工具整合到单个解决方案,让企业能够自信从容地应对 AI 安全挑战。
进一步了解如何使用 Cloudflare AI Security Suite 保护 AI 系统。
GenAI 模型使用大量原始数据进行训练,包括文本、图像和视频等。这些训练数据可能来自内部文档、客户函件、专有知识库或外部公共来源。
训练数据泄露是指通过模型输出、日志、推理查询或辅助工件,直接或间接地泄露模型训练数据中的敏感、私密或专有内容。泄漏可能发生在训练阶段、推理阶段,或分布式训练中的梯度或参数泄露。
保护 AI 训练数据至关重要,因为这些数据通常包含宝贵的、专有或受监管的信息,例如商业机密、客户数据以及财务记录。此类数据泄露可能会造成严重损失,包括身份盗窃、竞争风险、监管罚款(例如 GDPR 或 HIPAA 的规定)、声誉受损和知识产权 (IP) 盗窃。
模型训练数据面临的主要安全风险分为三大类:恶意攻击、因缺乏对 AI 使用情况的可见性导致的威胁,以及 API 和端点漏洞。具体示例包括:内部人员攻击、“影子 AI”(不受控制地使用 AI 工具),以及针对 API 暴露模型的提示词注入攻击等。
模型逆向攻击试图重构或确认训练集中是否包含特定数据点。攻击者通过精心制作查询或探测模型的置信度分布来实现这一目标,本质上是将“黑盒”模型用作恢复私密数据(例如私密文本数据或像素级别信息)的一种手段。
“影子 AI”是指在未经集中监督、审核,或集成安全控制措施的情况下,使用 AI 工具。这会给安全团队造成管理盲点,因为员工可能会将内部文档或数据上传到未经授权的第三方模型,从而泄露敏感信息或专有信息。
为了降低训练数据风险,企业应实施以下对策:(1) 监测 AI 使用情况;(2) 全面评估 AI 环境风险;(3) 实施严密的访问控制;以及 (4) 在整个 AI 流程中落实数据安全最佳实践。
数据安全最佳实践可以贯穿 AI 生命周期,包括:数据最小化和匿名化、数据清理与过滤、噪声注入、加密学习,以及模型输出过滤,以阻止或清理敏感内容。
---