当前位置：首页 > news >正文

Privacy Risks of General-Purpose Language Models

news 来源：原创 2025/4/24 21:06:17

Privacy Risks of General-Purpose Language Models

出版信息

论文作者 Xudong Pan∗, Mi Zhang∗, Shouling Ji†‡ and Min Yang∗

发表期刊 IEEE Symposium on Security and Privacy 2020

核心问题

攻击者能否仅通过访问文本嵌入反推出用户的敏感信息？

研究定位

本文的工作区别于以往的隐私攻击（如成员推断、传统模型反演），它特别关注由现代大型GPLMs生成的嵌入向量本身所泄露的信息。

主要贡献

论文旨在提供对GPLM嵌入隐私风险的首次系统性评估，涵盖了多个SOTA模型和多样化的应用场景，并初步探索了可能的防御机制

贡献与创新

隐私风险揭示

发现通用语言模型（GPLMs）的文本嵌入会捕获原始文本中的敏感信息（如身份、基因组、医疗记录、位置等）
- 嵌入生成流程
  - 1. 分词（Tokenization）

词元嵌入（Token Embedding，通常是查表）
通过Transformer层进行信息传播
池化（Pooling，通常取特殊标记如[CLS]的最终隐藏状态或最后一个token的隐藏状态）。
```
 - 通用模型嵌入
```

攻击流程

准备外部语料库: 创建或获取一个文本语料库 (D_ext)。应用函数 P 得到标签。
查询语言模型: 获取 D_ext 中所有 x_i 的嵌入 z_i = f(x_i)，创建训练集 D_train = {(z_i, P(x_i))}。
训练攻击模型: 在 D_train 上训练一个分类器 g（例如MLP, SVM），用于从 z 预测 P(x)。
推断: 将训练好的模型 A = g 应用于目标受害者的嵌入 z 来推断敏感属性 s。

攻击方式
- 模式重构攻击（Pattern Reconstruction Attack）
  - 目标
    - 当原始文本 x 遵循已知格式时，从嵌入 z 中恢复文本的特定片段（如生日、特定位置的基因）。提取函数为 P_pattern
      - 原始文本具有固定的模式（例如，基因组序列），攻击者试图恢复包含敏感信息（例如，疾病相关基因表达）的原始序列的特定部分。
  - 方法
    - 利用已知格式规则生成合成数据作为外部语料库。
    - 攻击模型通常为多层感知机（MLP）。对于复杂模式（如生日），攻击被分解为多个子任务（年、月、日分别预测）。对于位置相关的任务（基因组），输入嵌入 z 会与其目标位置 i 的位置嵌入 p_i 拼接起来。
- 关键词推断攻击（Keyword Inference Attack）
  - 目标
    - 判断某个特定的敏感关键词 k 是否存在于未知的纯文本中。
      - 攻击者想要探测未知的明文（如医学描述）是否包含某些敏感关键字（如疾病部位）
  - 方法
    - White-Box
      - 依赖与目标同分布的影子数据(shadow corpus)，
        直接训练标准分类器（svm、mlp），
        用词语替换处理不平衡，
    - Black-Box
      - 无影子数据(shadow corpus)
        只有公共语料库 (public corpus)
        假设攻击者无法访问同分布数据，只有一个不相关的公开语料库（例如用Yelp评论数据攻击医疗数据）。同样使用词语替换技巧准备训练数据。

核心技术是利用领域对抗神经网络 (DANN) 来学习领域不变的嵌入表示，以克服公开语料库与目标嵌入之间的领域差异。DANN架构包含一个编码器、一个关键词分类器、一个域分类器和梯度反转层。

	- 示例- 通过Top关键词推断原始文本大意（如“头部+血管”推断医疗描述）-  关键词提取- 概率排序- 攻击模型为每个关键词生成出现概率（如“头部”概率90%，“血管”概率85%，“恶性”概率80%）- 语义关联分析- 结合关键词的领域相关性（如医疗场景中，“头部+血管+恶性”可能指向脑部肿瘤或血管病变）- 近似还原文本大意- 威胁场景- 医疗隐私泄露、法律风险

系统性实验验证

防御措施及效用

目的
- 通过某种方式混淆（obfuscate）嵌入 z，去除其中的敏感信息，同时尽可能保留其对下游任务的效用。
数值取整 Rounding
- 对句子嵌入的每个坐标进行四舍五入计算，以达到混淆嵌入的目的。形式上，将四舍五入防御表示为
拉普拉斯机制 Laplace Mechanism
- 根据嵌入函数 f 的L1敏感度估计值，添加拉普拉斯噪声。
- 拉普拉斯机制的核心思想是在执行预测前向嵌入明文添加一些噪声，以使预测结果不再精确反映原始明文。噪声是根据拉普拉斯分布（Laplace Distribution）生成的，这是一种具有特定概率密度函数的概率分布。添加噪声的规模取决于隐私参数，该参数控制了噪声的强度，以平衡数据的隐私性和可用性。在大语言模型中，隐私参数由模型的灵敏度决定。
隐私保护映射 Privacy Preserving Mapping(PPM)
- 通过对抗训练学习一个映射函数 D_θ，目标是最小化假想攻击者的效果，同时通过正则项 λ||D_θ(z) - z||₂ 限制嵌入的失真程度。
- 隐私保护映射旨在处理和共享敏感数据（嵌入明文）时，将原始数据经过某种变换或映射转换为一种不容易被还原的形式，同时仍然保留一些特定的数据特征或模式，以便进行必要的分析。隐私保护映射通常使用密码学技术或其他数学方法来实现，以确保数据在映射后仍然具有可用性。
子空间投影 Subspace Projection
- 识别出与敏感属性（关键词）相关的嵌入维度，并将嵌入投影到这些维度的正交子空间上，以消除相关信息。
- 子空间投影原本是一种数据分析和降维技术，用于将高维数据投影到低维子空间中，以减少数据的复杂性，降低噪音和冗余，同时保留数据的主要特征。在大语言模型中，该方法可以用来防御关键词推理攻击。这种防御的总体思路是首先从通用句子中投影出编码关键词出现的隐私子空间，然后计算隐私子空间的维度与通用嵌入空间的维度的比率。该比率被用作防御参数，比率越大，防御机制就越严格。常见的子空间投影技术包括主成分分析、线性判别分析和独立成分分析等。