【差分隐私相关概念】瑞丽差分隐私(RDP)命题2
分步解析与答案
1. c-稳定变换的定义
c-稳定变换是一种将群体数据集(如数据库集合)的相邻性映射到个体数据集(如单条记录变化)的变换。具体来说,若变换 g : D ′ → D g: \mathcal{D}' \to \mathcal{D} g:D′→D 是 c-稳定的,则对于任何相邻的群体数据集 A , B ∈ D ′ A, B \in \mathcal{D}' A,B∈D′,存在一个长度为 c + 1 c+1 c+1 的序列:
A = D 0 → D 1 → ⋯ → D c = B , A = D_0 \to D_1 \to \dots \to D_c = B, A=D0→D1→⋯→Dc=B,
使得每对 ( D i , D i + 1 ) (D_i, D_{i+1}) (Di,Di+1) 在个体数据集空间 D \mathcal{D} D 中是相邻的。
意义:c-稳定变换将群体级别的“相邻”关系(如修改整个群体的统计特征)转化为个体级别的多步相邻关系(如逐条修改记录),从而允许通过差分隐私的递推性质分析群体隐私。
2. 机制组合 h = f ∘ g h = f \circ g h=f∘g 的含义
- 输入:群体数据集 D ∈ D ′ D \in \mathcal{D}' D∈D′。
- 过程:
- 应用变换 g g g,将群体数据集映射到个体数据集: g ( D ) ∈ D g(D) \in \mathcal{D} g(D)∈D。
- 对个体数据集应用隐私机制 f f f,生成输出: f ( g ( D ) ) ∈ R f(g(D)) \in \mathcal{R} f(g(D))∈R。
- 目标:分析组合机制 h ( D ) = f ( g ( D ) ) h(D) = f(g(D)) h(D)=f(g(D)) 的隐私保证,即证明 h h h 满足某种Rényi差分隐私(RDP)。
3. 命题2的证明思路(以 c = 1 c=1 c=1 为例)
命题2:若 f f f 是 ( α , ϵ ) (\alpha, \epsilon) (α,ϵ)-RDP, g g g 是 2 c 2^c 2c-稳定的,且 α ≥ 2 c + 1 \alpha \geq 2^{c+1} α≥2c+1,则 h = f ∘ g h = f \circ g h=f∘g 是 ( α / 2 c , 3 c ϵ ) (\alpha/2^c, 3^c \epsilon) (α/2c,3cϵ)-RDP。
证明步骤(针对 c = 1 c=1 c=1,即 g g g 是2-稳定的):
-
群体相邻性转化为个体多步相邻性:
对于相邻的群体数据集 D , D ′ ∈ D ′ D, D' \in \mathcal{D}' D,D′∈D′,存在中间个体数据集 A ∈ D A \in \mathcal{D} A∈D,使得:
g ( D ) ↔ A ↔ g ( D ′ ) , g(D) \leftrightarrow A \leftrightarrow g(D'), g(D)↔A↔g(D′),
其中每对 ( g ( D ) , A ) (g(D), A) (g(D),A) 和 ( A , g ( D ′ ) ) (A, g(D')) (A,g(D′)) 在个体数据集空间 D \mathcal{D} D 中相邻。 -
应用Rényi散度的三角不等式:
Rényi散度满足以下近似三角不等式(适用于 α ≥ 2 \alpha \geq 2 α≥2):
D α / 2 ( h ( D ) ∥ h ( D ′ ) ) ≤ α − 1 α − 2 D α ( h ( D ) ∥ h ( A ) ) + D α − 1 ( h ( A ) ∥ h ( D ′ ) ) . D_{\alpha/2}(h(D) \parallel h(D')) \leq \frac{\alpha - 1}{\alpha - 2} D_\alpha(h(D) \parallel h(A)) + D_{\alpha-1}(h(A) \parallel h(D')). Dα/2(h(D)∥h(D′))≤α−2α−1Dα(h(D)∥h(A))+Dα−1(h(A)∥h(D′)).- 推导依据:通过分解多步相邻性,将整体散度拆分为两部分的加权和。
-
利用RDP的隐私保证:
- f f f 是 ( α , ϵ ) (\alpha, \epsilon) (α,ϵ)-RDP,因此对每对相邻个体数据集(如 g ( D ) ↔ A g(D) \leftrightarrow A g(D)↔A 和 A ↔ g ( D ′ ) A \leftrightarrow g(D') A↔g(D′))有:
D α ( h ( D ) ∥ h ( A ) ) ≤ ϵ , D α − 1 ( h ( A ) ∥ h ( D ′ ) ) ≤ ϵ . D_\alpha(h(D) \parallel h(A)) \leq \epsilon, \quad D_{\alpha-1}(h(A) \parallel h(D')) \leq \epsilon. Dα(h(D)∥h(A))≤ϵ,Dα−1(h(A)∥h(D′))≤ϵ. - 代入三角不等式:
D α / 2 ( h ( D ) ∥ h ( D ′ ) ) ≤ α − 1 α − 2 ϵ + ϵ ≤ 3 ϵ . D_{\alpha/2}(h(D) \parallel h(D')) \leq \frac{\alpha - 1}{\alpha - 2} \epsilon + \epsilon \leq 3\epsilon. Dα/2(h(D)∥h(D′))≤α−2α−1ϵ+ϵ≤3ϵ.
其中 α − 1 α − 2 ≤ 2 \frac{\alpha - 1}{\alpha - 2} \leq 2 α−2α−1≤2(因 α ≥ 4 \alpha \geq 4 α≥4 时成立),故总和 ≤ 2 ϵ + ϵ = 3 ϵ \leq 2\epsilon + \epsilon = 3\epsilon ≤2ϵ+ϵ=3ϵ。
- f f f 是 ( α , ϵ ) (\alpha, \epsilon) (α,ϵ)-RDP,因此对每对相邻个体数据集(如 g ( D ) ↔ A g(D) \leftrightarrow A g(D)↔A 和 A ↔ g ( D ′ ) A \leftrightarrow g(D') A↔g(D′))有:
-
归纳推广到一般 c c c:
- 假设命题对 c = k c = k c=k 成立,当 c = k + 1 c = k + 1 c=k+1 时,将多步相邻分解为 2 k + 1 2^{k+1} 2k+1 步,并通过递归调整 α \alpha α 和 ϵ \epsilon ϵ:
α → α / 2 k + 1 , ϵ → 3 k + 1 ϵ . \alpha \to \alpha/2^{k+1}, \quad \epsilon \to 3^{k+1}\epsilon. α→α/2k+1,ϵ→3k+1ϵ. - 最终得到 h h h 是 ( α / 2 c , 3 c ϵ ) (\alpha/2^c, 3^c \epsilon) (α/2c,3cϵ)-RDP。
- 假设命题对 c = k c = k c=k 成立,当 c = k + 1 c = k + 1 c=k+1 时,将多步相邻分解为 2 k + 1 2^{k+1} 2k+1 步,并通过递归调整 α \alpha α 和 ϵ \epsilon ϵ:
4. 关键结论
- c-稳定的作用:将群体隐私的相邻性转化为个体多步相邻性,从而通过RDP的组合性递推隐私参数。
- 参数调整:每次分解多步相邻时,需降低Rényi散度的阶数 α \alpha α(除以2),并放大隐私损失 ϵ \epsilon ϵ(乘以3)。
- 最终保证:组合机制 h = f ∘ g h = f \circ g h=f∘g 的隐私参数为 ( α / 2 c , 3 c ϵ ) (\alpha/2^c, 3^c \epsilon) (α/2c,3cϵ),适用于分析群体级别的隐私保护。
总结
c-稳定变换通过多步相邻性将群体隐私问题转化为个体隐私的组合分析。命题2的证明利用Rényi散度的递推性质和三角不等式,将隐私损失逐级累积,最终通过归纳法得到群体机制的隐私保证。