当前位置：首页 > news >正文

【中文翻译】第7章-The Algorithmic Foundations of Differential Privacy

news 来源：原创 2025/4/28 15:18:54

由于GitHub项目仅翻译到前5章，我们从第6章开始通过大语言模型翻译，并导出markdown格式。
大模型难免存在错漏，请读者指正。

教材原文地址：https://www.cis.upenn.edu/~aaroth/Papers/privacybook.pdf

在这里插入图片描述

7 当最坏情况敏感度不典型时

在本节中，我们简要描述两种通用技术，它们都能提供无条件的隐私保证，通常可以让数据分析师的工作更轻松，尤其是在处理具有任意或难以分析的最坏情况敏感度的函数时。当分析师由于某些外部原因有理由相信某些函数在实际应用中“通常”不敏感时，这些算法在计算这些函数时最为有用。

7.1 子采样与聚合

子采样与聚合（Subsample and Aggregate）技术产生了一种“强制”计算函数 $f\left( x\right)$ 的方法，即使对于任意函数 $f$ ，该计算也不敏感。证明隐私性将是微不足道的。准确性取决于函数 $f$ 和特定数据集 $x$ 的属性；特别是，如果在 $f\left( S\right)$ 上能够以高概率准确估计 $f\left( x\right)$ ，其中 $S$ 是 $x$ 中元素的一个随机子集，那么准确性应该是良好的。许多最大似然统计估计器在“典型”数据集上具有这种属性——这就是为什么这些估计器在实践中被采用的原因。

图7.1：使用通用差分隐私聚合算法 $\mathcal{M}$ 的子采样与聚合。

在子采样与聚合中，数据库 $x$ 的 $n$ 行被随机划分为 $m$ 个块 ${B}_{1},\ldots ,{B}_{m}$ ，每个块的大小为 $n / m$ 。函数 $f$ 在每个块上独立地精确计算，不添加噪声。然后，中间结果 $f\left( {B}_{1}\right) ,\ldots ,f\left( {B}_{m}\right)$ 通过差分隐私聚合机制进行组合——典型的例子包括标准聚合，如 $\alpha$ - 截尾均值（The $\alpha$ -trimmed mean）、温莎化均值（The Winsorized mean）和中位数，但没有限制——然后添加根据所讨论的聚合函数的敏感度进行缩放的拉普拉斯噪声；见图7.1。

子采样与聚合的关键观察结果是，任何单个元素最多只能影响一个块，因此最多只能影响单个 $f\left( {B}_{i}\right)$ 的值。因此，更改任何个体的数据最多只能改变聚合函数的一个输入。即使 $f$ 是任意的，分析人员可以选择聚合函数，因此可以自由选择一个不敏感的函数，前提是该选择与数据库无关！因此，隐私性是直接的：对于任何 $\delta \geq 0$ 和任何函数 $f$ ，如果聚合机制 $\mathcal{M}$ 是 $\left( {\varepsilon ,\delta }\right)$ - 差分隐私的，那么当使用 $f$ 和 $\mathcal{M}3$ 实例化子采样与聚合技术时，该技术也是 $\left( {\varepsilon ,\delta }\right)$ - 差分隐私的。

${}^{1}$ $\alpha$ - 截尾均值是在丢弃输入的顶部和底部 $\alpha$ 比例的数据之后的均值。

${}^{2}$ 温莎化均值与 $\alpha$ - 截尾均值类似，不同之处在于，顶部和底部 $\alpha$ 比例的数据不是被丢弃，而是被替换为剩余的最极端值。

实用性则是另一回事，即使在数据丰富且大的随机子集很可能产生相似结果的情况下，也很难进行论证。例如，数据可能是高维空间中的带标签训练点，函数是逻辑回归，它产生一个向量 $v$ ，并且当且仅当对于某个（例如，固定的）阈值 $T$ 满足 $\cdot v \geq T$ 时，将点 $p$ 标记为 +1。直观地说，如果样本足够丰富且具有代表性，那么所有块都应该产生相似的向量 $v$ 。困难在于对聚合函数的最坏情况敏感度获得一个良好的界限——我们可能需要使用范围的大小作为备用。尽管如此，已知有一些不错的应用，特别是在统计估计器领域，例如，可以证明，在“一般正态性”假设下，可以在不损失统计效率（大致来说，随着样本数量的增加的准确性）的情况下实现隐私性。我们在这里不定义一般正态性，但请注意，符合这些假设的估计器包括高斯等“良好”参数分布族的最大似然估计器，以及线性回归和逻辑回归的最大似然估计器。

假设函数 $f$ 具有基数为 $m$ 的离散值域，例如 $\left\lbrack m\right\rbrack$ 。在这种情况下，子采样与聚合（Subsample and Aggregate）方法需要对从 $\left\lbrack m\right\rbrack$ 中抽取的一组 $b$ 个元素进行聚合，我们可以使用带噪声的最大参数报告（Report Noisy Arg - Max）方法来找出最受欢迎的结果。即使中间结果完全一致，这种聚合方法也需要 $\geq \log m$ 才能得到有意义的结果。下面我们将看到一种没有这种要求的替代方法。

示例 7.1（模型选择）。统计学和机器学习领域的许多工作都致力于解决模型选择问题：给定一个数据集和一组离散的“模型”（每个模型都是一族概率分布），目标是确定最“拟合”

${}^{3}$ 聚合函数的选择甚至可能取决于数据库，但必须以差分隐私的方式进行选择。此时，隐私成本就是选择操作与聚合函数组合的成本。

数据的模型。例如，给定一组带标签的 $d$ 维数据，模型集合可能是最多包含 $\ll d$ 个特征的所有子集，目标是找到最能预测标签的特征集。函数 $f$ 可能是通过任意学习算法从给定的 $m$ 个模型集合中选择最佳模型，这一过程称为模型拟合。通过带噪声的最大值报告（Report Noisy Max）方法可以进行聚合以找出最受欢迎的值，该方法还能给出其受欢迎程度的估计。

示例 7.2（显著特征）。这是模型拟合的一个特殊情况。数据是 ${\mathbb{R}}^{d}$ 中的一组点，函数是非常流行的套索回归（LASSO），其输出是一个最多包含 $\ll d$ 个显著特征的列表 $\in {\left\lbrack d\right\rbrack }^{s}$ 。我们可以通过两种方式对输出进行聚合：逐个特征进行聚合——相当于对子采样与聚合（Subsample and Aggregate）方法进行 $d$ 次执行，每个特征执行一次，每次的取值范围大小为 2；或者对整个集合进行聚合，在这种情况下，取值范围的基数为 $\left( \begin{array}{l} d \\ s \end{array}\right)$ 。

7.2 提议 - 测试 - 发布

此时，人们可能会问：如果各数据块之间没有实质性的一致性，聚合的意义是什么？更一般地说，对于现实生活中任何规模合理的统计分析，我们期望结果相当稳定，不受任何单个个体存在与否的影响。实际上，这正是统计量显著性背后的直觉，也是差分隐私实用性的基础。我们甚至可以更进一步说，如果一个统计量不稳定，我们就不应该对计算它感兴趣。通常，我们的数据库实际上是来自更大总体的一个样本，我们的真正目标不是计算数据库本身的统计量值，而是估计潜在总体的统计量值。因此，在计算统计量时，我们实际上已经隐含地假设该统计量在子采样下是稳定的！

到目前为止，我们所看到的一切方法即使在非常“特殊”的数据集上也能提供隐私保护，而对于这些数据集，“通常”稳定的算法可能会非常不稳定。在本节中，我们介绍一种方法，即提议 - 测试 - 发布（Propose - Test - Release）方法，其背后的理念是：如果稳定性不足，那么可以放弃分析，因为结果实际上是没有意义的。也就是说，该方法允许分析人员检查在给定数据集上，函数是否满足某种“鲁棒性”或“稳定性”标准，如果不满足，则停止分析。

我们首次应用提议 - 测试 - 发布（Propose - Test - Release）方法的目标是提出拉普拉斯机制（Laplace mechanism）的一种变体，该变体添加的噪声规模严格小于函数的敏感度。这引出了局部敏感度的概念，它是针对（函数，数据库）对定义的，例如 (f, x)。简单来说， $f$ 相对于 $x$ 的局部敏感度是指，对于任何与 $x$ 相邻的 $y$ ， $f\left( y\right)$ 与 $f\left( x\right)$ 之间可能的最大差值。

定义 7.1（局部敏感度）。函数 ${\mathcal{X}}^{n} \rightarrow {\mathbb{R}}^{k}$ 相对于数据库 $x$ 的局部敏感度为：

$\mathop{\max }\limits_{{y\text{ adjacent to }x}}\parallel f\left( x\right) - f\left( y\right) {\parallel }_{1}.$

提议 - 测试 - 发布（Propose - Test - Release）方法是首先对局部敏感度提出一个界限，例如 $b$ ，通常数据分析师对这个界限应该是多少会有一些想法，然后运行一个差分隐私测试，以确保数据库与任何该界限不成立的数据库“距离较远”。如果测试通过，则假设敏感度以 $b$ 为界，并使用一种差分隐私机制，例如参数为 $b/\epsilon$ 的拉普拉斯机制（Laplace mechanism），来发布对查询的（略有）噪声的响应。

请注意，我们可以将这种方法视为一种两方算法，其中一方扮演诚实的数据分析师，另一方是拉普拉斯机制。诚实的分析师和机制之间存在一种相互作用，在这种相互作用中，算法会要求对敏感度进行估计，然后“指示”机制在响应后续查询时使用这个估计的敏感度。为什么需要如此复杂呢？为什么机制不能简单地根据局部敏感度添加噪声，而不进行这种隐私估计游戏呢？原因是局部敏感度本身可能是敏感的。这一事实，再加上关于数据库的一些辅助信息，可能会导致隐私问题：对手可能知道数据库是 $x$ 之一，对于所讨论的计算，它的局部敏感度非常低，以及与之相邻的 $y$ ，对于该函数，它的局部敏感度非常高。在这种情况下，对手可能能够相当准确地猜测出 $x$ 和 $y$ 中哪个是真正的数据库。例如，如果 $f\left( x\right) = f\left( y\right) = s$ 且响应与 $s$ 相差甚远，那么对手会猜测是 $y$ 。

这可以通过差分隐私的数学原理来解释。中位数函数存在相邻的实例，它们具有相同的中位数，例如 $m$ ，但局部敏感度存在任意大的差距。假设通过拉普拉斯机制根据局部敏感度对噪声进行缩放来计算中位数查询的响应 $R$ 。当数据库为 $x$ 时，概率质量接近 $m$ ，因为敏感度较小；但当数据库为 $y$ 时，概率质量分布很分散，因为敏感度较大。作为一个极端情况，假设在 $x$ 上的局部敏感度恰好为零，例如， $\mathcal{X} = \left\{ {0,{10}^{6}}\right\} ,n$ 是偶数，且大小为 $n + 1$ 的 $x$ 包含 $1 + n /2$ 个零。那么 $x$ 的中位数为零，当数据库为 $x$ 时，中位数的局部敏感度为 0。相比之下，相邻的数据库 $y$ 大小为 $n$ ，包含 $n /2$ 个零，中位数为零（我们定义中位数在出现平局时取较小的值），当数据库为 $y$ 时，中位数的局部敏感度为 ${10}^{6}$ 。在 $x$ 上，拉普拉斯机制（参数为 $0/\varepsilon = 0$ ）的所有概率质量都集中在单点 0 上；但在 $y$ 上，概率分布的标准差为 $\sqrt{2} \cdot {10}^{6}$ 。这破坏了差分隐私的所有希望。

为了检验该数据库与局部敏感度大于所提议界限 $b$ 的数据库“差异较大”，我们可以提出这样的查询：“真实数据库与局部敏感度超过 $b$ 的最近数据库之间的距离是多少？”到一组固定数据库的距离是一个（全局）敏感度为 1 的查询，因此可以通过向真实答案添加噪声 $\operatorname{Lap}\left( {1/\varepsilon }\right)$ 以差分隐私的方式运行此测试。为了保障隐私，该算法可以将这个含噪距离与一个保守阈值进行比较——由于极大幅度拉普拉斯噪声的异常事件，该阈值被超过的可能性极小。例如，如果使用的阈值为 ${\ln }^{2}n$ ，根据拉普拉斯分布的性质，误报（即当局部敏感度实际上超过 $b$ 时通过测试）的概率至多为 $O\left( {n}^{-\varepsilon \ln n}\right)$ 。由于误报的概率极小，该技术无法为任何 $\varepsilon$ 实现 $\left( {\varepsilon ,0}\right)$ -差分隐私。

要将此方法应用于区块共识，就像我们在讨论子采样与聚合时那样，将中间结果 $f\left( {B}_{1}\right) ,\ldots ,f\left( {B}_{m}\right)$ 视为一个数据集，并考虑这些值的某种集中度度量。直观地说，如果这些值高度集中，那么我们就实现了区块之间的共识。当然，我们仍然需要找到合适的集中度概念，一个有意义且具有差分隐私实例化的概念。在后面的章节中，我们将定义并整合两个似乎与子采样和聚合相关的稳定性概念：不敏感性（对移除或添加几个数据点的不敏感）和子采样下的稳定性，这体现了子样本应产生与完整数据集相似结果的概念。

7.2.1 示例：数据集的规模

给定一个数据集，一个自然的问题是：“该数据集的规模或离散程度是多少？”这与数据位置问题不同，数据位置可以用中位数或均值来表示。数据规模通常用方差或分位数间距来表示。我们将重点关注四分位距（IQR），它是一种众所周知的用于数据规模的稳健估计量。我们先有一些大致的直观认识。假设数据是从具有累积分布函数 $F$ 的分布中独立同分布抽取的样本。那么定义为 ${F}^{-1}\left( {3/4}\right) - {F}^{-1}\left( {1/4}\right)$ 的 $\operatorname{IQR}\left( F\right)$ 是一个常数，仅取决于 $F$ 。它可能非常大，也可能非常小，但无论如何，如果 $F$ 在两个四分位数处的密度足够高，那么给定足够多来自 $F$ 的样本，经验（即样本）四分位距应该接近 $\operatorname{IQR}\left( F\right)$ 。

我们用于四分位距的提议 - 测试 - 发布算法首先测试需要改变多少个数据库点才能得到一个四分位距“足够不同”的数据集。只有当（含噪）回复是“足够大”时，该算法才会发布数据集四分位距的近似值。

“足够不同”的定义是乘法意义上的，因为对于规模差异使用加法概念没有意义——加法量的合适规模是什么呢？因此，该算法使用规模的对数，这会导致四分位距上的乘法噪声。为了说明这一点，假设在典型情况下，修改单个点不会使样本四分位距改变 2 倍。那么样本四分位距的（以 2 为底）对数的局部敏感度被限制为 1。这使我们可以通过向该值添加从 $\operatorname{Lap}\left( {1/\varepsilon }\right)$ 中随机抽取的值来私密地发布样本四分位距对数的近似值。

设 $\operatorname{IQR}\left( x\right)$ 表示当数据集为 $x$ 时的样本四分位距。该算法（隐式地）提议将从 $\operatorname{Lap}\left( {1/\varepsilon }\right)$ 中抽取的噪声添加到值 ${\log }_{2}\left( {\operatorname{IQR}\left( x\right) }\right)$ 上。为了测试这种量级的噪声是否足以实现差分隐私，我们将 $\mathbb{R}$ 离散化为不相交的区间 $\{ \lbrack k\ln 2,\left( {k + 1}\right) \ln 2){\} }_{k \in \mathbf{Z}}$ ，并询问必须修改多少个数据点才能得到一个新的数据库，使其四分位距的对数（以 2 为底）所在的区间与 ${\log }_{2}\left( {\operatorname{IQR}\left( x\right) }\right)$ 的不同。如果答案至少为 2，那么（四分位距的对数的）局部敏感度受区间宽度的限制。现在我们给出更多细节。

为了理解区间大小的选择，我们写下

${\log }_{2}\left( {\operatorname{IQR}\left( x\right) }\right) = \frac{\ln \operatorname{IQR}\left( x\right) }{\ln 2} = \frac{c\ln 2}{\ln 2},$

由此我们发现，在 $\ln 2$ 的尺度上观察 $\ln \left( {\operatorname{IQR}\left( x\right) }\right)$ 等同于在 1 的尺度上观察 ${\log }_{2}\left( {\operatorname{IQR}\left( x\right) }\right)$ 。因此，我们有按比例缩放的区间，这些区间的端点是一对相邻的整数： ${B}_{k} = \lbrack k,k + 1),k \in \mathbf{Z}$ ，并且我们令 ${k}_{1} = \left\lfloor {{\log }_{2}\left( {\operatorname{IQR}\left( x\right) }\right) }\right\rfloor$ ，所以 ${\log }_{2}\left( {\operatorname{IQR}\left( x\right) }\right) \in \left\lbrack {{k}_{1},{k}_{1} + 1}\right)$ ，我们非正式地说四分位距的对数位于区间 ${k}_{1}$ 中。考虑以下测试查询：

${\mathbf{Q}}_{\mathbf{0}}$ ：为了得到一个新的数据库 $z$ 使得 ${\log }_{2}\left( {\operatorname{IQR}\left( z\right) }\right) \notin {B}_{{k}_{1}}$ ，需要改变多少个数据点？

设 ${A}_{0}\left( x\right)$ 为当数据库为 $x$ 时 ${\mathbf{Q}}_{\mathbf{0}}$ 的真实答案。如果 ${A}_{0}\left( x\right) \geq 2$ ，那么 $x$ 的邻域 $y$ 满足 $\mid {\log }_{2}\left( {\operatorname{IQR}\left( y\right) }\right) -$ ${\log }_{2}\left( {\operatorname{IQR}\left( x\right) }\right) \mid \leq 1$ 。也就是说，它们彼此接近。这并不等同于在离散化中处于同一区间： ${\log }_{2}\left( {\operatorname{IQR}\left( x\right) }\right)$ 可能靠近区间 $\left\lbrack {{k}_{1},{k}_{1} + 1}\right)$ 的一个端点，而 ${\log }_{2}\left( {\operatorname{IQR}\left( y\right) }\right)$ 可能恰好位于该端点的另一侧。设 ${R}_{0} = {A}_{0}\left( x\right) + \operatorname{Lap}\left( {1/\varepsilon }\right)$ ，一个小的 ${R}_{0}$ ，即使从拉普拉斯分布中抽取的值的幅度很小，实际上也可能并不表明四分位距具有高敏感性。为了处理局部敏感性非常小，但 ${\log }_{2}\left( {\operatorname{IQR}\left( x\right) }\right)$ 非常接近边界的情况，我们考虑第二种离散化 ${\left\{ {B}_{k}^{\left( 2\right) } = \lbrack k - {0.5},k + {0.5})\right\} }_{k \in \mathbf{Z}}$ 。我们分别用 ${B}^{\left( 1\right) }$ 和 ${B}^{\left( 2\right) }$ 表示这两种离散化。值 ${\log }_{2}\left( {\operatorname{IQR}\left( x\right) }\right) -$ ，实际上，任何值都不可能在两种离散化中都接近边界。如果 ${R}_{0}$ 在至少一种离散化中较大，则测试通过。

下面用于计算数据库规模的Scale算法（算法12）假设已知数据库的大小 $n$ ，并且距离查询（“到四分位距敏感性超过 $b$ 的数据库有多远？”）是在询问必须移动多少个点才能到达一个四分位距具有高敏感性的数据库。我们可以通过让算法首先询问（敏感性为1）查询：“ $x$ 中有多少个数据点？”来避免这个假设。我们注意到，出于技术原因，为了处理 ${IQR}\left( x\right) = 0$ 的情况，我们定义 $\log 0 = - \infty$ 、 $\lfloor - \infty \rfloor = - \infty$ ，并令 $\lbrack - \infty , - \infty ) = \{ - \infty \}$ 。

算法12 Scale算法（发布四分位距）

要求：数据集： $\in {\mathcal{X}}^{ * }$ ，隐私参数： $\epsilon ,\delta > 0$

对于第 $j$ 种离散化 $\left( {j = 1,2}\right)$ 执行

计算 ${R}_{0}\left( x\right) = {A}_{0}\left( x\right) + {z}_{0}$ ，其中 ${z}_{0}{ \in }_{R}\operatorname{Lap}\left( {1/\varepsilon }\right)$ 。

如果 ${R}_{0} \leq 1 + \ln \left( {1/\delta }\right)$ 则

令 ${s}^{\left( j\right) } = \bot$ 。

否则

设 ${s}^{\left( j\right) } = {IQR}\left( x\right) \times {2}^{{z}_{s}^{\left( j\right) }}$ ，其中 ${z}_{s}^{\left( j\right) } \sim \operatorname{Lap}\left( {1/\varepsilon }\right)$ 。

结束条件判断

结束循环

若 ${s}^{\left( 1\right) } \neq \bot$ 成立，则

返回 ${s}^{\left( 1\right) }$ 。

否则

返回 ${s}^{\left( 2\right) }$ 。

结束条件判断

在这里插入图片描述

注意，该算法效率很高：设 ${x}_{\left( 1\right) },{x}_{\left( 2\right) },\ldots ,{x}_{\left( n\right) }$ 表示排序后的 $n$ 个数据库点，设 $x\left( m\right)$ 表示中位数，因此 $\lfloor \left( {n + 1}\right) /2\rfloor$ 。那么中位数的局部敏感度为 $\max \{ x\left( m\right) -$ $x\left( {m - 1}\right) ,x\left( {m + 1}\right) - x\left( m\right) \}$ ，更重要的是，可以通过考虑 $O\left( n\right)$ 个宽度为 ${2}^{{k}_{1}}$ 和 ${2}^{{k}_{1} + 1}$ 的滑动区间来计算 ${A}_{0}\left( x\right)$ ，每个区间的一个端点都在 $x$ 中。每个区间的计算成本是恒定的。

我们不会证明该算法的收敛边界，因为为了简单起见，我们使用的对数底数远非最优（更好的底数是 $1/\ln n$ ）。我们简要概述一下隐私性证明的步骤。

定理 7.1。缩放算法（算法 12）具有 $\left( {{4\varepsilon },\delta }\right)$ -差分隐私性。

证明。（概要）设 $s$ 是单次离散化得到的结果的简写，并定义 ${\mathcal{D}}_{0} = \left\{ {x : {A}_{0}\left( x\right) \geq 2}\right\}$ ，证明过程表明：

查询 ${\mathbf{Q}}_{\mathbf{0}}$ 的最坏情况敏感度至多为 1。
相邻数据库产生 $\bot$ 的可能性几乎相等：对于所有相邻数据库 $x, y$ ：

$\Pr \left\lbrack {s = \bot \mid x}\right\rbrack \leq {e}^{\varepsilon }\Pr \left\lbrack {s = \bot \mid y}\right\rbrack .$

不在 ${\mathcal{D}}_{0}$ 中的数据库不太可能通过测试：

$\forall x \notin {\mathcal{D}}_{0} : \Pr \left\lbrack {s \neq \bot \mid x}\right\rbrack \leq \frac{\delta }{2}.$

$\forall C \in {\mathbb{R}}^{ + },x \in {\mathcal{D}}_{0}$ 以及 $x$ 的所有邻居 $y$ ：

$\Pr \left\lbrack {s \in C \mid x}\right\rbrack \leq {e}^{2\varepsilon }\Pr \left\lbrack {s \in C \mid y}\right\rbrack .$

因此，对于每次离散化，我们都能得到 $\left( {{2\varepsilon },\delta /2}\right)$ -差分隐私性。应用定理 3.16（附录 B），该定理指出“隐私预算 ε 和松弛参数 δ 是可加的”，可得到 $\left( {{4\varepsilon },\delta }\right)$ -差分隐私性。

7.3 稳定性与隐私性

7.3.1 两种稳定性概念

我们首先区分本节中相互交织的两种稳定性概念：子采样稳定性（subsampling stability），即在数据的随机子样本下能得到相似的结果；以及针对给定数据集的扰动稳定性（perturbation stability），或低局部敏感性。在本节中，我们将定义并使用这两种稳定性的极端版本。

子采样稳定性：如果当 $\widehat{x}$ 是从 $x$ 中独立地以概率 $q$ 包含每个条目的随机子样本时， $f\left( \widehat{x}\right) = f\left( x\right)$ 至少以概率 $3/4$ 成立，我们就称 $f$ 在 $x$ 上是 $q$ -子采样稳定的。我们将在算法 ${\mathcal{A}}_{\text{samp }}$ （样本与聚合的一种变体）中使用这个概念。
扰动稳定性：如果 $f$ 在 $x$ 的所有邻域上都取 $f\left( x\right)$ 值（否则为不稳定），我们就称 $f$ 在 $x$ 上是稳定的。换句话说，如果 $f$ 在 $x$ 上的局部敏感性为零，那么 $f$ 在 $x$ 上是稳定的。我们将使用这个概念（在下面的算法 ${\mathcal{A}}_{\text{dist }}$ 中实现）用于 ${\mathcal{A}}_{\text{samp }}$ 的聚合步骤。

算法 ${\mathcal{A}}_{\text{samp }}$ 的核心是扰动稳定性的一种宽松版本，这里我们不要求在相邻数据库上值保持不变（这个概念对于任意范围，包括任意离散范围都有意义），而只要求在相邻数据库上的值“接近”（这个概念要求在值域上有一个度量）。

具有任意值域的函数 $f$ ，特别是子采样与聚合中的输出聚合问题，催生了下一个算法 ${\mathcal{A}}_{\text{dist }}$ 。如果 $x$ 与最近的不稳定数据集的距离至少为 $\frac{2\log \left( {1/\delta }\right) }{\varepsilon }$ ，那么算法在输入 $f,x,{\mathcal{A}}_{\text{dist }}$ 时以高概率输出 $f\left( x\right)$ 。该算法在概念上很简单：计算到最近的不稳定数据集的距离，添加拉普拉斯噪声 $\operatorname{Lap}\left( {1/\varepsilon }\right)$ ，并检查这个带噪声的距离是否至少为 $\frac{2\log \left( {1/\delta }\right) }{\varepsilon }$ 。如果是，则输出 $f\left( x\right)$ ，否则输出 $\bot$ 。现在我们将其形式化一些。

我们首先定义扰动稳定性的一种定量度量。

定义 7.2。如果从 $x$ 中添加或移除任意 $k$ 个元素都不会改变 $f$ 的值，即对于所有满足 $\left| {x\Delta y}\right| \leq k$ 的 $y$ 都有 $f\left( x\right) = f\left( y\right)$ ，则称函数 ${\mathcal{X}}^{ * } \rightarrow \mathcal{R}$ 在输入 $x$ 上是 $k$ -稳定的。如果 $f$ 在 $x$ 上（至少）是 1 -稳定的，我们就称它在 $x$ 上是稳定的，否则为不稳定。

定义 7.3。数据集 $\in {\mathcal{X}}^{ * }$ 相对于函数 $f$ 的不稳定距离是指为了达到一个在 $f$ 下不稳定的数据集，必须从 $y$ 中添加或移除的元素数量。

注意，当且仅当 $x$ 到不稳定状态的距离至少为 $k$ 时， $f$ 在 $x$ 上是 $k$ -稳定的。

算法 ${\mathcal{A}}_{\text{dist }}$ 是针对离散值函数 $g$ 的提议 - 测试 - 发布（Propose - Test - Release）的一个实例，如图 13 所示。

算法 13 ${\mathcal{A}}_{\text{dist }}$ （基于到不稳定状态的距离发布 $g\left( x\right)$ ）

要求：数据集： $\in {\mathcal{X}}^{ * }$ ，隐私参数： $\epsilon ,\delta > 0$ ，函数 $g$ ：

${\mathcal{X}}^{ * } \rightarrow \mathbb{R}$

$\leftarrow$ 从 $x$ 到最近的不稳定实例的距离

$\widehat{d} \leftarrow d + \operatorname{Lap}\left( {1/\varepsilon }\right)$

如果 $\widehat{d} > \frac{\log \left( {1/\delta }\right) }{\varepsilon }$ ，则

输出 $g\left( x\right)$

否则

输出 1

结束条件判断

在这里插入图片描述

根据拉普拉斯分布（Laplace distribution）的性质，以下命题的证明是显而易见的。

命题 7.2。对于每个函数 $g$ ：

${\mathcal{A}}_{\text{dist }}$ 是 $\left( {\varepsilon ,\delta }\right)$ -差分隐私（differentially private）的。
对于所有 $\beta > 0$ ：如果 $g$ 在 $x$ 上是 $\frac{\ln \left( {1/\delta }\right) + \ln \left( {1/\beta }\right) }{\varepsilon }$ -稳定的，那么 ${\mathcal{A}}_{\text{dist }}\left( x\right) =$ $g\left( x\right)$ 的概率至少为 $\beta$ ，其中概率空间是 ${\mathcal{A}}_{\text{dist }}$ 的随机翻转。

从以下意义上来说，这个基于距离的结果是最优的：如果有两个数据集 $x$ 和 $y$ ， ${\mathcal{A}}_{\text{dist }}$ 分别以至少恒定的概率输出不同的值 $g\left( x\right)$ 和 $g\left( y\right)$ ，那么从 $x$ 到 $y$ 的距离必须为 $\Omega \left( {\log \left( {1/\delta }\right) /\varepsilon }\right)$ 。

到不稳定性的距离可能难以计算，甚至难以确定其下界，因此这通常不是一个实际可行的解决方案。有两个例子表明到不稳定性的距离很容易界定，即中位数（median）和众数（mode，出现频率最高的值）。

如果函数（例如 $f$ ）在感兴趣的特定数据集上不稳定， ${\mathcal{A}}_{\text{dist }}$ 可能也不令人满意。例如，假设由于 $x$ 中存在一些离群值， $f$ 不稳定。平均值函数就会出现这种情况，不过对于这个函数，有一些众所周知的鲁棒替代方法，如温莎化均值（winsorized mean）、截尾均值（trimmed mean）和中位数。那么对于一般的函数 $f$ 呢？是否有一种方法可以“强制”任意的 $f$ 在数据库 $x$ 上保持稳定？

这将是 ${\mathcal{A}}_{\text{samp }}$ 的目标， ${\mathcal{A}}_{\text{samp }}$ 是子采样与聚合（Subsample and Aggregate）的一种变体，只要 $f$ 在 $x$ 上是子采样稳定的，它就会以高概率（基于其自身的随机选择）输出 $f\left( x\right)$ 。

7.3.2 算法 ${\mathcal{A}}_{\text{samp }}$

在 ${\mathcal{A}}_{\text{samp }}$ 中，块 ${B}_{1},\ldots ,{B}_{m}$ 是有放回选取的，因此每个块与输入具有相同的分布（尽管现在 $x$ 的一个元素可能出现在多个块中）。我们将这些子采样数据集称为 ${\widehat{x}}_{1},\ldots ,{\widehat{x}}_{m}$ 。然后，中间输出 $\left\{ {f\left( {\widehat{x}}_{1}\right) ,\ldots ,f\left( {\widehat{x}}_{m}\right) }\right\}$ 通过 ${\mathcal{A}}_{\text{dist }}$ 以函数 $g =$ 众数（mode）的方式进行聚合。用于估计 $z$ 上众数稳定性的距离度量是众数的流行度与第二频繁值的流行度之差的缩放版本。算法 ${\mathcal{A}}_{\text{samp }}$ 如图14所示，其运行时间主要由运行约 $1/{q}^{2}$ 次的 $f$ 决定；因此，只要 $f$ 高效，该算法就是高效的。

算法 ${\mathcal{A}}_{\text{samp }}$ 的关键特性是，对于输入 $f, x$ ，只要 $f$ 在 $x$ 上对于 $\frac{\varepsilon }{{64}\log \left( {1/\delta }\right) }$ 是 $q$ - 子采样稳定的，那么在其自身的随机选择下，它以高概率输出 $f\left( x\right)$ 。这一结果具有重要的统计学解释。回顾示例7.1中关于模型选择的讨论。给定一组模型，模型选择的样本复杂度是从其中一个模型的分布中抽取的、以至少 $2/3$ 的概率选择正确模型所需的样本数量。该结果表明，差分隐私模型选择将（非隐私）模型选择的样本复杂度提高了一个与问题无关（且与范围无关）的因子 $O\left( {\log \left( {1/\delta }\right) /\varepsilon }\right)$ 。

算法14 ${\mathcal{A}}_{\text{samp }}$ ：子采样稳定 $f$ 的自助法

要求：数据集： $x$ ，函数 ${\mathcal{X}}^{ * } \rightarrow \mathbb{R}$ ，隐私参数 $\epsilon ,\delta >0.$

$\leftarrow \frac{\epsilon }{{64}\ln \left( {1/\delta }\right) },m \leftarrow \frac{\log \left( {n/\delta }\right) }{{q}^{2}}.$

2: 从 $x$ 中对 $m$ 个数据集 ${\widehat{x}}_{1},\ldots ,{\widehat{x}}_{m}$ 进行子采样，其中 ${\widehat{x}}_{i}$ 以概率 ${\widehat{x}}_{1},\ldots ,{\widehat{x}}_{m}$ 独立包含 $m$ 的每个

位置。

3: 如果 $x$ 的某个元素出现在超过 ${2mq}$ 个集合 ${\widehat{x}}_{i}$ 中，则

停止并输出 $\bot$ 。

否则

$\leftarrow \left\{ {f\left( {\widehat{x}}_{1}\right) ,\cdots ,f\left( {\widehat{x}}_{m}\right) }\right\} .$

对于每个 $\in \mathbb{R}$ ，令 $\operatorname{count}\left( r\right) = \# \left\{ {i : f\left( {\widehat{x}}_{i}\right) = r}\right\}$ 。

令 ${\text{count}}_{\left( i\right) }$ 表示第 $i$ 大的计数， $i = 1, 2$ 。

$\leftarrow \left( {{\text{count}}_{\left( 1\right) } - {\text{count}}_{\left( 2\right) }}\right) /\left( {4mq}\right) - 1$

注释：现在使用 $d$ 运行 ${\mathcal{A}}_{\text{dist }}\left( {g,z}\right)$ 以估计到

不稳定性的距离：

$\widehat{d} \leftarrow d + \operatorname{Lap}\left( \frac{1}{\epsilon }\right)$ .

if $\widehat{d} > \ln \left( {1/\delta }\right) /\varepsilon$ then

输出 $g\left( z\right) =$ 众数(z)。

else

输出 $\bot$ 。

结束条件判断

在这里插入图片描述

定理 7.3。

算法 ${\mathcal{A}}_{\text{samp }}$ 具有 $\left( {\varepsilon ,\delta }\right)$ -差分隐私性。
如果 $f$ 在输入 $x$ 上是 $q$ -子采样稳定的，其中 $\frac{\varepsilon }{{64}\ln \left( {1/\delta }\right) }$ ，那么算法 ${\mathcal{A}}_{\text{samp }}\left( x\right)$ 输出 $f\left( x\right)$ 的概率至少为 ${3\delta }$ 。
如果 $f$ 可以在长度为 $n$ 的输入上在时间 $T\left( n\right)$ 内计算得出，那么 ${\mathcal{A}}_{\text{samp }}$ 的期望运行时间为 $O\left( \frac{\log n}{{q}^{2}}\right) \left( {T\left( {qn}\right) + n}\right)$ 。

请注意，这里的效用声明是逐输入的保证； $f$ 不必在所有输入上都是 $q$ -子采样稳定的。重要的是，它不依赖于范围 $\mathcal{R}$ 的大小。在模型选择的背景下，这意味着只要有一个特定的模型以合理的概率被选中，就可以在样本复杂度适度增加（约 $\log \left( {1/\delta }\right) /\varepsilon$ ）的情况下有效地满足差分隐私。

隐私性的证明源于 $d$ 计算的不敏感性、提议 - 测试 - 发布技术的隐私性以及子采样和聚合的隐私性，略有修改以考虑到该算法进行有放回采样，因此聚合器具有更高的敏感性，因为任何个体可能会影响多达 ${2mq}$ 个块。分析这种方法效用的主要观察结果是，众数的稳定性是众数频率与次最流行元素频率之差的函数。下一个引理表明，如果 $f$ 在 $x$ 上是子采样稳定的，那么 $x$ 相对于众数 $g\left( z\right) = g\left( {f\left( {\widehat{x}}_{1}\right) ,\ldots ,f\left( {\widehat{x}}_{m}\right) }\right)$ 远非不稳定（但不一定相对于 $f$ ），而且可以高效且私密地估计 $x$ 到不稳定状态的距离。

引理 7.4。固定 $\in \left( {0,1}\right)$ 。给定 ${\mathcal{X}}^{ * } \rightarrow \mathcal{R}$ ，设 $\widehat{f} : {\mathcal{X}}^{ * } \rightarrow \mathcal{R}$ 为函数 $\widehat{f} = \operatorname{mode}\left( {f\left( {\widehat{x}}_{1}\right) ,\ldots ,f\left( {\widehat{x}}_{m}\right) }\right)$ ，其中每个 ${\widehat{x}}_{i}$ 以概率 $q$ 独立包含 $x$ 中的每个元素，且 $\ln \left( {n/\delta }\right) /{q}^{2}$ 。设 $d\left( z\right) = \left( {{\operatorname{count}}_{\left( 1\right) } - {\operatorname{count}}_{\left( 2\right) }}\right) /\left( {4mq}\right) - 1$ ；也就是说，给定一个值的“数据库” $z$ ， $d\left( z\right) + 1$ 是两个最流行值出现次数的缩放差值。固定一个数据集 $x$ 。设 $E$ 为 $x$ 中没有位置被包含在超过 ${2mq}$ 个子集 ${\widehat{x}}_{i}$ 中的事件。那么，当 $\leq \varepsilon /{64}\ln \left( {1/\delta }\right)$ 时，我们有：

$E$ 发生的概率至少为 $\delta$ 。
在 $E, d$ 的条件下，对 $\widehat{f}$ 在 $x$ 上的稳定性进行了下界约束，并且 $d$ 的全局敏感度为1。
如果 $f$ 在 $x$ 上具有 $q$ - 子采样稳定性，那么在子样本的选择上，至少以 $\delta$ 的概率，我们有 $\widehat{f}\left( x\right) = f\left( x\right)$ ，并且在这个事件发生的条件下，最终测试至少以 $\delta$ 的概率通过，其中该概率是基于从 $\operatorname{Lap}\left( {1/\varepsilon }\right)$ 中抽样得到的。

第2部分和第3部分中的事件同时发生的概率至少为 ${2\delta }$ 。

证明。第1部分可由切尔诺夫界（Chernoff bound）得出。为了证明第2部分，注意到，在事件 $E$ 发生的条件下，在原始数据集中添加或移除一个条目，任何计数 ${\text{count}}_{\left( r\right) }$ 的变化最多为 ${2mq}$ 。因此， ${\text{count}}_{\left( 1\right) } - {\text{count}}_{\left( 2\right) }$ 的变化最多为 ${4mq}$ 。这反过来意味着，对于任何 $x$ ， $d\left( {f\left( {\widehat{x}}_{1}\right) ,\ldots ,f\left( {\widehat{x}}_{m}\right) }\right)$ 的变化最多为1，因此其全局敏感度为1。这也意味着 $d$ 对 $\widehat{f}$ 在 $x$ 上的稳定性进行了下界约束。

我们现在转向第3部分。我们要论证两个事实：

如果 $f$ 在 $x$ 上具有 $q$ - 子采样稳定性，那么两个最受欢迎的区间的计数之间很可能存在较大差距。具体来说，我们要证明，以高概率有 ${\operatorname{count}}_{\left( 1\right) } - {\operatorname{count}}_{\left( 2\right) } \geq$ $m /4$ 。注意，如果最受欢迎的区间的计数至少为 ${5m}/8$ ，那么第二受欢迎的区间的计数最多为 ${3m}/8$ ，差值为 $m /4$ 。根据子采样稳定性的定义，最受欢迎的区间的期望计数至少为 ${3m}/4$ ，因此，由切尔诺夫界，取 $\alpha = 1/8$ 时，其计数小于 ${5m}/8$ 的概率至多为 ${e}^{-{2m}{\alpha }^{2}} = {e}^{-m/{32}}$ 。（所有概率均基于子采样。）
当两个最受欢迎的区间的计数之间的差距较大时，算法不太可能失败；也就是说，测试很可能成功。需要担心的是，从 $\operatorname{Lap}\left( \frac{1}{\varepsilon }\right)$ 中抽样得到的值为负且绝对值较大，以至于即使 $d$ 很大， $\widehat{d}$ 也会低于阈值 $\left( {\ln \left( {1/\delta }\right) /\varepsilon }\right)$ 。为了确保这种情况发生的概率至多为 $\delta$ ，只需满足 $2\ln \left( {1/\delta }\right) /\varepsilon$ 即可。

根据定义， $\left( {{\text{count}}_{\left( 1\right) } - {\text{count}}_{\left( 2\right) }}\right) /\left( {4mq}\right) - 1$ ，并且假设我们处于刚刚描述的高概率情况，这意味着

$\geq \frac{m/4}{4mq} - 1 = \frac{1}{16q} - 1$

因此，只需满足

$\frac{1}{16q} > 2\ln \left( {1/\delta }\right) /\varepsilon$

取 $\leq \varepsilon /{64}\ln \left( {1/\delta }\right)$ 就足够了。

最后，注意到对于 $q$ 和 $m$ 的这些值，我们有 ${e}^{-m/{32}} < \delta$ 。

示例7.3. [原始数据问题] 假设我们有一位分析师，我们可以信任他会遵循指令，并且只发布根据这些指令获得的信息。更理想的情况是，假设我们有 $b$ 位这样的分析师，并且我们可以信任他们彼此之间不会交流。这些分析师不需要完全相同，但他们需要考虑一组共同的选项。例如，这些选项可能是一组固定的可能统计量 $S$ 中的不同统计量，在第一步中，分析师的目标是从 $S$ 中选择最显著的统计量以便最终发布。之后，所选的统计量将以差分隐私的方式重新计算，并且结果可以发布。

如前所述，该过程完全不具备隐私性：第一步中对统计量的选择可能依赖于单个个体的数据！尽管如此，我们可以使用子采样与聚合框架来执行第一步，让第 $i$ 位分析师接收数据点的一个子样本，并将函数 ${f}_{i}$ 应用于这个较小的数据库以获得一个选项。然后，这些选项将按照算法 ${\mathcal{A}}_{\text{samp }}$ 进行聚合；如果有明显的胜出者，那么这个胜出者极有可能就是所选的统计量。这个统计量是以差分隐私的方式选择的，并且在第二步中，它将以差分隐私的方式进行计算。

参考文献注释

子采样与聚合方法由尼西姆（Nissim）、拉斯霍德尼科娃（Raskhodnikova）和史密斯（Smith）[68]发明，他们是首次定义并利用低局部敏感度的人。提议 - 测试 - 发布方法归功于德沃尔（Dwork）和雷（Lei）[22]，发布四分位距的算法也是如此。关于稳定性和隐私性的讨论，以及融合这两种技术的算法 ${\mathcal{A}}_{\text{samp }}$ ，归功于史密斯和塔库尔塔（Thakurta）[80]。这篇论文通过分析著名的套索（LASSO）算法的子采样稳定性条件，并表明在套索算法已知具有良好解释能力的（固定数据以及分布）条件下，通过（ ${\mathcal{A}}_{\text{samp }}$ 的一种推广）可以“免费”获得差分隐私，从而展示了 ${\mathcal{A}}_{\text{samp }}$ 的强大之处。

目录导航

第1章：https://blog.csdn.net/AdamCY888/article/details/146454841
第2章:https://blog.csdn.net/AdamCY888/article/details/146455093
第3章(1/3):https://blog.csdn.net/AdamCY888/article/details/146455756
第3章(2/3):https://blog.csdn.net/AdamCY888/article/details/146455796
第3章(3/3):https://blog.csdn.net/AdamCY888/article/details/146455328
第4章:https://blog.csdn.net/AdamCY888/article/details/146455882
第5章:https://blog.csdn.net/AdamCY888/article/details/146456100
第6章(1/2):https://blog.csdn.net/AdamCY888/article/details/146456712
第6章(2/2):https://blog.csdn.net/AdamCY888/article/details/146456972
第7章:https://blog.csdn.net/AdamCY888/article/details/146457037
第8章:https://blog.csdn.net/AdamCY888/article/details/146457172
第9章:https://blog.csdn.net/AdamCY888/article/details/146457257
第10章:https://blog.csdn.net/AdamCY888/article/details/146457331
第11章:https://blog.csdn.net/AdamCY888/article/details/146457418
第12章:https://blog.csdn.net/AdamCY888/article/details/146457489
第13章(含附录):https://blog.csdn.net/AdamCY888/article/details/146457601