再次理解 瓦瑟斯坦距离(Wasserstein Distance)
瓦瑟斯坦距离(Wasserstein Distance)是一种衡量两个概率分布之间差异的度量方法,其核心思想源于最优传输理论,即计算将一个分布“搬运”到另一个分布所需的最小成本。以下从多个角度详细解析其定义、性质和应用:
1. 定义与数学形式
瓦瑟斯坦距离的形式化定义如用户所述,其一般形式为:
W μ ( P , Q ) = ( inf γ ∈ Γ ( P , Q ) ∫ X × Y ρ ( x , y ) μ d γ ( x , y ) ) 1 / μ W_\mu(P, Q) = \left( \inf_{\gamma \in \Gamma(P,Q)} \int_{\mathcal{X} \times \mathcal{Y}} \rho(x,y)^\mu d\gamma(x,y) \right)^{1/\mu} Wμ(P,Q)=(γ∈Γ(P,Q)inf∫X×Yρ(x,y)μdγ(x,y))1/μ
其中:
- ρ ( x , y ) \rho(x,y) ρ(x,y) 是基础度量(通常为欧氏距离),表示将单位质量从点 x x x移动到 y y y的成本;
- γ ( x , y ) \gamma(x,y) γ(x,y) 是联合分布(即运输计划),满足边缘分布约束 γ ∈ Γ ( P , Q ) \gamma \in \Gamma(P,Q) γ∈Γ(P,Q);
- μ \mu μ 是距离的阶数,常用的是 μ = 1 \mu=1 μ=1(1-Wasserstein距离)或 μ = 2 \mu=2 μ=2(2-Wasserstein距离)。
当 μ = 1 \mu=1 μ=1时,距离简化为:
W 1 ( P , Q ) = inf γ ∈ Γ ( P , Q ) E ( x , y ) ∼ γ [ ρ ( x , y ) ] W_1(P, Q) = \inf_{\gamma \in \Gamma(P,Q)} \mathbb{E}_{(x,y)\sim\gamma} [\rho(x,y)] W1(P,Q)=γ∈Γ(P,Q)infE(x,y)∼γ[ρ(x,y)]
即最小化所有可能的运输计划下的平均移动成本。
2. 直观理解:推土机视角
瓦瑟斯坦距离的直观解释被称为“推土机距离”(Earth Mover’s Distance):
- 将分布 P P P和 Q Q Q视为两堆土,瓦瑟斯坦距离衡量的是将 P P P的土搬运成 Q Q Q所需的最小工作量,工作量由移动距离和搬运土量的乘积决定。
- 例如,若两个分布完全分离,KL散度或JS散度可能无法有效衡量差异,而瓦瑟斯坦距离仍能反映分布间的几何关系。
3. 关键性质与优势
- 处理非重叠分布:即使两个分布没有重叠区域,瓦瑟斯坦距离仍能提供有意义的结果,而KL散度会发散,JS散度可能为常数。
- 几何敏感性:该距离考虑了分布的空间结构,例如位置偏移或形状差异,因此能捕捉到分布的几何特征。
- 平滑的梯度:相比传统GAN中使用的JS散度,瓦瑟斯坦距离在优化过程中梯度更稳定,避免了训练中的模式崩溃问题。
4. 计算与对偶形式
原始问题与对偶性
瓦瑟斯坦距离的原始定义涉及求解联合分布的下确界(infimum),但直接计算复杂度较高(尤其在高维空间中)。康托罗维奇-鲁宾斯坦对偶性(Kantorovich-Rubinstein Duality)提供了一种简化形式:
W 1 ( P , Q ) = sup f ∈ Lip 1 ( E x ∼ P [ f ( x ) ] − E y ∼ Q [ f ( y ) ] ) W_1(P, Q) = \sup_{f \in \text{Lip}_1} \left( \mathbb{E}_{x\sim P}[f(x)] - \mathbb{E}_{y\sim Q}[f(y)] \right) W1(P,Q)=f∈Lip1sup(Ex∼P[f(x)]−Ey∼Q[f(y)])
其中, Lip 1 \text{Lip}_1 Lip1表示所有1-利普希茨连续函数。这一对偶形式在WGAN中被广泛应用,通过训练一个判别器(Critic)网络来近似利普希茨函数,从而高效估计距离。
5. 应用场景
(1)生成对抗网络(WGAN)
- 改进训练稳定性:传统GAN使用JS散度,容易因梯度消失导致训练失败。WGAN通过优化1-Wasserstein距离,提供更平滑的梯度信号,显著提升生成质量。
- 实现方法:通过权重裁剪或梯度惩罚(如WGAN-GP)强制判别器的利普希茨连续性,确保对偶形式成立。
(2)其他领域
- 图像处理:衡量图像分布相似性(如直方图匹配)。
- 数据对齐:在迁移学习中匹配不同域的数据分布。
- 概率模型:用于优化概率分布的几何平均(Wasserstein Barycenter)。
6. 与其他距离度量的对比
度量方法 | 优点 | 缺点 |
---|---|---|
KL散度 | 计算简单 | 不对称,无法处理非重叠分布 |
JS散度 | 对称 | 梯度易饱和,导致训练不稳定 |
瓦瑟斯坦距离 | 几何敏感,梯度平滑,适用性广 | 计算复杂度高(需近似方法) |
7. 计算优化与挑战
- 近似算法:实际应用中常用Sinkhorn算法(基于熵正则化)或对偶网络优化(如WGAN中的Critic)降低计算复杂度。
- 高维挑战:瓦瑟斯坦距离受“维度诅咒”影响,样本复杂度随维度指数增长,但切片瓦瑟斯坦(Sliced Wasserstein)等方法通过投影降维缓解此问题。
总结
瓦瑟斯坦距离通过结合最优传输理论与概率分布的几何特性,提供了一种更鲁棒、更具解释性的分布差异度量方式。其在生成模型、数据对齐等领域的成功应用,尤其是WGAN的突破,彰显了其在现代机器学习中的核心地位。
瓦瑟斯坦距离(Wasserstein Distance)是一种基于最优传输理论(Optimal Transport)的概率分布间距离度量。它通过衡量将一个分布“搬运”到另一个分布所需的最小“工作量”,刻画了两者在几何空间中的差异。以下从定义、数学形式和直观意义三方面详细解释:
1. 数学定义与形式
瓦瑟斯坦距离的数学形式基于最优运输问题的建模。设 X \mathcal{X} X 和 Y \mathcal{Y} Y 是两个概率空间, P P P 和 Q Q Q 是定义在它们上的两个概率分布。对于 μ ≥ 1 \mu \geq 1 μ≥1, μ \mu μ-瓦瑟斯坦距离定义为:
W μ ( P , Q ) = ( inf γ ∈ Γ ( P , Q ) ∫ X × Y ρ ( x , y ) μ d γ ( x , y ) ) 1 / μ , W_\mu(P, Q) = \left( \inf_{\gamma \in \Gamma(P, Q)} \int_{\mathcal{X} \times \mathcal{Y}} \rho(x, y)^\mu \, d\gamma(x, y) \right)^{1/\mu}, Wμ(P,Q)=(γ∈Γ(P,Q)inf∫X×Yρ(x,y)μdγ(x,y))1/μ,
其中:
- ρ ( x , y ) \rho(x, y) ρ(x,y) 是两点 x x x 和 y y y 之间的基础距离(如欧氏距离 ∥ x − y ∥ \|x - y\| ∥x−y∥)。
- Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 是所有满足边缘分布约束的联合分布 γ \gamma γ 的集合,即:
∫ Y γ ( x , y ) d y = P ( x ) , ∫ X γ ( x , y ) d x = Q ( y ) . \int_{\mathcal{Y}} \gamma(x, y) \, dy = P(x), \quad \int_{\mathcal{X}} \gamma(x, y) \, dx = Q(y). ∫Yγ(x,y)dy=P(x),∫Xγ(x,y)dx=Q(y).
这意味着 γ \gamma γ 的“行和”为 P P P,“列和”为 Q Q Q。
2. 核心思想:最优运输问题
瓦瑟斯坦距离的直观意义源于将质量从分布 P P P 搬运到 Q Q Q 的最小成本。具体来说:
- 运输计划(Transport Plan): γ ( x , y ) \gamma(x, y) γ(x,y) 表示从位置 x x x 搬运到位置 y y y 的质量量。
- 运输成本:单次运输 x → y x \to y x→y 的成本为 ρ ( x , y ) μ \rho(x, y)^\mu ρ(x,y)μ,总成本为所有运输路径成本的加权和。
- 最优化目标:在所有可能的运输计划 γ \gamma γ 中,找到总成本最小的方案,即求下确界( inf \inf inf)。
当 μ = 1 \mu = 1 μ=1 时, W 1 ( P , Q ) W_1(P, Q) W1(P,Q) 是经典的地球移动距离(Earth Mover’s Distance, EMD),直接对应最小搬运总成本。
3. 关键数学性质
(1) 边缘分布约束
联合分布 γ \gamma γ 必须满足边缘分布为 P P P 和 Q Q Q,即:
∑ y γ ( x , y ) = P ( x ) , ∑ x γ ( x , y ) = Q ( y ) . \sum_{y} \gamma(x, y) = P(x), \quad \sum_{x} \gamma(x, y) = Q(y). y∑γ(x,y)=P(x),x∑γ(x,y)=Q(y).
这保证了运输计划必须将 P P P 的所有质量“转移”到 Q Q Q 的对应位置上。
(2) 对偶形式(Kantorovich-Rubinstein Duality)
当 μ = 1 \mu = 1 μ=1 时, W 1 W_1 W1 可通过对偶形式简化计算:
W 1 ( P , Q ) = sup f ∈ Lip 1 ( E x ∼ P [ f ( x ) ] − E y ∼ Q [ f ( y ) ] ) , W_1(P, Q) = \sup_{f \in \text{Lip}_1} \left( \mathbb{E}_{x \sim P}[f(x)] - \mathbb{E}_{y \sim Q}[f(y)] \right), W1(P,Q)=f∈Lip1sup(Ex∼P[f(x)]−Ey∼Q[f(y)]),
其中 f f f 是1-Lipschitz函数(即满足 ∣ f ( x ) − f ( y ) ∣ ≤ ∥ x − y ∥ |f(x) - f(y)| \leq \|x - y\| ∣f(x)−f(y)∣≤∥x−y∥)。这一形式在Wasserstein GAN(WGAN)中被广泛应用。
4. 直观解释
(1) 几何敏感性
瓦瑟斯坦距离不仅衡量分布的密度差异,还考虑其空间位置关系。例如:
- 若 P P P 和 Q Q Q 是两个位置不同的高斯分布, W μ ( P , Q ) W_\mu(P, Q) Wμ(P,Q) 会反映它们的均值偏移。
- 若 P P P 和 Q Q Q 无重叠(如分布支撑集不交),KL散度会趋向无穷大,但 W μ ( P , Q ) W_\mu(P, Q) Wμ(P,Q) 仍能给出有意义的距离。
(2) 实际案例
假设 P P P 和 Q Q Q 是两个一维离散分布:
- P = [ 0.5 , 0.5 ] P = [0.5, 0.5] P=[0.5,0.5] 在位置 x 1 = 0 x_1=0 x1=0 和 x 2 = 1 x_2=1 x2=1,
- Q = [ 0.5 , 0.5 ] Q = [0.5, 0.5] Q=[0.5,0.5] 在位置 y 1 = 1 y_1=1 y1=1 和 y 2 = 2 y_2=2 y2=2。
最优运输计划可能是将 x 1 = 0 x_1=0 x1=0 的质量全部移到 y 1 = 1 y_1=1 y1=1(成本 1 1 1), x 2 = 1 x_2=1 x2=1 的质量移到 y 2 = 2 y_2=2 y2=2(成本 1 1 1),总成本为 0.5 × 1 + 0.5 × 1 = 1 0.5 \times 1 + 0.5 \times 1 = 1 0.5×1+0.5×1=1。因此 W 1 ( P , Q ) = 1 W_1(P, Q) = 1 W1(P,Q)=1。
5. 与其他距离的对比
距离度量 | 特点 |
---|---|
KL散度 | 不对称,对无重叠分布失效,不反映几何差异。 |
JS散度 | 对称但对无重叠分布仍不敏感。 |
总变差(TV) | 衡量分布密度差异,但忽略空间结构。 |
瓦瑟斯坦距离 | 对称、几何敏感、对无重叠分布有效,适合复杂空间(如图像、流形)。 |
6. 应用场景
- 生成对抗网络(WGAN):用 W 1 W_1 W1 作为损失函数,解决传统GAN训练不稳定问题。
- 图像检索:通过地球移动距离衡量图像间的相似性。
- 数据对齐:匹配不同分布的数据(如医学图像配准)。
总结
瓦瑟斯坦距离通过“最小搬运成本”的视角,将概率分布的差异转化为几何空间中的优化问题。其数学形式结合了最优传输理论的严谨性,以及对空间结构的敏感性,使其在机器学习和数据科学中成为比传统概率散度更强大的工具。
在瓦瑟斯坦距离的定义中,符号 Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 表示所有满足边缘分布约束的联合概率分布(coupling)的集合。它描述了将分布 P P P 的“质量”转移到分布 Q Q Q 时所有可能的“运输计划”。以下通过三个角度详细解释:
1. 数学定义
Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 是所有满足以下条件的联合分布 γ ( x , y ) \gamma(x, y) γ(x,y) 的集合:
- 边缘分布约束:
∫ Y γ ( x , y ) d y = P ( x ) , ∫ X γ ( x , y ) d x = Q ( y ) . \int_{\mathcal{Y}} \gamma(x, y) \, dy = P(x), \quad \int_{\mathcal{X}} \gamma(x, y) \, dx = Q(y). ∫Yγ(x,y)dy=P(x),∫Xγ(x,y)dx=Q(y).
这意味着:- 对于每个 x x x,从 x x x 运出的总质量等于 P ( x ) P(x) P(x);
- 对于每个 y y y,运到 y y y 的总质量等于 Q ( y ) Q(y) Q(y)。
通俗地说, γ ( x , y ) \gamma(x, y) γ(x,y) 必须保证:
- 从 P P P 的视角看,它输出的质量总和完全匹配原分布 P P P;
- 从 Q Q Q 的视角看,它接收的质量总和完全匹配目标分布 Q Q Q。
2. 直观意义:运输计划
Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 中的每个 γ ( x , y ) \gamma(x, y) γ(x,y) 代表一种运输方案:
- 运输动作:将 x x x 位置的质量(来自 P P P)搬运到 y y y 位置(形成 Q Q Q)。
- 运输量: γ ( x , y ) \gamma(x, y) γ(x,y) 表示从 x x x 搬运到 y y y 的质量量。
- 运输成本:单次搬运的成本为 ρ ( x , y ) μ \rho(x, y)^\mu ρ(x,y)μ(例如欧氏距离的幂次)。
示例(离散情况)
假设 P P P 和 Q Q Q 是两个离散分布:
P = [ 0.6 , 0.4 ] 在位置 x 1 = 0 , x 2 = 1 , Q = [ 0.3 , 0.7 ] 在位置 y 1 = 1 , y 2 = 2. P = [0.6, 0.4] \quad \text{在位置} \ x_1=0, x_2=1, \\ Q = [0.3, 0.7] \quad \text{在位置} \ y_1=1, y_2=2. P=[0.6,0.4]在位置 x1=0,x2=1,Q=[0.3,0.7]在位置 y1=1,y2=2.
则 Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 包含所有满足以下条件的联合分布矩阵 γ = [ γ i j ] \gamma = [\gamma_{ij}] γ=[γij]:
∑ j γ i j = P ( x i ) (行和为 P ) , ∑ i γ i j = Q ( y j ) (列和为 Q ) . \sum_{j} \gamma_{ij} = P(x_i) \quad \text{(行和为} \ P \text{)}, \\ \sum_{i} \gamma_{ij} = Q(y_j) \quad \text{(列和为} \ Q \text{)}. j∑γij=P(xi)(行和为 P),i∑γij=Q(yj)(列和为 Q).
例如,一个合法的 γ \gamma γ 可能是:
γ = [ 0.2 0.4 0.1 0.3 ] , \gamma = \begin{bmatrix} 0.2 & 0.4 \\ 0.1 & 0.3 \end{bmatrix}, γ=[0.20.10.40.3],
其中:
- 第一行 0.2 + 0.4 = 0.6 = P ( x 1 ) 0.2+0.4=0.6=P(x_1) 0.2+0.4=0.6=P(x1),
- 第二行 0.1 + 0.3 = 0.4 = P ( x 2 ) 0.1+0.3=0.4=P(x_2) 0.1+0.3=0.4=P(x2),
- 第一列 0.2 + 0.1 = 0.3 = Q ( y 1 ) 0.2+0.1=0.3=Q(y_1) 0.2+0.1=0.3=Q(y1),
- 第二列 0.4 + 0.3 = 0.7 = Q ( y 2 ) 0.4+0.3=0.7=Q(y_2) 0.4+0.3=0.7=Q(y2)。
3. 关键性质
(1) 非唯一性
Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 中包含无限多种可能的运输方案。例如:
- 上例中,另一个合法的 γ \gamma γ 可能是:
γ = [ 0.3 0.3 0.0 0.4 ] . \gamma = \begin{bmatrix} 0.3 & 0.3 \\ 0.0 & 0.4 \end{bmatrix}. γ=[0.30.00.30.4].
(2) 存在性
只要 P P P 和 Q Q Q 是同一空间上的概率分布(且质量守恒,即总概率均为1), Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 必定非空。例如,平凡方案:
γ ( x , y ) = P ( x ) Q ( y ) , \gamma(x, y) = P(x)Q(y), γ(x,y)=P(x)Q(y),
即独立耦合(不利用空间结构,直接按乘积分配质量)。
(3) 最优性
瓦瑟斯坦距离的目标是从 Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 中找到总运输成本最低的 γ \gamma γ:
W μ ( P , Q ) = inf γ ∈ Γ ( P , Q ) ( ∑ x , y γ ( x , y ) ρ ( x , y ) μ ) 1 / μ . W_\mu(P, Q) = \inf_{\gamma \in \Gamma(P, Q)} \left( \sum_{x,y} \gamma(x,y) \rho(x,y)^\mu \right)^{1/\mu}. Wμ(P,Q)=γ∈Γ(P,Q)inf(x,y∑γ(x,y)ρ(x,y)μ)1/μ.
4. 与边缘分布的关系
Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 的约束条件本质上将问题转化为一个线性规划问题:
- 变量:所有 γ ( x , y ) \gamma(x, y) γ(x,y);
- 约束:行和、列和固定;
- 目标函数:最小化总运输成本。
这种约束保证了运输计划的合法性,即“不凭空创造或销毁质量”。
总结
Γ ( P , Q ) \Gamma(P, Q) Γ(P,Q) 是瓦瑟斯坦距离的核心概念,它限制了所有可能的运输计划必须遵守源分布 P P P 和目标分布 Q Q Q 的质量守恒。通过优化这些计划中的总成本,瓦瑟斯坦距离将概率分布的差异转化为几何空间中的最小搬运问题。