由离散情况理解了距离计算以后,针对一般的连续分布,Wasserstein距离则变成如下形式 \(W(p_{r},p_{g})=inf_{\gamma~S(p_{r},p_{g})}E_(x,y)~\gamma [||x-y||]\)
其中inf指代最大下界,$S(p_{r},p_{g})$表示的是分布pr和pg中所有可能的联合分布,每一个联合分布$\gamma \in S(p_{r},p_{g})$都是之前提到的“土”,用于刻画连续空间中分布间转换的代价,更具体而言,$\gamma(x,y)$刻画从x点转移到y点从而让x,y服从相同分布所需要的“土”的百分比。因此$\gamma$的边缘分布可以表示为$\sum_{x}\gamma(x,y)=p_{g}(y), \sum_{y}\gamma(x,y)=p_{r}(x)$。
当我们将x作为我们的起始点,y作为我们要逼近的终点时,挖土填土的总量即为$\gamma(x,y)$,也即上文离散情况下计算的代价$\delta$,而点与点之间的距离则为 | x-y | ,因而总代价为 |
总代价最后可以使用EM等方法求得最小值。
一言蔽之,即使在低纬度且分布间没用重合的时候,Wasserstein距离的值依然能提供有用的信息。
考虑分布P和Q
\(\forall (x,y) \in P, x=0 and y ~ U(0,1)\) \(\forall(x,y) \in Q, x=\theta, 0 \leq \theta \leq 1 and y~U(0,1)\)
画出图像则为
当$\theta \neq 0$时,
\(D_{KL}(P||Q)=\sum\limits_{x=0,y~U(0,1)}1\cdot log\frac{1}{0}=+ \infty\) \(D_{KL}(Q||P)=\sum\limits_{x=\theta,y~U(0,1)}1\cdot log\frac{1}{0}=+ \infty\) \(D_{JS}(P,Q)=\frac{1}{2} (\sum\limits_{x=0,y~U(0,1)}1\cdot log\frac{1}{1/2} +\sum\limits_{x=\theta,y~U(0,1)}1\cdot log\frac{1}{1/2} )=log2\) \(W(P,Q)=|\theta|\)
当$\theta=0$的时候,P,Q两个分布完全重合,此时这三种距离度量方式均为0。可以看出KL散度在两个分布完全没有任何交集的时候会得出无穷的结果,而JS散度则会有突然的阶跃,并且在0点出不可微,只有Wasserstein距离能够提供更为平滑的结果用于梯度下降法的参数更新。不过值得一提的是,目前主流的分布距离度量依然是KL散度,这是由于KL散度的计算方式简单,计算成本较Wasserstein低,但今年来Wasserstein距离的近似Sinkhorn distance以及其他加快距离计算方法的论文也在不断涌现。因为本人研究也刚刚起步,本文也只是在英文原稿上加以翻译和整理,也希望相关领域大佬能不吝指教。