笔记 – Denoising Diffusion Probabilistic Models

啊……又回来了……熟悉的 DDPM 啊……

这篇文章的核心贡献在于：提出一种基于多轮加噪 / 去噪进行图像生成的方法框架。这种方法框架（Diffusion）在某种意义上独立于所采用的模型存在；模型所学习的是噪声——对某张带噪声图片来说，噪声最可能在哪，也即原图最可能长啥样子。

Diffusion 前最流行的图像生成方法是 GAN（标志性的工作如 StyleGAN），次一些的有 VAE（变分自编码器）、流方法、各种自回归模型等等，但它们训练效率往往极低，生成图片的质量也不很高（相对于 Diffusion 系列而言）。DDPM 作为最早的 Diffusion 方法之一并非很引人注目，但经过几轮论文周期升级而成的 DDIM、LDM / Stable Diffusion 很快展现出 Diffusion 系列方法的极高潜力，迅速席卷整个图像生成领域。

啥是 VAE？变分自编码器。

这里主要关注 DDPM 的数学方法及若干细节。

[2006.11239] Denoising Diffusion Probabilistic Models（2020 年 6 月）

看起来很厉害的博客扩散模型之DDPM – 知乎

深入浅出且式子都很好理解的博客生成扩散模型漫谈（一）：DDPM = 拆楼 + 建楼 – 科学空间|Scientific Spaces

Pasted image 20250808105110.png

扩散过程

Diffusion 包含两个相反的过程：前向的扩散过程给一张图片加入 $T$ 次随机噪声，最终将其变为完全的纯噪声图，这个过程主要用于训练模型；反向的去噪过程给一个纯噪声图，利用模型预测 $T$ 次噪声并去噪，得到一张清晰的图片，这个过程主要用于图片生成。

加噪过程中，第 $t$ 步加入方差为 $β_{t}$ 的 Gaussian 噪声

$q (x_{t} | x_{t - 1}) = N (x_{t}; \sqrt{1 - β_{t}} x_{t - 1}, β_{t} I)$

上式含义：给定第 $t - 1$ 步的数据分布 $x_{t - 1} \sim q (x_{t - 1})$ ，第 $t$ 步 $x_{t} \sim q (x_{t})$ 的数据分布由在前一步的数据上加随机 Gaussian 噪声决定。

具体操作是

$x_{t} = \sqrt{1 - β_{t}} x_{t - 1} + \sqrt{β_{t}} ϵ_{t}, ϵ_{t} \sim N (0, I)$

所有 $β_{t}$ 被预先确定。

为什么 $x_{t - 1}$ 要乘一个 $\sqrt{1 - β_{t}}$ ？因为希望 $x$ 的方差一直是 $I$ ，这样最后得到的噪声图接近很简洁的 $x_{T} \sim N (0, I)$ 。

一个重要的事实是，由于 Gaussian 分布的可加性， $t$ 步加噪可以一并完成。记 $α_{t} = 1 - β_{t}$ ，推一下得到

$x_{t} = \sqrt{\prod_{i = 1}^{t} α_{i}} x_{0} + \sqrt{1 - \prod_{i = 1}^{t} α_{i}} ϵ, ϵ \sim N (0, I)$

再记 ${\bar{α}}_{t} = \prod_{i = 1}^{t} α_{i}$ 则可以简单地写作 $x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ$ 。

然后 $x_{0} \sim q (x_{0})$ 也看作方差为 $0$ 的 Gaussian 分布 $N (x_{0}, 0)$ ，这样 $x_{t} \sim N (x_{t}; \sqrt{{\bar{α}}_{t}} x_{0}, 1 - {\bar{α}}_{t})$ 。这就是 $q (x_{t} | x_{0})$ 。

理想去噪过程

去噪过程中，第 $t$ 步去掉刚刚加上的随机变量……

等等！随机变量怎么可能“去掉”？毕竟我们也不知道它是多少啊！就算我们尝试用模型去预测加噪过程第 $t$ 步加的 $ϵ_{t}$ 长啥样，最后也只会训出一个只输出 Gaussian 噪声的模型（因为当时加上的就是一个 Gaussian 分布的随机变量）……

不管怎样，由于 Gaussian 分布的可加性，我们知道 $x_{t - 1}$ 肯定服从某个 Gaussian 分布。

来一个 Bayes：

$q (x_{t - 1} | x_{t}, x_{0}) = \frac{q (x_{t - 1} | x_{0})}{q (x_{t} | x_{0})} q (x_{t} | x_{t - 1})$

为啥要再考虑 $x_{0}$ ？因为 $x_{t - 1}$ 是由 $x_{0}$ 生成的，没有单独的 $q (x_{t - 1})$ ，或者说，当我们写出 $q (x_{t - 1})$ 时，其实就自带为 $q (x_{t - 1} | x_{0})$ 了。

或者说，这里讨论的是理想去噪过程，在仅知道一张噪声图 $x_{t}$ （而不知道原图可能有哪些）的情况下当然不可能理想地恢复原图。

模型到时候会在图片集上训练，尝试做到仅根据输入的 $x_{t}$ 恢复原图。我们把这个过程记作模型去噪过程 $p_{θ} (x_{t - 1} | x_{t})$ ，以与理想去噪过程区分。

那为啥最后那项没有 $x_{0}$ ？带上也行，但由 Markov 链的原因， $x_{t}$ 只和 $x_{t - 1}$ 相关所以多此一举。

（现在我还不知道要干啥……但可以把前面的东西代进来所以就代吧）

利用 Gaussian 分布的密度函数（省略 $\exp$ 前的常数项） $\exp (- \frac{(x - μ)^{2}}{2 σ^{2}})$ 代入之前结果：

$\begin{aligned} q (x_{t - 1} | x_{t}, x_{0}) & = \exp (- \frac{1}{2} (\frac{(x_{t} - {\sqrt{α}}_{t} x_{t - 1})^{2}}{1 - α_{t}} - \frac{(x_{t} - \sqrt{{\bar{α}}_{t}} x_{0})^{2}}{1 - {\bar{α}}_{t}} + \frac{(x_{t - 1} - \sqrt{{\bar{α}}_{t - 1}} x_{0})^{2}}{1 - {\bar{α}}_{t - 1}})) \\ = \exp (- \frac{1}{2} ((\frac{α_{t}}{1 - α_{t}} + \frac{1}{1 - {\bar{α}}_{t - 1}}) x_{t - 1}^{2} - (\frac{2 {\sqrt{α}}_{t} x_{t}}{1 - α_{t}} + \frac{2 \sqrt{{\bar{α}}_{t - 1}} x_{0}}{1 - {\bar{α}}_{t - 1}}) x_{t - 1} + c)) \end{aligned}$

后面 $c$ 是一坨常数。鉴于之前已经省略常数项了，并且大家推到这的时候也自动省略 $c$ 了我们也就不管它了。

为什么要化成这样？因为我们已经知道， $x_{t - 1}$ 服从某个 Gaussian 分布，化成上面的样子再配方一下可以把这个 Gaussian 分布的均值 ${\tilde{μ}}_{t}$ 和方差 ${\tilde{β}}_{t}$ 求出来。它们是：

$\begin{aligned} {\tilde{μ}}_{t} & = \sqrt{α_{t}} \frac{1 - {\bar{α}}_{t - 1}}{1 - {\bar{α}}_{t}} x_{t} + \sqrt{{\bar{α}}_{t - 1}} \frac{1 - α_{t}}{1 - {\bar{α}}_{t}} x_{0} \\ {\tilde{β}}_{t} & = \frac{(1 - {\bar{α}}_{t - 1}) (1 - α_{t})}{1 - {\bar{α}}_{t}} \end{aligned}$

注意到方差是一个常数，这是自然的。均值则是一个关于 $x_{t}$ 和 $x_{0}$ 的函数。也就是说，在理想去噪过程中，我们在知道 $x_{0}$ 的情况下，可以这样根据 $x_{t}$ 弄出一个分布，然后采样 $x_{t - 1}$ 。

模型去噪过程

对 $p_{θ} (x_{t - 1} | x_{t})$ 呢？我们希望它与 $q (x_{t - 1} | x_{t}, x_{0})$ 越接近越好。设 $p_{θ} (x_{t - 1} | x_{t}) = N (x_{t - 1}; μ_{θ} (x_{t}, t), Σ_{θ} (t))$ ，由之前的讨论方差是个常数，所以可以不让模型管这些， $Σ_{θ} (t) = {\tilde{β}}_{t}$ 。

衡量两个分布的“接近程度”有 KL 散度，我们计算 $p_{θ}$ 和 $q$ 的 KL 散度看看要优化的目标是啥：

$D_{K L} (q ∥ p_{θ}) = \frac{1}{2} (\frac{1}{{\tilde{β}}_{t}} ∥ {\tilde{μ}}_{t} (x_{t}, x_{0}) - μ_{θ} (x_{t}, t) ∥^{2})$

KL 散度（Kullback-Leibler Divergence）是衡量两个分布之间差异的方法，广泛运用于机器学习等领域。它有一个不那么唬人的名字叫“相对熵”。

$D_{K L} (P ∥ Q) = \int_{x} P (x) \log \frac{P (x)}{Q (x)} d x$

注意到这个式子是不对称的！！其中， $P$ 是真实分布， $Q$ 是近似分布。

对两个 Gaussian 分布来说，KL 散度可以用以下式子计算：

$K L (p_{1} ∥ p_{2}) = \frac{1}{2} (tr (Σ_{2}^{- 1} Σ_{1}) + (μ_{2} - μ_{1})^{T} Σ_{2}^{- 1} (μ_{2} - μ_{1}) - n + \log \frac{det Σ_{2}}{det Σ_{1}})$

好难推……ML 研究的数学爆算浓度这么高吗……

无论如何，上面 $p_{θ}$ 和 $q$ 的 KL 散度就是直接代入上式的结果。

把这个作为优化目标就行啦。

$L = E_{q (x_{t} | x_{0})} [\frac{1}{2 {\tilde{β}}_{t}} ∥ {\tilde{μ}}_{t} (x_{t}, x_{0}) - μ_{θ} (x_{t}, t) ∥^{2}]$

但是但是！DDPM 发现这样效果不好，因此实际不是这样干的。之前得到一个这样的式子：

$x_{t} = \sqrt{{\bar{α}}_{t}} x_{0} + \sqrt{1 - {\bar{α}}_{t}} ϵ, ϵ \sim N (0, I)$

在已知 $x_{t}$ 的情况下，可以用 $ϵ$ 把 $x_{0}$ 换掉！这个做法被称为重参数化。把上面的 ${\tilde{μ}}_{t}$ 展开，然后换掉 $x_{0}$ 得到

$L = E [\frac{1}{2 {\tilde{β}}_{t}} ∥ \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ) - μ_{θ} (x_{t}, t) ∥^{2}]$

对 $μ_{θ}$ 也进行重参数化

$μ_{θ} = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ_{θ})$

现在不让模型预测 $μ$ ，而是预测 $ϵ$ ，把上面的东西丢到 $L$ 里得到

$L = E [\frac{(1 - α_{t})^{2}}{2 {\tilde{β}}_{t} α_{t} (1 - {\bar{α}}_{t})} ∥ ϵ - ϵ_{θ} (x_{t}, t) ∥^{2}]$

再次地，不管前面那一坨常数，得到最终的优化目标：

$L = E [∥ ϵ - ϵ_{θ} (x_{t}, t) ∥^{2}]$

真好。

所以还是要预测噪声，但噪声不是一个满足 Gaussian 分布的随机变量吗？

考虑 $ϵ$ 的意义：每次拿一张图片训练时对 $x_{0}$ 加 $t$ 步噪声之后得到 $x_{t}$ ，这 $t$ 步噪声组合在一起是 $ϵ$ 。虽然分布 $p (ϵ | x_{t})$ 确实是一个 Gaussian 分布，但在已知 $x_{0}$ 的情况下 $p (ϵ | x_{t}, x_{0})$ 所包含的信息量等价于 $q (x_{t - 1} | x_{t}, x_{0})$ ，即，在已知 $x_{t}$ 和原始图片集的情况下，预测噪声与预测加噪之前的图片等价。

总感觉论文作者的实际情况是先拍脑袋想出了这个优化目标，然后根据 KL 散度和之前 VAE 工作的范式证明了它的正确性……

毕竟其中有大量“舍弃常数”的操作，如果仅关注关键变量的流向的话，对 $ϵ$ 的 $L_{2}$ 误差、对 $μ$ 的 $L_{2}$ 误差和对原始 Gaussian 分布的 KL 散度这三个目标在直观上看是极为相似的。

回顾一下这串推导都在干啥，毕竟我们似乎只是从一堆显然的事实推出了另一些显然的事实：

首先已知 $x_{t}$ 和 $x_{0}$ 的话（理想情形）可以推出 $x_{t - 1}$ ，对 $x_{t - 1}$ 的分布有一个描述；
但图片生成的时候肯定不能知道 $x_{0}$ ，因此希望模型基于 $x_{t}$ 预测的 $x_{t - 1}$ 分布和理想情形的 $x_{t - 1}$ 分布越接近越好，这是我们的原始优化目标，但这个显然没法算；
我们用爆算证明了这三个优化目标在忽略常数的情况下等价：
- （VAE 的观点） $p_{θ} (x_{t - 1} | x_{t}, t)$ 和 $q (x_{t - 1} | x_{t}, x_{0})$ 的 KL 散度；
- （基于图片的误差） $μ_{θ} (x_{t}, t)$ 和 $\tilde{μ} (x_{t}, x_{0})$ 的 $L_{2}$ 误差；
- （基于噪声的误差） $ϵ_{θ} (x_{t}, t)$ 和 $ϵ$ 的 $L_{2}$ 误差。
然后发现最后一个优化目标实践中最方便，就用它了，直观上看着也挺合理。

如何训练？如何采样？

得到了上面那个优化目标之后训练的过程就非常简洁了。

Step 1 取一张图片 $x_{0}$ ，指定一个 $t$ ，随机产生一个 $ϵ \sim N (0, I)$ 。

Step 2 计算 $x_{t}$ 。

Step 3 把 $x_{t}$ 和 $t$ 丢进模型预测一个 $ϵ_{θ}$ ，与 $ϵ$ 比较计算 $L_{2}$ ，然后计算梯度更新网络。

采样过程也顺水推舟地出来了。

Step 1 随机产生一个 $x_{T} \sim N (0, I)$ 。

Step 2 对 $t = T, \dots, 1$ ， $x_{t - 1} = \frac{1}{\sqrt{α_{t}}} (x_{t} - \frac{1 - α_{t}}{\sqrt{1 - {\bar{α}}_{t}}} ϵ_{θ} (x_{t}, t))$ 。可以加点随机性，给上式后面补一个 $+ α_{t} z, z \sim N (0, I)$ 。

Diffusion 的常用网络结构是基于 Attention 层和 Residual 块搭建的 U-Net，同时引入对时间步的编码。

实际采样过程中取的 $T$ 往往较大，论文中取 $T = 1000$ 。

声明: 本文采用 BY-NC-SA 协议进行授权，如无注明均为原创，转载请注明转自大仓库
本文地址: 笔记 – Denoising Diffusion Probabilistic Models