笔记 – High-Resolution Image Synthesis with Latent Diffusion Models

LDM，又称 Stable Diffusion。

LDM 想做的事情是快速生成高清晰度的图片。想法是这样的：Diffusion 过程不一定要在原始图片上做，可以在进 Diffusion 过程前加一个 VAE，把一个大图片过一个 Encoder 变成一个小的、隐空间图片。

训完之后生成的时候也是生成隐空间图片，然后过一个 Decoder 变成原图片。

此外 LDM 还做了一个事情，在 U-Net 里面插了一些 Cross Attention 层，然后用一个 Encoder 编码外部的文本等条件，编码后的结果塞到 $K, V$ 里。这样可以引入外部控制。~~感觉这才是 Stable Diffusion 真正火起来的原因~~

Pasted image 20250809202354.png
TODO

声明: 本文采用 BY-NC-SA 协议进行授权，如无注明均为原创，转载请注明转自大仓库
本文地址: 笔记 – High-Resolution Image Synthesis with Latent Diffusion Models