LDM,又称 Stable Diffusion。

LDM 想做的事情是快速生成高清晰度的图片。想法是这样的:Diffusion 过程不一定要在原始图片上做,可以在进 Diffusion 过程前加一个 VAE,把一个大图片过一个 Encoder 变成一个小的、隐空间图片。

训完之后生成的时候也是生成隐空间图片,然后过一个 Decoder 变成原图片。

此外 LDM 还做了一个事情,在 U-Net 里面插了一些 Cross Attention 层,然后用一个 Encoder 编码外部的文本等条件,编码后的结果塞到 K,V 里。这样可以引入外部控制。感觉这才是 Stable Diffusion 真正火起来的原因

[2112.10752] High-Resolution Image Synthesis with Latent Diffusion Models


Latent Space

Pasted image 20250809202354.png
TODO

评论功能没修好,暂不开放