论文阅读之 Diffusion Models Beat GANs on Image Synthesis

2023-11-13

扩散首次打败gan

来源 OpenAI

无条件图像合成
条件图像合成

背景

目标函数和参数化方式的来源

Alex Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models.
arXiv:2102.09672, 2021.

采样过程来源

Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models.
arXiv:2010.02502, 2020.

样本质量度量

FID	捕获了保真度和多样性
Precision and recall	保真度和多样性
sFID	捕获空间关系的标准度量
IS	保真度

结构改变

以前的方法

u-net & 在16*16分辨率使用全局attention & 时间投影嵌入到每个残差块
本文的改进
- 增加深度和宽度
- 保持模型尺寸相对一致
- 增加注意力机制的头：使用attention在3232，1616，88上而不仅仅在1616上
- 使用bigGan残差块在激活上采样和下采样
  rescale 残差连接
  
  本文最后的结构使用：可变宽度，每个分辨率2个残差块，多个头部，64个通道，注意力在32,16和8分辨率，BigGAN残差块为上和下采样，以及注入时间步长和类嵌入的自适应组归一化。

训练集	mertics
ImageNet 128 × 128 128 \times 128 128×128	FID

分类器指导

我们已经将类信息合并到自适应的组归一化层中（第3节）。我们探索了一种不同的方法：

利用分类器 P ( X ∣ Y ) P(X|Y) P(X∣Y)改进扩散生成器。
- （之前的工作）展示一种实现这一点的方法，其中一个预先训练的扩散模型可以使用分类器的梯度进行调节。
- （在我们的工作中）特别地，我们可以在有噪声的图像 X t X_t Xt上训练一个分类器 p φ （ y ∣ x t ， t ） p_φ（y|x_t，t） pφ（y∣xt，t），然后使用梯度 ▽ l o g p φ （ y ∣ x t ， t ） \bigtriangledown log p_φ（y|x_t，t） ▽logpφ（y∣xt，t）来引导扩散采样过程走向任意的类标签y。
类条件扩散抽样
1. in Appendix D.2.Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. arXiv:1503.03585, 2015.
2. in Appendix D.3 对于DDIM，执行了一个基于分数的推导 Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon,and Ben Poole. Score-based generative modeling through stochastic differential equations. arXiv:2011.13456, 2020.

我们用于指导的结果采样算法分别是算法1和算法2,这两种算法都通过将每个采样步长添加到具有适当步长的分类器的梯度来合并类信息。为了简单表示 p ϕ ( y ∣ x t , t ) = p ϕ ( y ∣ x t ) and ϵ θ ( x t , t ) = ϵ θ ( x t ) p_{\phi}\left(y \mid x_{t}, t\right)=p_{\phi}\left(y \mid x_{t}\right) \text { and } \epsilon_{\theta}\left(x_{t}, t\right)=\epsilon_{\theta}\left(x_{t}\right) pϕ(y∣xt,t)=pϕ(y∣xt) and ϵθ(xt,t)=ϵθ(xt) 注意到它们引用了每个时间步长t的单独函数，在训练时，模型必须以输入t为条件。

为了将分类器指导应用于大规模生成任务，我们在ImageNet上训练分类模型。我们的分类器架构只是UNet模型的降采样主干，在8x8层有一个注意力池[55]，以产生最终的输出。本文在相同的噪声分布上训练这些分类器，并添加随机作物以减少过拟合。

算法1和算法2的对比
![在这里插入图片描述](https://img-blog.csdnimg.cn/52916d2db22f498990b264b6fd068abc.png#pic_center

---------算法2中的s！！！在哪--------

t r i c k : {\color{Red} trick: } trick: 在使用无条件ImageNet模型的初始实验中，我们发现有必要将分类器的梯度调整为一个大于1的常数因子。当使用1的尺度时，我们观察到分类器为最终的样本分配了合理的概率（约50%），但这些样本在目视检查时与预期的类不匹配。扩大分类器的梯度解决了这个问题，并且来自分类器的类概率增加到近100%。为了理解缩放分类器梯度的影响，请注意 s × ▽ x l o g p （ y ∣ x ） = ▽ x l o g 1 Z p （ y ∣ x ） s s\times\bigtriangledown x log p（y|x）= \bigtriangledown x log \frac{ 1}{Z} p（y|x）^s s×▽xlogp（y∣x）=▽xlogZ1p（y∣x）s，其中Z是一个任意常数。因此，条件反射过程在理论上仍然是基于一个与 p （ y ∣ x ） s p（y|x）^s p（y∣x）s成正比的重新归一化的分类器分布。当 s > 1 s > 1 s>1时，这个分布变得比 p （ y ∣ x p（y|x p（y∣x）更尖锐，因为较大的值被指数放大。换句话说，使用更大的梯度尺度更关注分类器的模式，这可能是产生更高质量（但较少多样性）样本的理想条件。

在上述推导中，假设潜在的扩散模型是无条件的，建模为p (x)。它也可以训练条件扩散模型，p（x|y），并使用分类器指导完全一样。从表3中可以看出，通过分类器的指导，可以大大提高无条件模型和条件模型的样本质量。我们可以看到，在足够高的规模下，引导无条件模型可以非常接近非引导条件模型的FID，尽管直接使用类标签进行训练仍然有帮助。指导了一个条件模型，进一步改进了FID。

在这里插入图片描述

总结

网络结构改进
训练trick
引入分类梯度指导
在image net 上的大模型可以用啊！！！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)