论文阅读之 Diffusion Models Beat GANs on Image Synthesis

2023-11-13

扩散首次打败gan

来源 OpenAI

  • 无条件图像合成
  • 条件图像合成

背景

  • 目标函数和参数化方式的来源

Alex Nichol and Prafulla Dhariwal. Improved denoising diffusion probabilistic models.
arXiv:2102.09672, 2021.

  • 采样过程来源

Jiaming Song, Chenlin Meng, and Stefano Ermon. Denoising diffusion implicit models.
arXiv:2010.02502, 2020.

  • 样本质量度量
FID 捕获了保真度和多样性
Precision and recall 保真度和多样性
sFID 捕获空间关系的标准度量
IS 保真度

结构改变

  • 以前的方法

    ​ u-net & 在16*16分辨率使用全局attention & 时间投影嵌入到每个残差块

  • 本文的改进
    - 增加深度和宽度

    • 保持模型尺寸相对一致

    • 增加注意力机制的头:使用attention在3232,1616,88上而不仅仅在1616上

    • 使用bigGan残差块在激活上采样和下采样
      rescale 残差连接

      本文最后的结构使用:可变宽度,每个分辨率2个残差块,多个头部,64个通道,注意力在32,16和8分辨率,BigGAN残差块为上和下采样,以及注入时间步长和类嵌入的自适应组归一化。

训练集 mertics
ImageNet 128 × 128 128 \times 128 128×128 FID

分类器指导

我们已经将类信息合并到自适应的组归一化层中(第3节)。我们探索了一种不同的方法:

  • 利用分类器 P ( X ∣ Y ) P(X|Y) P(XY)改进扩散生成器。
    • (之前的工作) 展示一种实现这一点的方法,其中一个预先训练的扩散模型可以使用分类器的梯度进行调节。
    • (在我们的工作中) 特别地,我们可以在有噪声的图像 X t X_t Xt上训练一个分类器 p φ ( y ∣ x t , t ) p_φ(y|x_t,t) pφyxtt,然后使用梯度 ▽ l o g p φ ( y ∣ x t , t ) \bigtriangledown log p_φ(y|x_t,t) logpφyxtt来引导扩散采样过程走向任意的类标签y。
  • 类条件扩散抽样
    1. in Appendix D.2.Jascha Sohl-Dickstein, Eric A. Weiss, Niru Maheswaranathan, and Surya Ganguli. Deep unsupervised learning using nonequilibrium thermodynamics. arXiv:1503.03585, 2015.
    2. in Appendix D.3 对于DDIM,执行了一个基于分数的推导 Yang Song, Jascha Sohl-Dickstein, Diederik P. Kingma, Abhishek Kumar, Stefano Ermon,and Ben Poole. Score-based generative modeling through stochastic differential equations. arXiv:2011.13456, 2020.

​ 我们用于指导的结果采样算法分别是算法1和算法2,这两种算法都通过将每个采样步长添加到具有适当步长的分类器的梯度来合并类信息。为了简单表示 p ϕ ( y ∣ x t , t ) = p ϕ ( y ∣ x t )  and  ϵ θ ( x t , t ) = ϵ θ ( x t ) p_{\phi}\left(y \mid x_{t}, t\right)=p_{\phi}\left(y \mid x_{t}\right) \text { and } \epsilon_{\theta}\left(x_{t}, t\right)=\epsilon_{\theta}\left(x_{t}\right) pϕ(yxt,t)=pϕ(yxt) and ϵθ(xt,t)=ϵθ(xt) 注意到它们引用了每个时间步长t的单独函数,在训练时,模型必须以输入t为条件

  • 为了将分类器指导应用于大规模生成任务,我们在ImageNet上训练分类模型。我们的分类器架构只是UNet模型的降采样主干,在8x8层有一个注意力池[55],以产生最终的输出。本文在相同的噪声分布上训练这些分类器,并添加随机作物以减少过拟合。

算法1和算法2的对比
![在这里插入图片描述](https://img-blog.csdnimg.cn/52916d2db22f498990b264b6fd068abc.png#pic_center在这里插入图片描述在这里插入图片描述

​ ---------算法2中的s!!!在哪--------

t r i c k : {\color{Red} trick: } trick: 在使用无条件ImageNet模型的初始实验中,我们发现有必要将分类器的梯度调整为一个大于1的常数因子。当使用1的尺度时,我们观察到分类器为最终的样本分配了合理的概率(约50%),但这些样本在目视检查时与预期的类不匹配。扩大分类器的梯度解决了这个问题,并且来自分类器的类概率增加到近100%。为了理解缩放分类器梯度的影响,请注意 s × ▽ x l o g p ( y ∣ x ) = ▽ x l o g 1 Z p ( y ∣ x ) s s\times\bigtriangledown x log p(y|x)= \bigtriangledown x log \frac{ 1}{Z} p(y|x)^s s×xlogpyx=xlogZ1pyxs,其中Z是一个任意常数。因此,条件反射过程在理论上仍然是基于一个与 p ( y ∣ x ) s p(y|x)^s pyxs成正比的重新归一化的分类器分布。当 s > 1 s > 1 s>1时,这个分布变得比 p ( y ∣ x p(y|x pyx)更尖锐,因为较大的值被指数放大。换句话说,使用更大的梯度尺度更关注分类器的模式,这可能是产生更高质量(但较少多样性)样本的理想条件。

在上述推导中,假设潜在的扩散模型是无条件的,建模为p (x)。它也可以训练条件扩散模型,p(x|y),并使用分类器指导完全一样。从表3中可以看出,通过分类器的指导,可以大大提高无条件模型和条件模型的样本质量。我们可以看到,在足够高的规模下,引导无条件模型可以非常接近非引导条件模型的FID,尽管直接使用类标签进行训练仍然有帮助。指导了一个条件模型,进一步改进了FID。

在这里插入图片描述

总结

  • 网络结构改进
  • 训练trick
  • 引入分类梯度指导
  • 在image net 上的大模型可以用啊!!!
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文阅读之 Diffusion Models Beat GANs on Image Synthesis 的相关文章

随机推荐

  • R语言练习题2

    关注公众号凡花花的小窝 收获更多的考研计算机专业编程相关的资料 3 从mtcars数据集中取出wt gt 2 6并且vs 0的数据 subset mtcars mtcarsKaTeX parse error Expected EOF got
  • 【机器学习】机器故障的二元分类模型-Kaggle竞赛

    竞赛介绍 数据集描述 本次竞赛的数据集 训练和测试 是从根据机器故障预测训练的深度学习模型生成的 特征分布与原始分布接近 但不完全相同 随意使用原始数据集作为本次竞赛的一部分 既可以探索差异 也可以了解在训练中合并原始数据集是否可以提高模型
  • 【seafile】之 预览电子发票PDF显示不全问题

    文章目录 一 问题来源 二 解决 三 题外话 近期在处理网盘和在线文件相关问题 面对的事比较多且杂 记录下 问题 seafile自身预览PDF文件 部分不显示 图片显示如下 一 问题来源 seafile版本 7 0 5 原因 原文件pdf
  • Feign常用的请求拦截器

    IFeignAutoConfiguration Configuration ConditionalOnClass Feign class Order Ordered LOWEST PRECEDENCE 10000 public class
  • 推荐11款开源自动化安全测试实用工具

    安全测试 渗透测试 可以让企业了解现有网络安全措施的成效或不足 进而帮助其调整安全项目 并主动发现漏洞 但是 安全测试是一项工作量很大的工作 测试团队需要在较短时间内快速完成以下任务 侦察并分析组织网络所使用的网络协议 以收集有关网络设备和
  • RC电路分析计算

    RC电路有一个电容和一个电阻组成 可以是并联或者串联 可用作滤波 移相等 下面以RC串联电路为例计算分析电路的电流电压特性和频率特性 RC串联电路 如上图所示 假设RC电路电源电压为Us 电容大小为C 电容两端电压为Uc 电阻大小为R 电阻
  • 用Python分析2000款避孕套,得出这些有趣的结论

    前言 本文的文字及图片来源于网络 仅供学习 交流使用 不具有任何商业用途 如有问题请及时联系我们以作处理 PS 如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 python免费学习资料以及群交流解答点击即可加入 一 分析目标
  • 经销商网上下单系统

    什么是订货通 什么是企业订货管理系统 是一款针对中小型企业通过网络实现 厂家和客户 经销商 批发商 代理商一站式订货系统 最终实现厂家的下游客户通过网络实现实时订货功能 一 订货系统解决的问题 开发网上订货系统用于解决企业和下游订货商对接
  • 文件系统cache机制

    复杂度3 5 机密度3 5 最后更新2021 04 27 AIX并未采用传统Unix的cache模式 传统Unix 包括Linux 的cache模式是把cache作为一个单独的旁路应用 嵌入在文件读写的路径中 当应用请求读文件时 kerne
  • stm32单片机引脚_单片机IO口不够用了,怎么办?

    这几天公子比较闲 像看看手上有没有好玩的模块 于是 公子找到了一款OV系列的摄像头 于是翻了一下自己的2年都没有打开的盒子 公子专门来放开发板的 可是找了半天 都没有找到开发板 费了九牛二虎之力 才找到一块STM32F103C8T6的 长这
  • 带硬件FIFO的串口驱动程序设计思路

    串口具有硬件FIFO可以降低中断频率 对于需要高波特率数据传输 MCU本身速度比较慢 或有更高级优先级中断需要及时处理的场合就显得比较重要 通常 即便串口本身带硬件FIFO 在编写串口驱动程序时 仍然需要在上层在加一层软件FIFO 或Rin
  • Centos7.3服务器配置

    安装node 1 下载并安装NVM脚本 curl https raw githubusercontent com creationix nvm v0 13 1 install sh bash source bash profile 2 列出
  • RabbitMQ--基础--7.5--工作模式--主题模式(Topic)

    RabbitMQ 基础 7 5 工作模式 主题模式 Topic 代码位置 https gitee com DanShenGuiZu learnDemo tree master rabbitMq learn rabbitMq 03 1 介绍
  • java代码分析及分析工具

    一个项目从搭建开始 开发的初期往往思路比较清晰 代码也比较清晰 随着时间的推移 业务越来越复杂 代码也就面临着耦合 冗余 甚至杂乱 到最后谁都不敢碰 作为一个互联网电子商务网站的业务支撑系统 业务复杂不言而喻 从09年开始一直沿用到现在 中
  • Flatbuffers使用解析

    Flatbuffers使用解析 在今日头条偶然看到一个技术分享视频 标题很唬人 json之后下一代数据交换格式 大致是这样 不明觉厉 赶紧打开观看 原来Flatbuffers是Google为游戏或者其他对性能要求很高的应用开发的一种数据交换
  • layer关闭弹窗,刷新父页面

    获取index不要写在函数里 可能获取不到index var index parent layer getFrameIndex window name function closeFram window parent refreshPage
  • React 函数组件

    1 React 组件 函数式组件 1 React提供了两种创建组件方式 1 1 函数式组件 1 2 类组件 执行了ReactDOM render
  • ctrl c和 ctrl v 突然失灵不能使用的解决方法大全

    1 你是否正在运行 有道词典 那就把它关了 这也是困扰我许久的问题 2 打开你的输入法 看看快捷键是否有冲突 很大原因可能是这个 3 打开C盘 gt Windows gt System32 看看这个文件夹中是否有clip的文件夹 如果没有就
  • 由于找不到 MSVCR120.dll,无法继续执行代码解决方法

    问题描述 下载某C端软件并启动 提示 由于找不到 MSVCR120 dll 无法继续执行代码解决方法 在其它电脑尝试打开 可以正常打开 定位到确是环境问题 非下载的程序包问题 解决方法 方法一 在网上下载 msvcr120 dll 文件 并
  • 论文阅读之 Diffusion Models Beat GANs on Image Synthesis

    扩散首次打败gan 来源 OpenAI 无条件图像合成 条件图像合成 背景 目标函数和参数化方式的来源 Alex Nichol and Prafulla Dhariwal Improved denoising diffusion proba