High-Resolution Image Synthesis with Latent Diffusion Models论文阅读+代码复现

2023-10-27

摘要

       扩散模型在图像数据和其他数据上实现了最先进的合成结果,并且它的公式允许引导机制来控制图像生成的过程而无需重新训练。然而,这种模型直接在像素空间上操作,因此,功能强大的扩散模型通常需要花费大量的计算资源与推理时间。

       为了在有限的计算资源上进行扩散模型的训练,我们将扩散模型应用在强大的预训练自动编码器的潜在空间。与之前的工作相比,在这种表示上训练扩散模型首次能够在降低复杂度和保留细节之间达到接近最佳的点,极大地提高了视觉逼真度。

       并且通过在模型体系结构中引入交叉注意力层,扩散模型被转化为了灵活的生成器,用于文本或边界框等一般条件输入,并以卷积方式实现高分辨率合成。我们的潜在扩散模型在图像修复和类条件图像合成方面获得了最先进的分数,并在无条件图像生成、文本到图像合成、超分辨率上取得了具有高竞争力的性能。同时相比于基础的扩散模型显著降低了计算要求。

Introduction

       图像合成是今年发展最为壮观的计算机视觉领域,同时也是计算需求最大的领域。但是目前存在的方法存在一定的问题:

       1. 基于似然的模型,可能在自回归Transformer中包含十亿个参数。

       2. GAN可变性相对有限,因为对抗学习的过程不容易扩展到建模复杂的多模态分布。

       基于以上问题,扩散模型的优势是:

       1. 即使是无条件的Diffusion也可以很容易地应用于修复、着色和笔画合成等任务

       2. 作为基于似然地模型,Diffusion不像GANs一样容易出现模式崩溃和训练不稳定。

       3. 通过大量利用参数共享,可以对高度复杂地自然图像分布进行建模,而不需要像自回归模型那样设计数十亿个参数。

       即使如此,DM,这类基于可能性的模型类别,其模式覆盖行为,依旧使它倾向于花费过多的容量来建模数据中难以察觉的细节。因此造成了两个问题,无论是训练还是推理,都将耗费大量的计算资源。因此,在不损害DM生成性能的前提下减少计算要求提高其可访问性变成了DM性能提升的关键。

       在本文中,作者的目标是找到一个在感知上等效但是在计算上更合适的空间,在这个空间中将进一步训练用于高分辨率图像合成的扩散模型。

       训练分为两步:

       1. 训练一个自编码器,提供一个感知上等同于数据空间的低维表示空间。

       2. 一个显著的优点是,只需要训练通用自编码器一次,便可将其用于完全不同的任务。

       3. 对于IM-to-IM和TEXT-to-IM任务,作者设计了一种架构,将Transformer嵌入到DM的U-Net主干中,并启用任意类型的基于令牌的条件机制

Method

       我们建议引入压缩学习阶段和生成学习阶段的明确分离来规避计算量过大的问题。

Perceptual Image Compression

       感知压缩网络基于之前的工作,其包含一个AE网络,通过结合感知损失和基于Patch的对抗性目标训练。

       感知损失在GAN的训练中很常见,而基于块的对抗性目标训练,结合文章中的参考文献“Image-to-Image Translation with Conditional Adversarial Networks”,总结如下:该论文的生成器使用基于U-Net的网络架构,而鉴别器使用卷积的PatchGAN分类器,它只在图像patch的规模上惩罚结构。具体地,为了对高频结构建模,我们只关注局部图像斑块中的结构,即,只区分图像中每N*N的patch的真实性,最终平均所有的判决以提供D的最终输出。

       为了避免任意高方差的潜在空间,我们对两种不同类型的正则化进行了实验。第一个是KL-reg,对学习到的潜在表示施加朝向Standard Normal的KL惩罚。第二个是VQ-reg,在解码器中使用矢量量化层。因为随后的DM被设计为与学习的潜在向量空间z的二维结构一起工作,这与之前的工作形成了对比。之前的工作依赖于学习空间z的任意1D排序来自回归建模其分布,总而忽略了z的大部分固有结构,而本文提出的方法可以更好地保留输入图像x地细节。

Latent Diffusion Models

 

 

 Conditioning Mechanisms

将DM的生成能力与类别标签等条件结合。

并结合了交叉注意力模块,引入了an intermediate representation

 

 

 

 

 

       

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

High-Resolution Image Synthesis with Latent Diffusion Models论文阅读+代码复现 的相关文章

随机推荐

  • 前方交会与后方交会

    1 前方交会 1 1 前方交会的概念 利用立体像对两张像片的内方位元素 同名像点坐标和像对的相对方位元素 或外方位元素 解算模型点坐标 或地面点坐标 的工作 称为空间前方交会 在摄影测量中主要有两种 1 利用立体像对两张像片的相对方位元素
  • 命令行mvn打包的时候报错:No compiler is provided in this environment. Perhaps you are running on a JRE

    一 前言 这部分是安装Elasticsearch ik中文分词的时候 用mvn打包报错 No compiler is provided in this environment Perhaps you are running on a JRE
  • VC的路径

    1 注意 include Common MyTD h 这里面的目录表示方式与 CFile saveFile saveFile Open T abc bmp CFile modeCreate CFile modeNoTruncate CFil
  • 前端 JQuery

    jquery 理解 function 这是为了防止文档在完全加载 就绪 之前运行 jQuery 代码 换句话说 写在这里面的JQuery代码都是文档加载好之后的 就不会有获取一个还没有加载好的图片这种问题了 另一种写法 document r
  • 香港服务器微信js接口无法,微信jssdk分享接口不能正常使用

    调用的分享接口完全一样 只是在不同网页调用 但是有的可以有的不可以分享 不知道怎么回事 调用的代码如下 appId 认证的appid appsecret 认证的appsecret timestamp time jsapi ticket ma
  • 头文件

    头文件
  • flutter text 左对齐_Flutter 基础布局Widgets之Stack详解

    概述 Stack 组件是一种层叠式布局 即组件覆盖另一个组件 覆盖的顺序取决于在children中放置的顺序 使用场景比如在图片上加上一些文字描述 即将文本Widget覆盖在图片组件 详见下面的小例 构造函数 Stack Key key t
  • C# 连接Sql Server 数据库

    class DataBaseUtil static string dataSource server 数据库地址 database 数据库表名 uid 用户 pwd 密码 数据库连接字符串 public static SqlConnecti
  • 区块链 (数据结构)

    区块链是分布式数据存储 点对点传输 共识机制 加密算法等计算机技术的新型应用模式 区块链 Blockchain 是比特币的一个重要概念 它本质上是一个去中心化的数据库 同时作为比特币的底层技术 是一串使用密码学方法相关联产生的数据块 每一个
  • Anconda基本操作指令

    1 查看anconda版本基本信息 查看版本 conda v 默认进入base环境 conda config set auto activate base true 默认退出base环境 conda config set auto acti
  • 【基础知识】BSS段,数据段,代码段,堆栈段

    在了解BSS段他们之前 我们先来看一下他们在内存中的位置 BSS段 bss segmen BSS 是 Block Started by Symbol 的简称 通常是指用来存放程序中未初始化的全局变量的内存区域 属于静态内存分配 在可执行文件
  • swiper的使用,一次显示多个,竖着排列,多行多列

  • C++中cin、cin.get()、cin.getline()、getline()、gets()等函数的用法

    学C 的时候 这几个输入函数弄的有点迷糊 这里做个小结 为了自己复习 也希望对后来者能有所帮助 如果有差错的地方还请各位多多指教 本文所有程序均通过VC 6 0运行 1 cin 2 cin get 3 cin getline 4 getli
  • 数据库连接池概念、原理、运行机制浅谈

    概述 数据库连接池是负责分配 管理和释放数据库连接 它允许应用程序重复使用一个现有的数据库连接 而不是再重新建立一个 那么其中的运行机制又是怎样的呢 今天主要介绍一下数据库连接池原理和常用的连接池 01 为什么要使用连接池 数据库连接是一种
  • NoPadding填充方式不会对明文块进行填充,就会出现“Input length not multiple of 8 bytes“

    DES ECB PKCS5Padding和DES ECB NoPadding的区别 DES是一种对称加密算法 它可以使用不同的模式和填充方式进行加密 在Java Cipher API中 提供了四种DES加密模式 ECB CBC CFB和OF
  • 微信小程序实现类3D轮播图

    在写微信小程序时 有写到实现3D轮播图的效果 可以直接使用微信小程序中自带的组件swiper来实现 效果图如下 1 swiper的相关属性 indicator dots 是否显示小圆点 也可以自己重新设置小圆点 circular 是否衔接滑
  • 网安入门须知:注释的危害居然这么大?——注释漏洞导致的信息泄露

    隔壁大娘收到了一条匿名短信 里面记录了大娘跟隔壁老王的开房记录 并勒索二百五十块巨款 大娘略加思索后 便提着刀冲到狗剩家门口 一刀砍在门口的卷帘门上 隔壁大娘 狗剩 你给我出来 注释导致的信息泄露 一 什么是信息泄露漏洞 二 信息泄露有什么
  • 百度刘超

    百度总监爆料刘超这几年在做什么 2016年百度用户体验部总监刘超创立百度UE讲堂的线上课 同年7月在IXDC大会上演讲引起热议和批评 2016年7月百度迫于压力免去刘超总监职位 从此刘超在媒体上消失 事情已经过了4年了 刘超这几年在做什么
  • NVIDIA安装驱动不成功的解决方式

    很多小朋友在重装或升级nvidia驱动时出现这样的错误 或是GeForce Experience安装不成功 如果排除了显示型号不对 系统没打补丁等原因 那么主要就是因为系统自动安装的驱动或是第三方安装的驱动赖在系统里 与你下载的新驱动产生冲
  • High-Resolution Image Synthesis with Latent Diffusion Models论文阅读+代码复现

    摘要 扩散模型在图像数据和其他数据上实现了最先进的合成结果 并且它的公式允许引导机制来控制图像生成的过程而无需重新训练 然而 这种模型直接在像素空间上操作 因此 功能强大的扩散模型通常需要花费大量的计算资源与推理时间 为了在有限的计算资源上