Latent Diffusion(CVPR2022 oral)-论文阅读

2023-10-31


论文: 《High-Resolution Image Synthesis with Latent Diffusion Models》
github: https://github.com/CompVis/latent-diffusion

摘要

为了使得DM在有限计算资源下训练,同时保留其生成质量及灵活性,作者将其应用于预训练编解码器的隐空间。基于表征训练扩散模型达到降低计算量及细节保留的最优点。作者引入cross-attention层,增强DM生成能力,在图像修复、条件图像生成、文本图像生成、无条件图像生成、超分取得新SOTA。

背景

扩散模型 VS. GAN
优点:扩散模型不存在GAN中模式坍塌以及训练不稳定问题
缺点:扩散模型训练(150 - 1000 V100 days)及推理(50k samples 5 days a A100)成本大;
现有扩散模型训练分为两阶段:
1、感知压缩阶段:移除高频信息但仍学到语义变化
2、生成模型学习语义压缩过的数据的语义和概念组成
作者训练自编码器提供低维表征空间,其余数据空间感知上等价。隐空间复杂度降低使得可通过简单网络进行高效图像生成。

本文贡献如下:
1、跟纯Transformer方法相比,本文方法更适用于高维数据,因此可以在压缩维度上提供逼真的细节重构,可以生成高分辨率图片;
2、在无条件图像生成、图像修复、超分领域达到有竞争力的表现,同时显著降低计算成本;
3、不需要精细调整模型重构及生成权重;
4、对于超分、图像修复等密集任务,本模型可以生成1024*1024分辨率图片;
5、基于cross-attention设计条件机制,可用于跨模态训练,比如类别条件、文本到图像生成、layout到图像

算法

为了降低计算量,作者将压缩与生成训练阶段分离,具体的:使用autoencoding模型学习感知上等价于图像空间的隐空间,降低计算复杂性。
该方法有以下好处:
1、扩散模型在低维空间采样,计算更加高效;
2、使用扩散模型从UNet结构获得的归纳偏置,对于有空间结构数据格外有效;
3、通用压缩模型的隐空间可用于训练多种生成模型用于其他采样应用。

3.1. Perceptual Image Compression

通过感知损失及基于patch的对抗损失训练autoencoder;
具体而言,对于图像 x ∈ R H × W × 3 x \in R^{H×W×3} xRH×W×3,编码器 ε \varepsilon ε 将其编码进隐空间 z ∈ R h × w × c z \in R^{h×w×c} zRh×w×c,解码器基于隐空间重构图像为 x ~ \tilde x x~
为避免隐空间高方差,作者使用两种不同正则化方法:
KL-reg,在可学习隐空间对标准归一化增加KL惩罚;
VQ-reg,在decoder中使用量化层;
隐空间z为二维结构,具有相对温和压缩率,达到更好重构效果。

3.2. Latent Diffusion Models

去噪自编码器 ϵ θ ( x t , t ) \epsilon_θ(x_t, t) ϵθ(xt,t),用于预测step t去噪后变体或者说所增加噪声,扩散模型目标函数如式1.
在这里插入图片描述
与高维像素空间相比,隐空间更适合基于似然估计的生成模型,因为:
1、关注数据重要语义信息;
2、在低维、计算高效空间训练;
隐空间扩散目标函数如式2,
在这里插入图片描述

3.3. Conditioning Mechanisms

为了将DM转变为灵活有条件图像生成器,通过交叉注意力机制(高效学习各种各样输入模态)增强潜在UNet主干。为了预处理输入条件y,作者通过特定编码器 τ θ τ_θ τθ将y映射为中间表征 τ θ ( y ) τ_θ(y) τθ(y),通过cross-attention层将其映射到UNet中间层,其中 φ i ( z t ) \varphi_i(z_t) φi(zt)为UNet中间表征,
在这里插入图片描述
有条件LDMM如图3所示,
在这里插入图片描述
基于图像条件对,学习有条件LDM,如式3,
在这里插入图片描述

实验

4.1. On Perceptual Compression Tradeoffs

图6表明低降采样率导致训练慢;过高降采样率导致失真。LDM-{4-16}在效率及感知真实性达到较好平衡;
在这里插入图片描述
图7表明LDM-{4-8}提供最佳生成高质量结果的条件;
在这里插入图片描述

4.2. Image Generation with Latent Diffusion

对于无条件生成256*256分辨率图像,表1表明在CelebA-HQ数据集达到SOTA,5.11;
在这里插入图片描述
图4展示生成结果
在这里插入图片描述

4.3. Conditional Latent Diffusion

表2表明在MS-COCO数据集文本引导图像生成任务,LDM使用较少参数,但是与最近扩散模型及自回归方法达到相近性能。LDM-KL-8-G表示classifier-free diffusion guidance
在这里插入图片描述
表3表明在ImageNet数据集基于类别有条件的图像生成任务,LDM超越SOTA方法ADM
在这里插入图片描述
图9表明即使在输入为256*256分辨率,也可生成高分辨率图像;
在这里插入图片描述

4.4. Super-Resolution with Latent Diffusion

表4表明LDM在LDDM-SR领域取得更佳效果;
在这里插入图片描述
表5表明LDM在FID上超越SR3,但是在IS上SR3更佳;
在这里插入图片描述

4.5. Inpainting with Latent Diffusion

表6展示在分辨率 256 ∗ 256 256*256 256256 512 ∗ 512 512*512 512512训练及抽样的吞吐量;
在这里插入图片描述
表7表明LDM在FID上优于LAMA,LPIPS上略差与LAMA。
在这里插入图片描述

限制

1、虽然LDM与基于像素空间扩散方法相比,降低计算需求,但仍慢于GAN。
2、LDM在像素空间精度准确难以实现;

结论

作者提出的LDM在不降低质量情况下,大幅提升扩散模型训练及采样效率。在多个有条件图像生成领域,不需要特定任务结构基于cross-attention有条件机制即可达到SOTA或接近SOTA效果。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Latent Diffusion(CVPR2022 oral)-论文阅读 的相关文章

  • python3.7安装dlib (Wind10)

    使用pip install dlib 提示失败 原因 https pypi org project dlib files 查看说明最新版本dlib 19 20 0 不支持Python3 7 解决方案 整理了下网上说的方案大致如下 一 编译安
  • android 悬浮组件实现

    项目需求 需要实现一个每个页面都存在的悬浮按钮 可以拖动 跟随整个项目的生命周期 即应用登录之后显示悬浮按钮 应用退出之后 隐藏悬浮按钮 特殊页面隐藏悬浮按钮 应用后台展示之后 隐藏悬浮按钮 应用恢复前台展示 显示悬浮按钮 准备工作 添加权
  • js提示“没有权限”的问题(转载)

    当某个互联网运营商的网站上规模之后 他们都会考虑将网站部署到主域名相同 子域名不同的服务器集群上 以此来构建一个聚合的应用 同时 希望能够利用 JavaScript 在不同子域的网页间相互操作 实现一个对用户来说 无缝 的应用 这时 跨域操
  • 我是如何用 redis 分布式锁来解决线上历史业务问题的

    近期发现 开发功能的时候发现了一个 mq 消费顺序错乱 历史遗留问题 导致业务异常的问题 看看我是如何解决的 问题抛出 首先 简单介绍一下情况 线上 k8s 有多个 pod 会去消费 mq 中的消息 可是生产者发送的消息是期望一定要有序去消

随机推荐

  • HTML5 postMessage和跨域通信

    HTML5 postMessage和跨域通信 http iknowledge wikispaces com HTML5 postMessage E5 92 8C E8 B7 A8 E5 9F 9F E9 80 9A E4 BF A1 HTM
  • stm32cubemx hal学习记录:FreeRTOS中断管理

    一 参数配置 1 配置RCC USART1 时钟84M 2 配置SYS 将Timebase Source修改为除滴答定时器外的其他定时器 3 初始化LED的两个引脚 两个按键引脚 4 开启FreeRTOS v1与v2版本不同 一般选用v1即
  • 梯度下降法及其Python实现

    梯度下降法 gradient descent 又名最速下降法 steepest descent 是求解无约束最优化问题最常用的方法 它是一种迭代方法 每一步主要的操作是求解目标函数的梯度向量 将当前位置的负梯度方向作为搜索方向 因为在该方向
  • 轻松玩转开源大语言模型bloom(一)

    前言 chatgpt已经成为了当下热门 github首页的trending排行榜上天天都有它的相关项目 但背后隐藏的却是openai公司提供的api收费服务 作为一名开源爱好者 我非常不喜欢知识付费或者服务收费的理念 所以便有决心写下此系列
  • Vue3最常见的10道面试题:含答案和代码示例的练习题

    本文列举了10道Vue3面试题 每道题都包含了答案和代码示例 希望对你的面试有所帮助 什么是Vue3 Vue3是Vue js的下一个主要版本 它带来了很多重要的改进和新功能 包括更快的渲染速度 更好的类型支持 更好的组合API等 什么是Co
  • Postman 如何调用文件上传下载接口

    文件导入导出是管理后台的通用功能 所以在接口写好后在没有前端页面使用Postman进行接口调用测试接口功能成为一个选择 导出 在我们输入接口地址 token等候 点击send 发现下载的成为了乱码 如下图 这明显不符合我们的预期期望 在se
  • 文本分析简历项目收集-----机器学习(仅供参考)

    文本分析 项目3 基于自然语言处理的影评分析 项目简介 通过大量的正面和负面的电影评论对计算机进行自然语言训练 实现计算机对电影评论的基本情感分析 使其能够快速判断出评论是否积极 个人职责 1 对正面和负面的电影评论进行分词处理 整理成规定
  • 一次让人难以忘怀的排查频繁Full GC过程

    我们的Java应用因频繁FULL GC导致性能降低很多 经过多人的定位也没有结论 于是我自主请命 经过一天的研究终于搞定了 现把经验与大家共享 相关的gc日志如下 4 758 Full GC PSYoungGen 464K gt 0K 71
  • linux统计一个文件中特定字符的个数

    统计一个文件中某个字符串的个数 其实就是在在一块沙地里面找石头 有的人看到石头以后 在上面做个标记 grep 然后记住自己做了多少个标记 有的 人看到石头以后 把它挖了 tr 最后统计自己挖了多少石头 有的人看到石头以后 把它跳过去 awk
  • STL:list的模拟实现(迭代器失效探讨)

    为什么重新设计list迭代器 对迭代器解引用 我们希望拿到的是指针所指向的值域 而直接解引用拿到的是指针所指向的节点 对list指针 和 迭代器 提供一种方法 使其能够按照顺序访问容器 聚合物 所含的各个元素 并且不用暴露容器内部的表述方式
  • 达芬奇15中文版

    教程 1 下载解压 得到davinci resolve 15原程序和文件 2 双击文件 DaVinci Resolve Studio 15 0b2 Windows exe 依提示安装原程序 3 达芬奇软件需要安装必要的组件 一般按默认安装即
  • Flexible弹性布局

    flex布局 弹性布局 flex的两个重要概念 开启了flex布局的元素叫flex container display flex inline flex flex container 里面的直接子元素叫做 flex items flex布局
  • 来源查询检索的研究

    来源查询检索的研究 来源查询的方式主要有 基于内容索引的查询 gt 基于时间局部性的上下文增强搜索查询 gt 基于因果关系的查询 根据provenance提供上下文有关的索引 即因果关系 1 传统的来源查询检索方式为基于内容索引的查询 在这
  • 阿里云视频点播文件上传-iOS

    文章目录 阿里云视频点播文件上传 iOS 一 上传方式 方式一 上传地址加凭证上传 1 请求AppServer 2 在start的回调中设置上传地址和上传凭证 3 uploadAuth过期重新设置 4 上传图片和上传视频 方式二 STS方式
  • 记一次线上CPU持续飙升的问题排查

    最近公司的事务多了很多 都很少有时间来更新了 上周六项目上刚刚发生了一次CPU持续飙高 导致服务不可用的线上事故 在此也简单做下记录 问题排查的过程大概是这样的 查看业务日志中最开始报错的信息 发现数据库连接超时 redis也连接超时 而且
  • 嵌入式实践——烟雾产生器

    开发工具 Altium Designer 2020 STM32CubeMX 5 3 0 MDK ARM 5 28 1 设计需求 设计出一套完整的烟雾产生装置 该装置通过按钮来控制烟雾的产生和关闭 装置对体积要求较高 所以控制板需控制在4cm
  • WPF 文本框错误验证 Validation.ErrorTemplate

    前端 1 错误模板ValidationContent xaml
  • 智能算法系列之粒子群优化算法

    本博客封面由ChatGPT DALL E 2共同创作而成 文章目录 前言 1 算法思想 2 细节梳理 2 1 超参数的选择 2 2 一些trick 3 算法实现 3 1 问题场景 3 2 python实现 代码仓库 IALib GitHub
  • CTF做题总结(二)

    前言 最近这段时间在内部平台上做了一些Web题 和最基础的Reverse签到题 虽说还有两道Reverse题没做出来 但还是先总结一下吧 Web1 BASE INJECT 看题目提示 就知道这道题之前做过 不过当时没总结 现在总结一下 题目
  • Latent Diffusion(CVPR2022 oral)-论文阅读

    文章目录 摘要 背景 算法 3 1 Perceptual Image Compression 3 2 Latent Diffusion Models 3 3 Conditioning Mechanisms 实验 4 1 On Percept