SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization

2023-10-30

目录

介绍

相关工作

1、Unconditional normalization layers

2、Conditional normalization layers(这一部分挺重要的)

方法

3.1 、Spatially-adaptive denormalization

3.2 SPADE generator 

3.3 为什么spade好


介绍

先前的工作(指的是pix2pix,pix2pixHD)是:semantic layout  作为网络input。作者认为由于normalization会洗掉语义信息,提出网络的输入the input layout for modulating the activations in normalization layers through a spatially adaptive, learned transformation.通过空间自适应学习转换使用输入语义布局来调制激活函数,这个翻译我一直不怎么理解。

这个怎么理解呢:Previous methods directly feed the semantic layout as input to the deep network, which is then processed through stacks of convolution, normalization, and nonlinearity layers.

这里要说明下,pix2pixHD的gen的输入就是semantic layout,之后通过后面的卷积。SPADE的gen的输入是经历过Spatially-Adaptive Normalization后的actvn:F.leaky_relu,然后一层一层conv啥的。

相关工作

1、Unconditional normalization layers

 Local Response Normalization (LRN) in the AlexNet and Batch Normalization (BN) in the Inception-v2 network 等等,they do not depend on external data

这里的无条件理解为,bn层在train是学习的,test时候这个归一化固定了。SPADE指的是,根据input不同,bn输出结果是不同的。

2、Conditional normalization layers(这一部分挺重要的)

Batch Normalization (Conditional BN) and Adaptive Instance Normalization (AdaIN). 

基础 | batchnorm原理及代码详解_Double_V_的博客-CSDN博客_batchnorm这里对bn有一定说明。

方法

3.1 、Spatially-adaptive denormalization

Similar to Batch Normalization, the activation is normalized in the channel-wise manner, and then modulated with learned scale and bias.这两个因子是通过卷积学来的,作者认为they depend on the input segmentation mask and vary with respect to the location (y, x). 

注意这里的下标,ɥ和ɓ是和通道C相关的。这里gama和beta是和C,(y,x)相关的,具有位置信息,加上通道C,这也就是空间Spatially-Adaptive。注意这里的h是 the activation at the site

注意这里的代码:spade是先经历过norm的,输出经过actvn后再conv一大堆。而先前网路是直接喂入mask图后卷积balabala。

    def actvn(self, x):
        return F.leaky_relu(x, 2e-1)

3.2 SPADE generator 

 作者舍弃了pix2pix和pix2pixHD中的encoder部分,这里作者认为 spade中的两个因子已经学到mask足够的信息。the learned modulation parameters have encoded enough information about the label layout.。为了多模态生成,使用随机变量作为一开始gen的输入。

说明了残差连接(好像,似乎残差连接再gan生成上效果一直较好)

3.3 为什么spade好

这里作者认为,spade比其他norm保留更好的语义信息。这里说一下对norm的理解,如有错误,请勘误!

假设norm的输入x的维度是 b, c, h, w,经历bn层是以b维度求均值、方差做归一化。后面加入可学习因子。

归一化的过程是线性操作,假设输入是b个二值图,背景的地方是在分布的最左边,目标类是右边。不影响什么。

那为什么作者说其他norm会洗掉 semantic information,出现在gama和beta因子上,这两个因子encoder enough information about the label layout。同时可以看见gen上,spade块有多次的mask输入,不会随着网络深度而消失。

 原文做了这样的解释:

现在有一个只有类的mask,例如天空image对应的mask,把mask作为input,先卷积后norm。卷积输出再次均匀化 ,不同的标签具有不同的均匀值 。现在 ,在我们将
InstanceNorm应用于输出之后,无论输入的语义标签是什么,标准化激活都将变为全零。

SPADE Generator中的分割掩模通过空间自适应调制进行馈送而不进行归一化,仅前一层的激活被标准化。

 

 实验

这部分证明了spade的有效、生成器、随机输入,证明了在gen上多次输入mask的好处。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization 的相关文章

  • GANs:生成对抗网络系列及应用

    GANs Goodfellow和Bengio等人发表在NIPS 2014年的文章Generative Adversarial Network是生成对抗网络的开创文章 论文思想启发自博弈论中的二人零和博弈 在二人零和博弈中 两位博弈放的利益之
  • 毕业论文找文献是个问题,我直接用python把全网文献爬了一遍,这波就很舒服

    文章目录 一 写在前面 二 准备工作 三 开始爬取 四 效果展示 一 写在前面 马上要毕业了兄弟们 毕业论文是个麻烦事 论文要的资料得一条一条去网上查看 那多浪费时间 咱直接写个爬虫 批量下载慢慢看 不舒服 二 准备工作 使用软件 Pyth
  • PyTorch搭建LSTM实现时间序列预测(负荷预测)

    目录 I 前言 II 数据处理 III LSTM模型 IV 训练 V 测试 VI 源码及数据 I 前言 在上一篇文章深入理解PyTorch中LSTM的输入和输出 从input输入到Linear输出 中 我详细地解释了如何利用PyTorch来
  • CVPR 2020

    Editing in Style Uncovering the Local Semantics of GANs 作者 Edo Collins Sabine S sstrunk School of Computer and Communica
  • Gan学习

    参考博客 https blog csdn net u010678153 article details 54629393 https www cnblogs com Charles Wan p 6238033 html GAN原理介绍 说到
  • 【转载】技术向:一文读懂卷积神经网络

    原文地址 http toutiao com a4033463198 tt from sina app news article iid 2585754491 utm medium toutiao android utm campain cl
  • SCI审稿流程(转)

    1 收到邮件 编辑约审稿 同意就接受 会约定审稿期限 一般三个月 Dear Mr Cat Please be informed you have been registered by our editorial team as a user
  • 目标检测之性能指标

    推荐文章 https www cnblogs com isLinXu p 15893489 html
  • 【论文翻译+笔记】Neural Machine Reading Comprehension: Methods and Trends

    1 Introduction 过去的MRC技术的特点 hand crafted rules or features 缺点 不能泛化 performance may degrade due to large scale datasets of
  • Loss和神经网络训练

    出处 http blog csdn net han xiaoyang article details 50521064 声明 版权所有 转载请联系作者并注明出处 1 训练 在前一节当中我们讨论了神经网络静态的部分 包括神经网络结构 神经元类
  • 一文读懂如何快速查询中科院JCR分区和汤森路透JCR分区

    作为一个学术渣 突然心血来潮 想搞明白困扰很久的中科院分区和汤森路透分区到底是咋回事 曾经听人忽悠某某杂志几区 IF多少 说的云里雾里 感觉自己白活了这么多年 你是不是也有这种感觉 要是有那就对了 不用担心 看完这篇文章 保证让你彻底摆脱搞
  • GAN与自动编码器:深度生成模型的比较

    原文 https towardsdatascience com gans vs autoencoders comparison of deep generative models 985cf15936ea 想把马变成斑马吗 制作DIY动漫人
  • 【论文精度】Transformer--Attention Is All You Need

    沐神论文精度 https www bilibili com video BV1pu411o7BE spm id from pageDriver Paper https arxiv org pdf 1706 03762 pdf Transfo
  • 用chatgpt写论文可行吗,查重率会达到多少

    AI工具国内体验 关注 码视野 回复关键字 1002 选题 题目 物联网技术在智能家居系统中的应用研究 概要生成 问 请以 物联网技术在智能家居系统中的应用研究 为课题 写一篇物联网专业本科毕业论文的摘要 不少于400字 答 随着人们生活水
  • Text to image论文精读DF-GAN:A Simple and Effective Baseline for Text-to-Image Synthesis一种简单有效的文本生成图像基准模型

    目录 一 原文摘要 二 为什么提出DF GAN 三 DF GAN 3 1 模型结构 3 2 鉴别器 Target Aware Discriminator 3 2 1 匹配感知梯度惩罚 Matching Aware Gradient Pena
  • 好像还挺好玩的GAN8——SRGAN实现图像的分辨率提升

    好像还挺好玩的GAN8 SRGAN实现图像的分辨率提升 注意事项 学习前言 什么是SRGAN 代码与训练数据的下载 神经网络组成 1 生成网络 2 判别网络 训练思路 1 对判别模型进行训练 2 对生成模型进行训练 全部代码 1 data
  • 生成式对抗网络(GANs)综述

    GAN GAN简介 生成式对抗网络 Generative adversarial networks GANs 的核心思想源自于零和博弈 包括生成器和判别器两个部分 生成器接收随机变量并生成 假 样本 判别器则用于判断输入的样本是真实的还是合
  • VAE-GAN学习记录

    一 遇到的问题以及学习目的 学习VAE GAN主要是因为最近在做故障诊断相关的东西 之前在某篇论文里得知 使用GAN算法时 可以使用判别损失 重构损失对异常样本进行检测 然而 那篇论文 基于 LSTM GAN 的加油时序数据异常检测 里面
  • 深度学习与计算机视觉系列(中)--GAN

    深度学习与计算机视觉入门系列 中 数据嗨客最近发布了一个深度学习系列 觉得还不错 主要对深度学习与计算机视觉相关内容做了系统的介绍 看了一遍 在这里做一下笔记 目录 深度学习与计算机视觉入门系列 中 目录 深度学习第6期 循环神经网络RNN
  • 在机器学习领域,怎样写好一篇学术论文

    当你做好了一个研究工作 准备发表出来与同仁们分享 一个首要的任务是把你的工作变成一篇文章 问题来了 怎样写作一篇高质量的文章呢 我们以机器学习领域的应用型文章为例 探讨一下论文写作的问题 注意 任何好的文章都要以好的研究工作为基础 我们这里

随机推荐

  • iview实现table的可编辑

    遇到同事请教的这个问题 没接触过iview 以为和element一样 只需要在table column中使用作用域插槽即可 简单又方便 结果发现它居然是用reder函数进行渲染的 so 仔细琢磨一下 写了下面的demo 希望对大家有用 效果
  • DOTA:用于航拍图像目标检测的大规模数据集

    目录 论文下载地址 论文作者 模型讲解 背景介绍 论文解读 DOTA数据集信息 类别信息 标注方式 数据集拆分 目标大小 目标宽高比 目标密度 结果分析 评估方法 水平HBB检测Baseline 定向OBB检测Baseline 论文下载地址
  • 没有微信和QQ,用记事本也能在线聊天

    很多公司因为安全的原因 并不允许员工装QQ或者微信等聊天软件 只能装公司内部的聊天软件 但是你的朋友不是同事的话也不可能会装你公司的内部软件 如果这个时候想要跟朋友聊一聊 那怎么办呢 很多人会说用手机啊 不过用手机太多也会带上工作时候聊天的
  • Unity实现账号登录,注册功能

    制作了用户登录界面 关于弹窗使用了DOTween插件 实现渐隐渐显效果 关于账号使用了本地Json读取 默认账号 YSQS YSQS1 密码 admin admin1 注册功能其实应该重构的因为有二次读流的问题存在 账号注册加入了邀请码 其
  • eNSP配置数据中心网络

    需求 由于接入备份的需要 用户部署了冗余链路 冗余备份链路的存在导致出现环网 可能会引起广播风暴和MAC地址表项被破坏 用户希望在有冗余备份链路的同时消除网络中的环路 在一条上行链路断开时 流量能切换到另外一条上行链路转发 还能合理利用网络
  • B-树和B+树的区别

    首先 B 树的应用最多的就是在MySQL中的索引 是InnoDB存储引擎的默认索引 那么这个在面试中也是经常被问到的 那么就做一个总结吧 概念 要了解B 树那么就不得不提一下的是B 树 因为B 树和B 树是由很大的联系 B树 B tree
  • 介绍一款HCIA、HCIP、HCIE的刷题软件

    华为认证考试分为三个等级 分别为工程师HCIA 高级工程师HCIP 专家HCIE 等级越高 考试难度越大 本篇带大家详细了解华为数通题库刷题工具的详细操作步骤 操作须知 本款刷题工具为一款刷题小程序 无需安装即可在线使用 一 界面认知 从主
  • nginx配置文件

    1 文件格式 Nginx 的配置文件是 个普通的纯文本文件 使用了 Nginx 自定义的 一套 配置语法 更接近于 脚本语言 混合了 Shell Perl C 的部分特性 要点叙述如 1 配置指令 以分号结束 可以接受多个参数 用空白字符分
  • 算法序列----线性表

    线性表 由零个或多个数据元素组成的有限序列 1 属于一个序列 2 第一个元素没有前驱 最后一个没有后继 3 有限的 两种物理存储结构 1 顺序存储 2 链式存储 顺序存储 1 存储位置就是顺序的位置 2 数组的最大长度 3 当前长度 len
  • Mac Os下安装Myeclipse提示insufficient memory

    如图所示 搞了两天终于解决来 发现网上对此问题的解决办法也是说的不清不楚对 总的来说有三种方法 当然我只用了其中都一种 方法一 Mac OS中用虚拟内存来提高性能 可是我用的macbook 有8g内存 要用上虚拟内存还是比较少的 所以你可以
  • 【hive】分组求排名

    分组求排名 相信好多使用Mysql的用户一定对分组求排名的需求感到发怵 但是在hive或者oracle来说就能简单实现 采用窗口函数 rank over row number over dense rank over 函数就能轻松完成 窗口
  • SSL certificate problem: unable to get local issuer certificate 错误解决

    今天公司换服务器域名 用了一个本地的服务器 然后我切换远程仓库拉代码的时候 终端报了如下错误git SSL certificate problem unable to get local issuer certificate 这个问题是由于
  • 大数据毕设 opencv python 深度学习垃圾图像分类系统

    文章目录 0 前言 课题简介 一 识别效果 二 实现 1 数据集 2 实现原理和方法 3 网络结构 0 前言 这两年开始毕业设计和毕业答辩的要求和难度不断提升 传统的毕设题目缺少创新和亮点 往往达不到毕业答辩的要求 这两年不断有学弟学妹告诉
  • python星座分析

    python数据分析 python数据分析是一个非常好用的 虽然python数据分析只是刚刚起步 有些功能还未开发完成 但是用来做数据分析是绰绰有余了 本人也是专门研究和学习python数据分析的 星座数据爬虫 作为一个学习数据分析的人 爬
  • 在Apifox中,使用后置脚本显示响应结果reponse中的base64图片

    背景 在使用Apifox去请求有图片的接口时 我想要请求成功的同时 可以显示出来图片 这个时候就开始百度找官方文档 最终发现可以使用后置脚本显示reponse中的图片 方案 如下图所示 接口请求成功后 返回的json结构为 images p
  • 简单了解Linux图形界面

    之前曾经发生过启动虚拟机进入不了图形界面的情况 关于RedHat开启失败的解决方法 m0 48788975的博客 CSDN博客 在我看书的过程中总算搞清楚这是怎么一回事了 下面就和大家唠两句Linux视图 一 Linux操作界面主要分为传统
  • 机器学习_数据处理及模型评估相关资料

    基于sklearn 的auc 计算方法 训练模型填充空值 fill null 的几种方法 在Pandas中像写SQL一样做数据分析
  • Java通过freemarker实现导出PDF

    制作模板 引入依赖 引入所需字体文件 工具类的编写 业务实现 一 模板制作 1 编写html代码 需要替换的值与内容预留出来 用 name 代替 需循环处 表格前加上 lt list listKey as t gt t name 2 将写好
  • 浅谈React浏览器渲染流程

    当浏览器发送一个请求 会得到对应的响应 浏览器会通过HTML解析器去解析HTML会构建DOM树 会通过CSS解析器去解析CSS生成CSS规则树 如果页面中拥有一些JS逻辑 那么往往会通过JS将CSS HTML进行修改的操作 往往造成重排重绘
  • SPADE: Semantic Image Synthesis with Spatially-Adaptive Normalization

    目录 介绍 相关工作 1 Unconditional normalization layers 2 Conditional normalization layers 这一部分挺重要的 方法 3 1 Spatially adaptive de