StackGAN笔记

2023-11-02

Stack可译做堆叠，就是在GAN上面再放上一个GAN。
作者讲述的自己的解决思路，原来难以生成高分辨率的图像，他们分解了这个问题，把生成高分辨率图片这个任务分解成两个更为简单的任务。就是文中说的一个GAN生成大致的形状和颜色，第二个GAN生成细节和修正错误，这比直接一个GAN生成更加容易。这似乎研究中解决一些任务的一种常用的方法，以前看的一篇论文，图像修复的，先修复缺失的轮廓边缘，再填充颜色。比直接一次完成好。就是把一个任务分成可以区分的两个任务，分别加以处理。

翻译：

摘要：
从文字描述中生成具有照片般真实感的图片一直是计算机视觉中具有挑战性的一个课题，并且具有很多的应用。现有方法生成的图片可以粗略的反映出给定的描述，但是缺乏需要的细节和生动的对象局部。本文提出了stackGan，它从文字描述中生成具有照片般真实感的图像。1阶段的GAN根据文字描述草绘出一张简单形状和基本颜色符合的低分辨率图片，第二阶段的GAN把第一阶段的结果和文字条件作为输入，生成具有照片真实感的高分辨率的图片。二段GAN能够修正错误，并且通过增强过程给图片增加令人信服的细节。StackGAN生成的图片比其它方式生成的看上去更加可信。重要的一方面，这个模型可以生成256*256的，其它模型最多知道了128.为了掩饰StackGAN的效果，我们基于CUB 和Oxford-102 数据集做了广泛的实验，这两个数据集包含了足够多的各种类别的对象，并且每类对象有很多的外观变体，被广泛用于图像生成分析。

1、引言：
内容和摘要差不太多，略。
2、相关工作：
从基于深度学习的，到基于GAN的，到基于CGAN的讲了一下，再讲了和自己结构类似的模型，相对来说这个主要的优势是生成图片的分辨率高。
3、StackGAN
首先讲主要结构和摘要差不多
3.1 GAN和CGAN的构成
3.2 Stage-I GAN
在这里插入图片描述
如上图所示，首先使用编码器做文本嵌入将文字编码成为隐变量。因为隐变量的维数很大，它对应到的隐变量空间相对于数据量来说很大，所以这可能造成隐变量数据组成的流形的不连续。（我的理解：隐变量数据流形以及后面的条件流形，应该是说的文字描述是隐变量空间下面的一个低维流形，远不会充满整个空间。不连续大概就是说比如手机，台式机这两个样本描述差别较大，不连续，给个手机，平板，笔记本，台式机这样的样本描述就会比较连续了）为了缓解这个问题，论文引入了条件增强技术来为生成器产生更多的条件变量。方法就是从高斯分布 N (µ(ϕt), Σ(ϕt))中生成隐变量，其中均值和方差矩阵都是隐变量ϕt的函数，也是通过学习得到，并且µ0(ϕt) 和 Σ0(ϕt)使用了重参数技巧进行训练。

这种方案有利于在条件流行上形成微小的扰动，从而在小样本数量的情况下生成更多的文本-图片対。为了增强条件流行的平滑性，还加入了一个正则式：DKL(N (µ(ϕt), Σ(ϕt))|| N (0, I)) 就是让函数构成的高斯分布和标准高斯分布的KL散度最小化。上面最后形成条件 c0，在这里插入图片描述
其中e ∼ N (0, I)).
于是Stage-I的训练就是最大，最小化小面这两个式子。和GAN总体形式差不多，只是函数里面多了些参数，另外生成器多了个正则化项。Io和t是真实分布的图片和文本，z是随机的那个隐变量。
在这里插入图片描述
Stage-I结构：
生成器：文本嵌入ϕt被放入全连接层产生µ0 和 σ0，然后放入高斯分布产生c0，c0再喝z连接输入生成网络
判别器：文本嵌入ϕt先通过全连接层变成Nd维的数据，然后重复它，将它变成Md × Md × Nd的张量。输入的图片会降采样到Md × Md大小。然后将这两者在通道维度连接起来形成一个tensor，将这个tensor送入1*1的卷积层以共同学习图片和张量的特征，最后，连接到一个右端只有一个节点的全连接层产生出得分。

Stage-I结构：
生成器：第I阶段生成的图片可能缺乏逼真的局部细节，或者包含一些形状扭曲。文本中一些对于生成图片很重要的信息可能被忽略了。二阶段的网络使用第一阶段生成的图片和以及前面文本嵌入作为输入，文本嵌入可以帮助生成第一阶段忽略掉的信息。
stage-II训练过程的公式表达如下
在这里插入图片描述
其中S0就是第一阶段输出的图片
c是条件，它和第一阶段共用ϕt，但是使用不同的全连接层来生成高斯分布的均值和方差，希望通过这个来捕获第一阶段缺失的信息。

网络结构：
二阶段生成器的输入组合方式和1阶段判别器的类似，就是将条件c的第0维作为通道，重复每个元素到图片大小，在通道维度连接图片和条件，输入生成器。然后通过若干个残差网络连接起来编码图片和文字特征，最后通过若干个上采样层生成图片。
为了判别器能更好的学习图片和文本之间的alignment（译作对齐，啥意思？），两个阶段都使用了Reed 等提出的matching-aware discriminator 感知匹配鉴别器，而不是一般的鉴别器。就是李宏毅课程中讲到的，有两种负样本，生成图片和条件。真实图片和不匹配的条件。

实现细节：
上采样模块采用的是最近邻插值方法 nearest-neighbor upsampling，后面跟随一个 3 × 3 步长为 1的卷积，除了最后一层之外，都采用批处理正则化+Relu激活函数。
残差网络模块中类似采用 3 × 3 步长为 1的卷积+批处理正则化+Relu激活函数。

下采样采用4*4 步长为2的卷积，批正则化+LeakyReLU，第一层没有批处理正则化。

训练过程：先交替的训练Stage-I的网络600个epoch(确定是epoch?)，然后再交替的训练Stage-II的网络600个epoch(确定是epoch?)
学习率初始化0.0002，没100就减少到1/2
都采用adam优化器，64个样本点为一批。

实验
作者采用了广泛的方法来评价他们的模型，使用了领先的比较方法。
同时还评估了自己模型设计和局部模块。比如只用Stage-I生成高分辨率图片，条件增强部分是否有用等。
采用CUB数据集，含有200种鸟的11788张图片，以及Oxford-102数据集，含有102种花的8189张图片。其中cub数据集做了裁剪，因为鸟的在整张图片中的大小比例太小。按照论文xxx的设置，分成了类别不相交的训练集和测试集（为何，这里没看懂）
During training, we randomly crop and flip images,and generate the corresponding text embedding as the average of four randomly selected descriptions corresponding to the image.
训练过程中还随机的裁剪和旋转图片，生成对应的文本嵌入做为随机选择四张图片对应的描述的平均。（没看懂）

后面是结果对比，暂略。

组件的分析：
如果只使用Stage-I的，得分低很多，说明Stage-II的必要性。如果Stage-II不输入文字，得分降低，说明这个也是有用的。
条件增强模块：去掉条件增强模块分数也会降低一些，固定模型的其它输入，只改变条件增强这里的输入，会产生如下图所示的效果。
条件增强改变了图片的视角或者生成对象的姿势。
在这里插入图片描述
为了展示StackGAN学习到了平滑的隐变量流形，作者利用模型从线性插值的句子嵌入（Sentence embedding interpolation：应该就是指从一句文本线性渐变到第二句文本，然后对应到文本嵌入的向量上线性渐变）中生成图片，如下图，第一行，红鸟到黄鸟的渐变，第二三句是更复杂的句子的渐变，句子中包含了更多的描述，比如翅膀颜色，k可译做堆叠，就是在GAN上面再放上一个GAN。
条件增强改变了图片的视角或者生成对象的姿势。在这里插入图片描述为了展示StackGAN学习到了平滑的隐变量流形，作者利用模型从线性插值的句子嵌入（Sentence embedding interpolation：应该就是指从一句文本线性渐变到第二句文本，然后对应到文本嵌入的向量上线性渐变）中生成图片，如下图，第一行，红鸟到黄鸟的渐变，第二三句是更复杂的句子的渐变，句子中包含了更多的描述，比如翅膀颜色，鸟喙等。

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

StackGAN笔记的相关文章

CVPR2017-如何在无标签数据集上训练模型

论文 Fine tuning Convolutional Neural Networks for Biomedical Image Analysis Actively and Incrementally 论文链接 http openacce
opencv畸变校正的两种方法

opencv中畸变校正有两种方法 1 undistort 直接进行畸变校正 void cv undistort InputArray src 原始图像 OutputArray dst 矫正图像 InputArray cameraMatrix
【pytorch目标检测】创新之作：Fast R-CNN算法解读

背景 2015年提出了Fast RCNN算法训练步骤实现端到端 CNN 基于VGG6 Fast R CNN是基于R CNN和SPPnets进行的改进成果训练速度比RCNN块9倍测试速度快乐23倍准确率68 4 SPPnets网络
【学习笔记】机器学习——GAN

提出于2014年 GAN由两个神经网络组成一个试图生成看起来与训练数据相似数据的生成器以及一个试图从虚假数据中分辨出真实数据的判别器生成器和判别器在训练期间相互竞争对抗训练训练竞争性网络是一种重要的机器学习思想生成器 G
【论文阅读】【三维场景特殊点云分割】OpenMask3D：Open-Vocabulary 3D Instance Segmentation

前言 NeurIPS2023 OpenMask3D Open Vocabulary 3D Instance Segmentation 论文地址 https openmask3d github io static pdf openmask3d
仅用61行代码，你也能从零训练大模型

本文并非基于微调训练模型而是从头开始训练出一个全新的大语言模型的硬核教程看完本篇你将了解训练出一个大模型的环境准备数据准备生成分词模型训练测试模型等环节分别需要做什么 AI 小白友好文中代码可以直接实操运行欢迎阅读体验目
【论文】F1的单位是%还是1，mAP的单位是%还是1？答：F1的单位是1，mAP的单位是%

文章目录前提 1 F1的单位是还是1 2 mAP的单位是还是1 前提以下回答均来自 chatgpt poe 感觉说的很正确还参考了师兄师姐的论文的答案应该是正确的 1 F1的单位是还是1 F1分数的单位是 1 而不是百分比 F
改了论文查重率依然很高怎么办【保姆教程】

大家好今天来聊聊改了论文查重率依然很高怎么办希望能给大家提供一点参考以下是针对论文重复率高的情况提供一些修改建议和技巧改了论文查重率依然很高怎么办在学术领域论文查重是保证学术诚信和论文质量的重要环节伪原创然而有些同学在修
【FMC141】基于VITA57.4标准的4通道2.8GSPS 16位DA播放子卡（2片DAC39J84）

FMC141是一款基于VITA57 4标准的4通道2 8GSPS 2 5GSPS 1 6GSPS采样率16位DA播放FMC子卡该板卡为FMC 标准符合VITA57 4与VITA57 1规范 16通道的JESD204B接口通过FMC 连接
软件测试/人工智能丨常见的计算机视觉的业务场景有哪些？计算原理和测试指标

计算机视觉在各种业务场景中都有广泛的应用以下是一些常见的计算机视觉的业务场景以及与之相关的计算原理和测试指标图像识别和分类业务场景识别图像中的对象场景或模式如物体识别人脸识别计算原理使用卷积神经网络 CNN 等深度学习模
软件测试/人工智能丨计算机视觉场景下如何开展相关测试活动

计算机视觉测试涉及验证计算机视觉系统的性能准确性和鲁棒性以确保其在实际应用中的有效性以下是在计算机视觉场景下开展相关测试活动的一些建议图像数据集测试数据集多样性使用多样化的图像数据集进行测试确保计算机视觉系统能够处理不同场景
软件测试/人工智能丨计算机视觉常见业务场景，计算原理和测试指标

计算机视觉是利用计算机系统对图像视频或其他视觉数据进行解释和处理的领域在各个行业中计算机视觉被广泛应用以下是一些常见的计算机视觉的业务场景计算原理以及相关的测试指标 1 人脸识别业务场景安防系统通过人脸识别技术进行门禁控制
软件测试/人工智能丨计算机视觉场景中，如何处理视频/图片数据并进行测试

在计算机视觉中处理视频和图片数据并进行测试是一个关键的任务以下是一些常见的步骤和方法处理图片数据数据加载使用图像处理库例如OpenCV PIL 加载图像数据将图像转换为模型所需的格式通常是矩阵预处理标准化图像将图像像素
大语言模型：开启自然语言处理新纪元

导言大语言模型如GPT 3 Generative Pre trained Transformer 3 标志着自然语言处理领域取得的一项重大突破本文将深入研究大语言模型的基本原理应用领域以及对未来的影响 1 简介大语言模型是基于深度
【思扬赠书 | 第1期】教你如何一站式解决OpenCV工程化开发痛点

写在前面参与规则参与方式关注博主点赞收藏评论任意评论每人最多评论三次本次送书1 3本取决于阅读量阅读量越多送的越多思扬赠书第1期活动开始了机器视觉缺陷检测工业上常见缺陷检测方法方法一基于简单二值图像分析
图像相关知识点及属性介绍

图像常用属性指标图像的常用属性指标有以下几个分辨率分辨率是指图像中可以显示的水平和垂直像素数较高的分辨率意味着图像具有更多的细节和更高的清晰度常用单位有像素 px 或者万像素 MP 色彩深度色彩深度是指图像中每个像素可以表示的不
讲解光流估计 liteflownet3

目录讲解光流估计 LiteFlowNet3 什么是 LiteFlowNet3 模型架构训练与优化应用与展望结论讲解光流估计 LiteFlowNet3 光流估计是计算机视觉领域的重要任务其可以估计图像序列中每个像素的运动矢量光流
ETC纹理压缩

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一 pandas是什么二使用步骤 1 引入库 2 读入数据总结前言提示这里可以添加本文要记录的大概内容例如随着人工智能的不断发展机器学习这门
互操作性(Interoperability)如何影响着机器学习的发展？

互操作性 Interoperability 也称为互用性即两个系统之间有效沟通的能力是机器学习未来发展中的关键因素对于银行业医疗和其他生活服务行业我们期望那些用于信息交换的平台可以在我们需要时无缝沟通我们每个人都有成千上万个数据
友思特分享 | CamSim相机模拟器：极大加速图像处理开发与验证过程

来源友思特机器视觉与光电友思特分享 CamSim相机模拟器极大加速图像处理开发与验证过程原文链接 https mp weixin qq com s IED7Y6R8WE4HmnTiRY8lvg 欢迎关注虹科为您提供最新资讯随着

随机推荐

Vue3 + Element Plus 实现动态标签页及右键菜单

文章目录 1 前言 1 1 目的 1 2 普通右键菜单 1 3 本文右键菜单方式 2 生成动态标签页 2 1 准备变量容器 2 2 构造标签页 2 3 动态添加标签页 2 4 动态移除标签页 3 生成右键菜单 3 1 扩展标签页 3 2 增
subprocess执行命令行获取返回

subprocess subprocess 模块允许我们启动一个新进程并连接到它们的输入输出错误管道从而获取返回值 Popen 是 subprocess的核心子进程的创建和管理都靠它处理 import subprocess p s
编写教师和学生信息的程序

编写教师和学生信息的程序 1 定义一个抽象类Person 在Person类中声明两个属性 name和age 并设置其对应的getter方法用于获取人的姓名和年龄在Person类中声明一个有参构造方法用于对Person类中的属性进行初始
两个多项式求和

单链表的应用两个多项式求和提到多项式想必定会想到其系数和指数定义数据结构 typedef struct Polynomial float coe 多项式系数 int exp 多项式指数 struct Polynomial next P
【模式识别&目标检测】——基于机器视觉的无人机避障&RP-YOLOv3实例

目录引入一 YOLOv3模型 1 实时目标检测YOLOv3简介 2 改进的实时目标检测模型二数据集建立结果分析 1 数据集建立 2 模型结果分析三无人机避障实现参考文献引入目前对于障碍物的检测整体分为激光红外线超声
ubuntu18.04多版本cuda安装与转换（实测有效）

ubuntu18 04 CUDA详解 Ubuntu18 04安装cuda 10 1及10 0 和cudnn 1 安装显卡驱动 1 1 禁用nouveau驱动 1 2 安装NVIDIA显卡驱动 2 安装CUDA10 1 2 1 下载cuda安
公司前端开发架构改造

要看更多的文章欢迎访问我的个人博客 http oldli net 现在的前端早已不是几年前的前端再也不是jQuery加一个插件就能解决问题的时代最近对公司前端的开发进行了一系列的改造初步达到了我想要的效果但是未来还需要更多的改进
【DOCKER】docker run的-d，-v等参数用处

0 引用 ref1 docker ps的详解表格和文本的记录版本 1 手册查询内容 root master cpu docker run help Usage docker run OPTIONS IMAGE COMMAND ARG Ru
linux脚本的注释符号是什么,linux的shell编程中的符号`是什么

bin sh 是指此脚本使用 bin sh来解释执行是特殊的表示符其后面根的是此解释此脚本的shell的路径 bash 表示系统提示符表示此用户为普通用户超级用户的提示符是 bash是shell的一种是linux下最常用的一种sh
ARM MMU 详解

一 MMU 的产生许多年以前当人们还在使用DOS或是更古老的操作系统的时候计算机的内存还非常小一般都是以 K 为单位进行计算相应的当时的程序规模也不大所以内存容量虽然小但还是可以容纳当时的程序但随着图形界面的兴起还有用户
@Resource注解的使用

1 在spring的配置文件中导入命名空间 xmlns context http www springframework org schema context http www springframework org schema cont
推荐一个好组件Javascript文本比较工具

您的项目上有没有遇到需要在前端显示并比较两个不同版本的文本文件希望它像winmerge 或eclipse的svn比较工具那样标注不同的地方我找到了分享给大家吧最近项目上需要一个类似cvs svn文本比较工具把左右两个文本中不一样的
在Eclipse添加Android兼容包( v4、v7 appcompat )

昨天添加Android兼容包碰到了很多问题在这里记录一下让后面的路好走如何选择兼容包请参考Android Support Library Features 二一下载Support Library 方法1 右击项目选择Andr
Jenkins配置定时调度部署

H 22 表示每天22点自动构建
怎么找CVPR/ICCV/ECCV文章

原文链接 https www jianshu com p aed3dd8c81fa CVPR论文查找每年一届点击如下链接输入相关关键字即可搜索 http openaccess thecvf com CVPR2013 search py
冒泡排序原理详解及代码实现

1 冒泡排序数组排序常用的一种方式为什么要叫冒泡排序呢这还要从它的原理说起 2 代码实现低效版 3 原理详解冒泡排序最基本的思想就是从左到右依次判断相邻的两个数的大小关系如果前面的数大于后面的数则两数互换位置但是只是从左到右遍
C++11---智能指针

智能指针 1 为什么引入智能指针 1 1 内存泄漏 2 智能指针的使用及原理 2 1 RAII 2 2 智能指针的原理 3 C 98 auto ptr 4 unique ptr 5 shared ptr 5 1 循环引用 6 weak pt
在Anaconda下安装了TensorFlow库matplotlib库却调用不了了

在Anaconda下安装了TensorFlow库但是Anaconda中的matplotlib库却调用不了了解决方法如下 1 打开Anaconda Prompt 2 输入activate tensorflow 3 输入conda inst
2022年全国职业院校技能大赛（中职组）网络安全竞赛试题解析-A

2022年全国职业院校技能大赛中职组网络安全竞赛试题 1 总分100分需要环境可以私信博主赛题说明一竞赛项目简介网络安全竞赛共分A 基础设施设置与安全加固 B 网络安全事件响应数字取证调查和应用安全 C CTF夺旗攻击
StackGAN笔记

Stack可译做堆叠就是在GAN上面再放上一个GAN 作者讲述的自己的解决思路原来难以生成高分辨率的图像他们分解了这个问题把生成高分辨率图片这个任务分解成两个更为简单的任务就是文中说的一个GAN生成大致的形状和颜色第二个GAN生

StackGAN笔记

StackGAN笔记 的相关文章

随机推荐

热门标签

StackGAN笔记的相关文章