【StyleGAN补充材料】 A Style-Based Generator Architecture for Generative Adversarial Networks

2023-11-14

Supplemental Material:A Style-Based Generator Architecture for Generative Adversarial Networks

一、前言

【Paper】 > PyTorch版【Code】 > 官方TensorFlow版【Code】 补充材料见Supplemental Material
StyleGAN正文精读在【StyleGAN论文精读CVPR_2019】A Style-Based Generator Architecture for Generative Adversarial Networks

1. Hyperparameters and training details

我们以 Karras et al.{Karras2017} 的渐进式 GAN 的官方 TensorFlow{Tensorflow} 实现为基础,我们从中继承了大部分训练细节。https: //github.com/tkarras/progressive_grinding_of_gans这个原始设置对应于论文中表1的配置 A。
特别是,我们使用相同的{鉴别器架构}、分辨率相关的小批量大小、Adam{Adam} 超参数、和生成器的指数移动平均值。我们为 CelebA-HQ 和 FFHQ 启用镜像增强,但为 LSUN 禁用它。
我们在配备 8 个 Tesla V100 GPU 的 NVIDIA DGX-1 上的训练时间大约为一周。

对于我们改进的基线(表1 中的 B),我们进行了一些修改以提高整体结果质量。
我们用双线性采样替换两个网络中的最近邻上/下采样,这是通过在每个上采样层之后和每个下采样层之前使用可分离的 2 n d 2^{nd} 2nd 阶二项式滤波器对激活进行低通滤波来实现的{zhang2019}}。
我们以与 Karras et al.{Karras2017} 相同的方式实现渐进式增长,但我们从 8 2 8^2 82 图像而不是 4 2 4^2 42 开始。
对于 FFHQ 数据集,我们从 WGAN-GP 切换到非饱和损失 {Goodfellow2014} 和 R 1 R_1 R1 正则化 {Mescheder2018} 使用 γ = 10 \gamma=10 γ=10
我们发现,与 WGAN-GP 相比, R 1 R_1 R1 的 FID 分数持续下降的时间要长得多,因此我们将训练时间从 1200 万张图像增加到 2500 万张图像。
我们对 FFHQ 使用与 Karras et al.{Karras2017} 相同的学习率,但我们发现将 51 2 2 512^2 5122 102 4 2 1024^2 10242 的学习率设置为 0.002 而不是 0.003 会带来更好的稳定性于CelebA-HQ而言。

对于我们基于样式的生成器(表1 中的 F),我们使用 Leaky ReLU {Maas2013} 和 α = 0.2 \alpha=0.2 α=0.2 以及所有层的均衡学习率{Karras2017}。
我们在卷积层中使用与 Karras et al.{Karras2017} 相同的特征图计数。
我们的映射网络由8个全连接层组成,所有输入和输出激活的维数-----包括 z \mathrm{z} z w \mathrm{w} w------为512。
我们发现,增加映射网络的深度往往会导致高学习率下的训练不稳定。
因此,我们将映射网络的学习率降低了两个数量级,即 λ ′ = 0.01 ⋅ λ \lambda' = 0.01\cdot\lambda λ=0.01λ
我们使用 N ( 0 , 1 ) \mathcal{N}(0,1) N(0,1) 初始化卷积层、全连接层和仿射变换层的所有权重。
合成网络中的常数输入被初始化为一。
偏差和噪声缩放因子都初始化为零,但与 y s \mathrm{y}_s ys 相关的偏差除外,我们将其初始化为 1。

我们的可分离性度量(文章第4.2节 )使用的分类器与我们的判别器具有相同的架构,除了小批量标准差{Karras2017}被禁用。
我们使用 1 0 − 3 10^{-3} 103 的学习率、8 的小批量大小、Adam 优化器和 150,000 张图像的训练长度。
分类器独立于生成器进行训练,并且使用相同的约 40 个分类器(每个 CelebA 属性一个)来测量所有生成器的可分离性度量。
我们将发布预先训练的分类器网络,以便可以重现我们的测量结果。

我们在网络中不使用批量归一化 {Ioffe2015}、谱spectral归一化 {Miyato2018B}、注意力机制 {Zhang2018sagan}、dropout {srivastava2014} 或像素特征向量归一化 {Karras2017}。

2. Training convergence

在这里插入图片描述

图 1 显示了在使用 FFHQ 数据集训练我们的配置 B和 F 期间,FID 和感知路径长度指标如何演变。
R 1 R_1 R1 正则化在两种配置中都处于活动状态时,FID 随着训练的进行而继续缓慢减少,
促使我们选择将训练时间从 1200 万张图像增加到 2500 万张图像。
即使训练达到了完整的 $ 1024^2$ 分辨率,缓慢增加的路径长度表明 FID 的改进是以更加纠缠的表示为代价的。
考虑到未来的工作,这是一个有趣的问题,这是否是不可避免的,或者是否有可能在不影响 FID 收敛性的情况下鼓励更短的路径长度。

3. Other datasets

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

图 2 、3 和 4 显示了 LSUN 的Bedroom ,汽车 和 猫 分别的一组未经整理的结果 。
在这些图像中,我们使用了 Appendix B 中的截断技巧,其中 ψ = 0.7 \psi=0.7 ψ=0.7 的分辨率为 4 2 − 3 2 2 4^2-32^2 42322。随附的视频提供了风格混合和随机变化测试的结果。从其中可以看出,在 Bedroom 的情况下,粗略样式基本上控制相机的视角,中间样式选择特定的家具,而精细样式处理颜色和材料的较小细节。
在 Cars 中,效果大致相似。随机变化主要影响 Bedroom 中的织物、Cars 中的背景和头灯以及 Cats 中的毛皮、背景,以及有趣的是爪子的位置。
有点令人惊讶的是,汽车的车轮似乎永远不会根据随机输入旋转。

这些数据集使用与 FFHQ 相同的设置进行训练,训练时间为 Bedroom 和 Cats 的 70M 图像,以及 Cars 的 46M 图像。我们怀疑 Bedroom 的结果开始接近训练数据的极限,因为在许多图像中,最令人反感的问题是从低质量训练数据继承的严重压缩伪影。 Cars 具有更高质量的训练数据,也允许更高的空间分辨率( 512 × 384 512\times384 512×384 而不是 25 6 2 256^2 2562),而CATS仍然是一个困难的数据集,因为在姿态、缩放级别和背景方面存在很大的内在差异。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【StyleGAN补充材料】 A Style-Based Generator Architecture for Generative Adversarial Networks 的相关文章

随机推荐

  • leetcode链表刷题:删除中间节点

    题目如下所示 这道题正如评论区所言 最大的难度就是读懂题目本身 这道题的意思是 有一个链表 题目给了我这个链表上除了第一个和最后一个节点以外的一个中间节点 然后我要把这个中间节点给删掉 也就是说 我们能够进行操作的 是一个链表上的一个节点
  • leetcode 10. 正则表达式匹配

    2023 9 20 感觉是目前做过dp题里最难的一题了 本题首要的就是需要理解题意 翻了评论区我才发现之前一直理解的题意是错的 我原来理解的 匹配0次 是指 直接消失 不会影响到前面的字符 但是 和前一个字符其实是连体的 所以说 如果匹配0
  • 网络空间安全导论

    感谢戴银涛老师的指导 笔记时间有点儿久了 整理的时候一些图丢了 不过问题不大 网络空间安全导论 目录 1 信息安全概述 从网络信息系统的发展概述 从系统分析方法看信息与信息安全的关系 从信息安全技术史角度理解网络安全相关概念 网络信息系统安
  • 深入理解 TCP 协议:从原理到实战

    小册介绍 TCP 协议是我一直很想写的一个主题 因为 TCP 学起来实在是太痛苦了 刚参加工作时 TCP 协议一直是一个心头痛 知道皮毛 但是始终无法深入 在阅读了大量相关的书籍 做了很多网络编程方面的工作以后觉得掌握的过程太过曲折 这本小
  • 【前端代码实例】使用HTML5+CSS3+JavaScript制作一个响应式的后台管理系统~带侧边导航栏仪表盘功能

    bilibili在线视频演示地址 前端代码实例 使用HTML5 CSS3 JavaScript制作一个响应式的后台管理系统 带侧边导航栏仪表盘功能 效果图 简化版代码
  • C++学习(三十四)stdlib与cstdlib

    C语言中是有 include
  • 简单xml的使用以及xml的解析dom4j和jaxp

    1 xml的简介 w3c组织发布 extensible markup Language 可扩展标记型语言 也是使用标签操作 可扩展 html里面的标签是固定 每个标签都有特定的含义 xml标签可以自己定义 可以写中文的标签 用途 显示数据
  • shared_ptr智能指针的使用

    一 shared ptr简单说明 如果一个实例指针被多个对象使用 而调用者不知道该什么时候释放该实例 那么可以使用shared ptr来 托管 这个实例指针 当使用它的对象都被释放掉了 这个实例可以自动被释放 可能有点绕 简单地说 就是类A
  • ubuntu重启后分辨率为1024,nvidia-smi不能用-20200819

    无法连接NVIDIA驱动 NVIDIA SMI has failed because it couldn t communicate with the NVIDIA driver CASE SOLVED NVIDIA SMI has fai
  • Postgresql 常用命令合集-建议收藏

    ps 注意空格和指令正确 以下仅用于自己记录使用 1 基本命令 createdb 创建一个新的PostgreSQL的数据库 命令可以使用大写 createuser 创建一个新的PostgreSQL的用户 dropdb 删除数据库 dropu
  • mssql数据库,数据库同步,分布式数据库,数据库集群,如何实现

    由于项目需要 产品的部署必须考虑到安全和灾难的解决办法 由于之前一直做的的小项目 基本都是单服务器 单数据库结构 但是由于一次灾难 把这个问题提上了日程 本人资历浅薄 很多东西还不是很熟悉 最近在网上百度了一大堆相关的东西 基本有了大概的思
  • 玩转Jetson nano系列(1):Jetson nano编译安装ncnn

    整个安装流程基本按照官方的步骤 build ncnn for jetson 但是在jetson nano上安装时 遇到了glslang和vulkan引发的问题 Found glslangValidator GLSLANGVALIDATOR
  • strptime和strftime

    strptime 将时间字符串转为 struct tm 格式 头文件 include
  • TortoiseGit日常使用指南

    本文在介绍了软件安装和设置后 写了TortoiseGit 常用的一些功能 包括 创建新库 添加文件及文件夹 创建分支 看分支情况及修改log 比较版本差异 合并分支 其他操作 Stash 忽略文件本文不包括 Git 服务器设置 Push 版
  • 预见未来:超强元AI诞生,抓住这个机会,利用AI变现也变得更加容易

    目录 一 引言 二 介绍 三 技术展现 四 元AI架构图展现 五 元AI变现技巧 商业版说明 六 后期规划 一 引言 如何利用AI变现已经成为了当今各个行业亟需解决的问题 随着人工智能技术的快速发展和普及 越来越多的企业开始将其应用于产品研
  • 微信小程序地理位置接口wx.getLocation接口申请方法技巧

    我们在开发微信小程序的时候 提交审核微信官方就会检测咱们的小程序有没有用到位置功能 涉及用到哪个位置接口 然后就会要求我们先申请相应的位置接口 审核通过后才可以发布小程序 这个接口审核一直是让大家头痛的事情 有的小伙伴申请几十次都不给过 有
  • vue防抖 自定义ref实现输入框防抖

    防抖 debounce 当持续触发事件时 一定时间段内没有再触发事件 事件处理函数才会执行一次 如果设定的时间到来之前 又一次触发了事件 就重新开始计时 接下来我将带大家一步步分析如何把input防抖做到极致 首先需要把input 的双向绑
  • Web前端开发实训案例教程(初级)素材

    素材下载地址 Web前端开发实训案例教程 初级 素材 内容简介 本书是按照 Web前端开发职业技能等级标准 编写的配套实践教程 其中涉及的应用技术专题和项目代码均在主流浏览器中运行通过 本书结合大学计算机相关专业Web前端开发方向课程体系
  • windows下用cygwin编译android版ijkplayer

    1 环境搭建 1 1 安装cygwin 并安装git make ysam 具体安装过程网上有很多资料 不再详述 1 2 android sdk和android ndk下载和安装 参见网上资料 1 3 下载ijkplayer源码 git cl
  • 【StyleGAN补充材料】 A Style-Based Generator Architecture for Generative Adversarial Networks

    Supplemental Material A Style Based Generator Architecture for Generative Adversarial Networks 一 前言 1 Hyperparameters an