【StyleGAN补充材料】 A Style-Based Generator Architecture for Generative Adversarial Networks

2023-11-14

Supplemental Material:A Style-Based Generator Architecture for Generative Adversarial Networks

一、前言
1. Hyperparameters and training details
2. Training convergence
3. Other datasets

一、前言

【Paper】 > PyTorch版【Code】 > 官方TensorFlow版【Code】补充材料见Supplemental Material
StyleGAN正文精读在【StyleGAN论文精读CVPR_2019】A Style-Based Generator Architecture for Generative Adversarial Networks

1. Hyperparameters and training details

我们以 Karras et al.{Karras2017} 的渐进式 GAN 的官方 TensorFlow{Tensorflow} 实现为基础，我们从中继承了大部分训练细节。https: //github.com/tkarras/progressive_grinding_of_gans这个原始设置对应于论文中表1的配置 A。
特别是，我们使用相同的{鉴别器架构}、分辨率相关的小批量大小、Adam{Adam} 超参数、和生成器的指数移动平均值。我们为 CelebA-HQ 和 FFHQ 启用镜像增强，但为 LSUN 禁用它。
我们在配备 8 个 Tesla V100 GPU 的 NVIDIA DGX-1 上的训练时间大约为一周。

对于我们改进的基线（表1 中的 B），我们进行了一些修改以提高整体结果质量。
我们用双线性采样替换两个网络中的最近邻上/下采样，这是通过在每个上采样层之后和每个下采样层之前使用可分离的 2 n d 2^{nd} 2nd 阶二项式滤波器对激活进行低通滤波来实现的{zhang2019}}。
我们以与 Karras et al.{Karras2017} 相同的方式实现渐进式增长，但我们从 8 2 8^2 82 图像而不是 4 2 4^2 42 开始。
对于 FFHQ 数据集，我们从 WGAN-GP 切换到非饱和损失 {Goodfellow2014} 和 R 1 R_1 R1 正则化 {Mescheder2018} 使用 γ = 10 \gamma=10 γ=10。
我们发现，与 WGAN-GP 相比， R 1 R_1 R1 的 FID 分数持续下降的时间要长得多，因此我们将训练时间从 1200 万张图像增加到 2500 万张图像。
我们对 FFHQ 使用与 Karras et al.{Karras2017} 相同的学习率，但我们发现将 51 2 2 512^2 5122 和 102 4 2 1024^2 10242 的学习率设置为 0.002 而不是 0.003 会带来更好的稳定性于CelebA-HQ而言。

对于我们基于样式的生成器（表1 中的 F），我们使用 Leaky ReLU {Maas2013} 和 α = 0.2 \alpha=0.2 α=0.2 以及所有层的均衡学习率{Karras2017}。
我们在卷积层中使用与 Karras et al.{Karras2017} 相同的特征图计数。
我们的映射网络由8个全连接层组成，所有输入和输出激活的维数-----包括 z \mathrm{z} z和 w \mathrm{w} w------为512。
我们发现，增加映射网络的深度往往会导致高学习率下的训练不稳定。
因此，我们将映射网络的学习率降低了两个数量级，即 λ ′ = 0.01 ⋅ λ \lambda' = 0.01\cdot\lambda λ′=0.01⋅λ。
我们使用 N ( 0 , 1 ) \mathcal{N}(0,1) N(0,1) 初始化卷积层、全连接层和仿射变换层的所有权重。
合成网络中的常数输入被初始化为一。
偏差和噪声缩放因子都初始化为零，但与 y s \mathrm{y}_s ys 相关的偏差除外，我们将其初始化为 1。

我们的可分离性度量（文章第4.2节）使用的分类器与我们的判别器具有相同的架构，除了小批量标准差{Karras2017}被禁用。
我们使用 1 0 − 3 10^{-3} 10−3 的学习率、8 的小批量大小、Adam 优化器和 150,000 张图像的训练长度。
分类器独立于生成器进行训练，并且使用相同的约 40 个分类器（每个 CelebA 属性一个）来测量所有生成器的可分离性度量。
我们将发布预先训练的分类器网络，以便可以重现我们的测量结果。

我们在网络中不使用批量归一化 {Ioffe2015}、谱spectral归一化 {Miyato2018B}、注意力机制 {Zhang2018sagan}、dropout {srivastava2014} 或像素特征向量归一化 {Karras2017}。

2. Training convergence

在这里插入图片描述

图 1 显示了在使用 FFHQ 数据集训练我们的配置 B和 F 期间，FID 和感知路径长度指标如何演变。
当 R 1 R_1 R1 正则化在两种配置中都处于活动状态时，FID 随着训练的进行而继续缓慢减少，
促使我们选择将训练时间从 1200 万张图像增加到 2500 万张图像。
即使训练达到了完整的 $ 1024^2$ 分辨率，缓慢增加的路径长度表明 FID 的改进是以更加纠缠的表示为代价的。
考虑到未来的工作，这是一个有趣的问题，这是否是不可避免的，或者是否有可能在不影响 FID 收敛性的情况下鼓励更短的路径长度。

3. Other datasets

在这里插入图片描述

图 2 、3 和 4 显示了 LSUN 的Bedroom ，汽车和猫分别的一组未经整理的结果。
在这些图像中，我们使用了 Appendix B 中的截断技巧，其中 ψ = 0.7 \psi=0.7 ψ=0.7 的分辨率为 4 2 − 3 2 2 4^2-32^2 42−322。随附的视频提供了风格混合和随机变化测试的结果。从其中可以看出，在 Bedroom 的情况下，粗略样式基本上控制相机的视角，中间样式选择特定的家具，而精细样式处理颜色和材料的较小细节。
在 Cars 中，效果大致相似。随机变化主要影响 Bedroom 中的织物、Cars 中的背景和头灯以及 Cats 中的毛皮、背景，以及有趣的是爪子的位置。
有点令人惊讶的是，汽车的车轮似乎永远不会根据随机输入旋转。

这些数据集使用与 FFHQ 相同的设置进行训练，训练时间为 Bedroom 和 Cats 的 70M 图像，以及 Cars 的 46M 图像。我们怀疑 Bedroom 的结果开始接近训练数据的极限，因为在许多图像中，最令人反感的问题是从低质量训练数据继承的严重压缩伪影。 Cars 具有更高质量的训练数据，也允许更高的空间分辨率（ 512 × 384 512\times384 512×384 而不是 25 6 2 256^2 2562），而CATS仍然是一个困难的数据集，因为在姿态、缩放级别和背景方面存在很大的内在差异。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)