ICLR2021

2023-10-27

USING LATENT SPACE REGRESSION TO ANALYZE AND LEVERAGE COMPOSITIONALITY IN GANS

作者：Lucy Chai, Jonas Wulff & Phillip Isola

单位：MIT CSAIL, Cambridge, MA 02139, USA

邮箱：{lrchai,wulff,phillipi}@mit.edu

会议：ICLR 2021

项目地址：https://chail.github.io/latent-composition/

ABSTRACT

在这项工作中，我们以调查在潜空间的回归作为探针，来了解GAN中的组成性质。我们发现，结合回归器和预先训练的生成器提供了一个强的图像先验，允许我们可以以随机图像部分的拼接为输入来合成图像，并且同时保持了全局一致性。为了比较不同生成器的组成属性，我们测量了非真实输入的重建图像与重生成样本的图像质量之间的权衡（trade-offs）。我们发现，与直接编辑相比，回归方法可以在潜空间中对图像的个别部分进行更局部化的编辑，我们进行了实验来量化这种独立效果。我们的方法与编辑的语义无关，在训练期间不需要标签或预定义的概念。除了图像合成，我们的方法还扩展到许多相关的应用，如图像修复或example-based的图像编辑，我们在几个GANs和数据集上演示了这些应用，因为它只使用一个向前传递，所以它可以实时操作。我们的项目页面:https://chail.github.io/latent-composition/。

1 INTRODUCTION

在这里，我们使用潜回归器来探测预训练GAN的潜空间，从而揭示GAN是如何以无监督的方式来了解世界。

例如，给定一个教堂图像，是否有可能将一棵前景树换成另一棵?如果只考虑建筑的部分，那么缺失的部分能否被逼真的填补呢?为了实现这些修改，生成器必须是可组合的，即理解对象的离散和分隔表示。**我们表明，未经任何额外干预的预训练生成器已经在其潜代码中表示了这些组合属性。**此外，这些属性可以使用回归网络进行操作，该网络可以预测给定图像的潜代码。这个图像的像素为我们提供了一个直观的界面来控制和修改潜在代码。给定修改后的潜代码，网络应用从数据集学习到的图像先验，确保输出始终是一个连贯的场景，而不管输入是否不一致(图1)。

请添加图片描述

我们的方法很简单——给定一个固定的预训练生成器，我们训练一个回归网络来预测输入图像中的潜代码，同时添加一个掩码来学习处理缺失的像素。为了研究GAN生成全局一致场景的能力，我们给回归网络一个我们想要场景的粗糙的、不连贯的模板，然后使用这两个网络将其转换成真实的图像。即使我们的回归器从来没有在这些不切实际的模板上训练过，但它可以将给定的图像投射到潜空间中的合理部分，然后生成器将其映射到图像流形上。这种方法不需要标签或属性群集;我们所需要的只是一个样例，其可以大致说明我们想要生成的图像的样子。它只需要前向传递回归器和生成器，因此获得输出图像的延迟较低，不像迭代优化方法需要一分钟以上的时间来重建图像。

我们使用回归器来研究预训练的GAN 在不同数据集上的组成能力。使用由不同图像部分组成的输入图像(“拼贴”)，我们利用生成器将这些不现实的内容重新组合成连贯的图像。这需要同时解决三个任务——混合、对齐和修补。然后我们研究了GAN独立改变给定图像局部的能力。总而言之，我们的贡献是：

我们提出了一个潜回归模型，即使在图像不完整和缺少像素的情况下，也可以学习去执行图像重建，并表明回归器和生成器的组合形成了一个强的图像先验。
使用学习好的回归器，我们表明生成器的表征已经在潜在代码中具有组成性，而不必去探索中间层激活值。
不需要使用标签或测试时间优化，因此我们可以基于单个需要修改的示例编辑图像并实时重建。
我们使用回归器来探测场景的哪些部分可以独立变化，并研究使用编码器的图像混合和在潜空间内插值之间的区别。
相同的回归器设置可以用于各种其他图像编辑应用，如多模态编辑、场景补充或数据集重新平衡。

2 RELATED WORK

Image Inversion. 虽然这种回归器方式的重构精度低于基于优化的技术，但其较低的延迟允许我们以一种计算效率高的方式研究学到的先验，并使用这些先验实时编辑图像。

Composition in Image Domains.

Image Editing.

3 METHOD

3.1 LATENT CODE RECOVERY IN GANS

图像反演的目标是找到GAN G最能恢复所需目标图像x的潜码z: 请添加图片描述
使用图像距离的度量，如像素级的L1误差或基于深度特征的度量。这个目标可以用L-BFGS (Liu & Nocedal, 1989)或其他优化器迭代求解。然而，迭代优化很慢——它需要大量的迭代才能收敛，容易出现局部极小值，并且必须对每个目标图像x单独执行。

另一种恢复潜码z的方法是训练神经网络从一个给定的图像x直接预测它。在这种情况下,恢复的潜码仅仅是通过前馈一个训练有素的回归网络得到的结果， z ∗ = E ( x ) z^∗= E(x) z∗=E(x)，E可以用于任何 x ∈ X x∈X x∈X。为了训练回归网络(或编码器)E，我们使用潜编码器损失：

请添加图片描述

我们从潜分布中随机抽取z，通过预先训练的生成器G得到目标图像x = G(z)。在目标图像x和恢复的图像G(E(x))之间，我们使用均方误差损失来引导重构，使用感知损失 L p L_p Lp(Zhang et al.， 2018)来恢复细节。在原始潜码z和恢复的潜码E(x)之间，我们使用潜恢复损失 L z L_z Lz。根据GAN的输入归一化，我们使用均方误差或余弦相似度的变体来进行潜恢复。

在本文的生成器被冻结，我们只优化编码器E的权重。当使用ProGAN(Karras et al ., 2017)，我们训练编码器网络直接转化潜码z。对于StyleGAN(Karras et al ., 2019 b)，我们编码去扩展 W + W^+ W+潜空间(Abdal et al ., 2019)。经过训练后，潜回归器的输出产生一个潜码，这样重建的图像在感知上看起来与目标图像相似。

3.2 LEARNING WITH MISSING DATA

请添加图片描述

当研究输入图像局部化的效果时，我们可能希望明确地将一些图像区域视为“未知”，要么创建缓冲区以避免不同粘贴部分之间的接缝（either to create buffer zones to avoid seams between different pasted parts），要么明确地让图像事先填充未知区域（例如填充黑色）。在使用公式1的优化方法中，这可以通过仅对已知像素进行优化来处理。然而，回归器网络不能地处理这个问题——它不能区分未知像素和已知像素，并将尝试拟合未知像素的值。这可以通过对回归网络进行一个小的修改来减轻，需要指示哪些像素是已知的而哪些是未知的输入（图3）：

请添加图片描述

编码器不采用图像x作为输入，而是采用掩码图像 x m x_m xm和掩码m，其中 x m = x ⊗ m x_m= x⊗m xm=x⊗m，m是一个额外的输入通道。直观上，这种掩蔽操作类似于像素上的“dropout”(Srivastava et al.， 2014)——它鼓励编码器学习一种灵活的方法来恢复潜码，用此潜码生成器仍可重构图像。因此，如果只给出部分图像作为输入，编码器将从已知像素映射到与图像其余部分语义一致的潜码。这可以使得生成器重新生成一个图像，它既是来源于先验知识，又保持了与观察区域的一致性。

请添加图片描述

为了在训练中获得掩码图像，我们将一小块随机均匀噪声u, 使用双线性插值来上采样噪声从而获得完整的分辨率，并掩盖了上采样噪声（小于采样阈值t∼u(0, 1)）的所有像素来模拟任意形状掩码的界限。然而，在测试时，掩模的确切形式并不重要——掩模只是指示生成器应该在何处进行重建或修复，而不区分输入的不同图像部分。我们将在附录A.1.1和A.2.3中提供更多细节。

回归器和生成器加强了全局一致性：当我们模糊或修改部分输入时，生成器将创建总体上然一致的输出。通过屏蔽图像的任意部分(公式3)，我们允许GAN想象缺失像素的真实完成，这可以根据给定的上下文进行变化(图2)。这表明回归器内在地学习无监督对象表示，允许它仅从部分提示完成对象的预测，即使生成器和回归器在训练期间从未提供结构化的概念标签。

3.3 IMAGE COMPOSITION USING LATENT REGRESSION

回归器E与生成器G将一个输入图像 x i n p u t x_{input} xinput利用先验知识来映射到生成图像 X X X的流形，即使 x i n p u t ∉ X x_{input}\notin X xinput∈/X。我们利用这一点来研究潜码的组成属性。我们提取部分图像（由G生成或从真实图像中提取），并将它们组合成拼贴图像 x c l g x_{clg} xclg。这个提取过程不需要精确，可以有明显的接缝和缺失像素。同时，虽然 x c l g x_{clg} xclg通常不现实，但我们的编码器可以意识到这些缺失的像素，并可以正确地处理它们，如第3.2节所述。因此，我们可以使用E和G来混合接缝，并产生一个真实的合成输出。为了创建 x c l g x_{clg} xclg，我们采样基础图像 x i x_i xi与掩码 m a s k i mask_i maski，并将它们结合起来；一旦我们形成了拼贴图像 x c l g x_{clg} xclg，我们通过回归器和生成器进行重新投射，以获得复合图像 x r e c x_{rec} xrec:

请添加图片描述

请注意，公式4中用于提取单个图像部分的每个掩码对编码器都不可用，只有联合版的才可用。此外，回归器仅针对潜恢复目标进行训练(公式3)，在训练过程中从未见过拼贴图像。为了自动化提取mask图像的过程，我们使用预先训练的分割网络(Xiao et al.， 2018)和输出类中的样本(参见附录a .1.2)。然而，掩码回归器是不知道如何提取图像部分；我们还实验了显著性网络(Liu et al.， 2018)、近似矩形和用户自定义掩码(参见附录a .2.1和a .2.4)。

请添加图片描述

4 EXPERIMENTS

使用预先训练的Progressive GAN (Karras et al.， 2017)和StyleGAN2 (Karras et al.， 2019b)生成器，我们对CelebA-HQ和FFHQ人脸以及LSUN汽车、教堂、客厅和马进行实验，研究GAN从数据中学习的组成属性。

4.1 IMAGE COMPOSITION FROM APPROXIMATE COLLAGES

为了衡量网络维持原输入以及合成图像真实性的权衡能力，我们使用掩码 L 1 L_1 L1距离来当作重构的度量（越低越好）

请添加图片描述

和超过50k样本的FID评分(Heusel et al.， 2017)作为图像质量的度量(越低越好)（图4）。

4.2 COMPARING COMPOSITIONAL PROPERTIES ACROSS ARCHITECTURES

到底是预训练的GAN作用大还是回归网络作用更大呢？在这里，我们研究了许多不同的图像重建方法，涉及三个主要类别:无预训练GAN的自动编码器架构，无编码器的基于优化的GAN潜码恢复方法，以及与预训练GAN成对的基于编码器的方法。由于样本量较小，我们在这里使用密度作为真实感的衡量标准(越高越好)，它衡量的是与真实图像流形的接近程度(Naeem等人，2020)，并与L1重构(Eqn. 5)进行比较；一个完美的复合图像具有高密度和低L1。我们在表4-5中报告了其他指标。

请添加图片描述

4.3 HOW DOES COMPOSITION DIFFER FROM INTERPOLATION?

请添加图片描述

4.4 USING REGRESSION TO INVESTIGATE INDEPENDENCE OF IMAGE COMPONENTS

请添加图片描述

5 CONCLUSION

*个人总结：*整体方法并不难，就是训练编码器来回复潜编码（包含缺失像素的版本），然后对四个方面进行了讨论。有一点值得注意的是，这个方法生成的结果并不能完全维持原输入，因为它也必须考虑到图像的真实性，所以对这两个方面进行了权衡。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ICLR2021 的相关文章

问CHAT很繁琐的问题会不会有答案呢？

问CHAT 什么已有的基于极值理论的极端温度重现期主要针对极端高温事件对极端低温事件研究较少 CHAT 回复为这主要可能是由于以下几个原因 1 气候变化与全球变暖当前全球变暖和气候变化的问题备受关注这导致科研者更加关注极端高温事件
用CHAT写一份标题为职业教育教师教学能力提升培训总结

CHAT回复标题职业教育教师教学能力提升培训总结一活动概述本次由学校组织的职业教育教师教学能力提升培训于8月15日至8月20日顺利进行来自全校的60位职业教育教师参与了此次培训主讲人为享有盛名的教育专家马丁先生二培训内容与
利用CHAT写实验结论

问CHAT 通过观察放置在玻璃表面上的单个水滴人们可以观察到水滴充当成像系统探究这样一个透镜的放大倍数和分辨率 CHAT回复实验报告标题利用玻璃表面的单一水滴观察成像系统的放大倍数和分辨率一实验目的通过对比和测量研究和探索玻
基于opencv的大米计数统计（详细处理流程＋代码）

在我每周的标准作业清单中有一项是编写计算机视觉算法来计算该图像中米粒的数量因此当我的一个好朋友M给我发了一张纸上的扁豆照片显然是受到上述转发的启发请我帮他数一下谷物的数量时它勾起了我怀旧的回忆因此我在我的旧硬盘上寻找很久以前
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
毕业设计：基于深度学习的微博谣言检测系统人工智能

目录前言设计思路一课题背景与意义二算法理论原理三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校要求的毕设项目越来越难有
毕业设计：基于卷积神经网络的图像分类系统 python人工智能

目录前言设计思路一课题背景与意义二算法理论原理 2 1 卷积神经网络 2 2 SVM算法三检测的实现最后前言大四是整个大学期间最忙碌的时光一边要忙着备考或实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力
性能大减80%，英伟达芯片在华“遇冷”，我方霸气回应：不强求

中国这么大一块市场谁看了不眼馋在科技实力大于一切的今天高端芯片的重要性不言而喻作为半导体产业发展过程中不可或缺的一环芯片技术也一直是我国技术发展的一大心病在美西方等国的联手压制下我国芯片技术发展处处受阻至今也未能在高端芯片
强烈推荐收藏！LlamaIndex 官方发布高清大图，纵览高级 RAG技术

近日 Llamaindex 官方博客重磅发布了一篇博文 A Cheat Sheet and Some Recipes For Building Advanced RAG 通过一张图给开发者总结了当下主流的高级RAG技术帮助应对复杂的生产场
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
机器学习算法实战案例：Informer实现多变量负荷预测

文章目录机器学习算法实战案例系列答疑技术交流 1 实验数据集 2 如何运行自己的数据集 3 报错分析机器学习算法实战案例系
【固定翼飞机】基于最优控制的固定翼飞机着陆控制器设计研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
回望计算机视觉会议ICCV的31年

作者原野寻踪编辑汽车人原文链接 https zhuanlan zhihu com p 670393313 点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心全栈算法技术交流群本文只做
3D点云检测神技 | UFO来了！让PointPillars、PV-RCNN统统涨点！

作者 AI驾驶员编辑智驾实验室点击下方卡片关注自动驾驶之心公众号 ADAS巨卷干货即可获取点击进入自动驾驶之心 3D目标检测技术交流群本文只做学术分享如有侵权联系删文在这篇论文中提出了一个关于在3D点云中检测未
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
基于节点电价的电网对电动汽车接纳能力评估模型研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
考虑光伏出力利用率的电动汽车充电站能量调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码数据
GPT4+Python近红外光谱数据分析及机器学习与深度学习建模

详情点击链接 GPT4 Python近红外光谱数据分析及机器学习与深度学习建模第一 GPT4 入门基础 1 ChatGPT概述 GPT 1 GPT 2 GPT 3 GPT 3 5 GPT 4模型的演变 2 ChatGPT对话初体验注册与
两个月进口猛增10倍，买近百台光刻机，难怪ASML不舍中国市场

据统计数据显示 2023年11月和12月中国从荷兰进口的光刻机设备同比猛增10倍进口金额超过19亿美元让ASML赚得盆满钵满 ASML早前表示中国客户在2023年订购的光刻机全数交付 2023年11月中国进口的光刻机达到42台进口金
实力认证！鼎捷软件荣膺“领军企业”和“创新产品”两大奖项

近日由中国科学院软件研究所中科软科技股份有限公司联合主办的 2023中国软件技术大会于北京成功举办本届大会以大模型驱动下的软件变革为主题数十位来自知名互联网公司和软件巨头企业的技术大咖不同领域行业专家畅销书作者等分享嘉宾

随机推荐

线性代数之向量的内积，外积，长度，正交与正交矩阵

线性代数之向量的内积外积长度正交和正交矩阵向量的内积向量的外积向量的长度向量正交正交矩阵正交矩阵的扩展向量的内积对于列向量 a b R n
使用GPU版本的torch

声明 1 我是不知道安装torch到底需不需要安装CNDA和CUDNN的我是按照其他文章所说才下载的 CNDA和CUDNN 通过一些视频展示下载GPU版本的torch是包含了CNDA组件的所以我觉得可能不需要下载CNDA和CUDNN
GraphEdit 实用手册

GraphEdit是微软公司开发一个用于建立和测试音视频程序的可视化工具它建立在Graph Filter的原则上 Directshow是基于模块化每个功能模块即单元组件都采取COM组件方式称为Filter 将Filter串联在一起就形
R语言报错错误: pandoc document conversion failed with error 1033 停止执行

最近在学习一个R语言的时间序列课程用RStudio的RMarkdown时遇见了这个报错错误 pandoc document conversion failed with error 1033 停止执行神奇仔细查找了很久才发现自己代码
12-9 案例：处理复杂的线程返回结果

1 问题来源 thrd create 函数功能为新建一个线程传入待执行的函数待执行函数的格式要求如下 typedef int thrd start t void arg 这意味着待执行函数只能返回 int 类型值接收 void arg
如何关闭防火墙、windows defender的设置不可用。该应用已从服务器中卸载

一 windows defender的设置不可用该应用已从服务器中卸载操作系统可能是gho镜像做的被精简了开始运行 CMD 输入gpedit msc 回车如果失败先进行第二步在返回来进行第一步二 1 在管理员bai命令提示d
神经网络及其matlab仿真

本文进行了神经网络原理简介并对蜢虫分类问题进行了matlab仿真一神经网络介绍神经网络是由具有适应性的简单单元组成的广泛并行互联的网络它的组织能够模拟生物神经系统对真实世界物体作出的交互反应神经网络中最基本的成分是神经元 neu
mysql 减法,mysql 减法

SQL codemysql gt desc t a175460677 Field Type Null Key Default Extra uName char 3 YES NULL money float 10 2 YES NULL
Arduino平衡小车

Arduino平衡小车 1 概述此Arduino平衡小车在主控方面由Arduino UNO R3和Arduino sensor shield v5 0传感器扩展板组成采用TB6612FNG作为电源和电机之间的中介给带编码器的直流电机供电
Nacos鉴权和配置加密

nacos存在可以任意用户添加的问题更改提交方式为POST 访问 nacos v1 auth users test111username test111 password 123456 新建一个账号test111 可以看到创建用户成功如
STM32读写内部Flash（介绍+附代码）

概述内部Flash读写详解一介绍首先我们需要了解一个内存映射 stm32的flash地址起始于0x0800 0000 结束地址是0x0800 0000加上芯片实际的flash大小不同的芯片flash大小不同 RAM起始地址是0x2
SMTP:防止追踪发件人IP

1 使用网页版gmail发信邮件头不带X Originating IP 2 javamail调用SMTP时加代理 props put mail smtp socks host 10 11 22 2 props put mail smtp
背包

01背包问题描述有N件物品和一个容量为V的背包第i件物品的体积是weight i 价值是value i 求解将哪些物品装入背包可使价值总和最大实现代码 include
Java-查看运行时对象占用内存

Java 查看运行时对象占用内存一查看项目运行时的进程ID jps 二导出运行信息到二进制文件中选择想要查看程序的进程ID 例如 jmap dump format b file heap bin 20772 不能在系统目录中创建会
STM32单片机蓝牙-APP全自动洗衣机水位检测洗涤脱水排水

实践制作DIY GC0164 蓝牙 APP全自动洗衣机水位检测基于STM32单片机设计蓝牙 APP全自动洗衣机水位检测二功能介绍硬件组成 STM32F103C单片机最小系统 LCD1602显示器 1个5V直流电机低速洗衣高速脱水
NC portal保存只能获取当前子表选中行的数据集问题

保存是获取子表数据只能获取到当前选中的行代码如下 LfwViewmain LfwRuntimeEnvironment getWebContext getPageMeta getView main Dataset bodyds main g
mysql回收用户权限

1 创建test1用户 select password test1 password test1 06C0BF5B64ECE2F648B5F048A71903906BA08E5C create user test1 localhost id
设计模式--策略模式

策略模式属于行为型模式基本原理一个类的行为或其算法可以在运行时更改主要流程 1 创建策略基类并根据不同行为实例化不同的策略类 2 使用时选择合适的策略类注意如果一个系统的策略太多最好考虑其他模式 include
Python绘制柱状图并美化

python绘图合集往期绘图合集 python绘制简单的折线图 python读取excel中数据并绘制多子图多组图在一张画布上 python绘制带误差棒的柱状图 python绘制多子图并单独显示 python读取excel数据并绘制多y轴
ICLR2021

USING LATENT SPACE REGRESSION TO ANALYZE AND LEVERAGE COMPOSITIONALITY IN GANS 作者 Lucy Chai Jonas Wulff Phillip Isola 单位

ICLR2021

USING LATENT SPACE REGRESSION TO ANALYZE AND LEVERAGE COMPOSITIONALITY IN GANS

ABSTRACT

1 INTRODUCTION

2 RELATED WORK

3 METHOD

3.1 LATENT CODE RECOVERY IN GANS

3.2 LEARNING WITH MISSING DATA

3.3 IMAGE COMPOSITION USING LATENT REGRESSION

4 EXPERIMENTS

4.1 IMAGE COMPOSITION FROM APPROXIMATE COLLAGES

4.2 COMPARING COMPOSITIONAL PROPERTIES ACROSS ARCHITECTURES

4.3 HOW DOES COMPOSITION DIFFER FROM INTERPOLATION?

4.4 USING REGRESSION TO INVESTIGATE INDEPENDENCE OF IMAGE COMPONENTS

5 CONCLUSION

ICLR2021 的相关文章

随机推荐

热门标签