论文阅读 StyleCLIP:《StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery》

2023-11-18

在这里插入图片描述
论文地址:https://arxiv.org/pdf/2103.17249.pdf

摘要

在这项工作中,我们探索如何利用最近引入的对比语言图像预训练(CLIP)模型的力量,为StyleGAN图像处理开发一个基于文本的界面,而不需要手动操作。

  1. 我们首先介绍一种优化方案,该方案利用基于剪贴簿的丢失来修改输入潜在向量,以响应用户提供的文本提示。
  2. 接下来,我们将描述一个潜在映射器,该映射器为给定的输入图像推断文本引导的潜在操作步骤,从而允许更快、更稳定的基于文本的操作。
  3. 最后,我们提出了一种将文本提示映射到StyleGAN样式空间中输入不可知方向的方法,从而实现交互式文本驱动的图像操作。

1. 介绍

  现有控件只能沿预设的语义方向操作图像,严重限制了用户的创造力和想象力。无论何时需要额外的未映射方向,都需要进一步的手动操作和/或大量带注释的数据。图1显示了使用我们的方法产生的独特操作的几个示例。

在这里插入图片描述

图1。使用StyleCLIP的文本驱动操作示例。顶行:输入图像;最后一行:我们操纵的结果。用于驱动每个操作的文本提示显示在每列下。

具体而言,在本文中,我们研究了三种将CLIP与StyleGAN相结合的技术:

  1. 文本引导的潜在优化,其中剪辑模型用作损耗网络[14]。这是最通用的方法,但需要几分钟的优化才能对图像进行操作。
  2. 为特定文本提示而训练的潜在残余映射器。给定一个潜在空间的起点(要计算的输入图像),潜在空间中出现的局部步长。
  3. 一种将文本提示映射到StyleGAN样式空间中的输入诊断(全局)方向的方法,提供对操作强度和分离程度的控制。

2. 相关工作

2.1 视觉与语言

  联合描述:BERT,CLIP(学习多模态嵌入空间,该空间可用于估计给定文本和图像之间的语义相似性)
  文本引导的图像生成与处理

2.2 潜空间图像处理

  此类方法可分为:(i)使用图像注释寻找有意义的潜在路径的方法[40,1],(ii)在无监督的情况下找到有意义的方向,并要求对每个方向进行手动注释的方法[13,42,48,49]。

3. StyleCLIP文本驱动操作

  1. optimizer(优化方法):最小化在剪辑空间中计算的损失来优化StyleGAN W+空间中图像的给定潜在代码。尽管它具有多功能性,但执行一次操作需要几分钟,而且该方法可能难以控制。
  2. mapping(映射网络):对映射网络进行训练,以在单个正向过程中推断潜在空间中的操纵步骤。培训需要几个小时,但每个文本提示只能进行一次。由于操作步骤是在W中执行的,因此很难以分离的方式实现细粒度的视觉效果。
  3. global(全局空间):给定的文本提示转换为输入不可知(即,潜在空间中的全局)映射方向。更适合细粒度和非纠缠的视觉操作

表1总结了上述三种方法之间的差异
在这里插入图片描述

表1。我们的三种结合StyleGAN和CLIP的方法。优化器和映射器推断出的潜在步长取决于输入图像,但每个文本提示只进行一次训练。全局方向方法需要一次性预处理,然后可以应用于不同的(图像、文本提示)对。时间适用于单个NVIDIA GTX 1080Ti GPU。

4. 潜在优化

给定一个源代码w∈ W+和自然语言的指令或文本提示t,我们解决以下优化问题:
在这里插入图片描述
在这里插入图片描述

  1. 其中G是一个预训练的StyleGAN生成器,Dclip是其两个参数的CLIP嵌入之间的余弦距离
  2. 与输入图像的相似性由潜在空间中的L2距离控制
  3. identity loss:其中R是用于人脸识别的预训练ArcFace网络,<.>计算其参数之间的余弦相似性

  在图3中,我们提供了在200-300次迭代后使用此优化方法获得的一些编辑。输入图像由e4e反转[46]。请注意,视觉特征可以通过指示真实或虚构的人(碧昂丝、特朗普、艾尔莎)来明确控制(胡须、金发)或隐含控制。λl2和λID的值取决于所需编辑的性质。对于向另一个identity移动的更改,λID设置为较低的值。
在这里插入图片描述

图3。通过潜在优化获得的真实名人肖像的编辑。每次编辑的驱动文本提示和(λL2,λID)参数在相应结果下显示。

5. 潜在映射

  1. 上面描述的潜在优化是通用的,因为它对每个(源图像、文本提示)对执行专用优化。
  2. 编辑单个图像需要几分钟的优化,而且该方法对其参数值有些敏感。

  下面,我们描述一个更有效的过程,其中针对特定文本提示t训练映射网络,以针对任何给定的潜影嵌入w在w+空间中推断操作步骤Mt(w)∈ W

  体系结构:我们的文本引导映射器的架构如图2所示。已经证明,不同的StyleGAN层负责生成图像中不同层次的细节[18]。因此,通常将层分为三组(粗、中、细),并使用(扩展)潜在向量的不同部分为每组输入。
在这里插入图片描述

图2。我们的文本引导映射器的体系结构(在本例中使用文本提示“惊奇”)。源图像(左)被反转为潜在代码。训练三个单独的映射函数来生成残差(蓝色),这些残差被添加到目标代码中,经过预训练的样式(绿色)从中生成图像(右侧),通过剪辑和身份丢失进行评估。

  我们设计了相应的映射器,有三个完全连接的网络,每个组/部分一个。这些网络的架构都与StyleGAN映射网络的架构相同,但层次较少(在我们的实现中是4层而不是8层)。将输入图像的潜在代码表示为w=(wc,wm,wf),映射器的定义如下
在这里插入图片描述
  请注意,可以选择只训练三个映射器中的一个子集。在某些情况下,保留某些属性级别并固定相应条目中的样式代码是很有用的。

  损失:我们的映射器经过训练,可以操作文本提示t所指示的图像的所需属性,同时保留输入图像的其他视觉属性。剪辑丢失LCLIP(w)引导映射器最小化剪辑潜在空间中的余弦距离:
在这里插入图片描述
  其中G再次表示预训练的StyleGAN生成器。为了保持原始输入图像的视觉属性,我们在潜在空间中最小化操作步骤的L2范数。最后,对于需要标识保留的编辑,我们使用等式(2)中定义的标识丢失。我们的总损失函数是这些损失的加权组合:
在这里插入图片描述
  如前所述,当编辑需要更改标识时,我们不使用标识丢失。我们在本文示例中使用的参数值为λL2=0.8,λID=0.1。除了图9中的“特朗普”操作之外,我们使用的参数值是λL2=2,λID=0。
  在图4中,我们提供了几个头发样式编辑示例,其中每个列中使用了不同的映射器。在所有这些示例中,映射器成功地保留了身份以及与头发无关的大多数其他视觉属性。注意,产生的头发外观适合个人;这在“卷发”和“山猫发型”编辑中尤为明显。
在这里插入图片描述

图4。使用我们的映射器编辑发型。驱动文字提示显示在每列的下方。所有输入图像都是真实图像的反转。

  应注意,文本提示一次不限于单个属性。图5显示了头发属性的四种不同组合,直发/卷发和短发/长发,每种组合都会产生预期的结果。我们所知的任何以前的方法都没有证明这种程度的控制。
在这里插入图片描述

图5。使用单个映射器控制多个属性。每个映射器的驱动文本显示在每列下面。

  由于潜在映射器为每个输入图像推断定制的操作步骤,因此有趣的是检查潜在空间中的步骤方向在不同输入上的变化程度。为了测试这一点,我们首先使用e4e[46]反转CelebA HQ[28,15]的测试集。接下来,我们将反转的潜在代码输入到多个经过训练的映射器中,并计算所有操作方向对之间的余弦相似性。
  表2中报告了每个映射器的余弦相似性的平均值和标准偏差。该表显示,即使映射器推断出适用于输入图像的操作步骤,但在实践中,给定文本提示的这些步骤的余弦相似性很高,这意味着它们的方向并不像人们预期的那样不同。
在这里插入图片描述

表2。从使用不同文本提示训练的映射器获得的操作方向之间的平均余弦相似性。

6. 全局方向

  虽然潜在映射器允许快速推理时间,但我们发现,当需要细粒度的分离操作时,它有时会出现不足。此外,正如我们所看到的,对于给定的文本提示,不同操作步骤的方向趋于相似。
  受这些观察结果的启发,在本节中,我们提出了一种将文本提示映射到StyleGAN样式空间s中单个全局方向的方法,该方法已被证明比其他潜在空间更为清晰[50]。

  让 s∈S 表示样式代码,G(s) 表示相应的生成图像。 给定指示所需属性的文本提示,我们寻求操作方向 ∆s,使得 G(s+α∆s) 产生引入或放大该属性的图像,而不会显着影响其他属性。 操纵强度由α控制。 我们的高级想法是首先使用 CLIP 文本编码器在 CLIP 的联合语言-图像嵌入中获得一个向量 Δt,然后将该向量映射到 S 中的操纵方向 Δs。从自然语言中获得一个稳定的 Δt, 使用提示工程,如下所述。 然后通过评估每个风格通道与目标属性的相关性来确定相应的方向 ∆s。

  更正式地,用 I 表示 CLIP 联合嵌入空间中图像嵌入的流形,用 T 表示其文本嵌入的流形。 我们区分这两个流形,因为它们之间没有一一对应的关系:一张图像可能包含大量的视觉属性,很难用一个单一的文本句子来全面描述; 相反,一个给定的句子可能描述许多不同的图像。 在 CLIP 训练过程中,所有的嵌入都归一化为一个单位范数,因此只有嵌入的方向包含语义信息,而范数可能会被忽略。 因此,在 CLIP 空间的训练有素的区域中,我们期望 T 和 I 流形上对应于相同语义变化的方向大致共线(即具有较大的余弦相似度),并且在归一化后几乎相同。

  给定一对图像 G(s) 和 G(s+α∆s),我们分别用 i 和 i+∆i 表示它们的 I 嵌入。 因此,CLIP 空间中两幅图像之间的差异由Δi 给出。 给定编码为 Δt 的自然语言指令,并假设 Δt 和 Δi 之间存在共线性,我们可以通过评估每个通道与方向 Δi 的相关性来确定操纵方向 Δs。

  从自然语言到语言∆t:为了减少文本嵌入噪声,Radfordet al。 [34] 利用一种称为提示工程的技术,将几个具有相同含义的句子输入文本编码器,并平均它们的嵌入。 例如,对于 ImageNet 零镜头分类,使用了一组 80 个不同的句子模板,例如“a 的坏照片{}”、“a 的裁剪照片”、“a 的黑白照片” {}”和“a的一幅画{}”。 在推理时,目标类会自动替换到这些模板中,以构建一组具有相似语义的句子,然后对其嵌入进行平均。 与使用单个文本提示相比,此过程将零样本分类准确度提高了 3.5%。

  同样,我们也使用提示工程(使用相同的 ImageNet 提示库)来计算 T 中的稳定方向。具体来说,我们的方法应该提供目标属性的文本描述和相应的中性类。 例如,在处理汽车图像时,目标属性可能被指定为“一辆跑车”,在这种情况下,相应的中性类可能是“一辆汽车”。 然后应用提示工程为目标和中性类生成平均嵌入,并将两个嵌入之间的归一化差异用作目标方向 Δt。

  渠道关联:接下来,我们的目标是构建一个风格空间操作方向 ∆s,它会产生一个变化 ∆i,与目标方向 ∆t 共线。 为此,我们需要评估 S 的每个通道 c 与 CLIP 联合嵌入空间中给定方向 Δi 的相关性。 我们生成一组风格代码s∈S,并通过添加一个负值和一个正值来仅扰动每个风格代码的c通道。 用 ∆ic 表示生成的图像对之间的 CLIP 空间方向,通道 c 与目标操作的相关性被估计为 ∆ic 到 ∆i 的平均投影:

在这里插入图片描述
  在实践中,我们使用 100 个图像对来估计均值。 我们生成的图像对由 G(s±αΔsc) 给出,其中 Δsc 是零向量,除了它的 c 坐标,它被设置为通道的标准偏差。 扰动的幅度设置为α= 5。

  估计了每个通道的相关性 Rc 后,我们忽略 Rc 低于阈值 β 的通道。 该参数可用于控制操作中的解缠程度:使用较高的阈值会导致更多的解缠操作,但同时会降低操作的视觉效果。 由于各种高级属性,例如年龄,涉及几个低级属性(例如,白发、皱纹和肤色)的组合,因此多个通道是相关的,在这种情况下,降低阈值可能更可取, 如图 6 所示。 据我们所知,以这种方式控制解开程度的能力是我们的方法所独有的。
在这里插入图片描述

图 6. 由提示“灰发”驱动的图像处理,用于不同的操作强度和解缠结阈值。 沿着 ∆s 方向移动,会使头发颜色变得更灰,而在 -∆s 方向上移动会产生更深的头发。 随着强度α的增加,效果变得更强。 当解缠结阈值β高时,仅影响头发颜色,而当β降低时,其他相关属性,例如皱纹和脸型也会受到影响。

  总之,给定 CLIP 空间中的目标方向 Δi,我们设置
在这里插入图片描述
  图 7 和图 8 显示了在人脸、汽车和狗的图像上按照如上所述确定的文本驱动操作方向进行的各种编辑。 图 7 中的操作使用在 FFHQ [18] 上预训练的 StyleGAN2 执行。 输入是真实图像,使用 e4e 编码器嵌入 W+ 空间 [46]。 该图展示了对 18 个属性的文本驱动操作,包括复杂的概念,例如面部表情和发型。 Figure8 中的操作使用在 LSUN 汽车 [53](真实图像)上预训练的 StyleGAN2 和在 AFHQ 狗 [5] 上预训练的 StyleGAN2-ada [17] 生成的图像。

在这里插入图片描述

图 7. 沿全局方向驱动操作方向的各种编辑,在名人肖像上展示。 使用在 FFHQ [18] 上预训练的 StyleGAN2 进行编辑。 输入是真实图像,使用 e4e 编码器嵌入 W+空间 [46]。 文本提示中使用的目标属性显示在每列上方。

在这里插入图片描述

图8。沿全局文本驱动操作方向进行的各种编辑。左:在LSUN汽车上使用预先训练过的StyleGAN2[53]。右图:在AFHQ犬身上使用预先训练过的StyleGAN2 ada[17]。文本提示中使用的目标属性显示在每列的上方。

7. 对比与评价

  现在,我们将比较前几节中介绍和分析的三种方法,并将它们与其他方法进行比较。我们处理的所有真实图像都使用e4e编码器反转[46]。

  文本驱动的图像处理方法:我们首先比较图 9 中的几种文本驱动的面部图像处理方法。 我们比较了我们的潜在映射器方法(第 5 节)、我们的全局方向方法(第 6 节)和 TediGAN [51]。 对于 TediGAN,我们使用作者的官方实现,该实现最近已更新为利用 CLIP 进行图像处理,因此与他们论文中介绍的方法有些不同。 我们不包括第 4 节中介绍的优化方法的结果,因为它对超参数的敏感性使其耗时,因此不可扩展。
在这里插入图片描述

图9。我们比较了三种使用StyleGAN和CLIP的方法,它们使用了三种不同的属性。

  我们使用三种属性进行比较,从复杂但具体(例如“特朗普”)、不太复杂和不太具体(例如“莫霍克”)到更简单和更常见(例如“没有皱纹”)。复杂的“特朗普”操作,涉及金发、眯眼、张大嘴巴、有点肿的脸和特朗普的身份等几个属性。虽然全局潜在方向能够捕捉到不是特朗普特有的主要视觉属性,但它无法捕捉到特定的身份。相比之下,潜在映射器更成功。 “莫霍克发型”是一个不太复杂的属性,因为它只涉及头发,并不那么具体。因此,我们的两种方法都能够产生令人满意的操作。全局方向产生的操纵不太明显,因为 CLIP 空间中的方向是平均方向。最后,对于“无皱纹”提示,全局方向成功去除皱纹,同时保持其他属性基本不受影响,而映射器失败。我们将此归因于 W+ 不那么纠结。我们在另一组属性(“奥巴马”、“愤怒”、“胡子”)上观察到了类似的行为。 我们得出结论,对于复杂和特定的属性(尤其是那些涉及身份的属性),映射器能够产生更好的操作。对于更简单和/或更常见的属性,全局方向就足够了,同时提供更多解开的操作。 我们注意到 TediGAN 产生的结果在图 9 所示的所有三种操作中都失败了。

  其他 StyleGAN 操作方法:在图 10 中,我们展示了我们的全局方向方法与几种最先进的 StyleGAN 图像操作方法之间的比较:GANSpace [13]、InterFaceGAN [41] 和 StyleSpace [50]。该比较仅检查所有比较方法能够操作的属性(性别、白发和口红),因此它不包括我们的方法启用的许多新颖操作。由于所有这些都是通用属性,因此我们在此比较中不包括我们的映射器。继吴等人。 [50],选择操作步骤强度,使得它在相应分类器(在 CelebA 上预训练)的 logit 值中引起相同量的变化。

   可以看出,在 GANSpace [13] 中,操纵与肤色和光照纠缠在一起,而在 InterFaceGAN [41] 中,身份可能会发生显着变化(在操纵 Lipstick 时)。我们的操作与 StyleSpace [50] 非常相似,它只更改目标属性,而所有其他属性保持不变。
在这里插入图片描述

图10。与根据预训练属性分类器使用相同操作量的最新方法进行比较。

  在补充材料中,我们还展示了与最先进的非线性方法 StyleFlow [1] 的比较。 尽管 StyleFlow 同时使用多个属性分类器和回归器(来自 Microsoft 人脸 API),但我们的方法产生了类似质量的结果,因此可以操纵有限的属性集。 相比之下,我们的方法不需要额外的监督。

  局限性。我们的方法依赖于预训练的 StyleGAN 生成器和用于联合语言视觉嵌入的 CLIP 模型。 因此,不能期望将图像处理到它们位于预训练生成器域之外的点(或保留在域内,但位于生成器覆盖较少的区域中)。 类似地,映射到图像未充分填充的 CLIP 空间区域的文本提示不能产生忠实反映提示语义的视觉操作。 我们还观察到,很难在视觉上多样化的数据集中进行剧烈的操作。 例如,虽然老虎很容易变成狮子(见图 1),但我们在将老虎变成狼时却不太成功,如补充材料所示。
在这里插入图片描述

使用我们的全局方向有时很难在视觉上多样化的数据集中进行剧烈的操作。 在这里,我们使用在 AFHQ wild [5] 上预训练的 StyleGAN-ada [17],其中包含狼、狮子、老虎和狐狸。 老虎和狮子之间的域差距较小,主要涉及颜色和纹理转换。 然而,老虎和狼之间存在更大的领域差距,这除了颜色和纹理变换之外,还涉及更剧烈的形状变形。 该图表明,我们的全局方向方法在将老虎转变为狮子方面更为成功,但在某些情况下未能将老虎转变为狼。 “+”和“++”分别表示中等和较强的操纵强度。

总结

  我们介绍了三种新颖的图像处理方法,它们结合了StyleGAN强大的生成能力和CLIP非凡的视觉概念编码能力。我们已经证明,这些技术可以实现多种独特的图像处理,其中一些是依靠注释数据的现有方法无法实现的。我们还演示了CLIP提供了细粒度的编辑控件,例如指定所需的发型,而我们的方法能够控制操纵强度和解开程度。总之,我们相信文本驱动操作是一种强大的图像编辑工具,其能力和重要性只会继续增长。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

论文阅读 StyleCLIP:《StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery》 的相关文章

随机推荐

  • Android OpenCV环境搭建与Demo展示

    title Android OpenCV环境搭建与Demo展示 tags Opencv date 2020 2 02 00 53 00 最终效果 视频展示 https www bilibili com video av86393649 An
  • (一)树莓派Pico用micropython实现LED闪烁

    方法一 这段代码使用MicroPython来控制Pico开发板上的板载led 引脚为25 GPIO 25 来控制LED的闪烁 如果需要控制外接led模块 请确保将LED正确连接到Pico开发板的引脚 并根据需要进行相应的调整 首先 通过 i
  • Docker : docker: Error response from daemon: user specified IP address is supported on user defined

    1 美图 2 背景 想运行docker容器的时候 指定ip 但是发现出问题 base lcc lcc docker run d name es2 ip 172 16 12 12 p 9200 9200
  • 如何将你的iOS应用成功上架App Store(图文详解)

    上架基本需求资料 1 苹果开发者账号 如还没账号先申请 苹果开发者账号申请教程 2 开发好的APP 通过本篇教程 可以学习到ios证书申请和打包ipa上传到appstoreconnect apple com进行TestFlight测试然后提
  • “北漂”小夫妻新婚后的理财计划

    北漂 小夫妻新婚后的理财计划 提要 经过多年的努力打拼 1976 年出生的姜帆终于在京城站稳脚跟 做上了一家大公司的业务主管 今年 十一 国庆节还 和谈了多年马拉松恋爱的女友举行了婚礼 面对婚后新形势下几个令他烦恼的家庭理财目标 他该如何应
  • VNC VIEWER 连接闪退不断重新连接的解决办法

    1 vnc viewer官网下载standalone 2 vnc链接 3 连接后不断闪退 又不断重连 根本无法进行任何操作或操作困难 解决办法 1 2 点击properties 3 点击options general 调低画质
  • C语言好题解析(一)

    目录 选择题1 选择题2 选择题3 选择题4 编程题一 选择题1 执行下面程序 正确的输出是 int x 5 y 7 void swap int z z x x y y z int main int x 3 y 8 swap printf
  • 在Linux上面进行远程git的数据拉取与上传

    1 安装git sudo apt get update sudo apt get install git 2 查看本地git信息 git version 3 在当前路径下创建一个本地git仓库 sudo git init 4 上传当前的文件
  • TIM输出比较

    以下内容均来自 bilibili江协科技 OC输出比较 输出比较可以通过CNT与CCR寄存器值的关系 来对输出电平进行置1 置0或翻转的操作 用于输出一定频率和占空比的PWM波形 每个高级定时器和通用定时器都拥有4个输出比较通道 高级定时器
  • 正负号 substr java_实战LeetCode 系列(一) (题目+解析)

    1 反转字符串 编写一个函数 其作用是将输入的字符串反转过来 示例 1 输入 hello 输出 olleh 示例 2 输入 A man a plan a canal Panama 输出 amanaP lanac a nalp a nam A
  • 8.性能测试流程及策略

    8 性能测试流程及策略 一 准备工作 1 系统基础功能验证 性能测试在什么阶段适合实施 切入点很重要 一般而言 只有在系统基础功能测试验证完成 系统区域稳定的情况下 才会进行性能测试 否则性能测试是无意义的 2 测试团队组建 根据项目的具体
  • 高防cdn有什么优势?

    CDN即内容分发网络 通过在网络上各处放置节点服务器 来协助网站进行缓存 当用户访问网站时 就近分配节点为用户提供服务 从而加快访问速度 提升用户体验 但是普通的cdn并没有防御能力 那么这时就需要用到高防cdn来应对网络上的攻击 下面为大
  • Matlab:从文本文件中读取数值数据到矩阵

    Matlab 从文本文件中读取数值数据到矩阵 在Matlab中 我们常常需要将保存在文本文件中的数值数据读取到程序中 以便进行数据处理和分析 本文将介绍如何使用Matlab将文本文件中的数值数据导入到矩阵中 首先 我们需要创建一个文本文件
  • pandas-新手使用教程

    Pandas 是 Python 语言的一个扩展程序库 用于数据分析 下面将针对该模块进行讲解 一 导入模块 导入pandas模块 import pandas as pd 二 导入数据 常见用法 创建数据框 pd DataFrame 从CSV
  • C# --- Case Study

    C Case Study C Mongo数据库事务的应用 C 如何解析Json文件并注入MongoDB C MongoDB如何安全的替换Collection C netcore MVC项目框架结构 with MongoDB
  • 积分获取方式的两点优化建议

    积分获取是积分体系运营中的一个重要环节 也是针对用户运营的一个开端 如果积分获取做的不到位 那么商家就没法对用户的行为进行引导 也就没法实现商家的预期目标 整个积分体系就相当于白忙活了 这一点商家要特别的注意 在积分体系运营中 商家对于积分
  • 网课-cnn

    图像识别中遇到的问题可能有图片特征的纬度过高 1000 1000像素的图片 特征维度是1000 1000 3 如果你要输入3百万的数据量就意味着特征向量的维度高达三百万 也许有1000个隐藏单元 而所有的权值组成的矩阵W 1 如果使用标准的
  • git第一次配置ssh key,clone代码出错解决方法

    错误 The authenticity of host can t be established ED25519 key fingerprint is SHA256 k4ViHJBFryacGI BqHphyjDBaRLwt5eSGRMJG
  • vue table合并行 动态列名

    需求 1 合并行 相同数据合并 2 根据后端返回数据动态显示列名 我这个业务需求是 每年增加一列 也就是列名不是固定的 后端返回数据每年会多一条数据 根据返回数据显示列名 实现 html
  • 论文阅读 StyleCLIP:《StyleCLIP: Text-Driven Manipulation of StyleGAN Imagery》

    论文地址 https arxiv org pdf 2103 17249 pdf 文章目录 摘要 1 介绍 2 相关工作 2 1 视觉与语言 2 2 潜空间图像处理 3 StyleCLIP文本驱动操作 4 潜在优化 5 潜在映射 6 全局方向