MSDN:Mutually Semantic Distillation Network for Zero-Shot Learning 中文版 待更新

2023-12-19

在这里插入图片描述

摘要

零样本学习(ZSL)的关键挑战是如何将潜在的语义知识融合在可见类的视觉特征和抽象特征之间,从而实现向不可见类的横向知识转移。之前的工作要么只是将图像的全局特征与其相关的类语义向量对齐,要么利用单向注意力来学习有限的潜在语义表示,这无法有效地发现视觉特征和属性特征之间的内在语义知识(如属性语义)。为了解决上述难题,我们提出了一个相互语义蒸馏网络(MSDN),它逐步蒸馏视觉和属性特征之间的内在语义表示,用于ZSL。MSDN 包含一个属性→视觉注意力子网络,学习基于属性的视觉特征,以及视觉→属性注意力子网,学习基于视觉的属性特征。通过进一步引入语义蒸馏损失,两个相互关注的子网络能够在整个训练过程中协同学习并相互教学。拟议的MSDN在强大的基线基础上取得了重大改进,在三个流行的具有挑战性的基准上取得了新的最先进性能。我们的代码可以在以下网址获得:https://github.com/shiming-chen/MSDN.

1.Introduction

最近,深度学习在目标识别方面取得了成就[12,39,40]。基于已见类别的事先知识,人类具有使用可见和不可见类别的共享和独特属性来识别新概念(类别)的卓越能力[17]。受此认知能力的启发,零样本学习(ZSL)在具有挑战性的图像分类设置下被提出,以模仿人类的认知过程[19,28]。ZSL旨在通过将语义知识从可见类转移到不可见类来解决不可见类别的识别问题。它通常基于以下假设:可见和不可见类别都可以通过共享语义描述(例如属性)来描述[18]。根据模型在测试阶段看到的类别,ZSL方法可分为传统ZSL(CZSL)和广义ZSL(GZSL)[44],其中CZSL旨在预测不可见类别,而GZSL可以预测可见和不可见类别。

ZSL已经取得了显著的进展,许多努力集中在基于嵌入的方法、生成方法和基于共同空间学习的方法上。如图2(a)所示,基于嵌入的方法旨在学习视觉→语义映射,将视觉特征映射到语义空间以进行视觉-语义交互[2,4,5,32,46,48]。基于嵌入的方法通常在GZSL设置下对可见类有较大的偏见,因为嵌入函数仅通过可见类样本学习。为了解决这个问题,提出了生成ZSL方法(参见图2(b)),旨在学习语义→视觉映射,以生成不可见类的视觉特征[3,6,8,34,35,38,43,50],从而将ZSL转化为常规分类问题。如图2(c)所示,共同空间学习学习一个共同的表示空间,其中视觉特征和语义表示都被投影以进行知识转移[7,10,23,34,37,41]。然而,它们只是利用全局特征表示,忽略了训练图像中的精细细节。

如图1所示,不可见样本与一组可见样本共享不同的部分信息,这部分信息表示为丰富的语义属性知识(例如,“喙色为黄色”、“腿色为红色”)。因此,ZSL的关键挑战是如何在可见类别上推断视觉和属性特征之间的潜在语义知识,从而实现向不可见类别的理想知识转移。最近,一些基于注意力的ZSL方法[5,25,46-48,54]利用属性描述作为指导来发现区分部分/细粒度特征,从而能够更准确地匹配语义表示。不幸的是,他们只是简单地利用单向注意力,只关注视觉和属性特征之间有限的语义对齐,而没有进行任何进一步的序列学习。因此,适当发现视觉和属性特征之间内在且更充分的语义表示(例如属性语义)对于ZSL的知识转移具有重要意义。

基于以上观察,我们提出了一种用于ZSL的互语义蒸馏网络(MSDN),如图2(d)所示,以探索视觉和属性特征之间的内在语义知识。MSDN包括一个属性→视觉注意力子网,它学习基于属性的视觉特征,和一个视觉→属性注意力子网,它学习基于视觉的属性特征。这两个相互注意力子网充当教师-学生网络,在整个训练过程中相互指导并相互学习。因此,MSDN可以探索最匹配的基于属性的视觉特征和基于视觉的属性特征,从而能够有效地提取内在语义表示,实现从可见到不可见类别的理想知识转移(图1)。具体来说,每个注意力子网都是用基于属性的交叉熵损失进行训练的[5,14,25,48,54]。为了鼓励属性→视觉注意力子网和视觉→属性注意力子网之间的相互学习,我们进一步引入了一个语义蒸馏损失,该损失对齐彼此的类后验概率。定量和定性的结果充分证明了MSDN的优势和巨大潜力。

我们的贡献总结如下:

我们提出了一个与现有ZSL方法不同的互语义蒸馏网络(MSDN),它提取了内在的语义表示,从而实现了从可见到不可见类别的有效知识转移,对于ZSL非常重要。
我们引入了一个语义蒸馏损失,使MSDN中的属性→视觉注意力子网和视觉→属性注意力子网能够相互学习。通过蒸馏内在语义知识,鼓励它们学习基于属性的视觉特征和基于视觉的属性特征,以实现语义嵌入表示。
我们进行了广泛的实验,证明我们的MSDN在三个基准数据集上取得了显著的性能提升,即CUB[42],SUN[30]和AWA2[44]。

2.Related Work

2.2.Knowledge Distillation

为了将来自大型教师网络的知识压缩到小型学生网络,提出了知识蒸馏[13]。最近,知识蒸馏被扩展到从强大的教师网络开始优化小型深度网络[29,33]。通过模仿教师的类概率和/或特征表示,蒸馏模型传达了超出常规监督学习目标的其他信息[52,53]。在这些动机的驱使下,我们设计了一个相互语义蒸馏网络,通过语义蒸馏内在知识来学习内在语义。相互语义蒸馏网络由属性→视觉注意力和视觉→属性注意力子网络组成,它们作为一个师生网络来协同学习和相互教学。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

MSDN:Mutually Semantic Distillation Network for Zero-Shot Learning 中文版 待更新 的相关文章

随机推荐

  • Dubbo怎么实现动态感知服务下线的呢?

    Dubbo是一个高性能 轻量级的开源Java RPC框架 用于服务间的远程通信 为了实现动态感知服务下线 Dubbo提供了多种策略 服务监控 Dubbo提供了内置的监控功能 通过在服务提供者上配置监控信息 可以实时监测服务状态 当服务下线时
  • AntDB-T提升查询性能的关键之查询优化解析

    查询优化器 是提升查询效率非常重要的手段 本文将主要介绍 AntDB T数据库查询优化 的相关设计 AntDB T数据库是一款企业级通用分布式关系型数据库 而查询是AntDB T数据库管理系统中最关键 最吸引人的功能之一 每个生产数据库系统
  • FAM amine, 6-isomer,1313393-44-0,含有纯6-异构体的荧光团,6-FAM NH2

    产品名称 FAM amine 6 isomer 6 FAM NH2 中文名称 6 羧基荧光素 氨基 CAS 1313393 44 0 分子式 C27H26N2O6 分子量 474 51 纯度 95 结构式 产品描述 荧光素衍生物具有胺基 含
  • 自定义WheelView

    项目中用到一个比较觉得不错的控件 WheelView 即上下滚动View 它是继承ScrollView实现 在Android各版本上的效果都是如下 也许在git上有许多这样功能的控件 但个人认为这个控件实现的方式简单 比较让人容易理解 对自
  • Zookeeper 和 Dubbo 的关系?

    Zookeeper的作用 zookeeper用来注册服务和进行负载均衡 哪一个服务由哪一个机器来提供必需让调用者知道 简单来说就是ip地址和服务名称的对应关系 当然也可以通过硬编码的方式把这种对应关系在调用方业务代码中实现 但是如果提供服务
  • java 员工绩效管理系统Myeclipse开发mysql数据库MVC结构serlvet编程计算机网页项目

    一 源码特点 java 员工绩效管理系统是一套完善的java web信息管理系统 对理解JSP java编程开发语言有帮助 系统采用serlvet dao bean 系统具有完整的源代码和数据库 系统主要采用B S模式开发 开发工具myec
  • 64.Oracle19cPDB的创建和删除

    1 创建PDB CREATE PLUGGABLE DATABASE DB CROSS ADMIN USER pdbadmin IDENTIFIED BY enmo 2023 ROLES dba DEFAULT TABLESPACE CROS
  • Linux中seLinux是什么?关闭会造成哪些影响?

    seLinux是一种安全增强型的Linux操作系统 其主要作用是强化系统的安全性和保护系统资源免受未经授权的访问和攻击 其提供了三种工作模式 分别是Disabled工作模式 Permissive工作模式和Enforcing工作模式 那么Li
  • CNN和TCN的区别和联系

    CNN 卷积神经网络 和TCN 时间卷积网络 都是神经网络的变体 用于处理不同类型的数据 以下是它们的主要区别和联系 区别 应用领域 CNN 主要用于处理图像数据 具有在空间维度上捕捉局部特征的能力 常用于计算机视觉任务 TCN 主要用于处
  • Python中的定时器用法:Timer定时器和schedule库

    目录 一 引言 二 Timer定时器 1 Timer定时器的原理 2 Timer定时器的使用方法 3 Timer定时器的实际应用案例 三 schedule库 1 schedule库的原理 2 schedule库的使用方法 3 schedul
  • 62.$ORACLE_HOME/.patch_storage是否可以删除

    1 此目录为是Oracle打补丁时被替换的文件的备份 是的 即使成功安装了补丁程序 也必须保留 ORACLE HOME patch storage目录 1 将临时补丁应用到Oracle主目录时 OPatch将补丁信息存储在 ORACLE H
  • Linux-----13、用户、组

    用户 组 一 用户管理 用户概念及作用 了解 用户 指的是Linux操作系统中用于管理系统或者服务的人 一问 管理系统到底在 管理什么 答 Linux下一切皆 文件 所以用户管理的是相应的文件 二问 如何管理 文件呢 答 文件基本管理 比如
  • 宿主机和容器

    宿主机 Host 和容器 Container 是 Docker 中的两个重要概念 描述了 Docker 环境中的两个主要部分 宿主机 Host 宿主机是指安装了 Docker 引擎 Docker Engine 的物理计算机或虚拟机 它是 D
  • 从 MySQL 到 DolphinDB,Debezium + Kafka 数据同步实战

    Debezium 是一个开源的分布式平台 用于实时捕获和发布数据库更改事件 它可以将关系型数据库 如 MySQL PostgreSQL Oracle 等 的变更事件转化为可观察的流数据 以供其他应用程序实时消费和处理 本文中我们将采用 De
  • VSCode 代码高亮 变量类型、函数名、类名没有颜色 - 设置主题即可

    https zhuanlan zhihu com p 630401039 之前应该设置主题了 但不知道为啥C 里面只有 int 有高亮 其他像 cv Mat 函数名 类名都没有颜色 解决方案是重新设置一下主题 File preference
  • 使用SQL和Python处理Excel文件数据

    目录 一 引言 二 使用SQL查询Excel文件数据 1 导入必要的库 2 创建数据库连接 3 读取Excel文件数据 4 将数据写入数据库 5 使用SQL查询数据 三 使用Python读取和处理Excel文件数据 1 导入必要的库 2 读
  • ES elasticsearch-analysis-dynamic-synonym连接数据库动态更新synonym近义词

    ES elasticsearch analysis dynamic synonym连接数据库动态更新synonym近义词 修改源码实现连接数据库获取近义词汇 下载elasticsearch analysis dynamic synonym打
  • 移动端界面布局适配方案

    自适应和响应式 1 自适应 根据不同的设备大小来自动调整尺寸 大小 2 响应式 会随着屏幕的实时变动而自动调整 是一种自适应 移动端视口 能看到的区域就是视口 viewport fixed就是相对于视口来进行定位的 在PC端视口就只有一个
  • 基于SpringBoot+Vue的智慧校园之家长子系统设计实现(源码+lw+部署文档+讲解等)

    文章目录 前言 详细视频演示 具体实现截图 技术栈 后端框架SpringBoot 前端框架Vue 持久层框架MyBaitsPlus 系统测试 系统测试目的
  • MSDN:Mutually Semantic Distillation Network for Zero-Shot Learning 中文版 待更新

    摘要 零样本学习 ZSL 的关键挑战是如何将潜在的语义知识融合在可见类的视觉特征和抽象特征之间 从而实现向不可见类的横向知识转移 之前的工作要么只是将图像的全局特征与其相关的类语义向量对齐 要么利用单向注意力来学习有限的潜在语义表示 这无法