【论文精读】The Missing Link: Finding label relations across datasets

2023-10-26

一、背景 & 概要

和之前其他论文工作不同的是,论文的主要目的是探究不同数据集间标签的关系,而不是将其合并。论文中提到的关系是identity、parent/child、overlap。为了探究这些关系,提出了几种方法:基于language、基于vision、基于两者。
关系:

  1. identity:相等。一个数据集中的标签a和另一个数据集中的标签b有相同的视觉概念,如ADE20k中的sofa和COCO中的couch。
  2. Parent/child:子标签的关系,比如ADE20k中的animal和COCO中的cow
  3. Overlap:两个标签有重叠但不相同,比如ADE20k中的floor和COCO中的rug-merged,都描述了覆盖地面的地毯,但floor包括了木质地板这种不属于rug-merged的,rug-merged包括了不在地上的地毯。

二、方法

探索关系的几种方式

2.1 视觉方式

在这里插入图片描述
在数据集A上训练的pA预测数据集B的实例ib,预测标签名a得到预测集合pA(a|ib),共预测了nb个实例,将这些probability平均一下得到Sa->b, 同样的方法得到Sb->a,然后两者平均得到最终分数Ra,b=(Sa->b+Sb->a)/2。通过限制阈值Ra,b得到标签a和标签b的关系。
使用了两种不同的预测模型pA(a|ib):
Pixel Probabilities:使用A数据集上的分割模型预测B。我们平均实例所有像素的概率值。
Visual Embeddings:A和B使用相同的分割模型(A上训练的),其模型不带分类头,提取A和B上的feature。
训练细节这里不做表述。

2.2 关系类型

理论集合set theory 如一中表述,这里关系是基于两个假设,1、标签a和标签b中仅有一种关系(如果有实例会被预测为a和b)2、相同数据集的标签是无交集的
关系为identity、parent/child、overlap。
在这里插入图片描述

关系不对称Score Asymmetry比如animal的分类器会给cat这个实例高分,但cat分类器不会给animal高分,所以大的不对称性表示了这两个是parent-child关系,具体判断如下:
在这里插入图片描述

2.3 使用语言预测关系类型

WordNet和Word2Vec。
WordNet

  1. 如果a和b可以映射到同一个同义词集,则为identity相等关系。
  2. 如果a的同义词集是b的同义词集的祖先,则a是b的parent,即b是a的child。
  3. 如果a和b共享至少一个后代,则他们处于重叠关系,比如WordNet中truck和car重叠,因为他们都有一个后代minivan。
  4. 其他a和b情况,估计两个同义词集之间的路径相似性,基于他们最近的共同祖先的接近程度。如果分类a和b有关系就加1,会产生一个稠密矩阵R(会发现identity强度为2,parent/child关系为1到2之间,其余在0和1之间)

Word2Vec
Word2Vec之前在wikipedia上训练,产生500d的向量,通过cosine similarity计算向量间相似度,因为这是一个非对称的关系,只能通过2.2中的set theroy来确定关系类型

2.4 视觉和文本一起探索关系

加了一些物理逻辑来提高准确率。
会将2.1得到的Ra,b加个系数n。
如果WordNet中a和b是identity关系,那通过系数n放大阈值T;同样的如果是parent/child关系,会通过系数n缩小阈值T。

3. 评测

MSeg是2020年的一篇分割领域的论文,合并分割领域的几个数据集并进行人工合并标注。
评测方式: 1)将A和B两个数据集都映射到MSeg的空间内,分别建立与MSeg的关系,并手动检查这些关系是否正确。2.1中的图像关系预测几乎都是对的。2)通过MSeg来确定A和B标签的关系,如A标签和MSeg标签相等,且MSeg标签与B标签相等,则A和B标签是相等关系,以此类推parent/child关系等。3)量化标准:通过预测置信率对所有可能的标签对进行排序,并计算PR曲线和AUC,这里为二分类,是否有关系。最后的acc为各个关系结果的平均值。
评测数据集: ADE20k、COCO panoptic、Berkeley Deep Drive
结论:

  1. 使用2.2的理论集合推导,手动调查关系,发现这个阶段几乎不需要人工矫正,唯一的例外是一些关系被更改为部分关系,这是理论集合无法自动生成的。
  2. 通过precision-recall曲线表明,基于视觉的比基于语言的好,基于语言的中WordNet比Word2Vec好(因为Word2Vec对于语义相关的标签给予高分)。
    在这里插入图片描述
    在这里插入图片描述
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【论文精读】The Missing Link: Finding label relations across datasets 的相关文章

随机推荐

  • C#中结构体排序方法(Array.sort() + ICompare)

    感觉C 比C 麻烦许多 资料也少 找了半天竟然没有找到一个能用的结构体排序 这是待排序的结构体 public struct la public int id public int sb 首先 C 需要调用一个空间 类似头文件 using S
  • 自学移动端(APP)自动化测试

    国庆已经过去了 新的一周已经开始了 各地疫情又开始出现复发了 我们能做的就是做好个人防护 去哪报备 到哪扫码亮码 主动做核酸 随时做好家里存储至少一周的食物 拒绝过度防疫 拒绝过度恐慌 拒绝过度焦虑 有工作的最起码还有钱能到手 没有工作的可
  • 万字长文深度剖析AIGC技术!(网络架构&自监督)

    作者 派派星 编辑 CVHub 点击下方卡片 关注 自动驾驶之心 公众号 ADAS巨卷干货 即可获取 点击进入 自动驾驶之心 全栈算法 技术交流群 前景回顾 Welcome to back 在 万字长文带你解读AIGC入门篇 一文中 我们详
  • 计算机网络生活应用,浅谈计算机网络在生活中的应用

    摘要 进入21世纪科技高速发展 特别是计算机网络的进一步发展 计算机的应用更为普遍 计算机网络的应用已经渗透到社会的各个领域 正在日益改变着传统的工作 学习和生活的方式 推动着社会的科技发展 资源的共享 通信 这两种计算机网络最基本的功能在
  • elementUI的表格多选功能之规定禁止选择

    elementUI的el table表格多选功能之禁用多选 在进行表格的多选的时候我们会碰到那种 只允许部分内容可以被选择 不符合的要禁用多选框 这个时候就要用到elementUI el table的selectable 所以我们可以这样写
  • mysql导入sql文件、数据库时报错ERROR: ASCII '\0' appeared in the statement

    window环境下mysql导入sql文件时报错 ERROR ASCII 0 appeared in the statement 错误原因 文件编码不正确 解决办法 下载UltraEdia对文件进行转码 如果是使用powershell导出的
  • 计算机网络笔记整理2——物理层

    点此链接可跳转到 计算机网络笔记整理 目录索引页 参考书籍 计算机网络 第八版 谢希仁编著 文章目录 点此链接可跳转到 计算机网络笔记整理 目录索引页 物理层的基本概念 物理层接口的基本特性 数据通信的基础知识 信道的极限容量 信道能够通过
  • AODV协议概述

    AODV是由Nokia研究中心的Charles E Perkins和加利福尼亚大学Santa Barbara的Elizabeth M Belding Roryer以及Cincinnati大学Samir R Das等共同开发 已经被 IETF
  • JDBC总结

    JDBC 规范 Java DataBase Connectivity 标题 JDK 提供 Java链接数据库的规范 采用JDBC访问数据库的基本步骤 A 载入JDBC驱动程序 B 定义连接URL C 建立连接 D 创建Statement对象
  • 光纤工程的接续、施工与测试技术规范及要点

    1 光纤接续 1 光纤接续 光纤接续应遵循的原则是 芯数相等时 要同束管内的对应色光纤对接 芯数不同时 按顺序先接芯数大的 再接芯数小的 2 光纤接续的方法有 熔接 活动连接 机械连接三种 在工程中大都采用熔接法 采用这种熔接方法的接点损耗
  • 【Unity研究】进程、线程、对象池的关系

    目录 简要概括 名词解释 实例 进程 线程 对象池 实际使用 对象池实际操作 含代码 建立主线程以外的线程方法 在主线程中运行的生命周期 在副线程中运行的生命周期 简要概括 正在运行的Unity游戏就可以看做一个进程的实例 线程是进程内的执
  • 一种信息系统免疫安全防护架构

    摘 要 随着网络的快速发展 各类社会活动的信息化日益普及 但是网络安全威胁也更加复杂多变 使得信息系统处于安全威胁风险极高的环境中 严重威胁信息的共享和获取 针对核心信息系统的安全防护 提出了一种信息系统免疫安全防护架构 针对信息系统高可用
  • c语言 水仙花数

    水仙花数是指一个N位正整数 N 3 它的每个位上的数字的N次幂之和等于它本身 本题要求编写程序 计算所有N位水仙花数 输入格式 输入在一行中给出一个正整数N 3 N 7 输出格式 按递增顺序输出所有N位水仙花数 每个数字占一行 输入样例 3
  • mysql数据库设置远程连接权限,执行grant all privileges on *.* to 'root'@'%' identified by '密码' with grant optio报错

    mysql数据库设置远程连接权限 执行grant all privileges on to root identified by 密码 with grant optio报错 ERROR 1558 HY000 Column count of
  • 华为OD机试 - 字符个数统计(C++ & Java & JS & Python)

    目录 描述 输入描述 输出描述 示例1 示例2 C python Java 描述 编写一个函数 计算字符
  • linux AIO (异步IO) 那点事儿

    在高性能的服务器编程中 IO 模型理所当然的是重中之重 需要谨慎选型的 对于网络套接字 我们可以采用epoll 的方式来轮询 尽管epoll也有一些缺陷 但总体来说还是很高效的 尤其来大量套接字的场景下 但对于Regular File 来说
  • 机器学习中的方差与偏差

    方差与偏差的定义 方差 不同的训练数据集训练出的模型输出值之间的差异 偏差 用所有可能的训练数据集训练出的所有模型的输出的平均值与真实模型的输出值之间的差异 方差与偏差的数学公式 首先 以回归为例 模型的期望预测指针对不同数据集D 模型对样
  • (三)STM32基础——GPIO介绍

    目录 GPIO简介 GPIO基本结构 GPIO位结构 输入部分 输出部分 推挽输出模式 开漏输出 编辑 开漏复用输出 编辑 八种输入输出模式 浮空 上拉 下拉输入 编辑 模拟输入 开漏 推挽输出 复用开漏 复用推挽输出 GPIO寄存器 GP
  • 【Spark ML】第 3 章:监督学习

    大家好 我是Sonhhxg 柒 希望你看完之后 能对你有所帮助 不足请指正 共同学习交流 个人主页 Sonhhxg 柒的博客 CSDN博客 欢迎各位 点赞 收藏 留言 系列专栏 机器学习 ML 自然语言处理 NLP 深度学习 DL fore
  • 【论文精读】The Missing Link: Finding label relations across datasets

    一 背景 概要 和之前其他论文工作不同的是 论文的主要目的是探究不同数据集间标签的关系 而不是将其合并 论文中提到的关系是identity parent child overlap 为了探究这些关系 提出了几种方法 基于language 基