ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

2023-11-10

简介

本文出自北航刘偲老师colab，使用语言结构引导上下文建模，用于Referring Image Segmentation。
下载链接

动机

解决Referring Image Segmentation的一个general想法是：首先，分别提取视觉、语言特征，然后基于多模态特征进行分割。但由于噪声的存在，很难从背景中分割出referent。这时，可以考虑使用与句子相关的、有效的多模态context来突出referent的特征，抑制背景特征。但在已有方法中，使用直接的concatenation或循环微调，缺乏显式的建模多模态上下文。有一些工作中，使用跨模态self-attention或动态滤波建模多模态上下文，但这些上下文要么是不充足的，要么是冗余的。

贡献

本文提出使用“gather-propagate-distribute”机制建模视觉语言中跨模态的上下文信息；
本文提出了Linguistic Structure guided Context Modeling (LSCM)模块，用于实现“gather-propagate-distribute”机制；
在四个benchmarks上进行了实验，均超过了SOTA，UNC (+1:58%)、UNC+(+3:09%)、G-Ref (+1:65%) 、ReferIt (+2:44%)

方法

本文方法的整体架构如下图所示，共有三个步骤：①使用CNN和LSTM分别提取视觉、语言特征，并将二者融合，获得多模态特征；②基于得到的多模态特征，使用LSCM模块（本文重点）突出referent的特征。③将得到的multi-level特征融合，预测mask。

①和③没有太多需要介绍的，主要说一下文中的步骤②，其处理过程如下图所示。Gather，基于attention map得到每个node的特征，此时，每个node中只包含它自己的上下文信息；Propagate，最初时，得到的graph是全连接的，作者使用Dependency Parsing Tree解析出文本中结点的对应关系，基于得到的Tree压制graph中的一些边，就得到的DPT-WG，在DPT-WG上做一次图卷积（后文中有实验，表明做一次图卷积的结果最优），此时，每个node均包含了sentence的上下文；Distribute，将结点特征再映射到特征图上，高亮referent的特征。

实验

在四个数据集上的实验结果：

消融实验：

图卷积层数实验：

一些可视化的实验结果：

对attention map的可视化：

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记的相关文章

如何访问模板缓存？ - 姜戈

I am 缓存 HTML在几个模板内例如 cache 900 stats stats endcache 我可以使用以下方式访问缓存吗低级图书馆例如 html cache get stats 我确实需要对模板缓存进行一些细粒度的控制有任
我该怎么做才能完全关闭与mcu的tcpClient连接？

我现在正在研究与 ESP32 中运行的 tcp 服务器的 tcp 套接字连接通信工作正常但我无法关闭连接在搜索关闭重置 tcpClient 上的解决方案后似乎关闭 tcpClient 的正确方法应该是 tcpClient GetS
主干关系有许多最佳实践

我是 Backbone 关系新手我不确定使用 HasMany 的正确方法是什么我有一个Parent模型有很多children 许多是指成千上万的孩子为了避免性能问题我通过外键查询子项 child parent 1 而不是创建一个巨
如何使用PDFBOX确定文本的人工粗体样式、人工斜体样式和人工轮廓样式

我正在使用 PDFBox 来验证 pdf 文档检查 PDF 中存在的以下类型的文本有一定要求人工粗体样式文本人造斜体样式文本人工轮廓样式文本我在 PDFBOX api 列表中进行了搜索但找不到此类 api 任何人都可以帮助我并告
R 中的网页抓取表

完全菜鸟试图抓取此页面上的表格我所能做的最远的是加载 rvest 包我的问题是我找不到合适的元素我通过检查器尝试的元素是 table w782 comm lsjz 但它返回长度为0的列表并在 html table 之后执行 gt
Kamada 和 Kawai 图形布局算法？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有人尝试过 Kamada Kawai 的 88 算法来绘制一般无向图吗如果是这样并且您知道其中的任
设置 put 的行尾字符

我有一系列想要打印的条目 Being arr数组我只是用来写 puts arr 然后我需要使用DOS格式的行尾 r n 所以我写道 arr each e print e r n 这工作正常但我想知道是否有一种方法可以指定要使用的行尾格式
如何消除按钮和其他视图之间的额外间隙？

当我创建按钮视图时 Android 总是在该按钮与其下方的其他视图之间创建一些额外的空间在下面的示例中第二个按钮上方有一个按钮您可以看到这两个按钮之间的间隙我怎样才能摆脱这个差距谢谢
PHP 命名空间 - 提升一个级别？

示例1 命名空间 Inori Test 主测试类示例2 命名空间 Inori Test SubTest SubTest 类扩展了问题有没有办法快速提升命名空间的级别以便 SubTest 可以扩展 MainTest 就像是 MainT
如果 netezza 中存在则删除

我需要一个命令来删除表如果存在 NETEZZA 类似这样的东西 drop table if exists xxx 我已经搜索并尝试了很多但没有成功你能帮我一下吗 In netezza你可以使用这个语法 drop table table
iOS 所需的设备功能自动对焦相机

我有一个 iOS 应用程序我在其中设置Required Device Capabilities配置设置需要两者still camera and auto focus camera因为它需要在具有更好的自动对焦相机传感器的新一代设备上运行
如何为单个函数设置 ICC 属性“fp-model precision”，以防止关联优化？

我正在实施卡汉求和 http en wikipedia org wiki Kahan summation algorithm 在支持 gcc47 gcc48 clang33 icc13 和 icc14 编译的项目中作为该算法的一部分我想
Kubernetes Pod 已终止 - 退出代码 137

我需要一些关于 k8s 1 14 和在其上运行 gitlab 管道所面临的问题的建议许多作业都会抛出退出代码 137 错误我发现这意味着容器突然终止集群信息库伯内特版本 1 14 使用的云 AWS EKS 节点 C5 4xLarge
用于获取有关 SVN 存储库信息的 Python 库？

我正在寻找一个可以从 SVN 存储库中提取至少以下信息的库 not工作副本修订号及其作者和提交消息每个修订版中的更改添加删除修改文件有Python库可以做到这一点吗对于作者和提交消息我可以解析 db revprops 0
创建横幅交换算法来轮播广告

我正在构建广告横幅轮播脚本基于印象整个月均匀地显示广告每次请求显示广告时都会进行计算所以这将是即时完成的广告应显示为一个接一个轮流播放而不是仅显示一个广告 1000 次展示然后显示另一个广告 1000 次展示大多数情况下它应该
将文件保存为 MYSQL 数据库中的 blob 或文件路径

我知道这些问题是常见问题之一但我需要您针对具体案例提供帮助我正在开发一个应用程序其中一些用户可以添加订单一些用户可以执行这些订单这些订单非常具体因此只有有限数量的用户可以添加它们然后为每个订单生成三个文档每个文档的大小不超
尝试从输入流检索文本时应用程序挂起

情况我确实查看了您的代码正如我怀疑的那样您的问题与您发布的代码完全无关您的 GUI 完全忽略 Swing 线程规则并在主 Swing 事件线程称为Event Dispatch T螺纹或EDT 由于该线程负责所有 Swing 绘图
Inno Setup：如何根据代码更改语言文件

我使用自己的语言文件 isl 而不是使用 Inno Setup 的默认语言文件它允许我自定义一些消息但现在我想要每种语言文件有两个版本一个用于首次安装一个用于更新但是是否可以从代码中选择一个文件如果是该怎么做也许有一些比
Android 并获取 id 转换为字符串的视图

在 Android 项目的 Java 代码中如果您想要视图资源的引用您可以执行以下操作 View addButton findViewById R id button 0 在上面的 R id button 0 不是一个字符串是否可以通
XslCompiledTransform 和自定义 XmlUrlResolver：“具有相同键的条目已存在”

有没有办法调试由自定义 XmlUrlResolver 从数据库加载的 XSLT 文档或者有人知道下面的错误消息是关于什么的吗我有一个导入通用 xslt 文档的 XSLT 样式表

随机推荐

[管理与领导-82]：IT基层管理者 - 核心技能 - 高效执行力 - 7- 高效执行的结果通过高效的过程保证

目录前言一执行前对 1 1 确保做对事 do right thing 1 目标行动的目标 2 方向行动的方向 3 需求行动是为了满足某种需求 4 指令行到受谁的指令 1 2 确定做对事的方法 1 2 1 确认 do righ
理解DOM事件流的三个阶段

本文主要解决两个问题什么是事件流 DOM事件流的三个阶段起因在学习前端的大半年来对DOM事件了解甚少一般也只是用用onclick来绑定个点击事件在寒假深入学习JavaScript时愈发觉得自己对DOM事件了解不够遂打开我的
全网最全的IDEA热部署方案，看完弄懂，再也不用加班

概念热部署就是正在运行状态的应用修改了它的源码之后在不重新启动的情况下能够自动把增量内容编译并部署到服务器上使得修改立即生效热部署为了解决的问题有两个 1 在开发的时候修改代码后不需要重启应用就能看到效果大大提升开发效率 2
python的http服务

在一个局域网中因为要传输文件给朋友所以建一个简单的http服务器自己主机作为服务器让朋友下载文件自己主机安装pyhton 到要共享的文件夹下开启HTTP服务 python m http server 9999 其他主机浏览器访问
Java实现算法“两数之和”

最近开始刷LeetCode 为了加深印象一定要写下来题目给定一个整数数组nums和一个目标值target 请你在该数组中找出和为目标值的那两个整数并返回它们的数组下标可以假设每种输入只会对应一个答案但是不能重复利用这个数组中同样
Spring设计模式，事务管理和代理模式的应用

扩充贝叶斯定理答案见底设计模式对关于面向对象问题的具体解决方案 1 单例多例在设计单例模式时要注意两个点 1 构造方法要私有 2 成员变量要私有 3 创建对象所用的方法要被synchronized修饰因为方法体中会涉及到判断当前成
Java：利用I/O流读取文件内容

要利用I O流读取文件内容首先要掌握InputStream的体系结构这个体系中FileInputStream和BufferedInputStream是一定要掌握的因为使用的频率比较高 InputStream的方法 InputStrea
爬虫简单语法

一 requests 适用于爬取静态网页 1 get requests get 参数参数可以是接收一个网址 url 在请求某个查询时在通用网址后 query 查询的内容比如在搜狗引擎中搜索 content input 请输入你要
1、基于ARM平台Golang简单Demo：交叉编译

arm平台为M3352核心板编译环境为Ubuntu14 04 目标在Ubuntu环境编译Go代码在arm平台运行每分钟打印当前时间源代码文件名 go arm cross build go package main import f
PyTorch入门（三）PyTorch常用操作

PyTorch常用操作 bilinear kernel bilinear kernel def bilinear kernel in channels out channels kernel size return a bilinear k
STM32——SysTick timer（STK）----系统定时器

系统定时器是属于Cortex内核中的一个外设所有Cortex M内核的单片机都有这个定时器 Systick定时器常用来做延时或者实时系统的心跳时钟这样可以节省MCU资源不用浪费一个定时器它是一个24位向下递减的计数器由以下四个
elastic-job 执行原理

Elastic Job执行原理 1 如果只有一个分片的情况下就是和原生的quartz一样的就是所有的任务都在一台机器上面执行 2 如果有两个分片的情况下然后5个job在两台机器上面执行机器 machine1 machine2 job
1896-2021历届奥运会奖牌榜动态排序（Matplotlib图表动画）

摘要在制作动态排序动画之前我们看一下数据的整理情况 a 对第1 种大部分数据的情况先爬取下来输出到excel 1 b 对第2 种小部分数据的情况也先爬取下来输出到另一个excel 2 c 对第3 种个别的还有第31 32届的
合适新手入门的串口屏学习分享

串口屏学习分享一串口屏简单介绍二编辑界面的详细介绍三实战演练制作串口屏键盘 1 准备工作 2 开始四总结一串口屏简单介绍串口是我们在学习编程学习单片机时经常需要的本人就是在学习32单片机时需要用到所以才深入了解
计算机怎么消除用户密码,电脑开机设置了密码要怎么删除

很多人的电脑都设置了开机密码但每次开机都要输入也会觉得麻烦怎么删除开机密码呢下面由小编为大家整理了的方法步骤希望对大家有帮助电脑删除开机密码的方法和步骤如下一如果记得自己设置的密码进行以下操作 1打开我的电脑在左则找到
Android常见的分辨率

1 1 手机常见分辨率 4 3 VGA 640 480 Video Graphics Array QVGA 320 240 Quarter VGA HVGA 480 320 Half size VGA SVGA 800 600 Super
线段检测M-LSD 已开源

其中 M LSD tiny最快能以56 8FPS和48 6FPS的速度在手机上实时运行没错现在AI在手机上给家具直线描边的速度可能比你还快网页版在线demo 为了方便效果展示作者们还推出了一个网页版demo 基于Python的fl
unity安卓平台多摄像机显示黑屏问题

问题用Unity2019 2 0打包安卓平台的项目在多摄像机显示的时候老是会只渲染最顶层的摄像机低渲染层级的摄像机不显示解决方案我先升级了Android SDK的版本 API版本升级到了29 然后把项目打包质量降低然后打包摄
openssl安装与使用

文章目录 1 OpenSSL简介 2 OpenSSL安装 3 加密技术介绍 4 openssl 命令 4 1摘要命令 4 2对称加密命令 4 3非对称加密命令 4 3 1生成私钥 4 3 2提取公钥 4 3 3利用公钥加密私钥解密数据 4
ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

目录简介动机贡献方法实验简介本文出自北航刘偲老师colab 使用语言结构引导上下文建模用于Referring Image Segmentation 下载链接动机解决Referring Image Segmentation

ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记

目录

简介

动机

贡献

方法

实验

ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记 的相关文章

随机推荐

热门标签

ECCV 2020《Linguistic Structure Guided Context Modeling for Referring Image Segmentation》论文笔记的相关文章