Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会

2023-10-29

文本识别网络不断地进步,从单纯地只利用视觉信息到现在的大多数网络都开始结合语义信息。因此现在的文本识别网络可以分为两个部分,分别是VM和LM。

那么目前的VM和LM结合的方法可以总结为以下四类。VM之后接LM,VM和LM输出的特征结合之后作为最后的识别特征。比如说之前的SRN,ABINet的都是这种方法。

第二种类型是VM辅助LM,就像joint visual semantic这篇文章,多阶段的解码器通过多次使用视觉信息来提升语义信息。在每一个阶段,都会添加噪声,并重新解码。

第三种类型是LM辅助VM,就像from two to one这篇文章,通过LM的信息来增强视觉特征进行解码。

那么作者提出了个问题,LM和VM该如何更好地结合,互相帮助以达到更好地效果。提出了MATRN这第四类的文本识别网络,即LM和VM相辅相成,互相帮助。

整体的网络结构如图所示:

提取视觉特征加入通过位置attention获得语义特征,语义特征和视觉特征通过互相加强模块得到了语义辅助视觉的增强特征和视觉辅助语言的增强特征。二者再动态结合之后获得最后的输出结果。特别地,改输出结果可以多次进行迭代,进行更新。

然后具体介绍网络结构的细节部分,首先是视觉特征提取模块。该部分就沿用了ABINet中的视觉特征提取模块(同SRN)。之后的字符特征提取和DAN一样,通过一个简单的Unet的网络获得字符的attention map。之后的话解码获得最后的字符结果。

为了对齐视觉和语义这两个模态的特征,作者提出了位置信息编码到语义信息的模块。通过加上一个对齐信息使得二者对齐。位置信息和语义信息结合通过transformer结合。分别使用视觉特征和语义特征作为query进行计算,分别获得了语义辅助视觉的增强特征和视觉辅助语义的增强特征。最后二者的结合就是通过动态融合的方式结合起来,得到最后的结果。

在训练的时候,也引入了visionlan的mask训练方式,随即mask掉attention map中的一部分,相当于mask掉了那个字符,通过语义特征进行恢复。最后的loss就是各个模块的相加。

和其他方法的比较,该方法都能够获得了SOTA的结果。

对比试验:首先是没有语义和视觉信息结合的None版本,之后分别是加上语义信息和视觉信息增强,二者都添加的方式效果最好。关于位置信息编码的模块,没有和序列位置向量的方式都没有作者自己提出的方法好。不同的mask方法,直接mask语义信息,直接mask视觉信息都没有mask visual clue的效果好。不同的mask方式对attention权重,可以发现mask visual clue这种方式能够更加刺激视觉信息依赖语义信息。

和ABINet的对比,效果会好一点。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会 的相关文章

  • 通过读dcat-admin源码学习laravel

    通过读dcat admin源码学习laravel 第一次接触laravel 直接去读文档总觉得有点生涩 就想通过一个项目入手对laravel进行学习 于是通过官方推荐对dcat admin在homestead环境中进行了安装启动 好家伙 可

随机推荐

  • 让你的Java Swing界面变得更好看,这是我用过最好看的皮肤包了?

    Java Swing皮肤包之beautyeye 前言 一 皮肤包分享 二 皮肤包的使用 1 先新建一个项目 2 导入皮肤包 1 先导入我们刚刚下载的jar文件 右键项目demo即可 2 如果右键没有这个选项 记得调为下图模式 3 点击下图蓝
  • 40页PPT

    今日和大家分享的是天津大学智能制造与测控技术研究院田颖 智能制造与数字孪生技术 面向可持续制造方向发展 一 新一代智能制造模式下的思考二 智能制造与数字孪生三 新一代智能制造高端人才培养 编辑 陈静岚 审核 李子 新闻投稿 商务咨询热线 1
  • 算法基础课-基础算法

    基础算法 第一章 基础算法 1 快速排序 2 归并排序 3二分算法 整数二分 浮点二分 4 高精度 高精度加法 高精度减法 高精度乘法 一个高精度乘正常整数 高精度除法 一个高精度除以正常整数 5 前缀和 一维前缀和 二维前缀和 6 差分
  • 采集gpu_Oculus Quest、Go开始支持GPU性能分析工具Unity GPU Profiler

    查看引用 信息源请点击 映维网 Oculus Quest和Oculus Go已经支持GPU性能分析工具Unity GPU Profiler 映维网 2019年08月12日 Unity GPU Profiler这款工具旨在帮助开发者优化应用程
  • 人工智能值得研究的领域有哪些?

    人工智能的关键技术是深度学习 通过模拟人类大脑的神经网络来读取 处理大数据 并找出其中规律 完成特定任务 以深度学习为关键技术的人工智能现已逐渐成为各国研发投入的重点 目前发展已到应用阶段 尽管人工智能的发展早已渗透人们生活的方方面面 但你
  • 机器人编程python代码_自己动手开发智能聊天机器人完全指南(附python完整源码)...

    一 前言 人工智能时代 开发一款自己的智能问答机器人 一方面提升自己的AI能力 另一方面作为转型AI的实战练习 在此把学习过程记录下来 算是自己的笔记 二 正文 2 1 下载pyaiml 下载pyaiml 2 2 安装 pip instal
  • 本地文件怎么传到linux服务器,本地文件传到linux服务器

    本地文件传到linux服务器 内容精选 换一换 本文介绍如何在 Linux 系统的本地机器上使用 FTP 服务 将文件从本地上传到云服务器中 已在待上传文件的云服务器中搭建 FTP 服务 如果您的云服务器为 Windows 操作系统 具体操
  • 信息学奥赛一本通 1208:2的幂次方表示

    题目链接 ybt 1208 2的幂次方表示 OpenJudge NOI 2 2 8758 2的幂次方表示 洛谷 P1010 NOIP1998 普及组 幂次方 题目考点 1 递归 解题思路 递归问题 将数字k转为2的幂次方表示的字符串 递归关
  • Swift工程main函数去哪里了?

    有些东西很简单 但是我还是把它记录了下来 main 函数是所有应用程序的入口 C C Python等所有的应用程序都有且仅有一个main函数作为程序的入口 Swift创建一个新的工程 项目文件中怎么没有main 函数 用OC创建一个新项目后
  • Windows防火墙与TCP、UDP

    当Windows防火墙开启的时候 可能导致一些TCP和UDP监听的端口无法接收到数据或者是数据无法发出去 此时就需要把监听的端口添加到Windows的入栈出栈规则里面 入栈和出栈是相对的 别人访问你 要入栈 你访问别人 叫出栈 将端口添加到
  • 企业运维经典面试题汇总(4)

    1 如何过滤出已知当前目录下yangwen中的所有一级目录 提示 不包含yangwen目录下面目录的子目录及隐藏目录 即只能是一级目录 解答 方法1 通过find直接查找指定类型的文件 root yangwen find yangwen t
  • MP中批量删除,增加,修改实际执行的sql语句

    code GetMapping getNameUpdate public String getNameUpdate RequestBody Map
  • CTF-web 第十三部分 命令注入

    一 基本原理 命令注入指的是 利用没有验证过的恶意命令或代码 对网站或服务器进行渗透攻击 注入有很多种 并不仅仅只有SQL注入 比如 命令注入 Command Injection Eval 注入 Eval Injection 客户端脚本攻击
  • Java 线程池的异常处理机制 错误使用submit导致异常被吞掉,导致UncaughtExceptionHandler不生效

    提交线程池的任务出了异常会怎么样 任务本身出现异常时会怎样呢 我们来看一个例子 提交 10 个任务到线程池异步处理 第 5 个任务抛出一个 RuntimeException 每个任务完成后都会输出一行日志 GetMapping execut
  • CentOS下pdf阅读器

    最初用的是foxit Reader 但用了一段时间感觉CentOS下的foxit Reader真的不太好用 比如 1 每次打开一个PDF文件的时候 既不能自动最大化显示 也不能自动恢复到上次关闭时窗口的大小状态 而只是显示一个非常小的窗口
  • 一个系统测试的完整过程

    转载自http www 51testing com html 68 n 3724968 html 一 需求审查方面 首先我们从最开始接触的文档开始 那就是测需求文档 需求审查主要是我们对需求文档的理解 并熟透整个系统的每个功能和流程 对后期
  • 威联通NAS(QNAP)采用HybridMount挂载百度云网盘

    威联通之前一直不支持挂载百度云网盘 但最近更新了1 9 3761版本的HybridMount 发现已经支持了 下面简要介绍其设置过程 功能介绍 完成设置后 可以从威联通的File Station访问百度云帐户 还可以访问通过SMB NFS
  • qt获取文件 图片大小

    https www it1352 com 1270326 html int size 0 QFile myFile 图片路径 if myFile open QIODevice ReadOnly size myFile size myFile
  • Java获取部门组织树

    本文章记录两种方式获取部门树型结构 一 使用mybatis 因循环查库 比较耗时 二 递归查询 一 使用mybatis实现 1 编写实体类 TreeVO java Data public class TreeVO private Strin
  • Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会

    文本识别网络不断地进步 从单纯地只利用视觉信息到现在的大多数网络都开始结合语义信息 因此现在的文本识别网络可以分为两个部分 分别是VM和LM 那么目前的VM和LM结合的方法可以总结为以下四类 VM之后接LM VM和LM输出的特征结合之后作为