Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会

2023-10-29

文本识别网络不断地进步，从单纯地只利用视觉信息到现在的大多数网络都开始结合语义信息。因此现在的文本识别网络可以分为两个部分，分别是VM和LM。

那么目前的VM和LM结合的方法可以总结为以下四类。VM之后接LM，VM和LM输出的特征结合之后作为最后的识别特征。比如说之前的SRN，ABINet的都是这种方法。

第二种类型是VM辅助LM，就像joint visual semantic这篇文章，多阶段的解码器通过多次使用视觉信息来提升语义信息。在每一个阶段，都会添加噪声，并重新解码。

第三种类型是LM辅助VM，就像from two to one这篇文章，通过LM的信息来增强视觉特征进行解码。

那么作者提出了个问题，LM和VM该如何更好地结合，互相帮助以达到更好地效果。提出了MATRN这第四类的文本识别网络，即LM和VM相辅相成，互相帮助。

整体的网络结构如图所示：

提取视觉特征加入通过位置attention获得语义特征，语义特征和视觉特征通过互相加强模块得到了语义辅助视觉的增强特征和视觉辅助语言的增强特征。二者再动态结合之后获得最后的输出结果。特别地，改输出结果可以多次进行迭代，进行更新。

然后具体介绍网络结构的细节部分，首先是视觉特征提取模块。该部分就沿用了ABINet中的视觉特征提取模块（同SRN）。之后的字符特征提取和DAN一样，通过一个简单的Unet的网络获得字符的attention map。之后的话解码获得最后的字符结果。

为了对齐视觉和语义这两个模态的特征，作者提出了位置信息编码到语义信息的模块。通过加上一个对齐信息使得二者对齐。位置信息和语义信息结合通过transformer结合。分别使用视觉特征和语义特征作为query进行计算，分别获得了语义辅助视觉的增强特征和视觉辅助语义的增强特征。最后二者的结合就是通过动态融合的方式结合起来，得到最后的结果。

在训练的时候，也引入了visionlan的mask训练方式，随即mask掉attention map中的一部分，相当于mask掉了那个字符，通过语义特征进行恢复。最后的loss就是各个模块的相加。

和其他方法的比较，该方法都能够获得了SOTA的结果。

对比试验：首先是没有语义和视觉信息结合的None版本，之后分别是加上语义信息和视觉信息增强，二者都添加的方式效果最好。关于位置信息编码的模块，没有和序列位置向量的方式都没有作者自己提出的方法好。不同的mask方法，直接mask语义信息，直接mask视觉信息都没有mask visual clue的效果好。不同的mask方式对attention权重，可以发现mask visual clue这种方式能够更加刺激视觉信息依赖语义信息。

和ABINet的对比，效果会好一点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会的相关文章

通过读dcat-admin源码学习laravel

通过读dcat admin源码学习laravel 第一次接触laravel 直接去读文档总觉得有点生涩就想通过一个项目入手对laravel进行学习于是通过官方推荐对dcat admin在homestead环境中进行了安装启动好家伙可

随机推荐

让你的Java Swing界面变得更好看，这是我用过最好看的皮肤包了？

Java Swing皮肤包之beautyeye 前言一皮肤包分享二皮肤包的使用 1 先新建一个项目 2 导入皮肤包 1 先导入我们刚刚下载的jar文件右键项目demo即可 2 如果右键没有这个选项记得调为下图模式 3 点击下图蓝
40页PPT

今日和大家分享的是天津大学智能制造与测控技术研究院田颖智能制造与数字孪生技术面向可持续制造方向发展一新一代智能制造模式下的思考二智能制造与数字孪生三新一代智能制造高端人才培养编辑陈静岚审核李子新闻投稿商务咨询热线 1
算法基础课-基础算法

基础算法第一章基础算法 1 快速排序 2 归并排序 3二分算法整数二分浮点二分 4 高精度高精度加法高精度减法高精度乘法一个高精度乘正常整数高精度除法一个高精度除以正常整数 5 前缀和一维前缀和二维前缀和 6 差分
采集gpu_Oculus Quest、Go开始支持GPU性能分析工具Unity GPU Profiler

查看引用信息源请点击映维网 Oculus Quest和Oculus Go已经支持GPU性能分析工具Unity GPU Profiler 映维网 2019年08月12日 Unity GPU Profiler这款工具旨在帮助开发者优化应用程
人工智能值得研究的领域有哪些?

人工智能的关键技术是深度学习通过模拟人类大脑的神经网络来读取处理大数据并找出其中规律完成特定任务以深度学习为关键技术的人工智能现已逐渐成为各国研发投入的重点目前发展已到应用阶段尽管人工智能的发展早已渗透人们生活的方方面面但你
机器人编程python代码_自己动手开发智能聊天机器人完全指南（附python完整源码）...

一前言人工智能时代开发一款自己的智能问答机器人一方面提升自己的AI能力另一方面作为转型AI的实战练习在此把学习过程记录下来算是自己的笔记二正文 2 1 下载pyaiml 下载pyaiml 2 2 安装 pip instal
本地文件怎么传到linux服务器,本地文件传到linux服务器

本地文件传到linux服务器内容精选换一换本文介绍如何在 Linux 系统的本地机器上使用 FTP 服务将文件从本地上传到云服务器中已在待上传文件的云服务器中搭建 FTP 服务如果您的云服务器为 Windows 操作系统具体操
信息学奥赛一本通 1208：2的幂次方表示

题目链接 ybt 1208 2的幂次方表示 OpenJudge NOI 2 2 8758 2的幂次方表示洛谷 P1010 NOIP1998 普及组幂次方题目考点 1 递归解题思路递归问题将数字k转为2的幂次方表示的字符串递归关
Swift工程main函数去哪里了？

有些东西很简单但是我还是把它记录了下来 main 函数是所有应用程序的入口 C C Python等所有的应用程序都有且仅有一个main函数作为程序的入口 Swift创建一个新的工程项目文件中怎么没有main 函数用OC创建一个新项目后
Windows防火墙与TCP、UDP

当Windows防火墙开启的时候可能导致一些TCP和UDP监听的端口无法接收到数据或者是数据无法发出去此时就需要把监听的端口添加到Windows的入栈出栈规则里面入栈和出栈是相对的别人访问你要入栈你访问别人叫出栈将端口添加到
企业运维经典面试题汇总（4）

1 如何过滤出已知当前目录下yangwen中的所有一级目录提示不包含yangwen目录下面目录的子目录及隐藏目录即只能是一级目录解答方法1 通过find直接查找指定类型的文件 root yangwen find yangwen t
MP中批量删除,增加,修改实际执行的sql语句

code GetMapping getNameUpdate public String getNameUpdate RequestBody Map
CTF-web 第十三部分命令注入

一基本原理命令注入指的是利用没有验证过的恶意命令或代码对网站或服务器进行渗透攻击注入有很多种并不仅仅只有SQL注入比如命令注入 Command Injection Eval 注入 Eval Injection 客户端脚本攻击
Java 线程池的异常处理机制错误使用submit导致异常被吞掉，导致UncaughtExceptionHandler不生效

提交线程池的任务出了异常会怎么样任务本身出现异常时会怎样呢我们来看一个例子提交 10 个任务到线程池异步处理第 5 个任务抛出一个 RuntimeException 每个任务完成后都会输出一行日志 GetMapping execut
CentOS下pdf阅读器

最初用的是foxit Reader 但用了一段时间感觉CentOS下的foxit Reader真的不太好用比如 1 每次打开一个PDF文件的时候既不能自动最大化显示也不能自动恢复到上次关闭时窗口的大小状态而只是显示一个非常小的窗口
一个系统测试的完整过程

转载自http www 51testing com html 68 n 3724968 html 一需求审查方面首先我们从最开始接触的文档开始那就是测需求文档需求审查主要是我们对需求文档的理解并熟透整个系统的每个功能和流程对后期
威联通NAS（QNAP）采用HybridMount挂载百度云网盘

威联通之前一直不支持挂载百度云网盘但最近更新了1 9 3761版本的HybridMount 发现已经支持了下面简要介绍其设置过程功能介绍完成设置后可以从威联通的File Station访问百度云帐户还可以访问通过SMB NFS
qt获取文件图片大小

https www it1352 com 1270326 html int size 0 QFile myFile 图片路径 if myFile open QIODevice ReadOnly size myFile size myFile
Java获取部门组织树

本文章记录两种方式获取部门树型结构一使用mybatis 因循环查库比较耗时二递归查询一使用mybatis实现 1 编写实体类 TreeVO java Data public class TreeVO private Strin
Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会

文本识别网络不断地进步从单纯地只利用视觉信息到现在的大多数网络都开始结合语义信息因此现在的文本识别网络可以分为两个部分分别是VM和LM 那么目前的VM和LM结合的方法可以总结为以下四类 VM之后接LM VM和LM输出的特征结合之后作为

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会 的相关文章

随机推荐

热门标签

Multi-modal Text Recognition Networks: Interactive Enhancements between Visual and Semantic组会的相关文章