华科计算机博导刘云生论文,华科白翔老师团队ECCV2018 OCR论文：Mask TextSpotter

2023-05-16

引入Mask R-CNN思想通过语义分割进行任意形状文本检测与识别。

(欢迎关注“我爱计算机视觉”，一个有价值有深度的公众号~)

华中科技大学白翔老师团队在自然场景文本检测与识别领域成果颇丰，这篇被ECCV2018接收的论文《Mask TextSpotter: An End-to-End Trainable Neural Network for Spotting Text with Arbitrary Shapes》是其最新力作。

文章指出，最近，基于深度神经网络的模型已经主导了场景文本检测和识别领域。在该文中，研究了场景“text spotting”的问题，其旨在自然图像中同时进行文本检测和识别。

该文受到Mask R-CNN的启发提出了一种用于场景text spotting的可端到端训练的神经网络模型：Mask TextSpotter。与以前使用端到端可训练深度神经网络完成text spotting的方法不同，Mask TextSpotter利用简单且平滑的端到端学习过程，通过语义分割获得精确的文本检测和识别。此外，它在处理不规则形状的文本实例(例如，弯曲文本)方面优于之前的方法。

在ICDAR2013、ICDAR2015和Total-Text数据库上的实验表明，所提出的方法在场景文本检测和端到端文本识别任务中都达到了state-of-the-art的水平。

任意形状文本检测与识别的例子：

左图是水平text spotting方法的结果，它的检测框是水平的；中间图是具有方向的text spotting方法的结果，它的检测框倾斜；右图是该文提出的Mask TextSpotter算法的结果，它的检测框不是外接矩形而是一个最小外接多边形，对这种弯曲文本达到了更精确的文本检测和识别。

网络架构

网络架构由四部分组成，骨干网feature pyramid network (FPN)，文本候选区域生成网络region proposal network (RPN)，文本包围盒回归网络Fast R-CNN，文本实例分割与字符分割网络mask branch。

训练阶段

RPN首先生成大量的文本候选区域，然后这些候选区域的RoI特征被送入Fast R-CNN branch和mask branch，由它们去分别生成精确的文本候选包围盒(text candidate boxes)、文本实例分割图(text instance segmentation maps)、字符分割图(character segmentation maps)。

尤其值得一提的是Mask Branch，如下图：

它将输入的RoI(固定大小16*64)经过4层卷积层和1层反卷积层，生成38通道的图(大小32*128)，包括一个全局文本实例图——它给出了文本区域的精确定位，无论文本排列的形状如何它都能分割出来，还包括36个字符图(对应于字符0～9，A～Z)，一个字符背景图(排除字符后的的所有背景区域)，在后处理阶段字符背景图会被用到。

这是一个多任务模型，其Loss组成：

推理阶段

推理阶段mask branch的输入RoIs来自于Fast R-CNN的输出，

推理的过程如下：首先输入一幅测试图像，通过Fast R-CNN获取候选文本区域，然后通过NMS(非极大抑制)过滤掉冗余的候选区域，剩下的候选区域resize后送入mask branch，得到全局文本实例图，和字符图。通过计算全局文本实例图的轮廓可以直接得到包围文本的多边形，通过在字符图上使用提出的pixel voting方法生成字符序列。

如上图所示，Pixel voting方法根据字符背景图中每一个联通区域，计算每一字符层相应区域的平均字符概率，即得到了识别的结果。

为了在识别出来的字符序列中找到最佳匹配单词，作者在编辑距离(Edit Distance)基础上发明了加权编辑距离(Weighted Edit Distance)。

识别结果示例：

ICDAR2013的结果

该库主要用来验证在水平文本上的识别效果。

ICDAR2015的结果

用来验证识别方向变化的文本的结果。

Total-Text结果

验证弯曲的文本检测识别结果。

弯曲文本识别示例

速度

在Titan Xp显卡上，720*1280的图像，速度可以达到6.9FPS。

效果分析

作者通过进一步的实验分析，发现：如果去除字符图子网络，只训练检模型，检测的性能会下降，说明检测可以受益于识别模块。下图中Ours(det only)为只有检测的模型。

如果去除训练样本中的真实世界字符标注图像，模型依然可以达到相当竞争力的性能。下图中Ours(a)即不使用真实世界字符标注图像的训练结果。

通过加权编辑距离(weighted edit distance)和原始编辑距离的比较，发现，加权编辑距离可以明显提高识别性能。下图中Ours(b)为原始编辑距离的结果。

该文将Mask R-CNN语义分割的方法用于文本检测与识别，取得了显著的性能改进，并能成功应对任意形状的文本，其他语义分割方法是否也能拿来试一下呢？

该文目前还没有开源代码。

https://arxiv.org/abs/1807.02242

白翔老师主页：

http://cloud.eic.hust.edu.cn:8071/~xbai/

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

华科计算机博导刘云生论文,华科白翔老师团队ECCV2018 OCR论文：Mask TextSpotter 的相关文章

pe我的手机服务器存档文件,我的世界PE任何版本存档转换服务器可用

我的世界PE任何版本存档转换服务器可用是一个游戏存档 xff0c 可以用于我的世界这款好玩的游戏中 xff0c 使用这个我的世界PE任何版本存档转换服务器可用的可玩性大大提升 xff0c 让每一个玩家在三维空间中自由地创造和破坏不同种类
微软打印机驱动服务器,打印机Microsoft Office Document Image Writer 所需的驱动程序错误...

baiwanzhan Y 企 baiwanzhan Y 企打印机 Microsoft Office Document Image Writer 所需的驱动程序错误现象 xff1a WIN2003机器日志出现 xff1a 件类型错误事
如何把catia完全卸载干净_电脑卸载不了catia怎么办？电脑彻底卸载catia方法

近来有用户反映电脑安装的catia三维设计软件卸载不了 xff0c 总是有残留对此应该怎么解决这一问题呢如果不能彻底卸载电脑中的catia软件 xff0c 那么就可以参考本教程介绍的方法进行操作推荐 xff1a 电脑操作系统下载 1
Spire.pdf-使用学习记录

spire pdf 使用学习记录背景简介相似产品及特点官网地址功能实现切割pdf按每页切割按指定页切割将pdf转成txt识别pdf中的篇章节生成对应文本去除水印获取书签获取每页中图片项目地址背景通过打印机将一本纸质书转为pdf的格式
mysql修改列明sql语句_sqlserver 修改列名及表名的sql语句

sqlserver 修改列名及表名的sql语句更新时间 xff1a 2012年06月28日 19 15 17 作者 xff1a 因需求变更要改表的列名 xff0c 平常都是跑到Enterprise manager中选取服务器 gt 数据库
银河麒麟的.desktop文件开机自启动

span class token punctuation span span class token class name Desktop span span class token class name Entry span span c
计算机语言的坑,2020年编程语言入坑推荐

时下最热门的语言是JavaScript xff0c Java和Python xff0c 但是编程语言的新陈代谢也在不断发展着 xff0c 新的优秀语言层出不穷 xff0c 立足取代他们地位有一首歌唱的好 xff1a 34 由来只有新人笑
linux安装完windows字体以后特别难看,告别 Windows 终端的难看难用，从改造 PowerShell 的外观开始...

原标题 xff1a 告别 Windows 终端的难看难用 xff0c 从改造 PowerShell 的外观开始终端 xff0c 是用户与操作系统进行交互的最原始的输入输出环境 xff0c 也是执行一些高级系统操作的必要工具而 Windo
线程池未设置允许核心线程超时导致服务器CPU逐渐飙升

最近生产环境在消费kafka订单消息 xff0c 并将订单推送到第三方服务 xff0c 同时服务有好几个定时任务去重试推送失败的订单 xff0c 虽然都使用了线程池 xff0c 但是服务在启动跑了一段时间之后 xff0c 服务器CPU就开始
matlab 编程排名,编程语言排行榜(TIOBE IEEE Spectrum RedMonk)[2014-2015]

十大编程语言排名如下 xff1a 1 Java 2 C 3 C 43 43 4 C 5 Python 6 JavaScript 7 PHP 8 Ruby 9 SQL 10 MATLAB 按照类型排名 xff0c 各类主要编程语言的排行榜如下
android获取carema所有参数,android相机Camera.Parameters所有的参数值

最近两天一直在看android相机的参数设置 xff0c Camera Parameters中属性值非常的多 xff0c 我索性就把就调用的flatten 方法 xff0c 将设置的参数值都打印出来了 xff0c 方便以后查看 xff0c
极简主义linux桌面,Ubuntu 16.04/17.10/18.04安装Zafiro极简图标主题

zafiro图标是桌面xfce4 xff0c gnome或lxde的图标包 xff0c 具有干净简单的设计线条 xff0c 灵感来源于平面设计它是根据L I M A许可证分发的 xff0c 优先级是极简主义 xff0c 不会用任何图标来饱
python正确读取文件路径的三种解决方法

目录一问题需求二问题原因三解决办法四小思一问题需求日常用程序读取文件数据等时 xff0c 常常会显示一些诸如文件路径不存在等错误信息二问题原因这类问题 xff0c 在python中 xff0c 主要是由于反斜杠引起
python实现：图（查找一条路径、全部路径、最短路径）

图 nbsp nbsp nbsp nbsp 图是非线性的数据结构由顶点和边组成如果图中的顶点是有序的那么图是有方向的称之为有向图否则图是无向图在图中由顶点组成的序列称为路径 nbsp nbsp 在python中可以采用字典
谷歌浏览器linux缺少依赖包,chromedriver：ubuntu 14.04 64位上缺少各种lib依赖项

所以我正在尝试运行从中下载的chromedriver 2 20 wget http chromedriver storage googleapis com 2 20 chromedriver linux64 zip 在我的ubuntu 14
Android MVP Contract

MVP简单登陆 Demo 1 创建Presenter View 基类 public interface BasePresenter void start public interface BaseView lt T gt 这里使用范型 vo
我的世界服务器怎么修改皮肤,我的世界怎么换皮肤我的世界皮肤更换使用教程...

我的世界怎么换皮肤 xff1f 在我的世界多人联机中 xff0c 我们总是能看到别人拥有非常帅气的皮肤 xff0c 去不知道皮肤怎么换 xff0c 今天就让小编给大家介绍一个简单换皮肤方法 xff0c 希望大家喜欢我的世界怎么换皮肤 xf
mysql rds root权限,MySQL / Amazon RDS错误：“您没有超级权限...”

I 39 m attempting to copy my mysql database from an Amazon EC2 to an RDS I successfuly did a mysqldump of my database in
该网页无法访问未连接上服务器是什么意思,浏览器打不开该网页,因为无法连接到服务器...

safari虽然只有苹果用户才能使用 xff0c 但是随着苹果用户的增多 xff0c 不少人遇到safari打不开网页的问题等 xff0c safari是苹果手机内置浏览器 xff0c 在打开网页时经常会出现safari打不开网页因为服务器
win10重置进度条不动了_win10重置卡在100%不动没反应怎么办

要重置自己的win10系统来解决一些问题故障的话 xff0c 对于在重置过程中出现了的卡在100 不动没反应的情况 xff0c 那么win10重置卡在100 不动没反应怎么办呢小编觉得可能是因为我们电脑在重置完毕之后还有一些文件需要编译

随机推荐

linux启动sh文件命令,Linux 运行 .sh 文件的两种方法

Linux 运行 sh 文件的两种方法文章作者 xff1a 网友投稿发布时间 xff1a 2010 06 15 13 31 16 来源 xff1a 网络一个中等水平的Linux用户一定少不了经常执行 sh文件当然了 xff0c 你可
三菱Q系列做modbusTCP服务器,汇川H3u与三菱Q/L系列PLC MODBUS TCP通信说明

马上注册享受更多特权您需要登录才可以下载或查看 xff0c 没有帐号 xff1f 立即注册 x 汇川H3u与三菱Q L系列PLC MODBUS TCP通信说明 MODBUS TCP作为一种工业通信协议 xff0c 在自动化设备中的应
如何查看无线网中的设备连接网络连接服务器,如何查看自己家的WiFi有多少设备连接？...

查看WiFi有多少设备连接 xff0c 首先需要知道登录路由器的IP地址 xff0c 只有获取了此IP地址 xff0c 才能登录到路由器的管理界面 xff0c 查看有多少设备接入了此路由器 xff0c 那怎么获取此IP呢 xff0c 下面我
数字服务器及tms系统,影院大变革：TMS系统能否hold住全场

IT168厂商动态 2013年可统计票房影院有 3849家 xff0c 全国银幕18195块 xff0c 新增5077块而其中 xff0c 作为影院放映系统核心的数字电影影院管理系统 TMS系统市场已安装TMS影院数量将近1000家左右
基于位置的服务器,一种基于地理位置的社区综合服务系统

主权项 xff1a 1 一种基于地理位置的社区综合服务系统 xff0c 其特征在于 xff1a 包括商家客户端用户客户端数据库服务器 xff1b 所述的商家客户端设置于商家终端 xff0c 所述的商家客户端包括商家登录模块商家信息建立
回眸--从高考到程序猿

杨过等待了小龙女16年 xff0c 终成眷属 xff0c 从此郎情妾意双双在浪迹天涯而参加高考后也奋斗了16年 xff0c 梦中却总是想起回眸后那流泪的脸 19年前 xff0c 我们那里流行的不是高考 xff0c 而是中考 xff0c 因
python爬虫技术实例详解及数据可视化库

前言在当前数据爆发的时代 xff0c 数据分析行业势头强劲 xff0c 越来越多的人涉足数据分析领域面对大量数据 xff0c 人工获取信息的成本高耗时长效率低 xff0c 那么是否能用代码去完成大量复杂的工作 xff0c 从而从网络
项目经理必备——软件报价

软件开发价格估算方法 2007 08 17 17 06 1 xff0e 软件开发价格估算方法软件开发价格与工作量商务成本国家税收和企业利润等项有关为了便于计算 xff0c 给出一个计算公式 xff1a 软件开发价格 xff1d 开发
linux C 字符串qu'',Linux字符设备驱动程序源文件

linux fs char dev c Copyright C 1991 1992 Linus Torvalds include include include include include include include include
各种门锁的内部结构图_防盗门锁锁体内部结构图是什么？

1 锁芯 xff1a 铜制的圆柱形锁芯 xff0c 转动时可锁上或打开锁芯分内锁芯和外锁芯 xff0c 内锁芯是你插钥匙的地方 2 弹子 xff1a 铜弹子分内弹子和外弹子 xff0c 圆柱形 xff0c 长短不一 xff0c 装在内外锁
蔬菜大棚成本_建一亩地的蔬菜大棚，一年到底能挣多少钱？

需要发布信息请在平台聊天框内留言 xff0c 或添加小编微信13577044263发送随着农业的发展 xff0c 果蔬市场的蔬菜得以充足供应 xff0c 但蔬菜种植户最关心的话题还是提高经济效益 xff0c 那在农村建造一亩地的蔬菜大棚能
less 跳到最后一页_Linux怎么查看文件内容之less命令

请关注本头条号每天坚持更新原创干货技术文章如需学习视频请在微信搜索公众号智传网优直接开始自助视频学习 1 less命令介绍本文主要介绍less命令该命令类似于more 也是用于输出结果或者浏览文本内容 more命令只能向下看
生活中计算机应用的实例,单片机应用（生活中单片机应用实例）

单片机应用单片机完整问题 xff1a 什么是单片机它有什么应用谢谢好评回答 xff1a 什么是单片机单片机有什么用单片机又称单片微控制器它不是完成某一个逻辑功能的芯片而是把一个计算机系统集成到一个芯片上概括的讲 xff1
计算机参数配置解读,教你看懂电脑配置参数，了解组装电脑基本知识

很多小白用户在挑选电脑的时候都不知道该如何下手 xff0c 今天电脑配置为为大家带来一篇电脑硬件扫盲的文章 xff0c 让大家了解一些电脑配置的基本知识 xff0c 以及如何看懂电脑配置参数这里我们所说的电脑配置包括台式机和笔记本 xff
cs服务器弹道怎么修改,cs1.6弹道在那个文件夹里或文件里修改？

这个 xff0c 1 6其实弹道的关键还是在于服务器和网络质量这么说吧 xff0c 1 5的cstrike目录下的config cfg和userconfing cfg里面的参数可以改变弹道 xff0c 但是1 6的时候由于服务端的完善 x
华为+高的位置服务器,华为云位置服务器

华为云位置服务器内容精选换一换通过华为云注册的域名默认使用华为云DNS进行解析 xff0c 其 DNS服务器为 xff1a ns1 huaweicloud dns cn ns1 huaweicloud dns com 当您想在Int
http上传文件到ftp服务器,http上传文件到ftp服务器

http上传文件到ftp服务器内容精选换一换在本地主机和Windows云服务器上分别安装QQ exe等工具进行数据传输使用远程桌面连接mstsc方式进行数据传输该方式不支持断点续传 xff0c 可能存在传输中断的情况 xff0c
高性能服务器戴尔值得信赖,DELL PE1950 3代四核 1U服务器

当前配置 xff1a 当前配置 xff1a 配置 xff1a Dell PE1950 Intel XEON 5504 2 8GB SAS 146G RAID1 DVD 全国联保详细描述 xff1a 一下是实物图片 xff0c 供参考 xf
win11恢复经典右键菜单

Win11右键菜单功能太少 xff0c 7 Zip等三方软件不能直接右键显示 xff0c 脱裤子放屁 Win11切换旧版右键菜单 xff0c 把下面的代码保存为bat文件运行 xff1a reg add 34 HKCU Software C
华科计算机博导刘云生论文,华科白翔老师团队ECCV2018 OCR论文：Mask TextSpotter

引入Mask R CNN思想通过语义分割进行任意形状文本检测与识别欢迎关注我爱计算机视觉 xff0c 一个有价值有深度的公众号华中科技大学白翔老师团队在自然场景文本检测与识别领域成果颇丰 xff0c 这篇被ECCV2018接收的论文

华科计算机博导刘云生论文,华科白翔老师团队ECCV2018 OCR论文：Mask TextSpotter

华科计算机博导刘云生论文,华科白翔老师团队ECCV2018 OCR论文：Mask TextSpotter 的相关文章

随机推荐

热门标签