文字检测识别技术的未来发展趋势和面临的选择

2023-05-16

未来发展趋势和面临的挑战

1文本检测与识别技术的未来发展趋势

场景文本检测与识别的研究发展趋势。场景文本检测识别目前来讲大概分为场景文本检测、场景文本识别、以及端到端文本检测和识别三个主要的方向。其中文本检测方法主要是包括基于文本框回归的分类、基于分割的方法、以及分割和回归结合的方法。它的发展趋势是，早期2015年以前是以水平的矩形框检测为主，后来发展到多方向的矩形框，再到2017年开始有研究做任意的四边形框检测，再到近期的任意曲线文本的检测。矩形框的文本检测基本上解决得很好了，只要有一定的数据量基本上可以做到比较不错的识别性能。任意形状（例如曲线）文本检测还是一个比较挑战的问题，但是近两年的研究有很大的进步。

场景文本识别的传统方法很复杂，但在2015年之后基本上主流的方法是基于两套思路，一个是基于CTC的方法，尤其是CTC和神经网络的结合，典型的代表方法是CRNN;另外一套思路是基于Attention的方法。

而文本检测与识别的应用发展趋势可以归纳为以下几点：

（1）一体化的端到端模型

构建一体化的端到端网络，同时对文本检测和识别进行训练，目前已成为了文本检测与识别领域的一种重要技术趋势。端到端的网络设计，实现了基础特征的共享，既能够减少重复计算，又能够提高特征的质量，促进任务性能的改善。

（2）兼具高性能高效率的文本检测与识别

大量的文本检测与识别应用需要在资源受限的移动端设备上运行，当前移动端文本检测与识别算法大多以牺牲一定的算法精度来换取运行速度，针对移动设备设计兼顾性能和效率的轻量文本检测与识别模型是未来趋势。

（3）从感知到认知的智能文本检测与识别

文本检测与识别技术通常从计算机视觉领域出发，未来与自然语言处理技术、知识图谱等更广领域的交叉融合，通过语义及知识的深度挖掘提升文本检测与识别性能是重要趋势。此外，在文本检测与识别中引入强化学习和元学习等新的学习范式，让机器自主学习如何识别文本，也将成为研究热点。

2文本检测与识别技术面临的挑战

场景文本检测的挑战在哪里？

1. 语言：世界上有1000多种语言。然而，目前大多数算法和数据集主要集中在英语文本上。虽然英语是一个相当小的字母表，但汉语和日语等其他语言的字母表要大得多，有数万个符号。基于RNN的识别器可能会受到这种放大符号集的影响。此外，有些语言的外观要复杂得多，因此它们对图像质量等条件更加敏感。研究人员应该首先验证当前的算法在多大程度上可以推广到其他语言的文本，并进一步推广到混合文本。针对多种语言的统一检测和识别系统具有重要的学术价值和应用前景。一个可行的解决方案可能是探索能够捕获不同语言的文本实例的常见模式的组合表示，并使用文本合成引擎生成的不同语言的文本示例来训练检测和识别模型。

2. 模型的鲁棒性：尽管目前的文本识别器已经被证明能够很好地推广到不同的场景文本数据集，即使只使用合成数据，最近的工作（Liao et al.，2019b）表明，对有缺陷的检测的鲁棒性不是一个可忽视的问题。实际上，在文本检测模型中也观察到了这种预测的不稳定性。这种现象背后的原因尚不清楚。有一种推测是，模型的鲁棒性与深度神经网络的内部操作机制有关。

3. 泛化：除了TextSnake之外，很少有检测算法考虑了跨数据集的泛化能力问题，即大部分算法在一个数据集上进行训练，在另一个数据集上进行测试。因为某些应用场景需要对不同自然环境的都有适用性，所以泛化能力非常重要。例如，自动驾驶车辆中的即时翻译和OCR应该能够在不同的情况下稳定地执行，比如：进而大的图像、远而小的文本、模糊单词、不同语言和形状。仅仅将所有现有数据集集中在一起是否就足够了，尤其是在目标域完全未知的情况下，仍然没有得到验证。

4. 评估：现有的检测评估指标源于一般目标检测的评估指标。基于IoU分数或像素级精度和召回率的匹配忽略了一个事实，即缺失的部分和多余的背景可能会影响后续识别过程的性能。

5. 合成数据：虽然在合成数据集上训练识别器已经成为一种惯例，而且效果很好，但检测器仍然严重依赖真实数据集。合成多样且逼真的图像来训练识别器仍然是一个挑战。合成数据的潜在好处尚未得到充分探索，例如泛化能力。使用3D引擎和模型进行合成可以模拟不同的条件，例如照明和遮挡，因此合成数据值得进一步开发。

6. 效率：基于深度学习的方法的另一个缺点在于其效率。当前大多数系统部署在没有GPU或移动设备的计算机上时无法实时运行。模型压缩和轻量级模型在其他任务中被证明是有效的，研究如何为文本相关任务定制加速机制会很有价值。

7. 更大更好的数据集：目前研究最广泛采用的数据集的大小都很小（1k图像）。值得研究的是，从当前算法中获得的改进是否可以扩大规模，还是只是更好的正则化的偶然结果。此外，大多数数据集只标注边框和文本。如果对不同属性做详细注释，如艺术字体，可能会有针对性地指导研究人员。最后，以现实世界有挑战性的文本为特征的数据集在推动研究进展方面也很重要，例如产品上密集的文本。另一个相关问题是，大多数现有数据集都没有验证集。由于测试集上的过度拟合，当前报告的评估结果很可能比实际结果更乐观，即实际效果无法准确达到评估结果的标准。因此建议研究人员应关注大型数据集。

8. 定向文本：现有的最先进的场景文本识别方法更侧重于识别水平、多定向和曲线文本，它们利用空间校正模块，通常使用为阅读文本而设计的序列到序列模型。尽管这些方法试图解决识别任意方向文本的问题，但这些方法仍无法处理野生图像中的定向文本类型，如高度弯曲文本、平面内旋转文本、垂直文本，以及从下到上和从上到下堆叠的文本。此外，由于水平文本和垂直文本具有不同的特征，研究人员最近尝试在一个统一的框架中设计识别这两种类型文本的技术。因此，需要进一步的研究来构建能够同时识别不同方向的模型。

9. 遮挡文本：尽管现有的基于注意的方法已经显示出识别部分遮挡文本的能力，但它们在识别重度遮挡文本时的性能下降。这是因为目前的方法没有广泛利用上下文信息来克服遮挡。因此，未来的研究可以考虑高级语言模型以最大限度地利用上下文来预测由于遮挡文本而导致的不可见字符。

10. 图像质量下降：还可以注意到，最先进的文本识别方法并没有特别克服图像质量下降（如低分辨率和照明变化）对识别精度的影响。对未来研究的重要的建议是研究图像增强技术，如图像超分辨率、图像去噪和障碍物学习，这些可以使文本识别方案得以解决图像质量下降问题。

11. 复杂的字体：在自然场景图像中有几种具有挑战性的图形字体文本，当前的方法没有明确处理。识别自然场景图像中复杂字体的文本强调模型设计能够识别不同字体的方案，方法是改进这些方案的特征提取步骤，或使用样式转换技术，学习从一种字体到另一种字体的映射。

12. 特殊字符：除了字母数字字符外，特殊字符（$、/、-、！、：、@和#字符）在自然场景图像中也很丰富，但是现有的文本识别方法在训练和测试期间排除了它们。因此，这些预训练模型无法识别特殊字符。最近，部分论文中指出，对特殊字符的模型进行训练可以提高识别精度，如何将特殊字符纳入文本识别模型的训练和评估中会是下一步研究的重点。

Shangbang Long，Xin He，Cong Yao，“Scene Text Detection and Recognition: The Deep Learning Era”，arXiv:1811.04256v5 [cs.CV] 9 Aug 2020

Zobeir Raisi，Mohamed A. Naiel，Paul Fieguth，Steven Wardell2 · John Zelek1，“Text Detection and Recognition in the Wild: A Review”，arXiv:2006.04305v2 [cs.CV] 30 Jun 2020

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

文字检测识别技术的未来发展趋势和面临的选择

文字检测识别技术的未来发展趋势和面临的选择的相关文章

ZZN的退役感言

发个退役感言从上海回来两天了 xff0c 整个集训队的事情也基本上交付出去了 xff0c 明天就要去自习教室开始高数线代和概率的第二轮复习了 xff0c 英语好像也要开始做真题了吧 xff0c 这两天总在poj上灌水了 xff0c 其实
含泪发个博客

怨种一 xff1a 购买了正点原子F103精英开发板 xff0c 按照教程安装了mdk514 xff0c 并且配置了文件 xff0c 编译例程此时0错误0警告 xff01 xff08 开心 xff09 连接好stlink xff0c 发现无
Debian9安装与启用sudo命令

刚安装好的Debian9默认还没有sudo功能 1 先进入root用户 xff0c 调用下面的命令后 xff0c 输入密码 su 2 安装sudo apt get install sudo 3 不需要修改 etc sudoers 文件 xf
debian中默认不存在sudo命令解决方法

1 使用su安装sudo su apt get install sudo 1 2 2 给账户设置管理员权限 vim etc sudoers 1 3 添加一行其中 username 替换为登陆账户的名称输入时不加引号 34 usernam
hadoop （1.0.4） IntWritable 详解

span style font size 14px package org apache hadoop io import java io A WritableComparable for ints public class IntWrit
树莓派4B安装Ubuntu18.04 ROS Melodic及初始化rosdep报错解决

一安装Ubuntu18 04 安装Raspberry Pi Imager 链接 xff1a https www raspberrypi com software 下载镜像下载ubuntu 18 04 5 preinstalled ser
teamviewer常用操作命令

1 启动或停止 daemon sudo teamviewer daemon stop sudo teamviewer daemon start 2 打印 id sudo teamviewer info print id 3 设置密码 sud
Node.js版本管理

最近运行一个前端项目时 xff0c 出现了Node js版本与依赖版本不符的问题 xff0c 如下 xff1a error 64 typescript eslint eslint plugin 64 5 21 0 The engine 34
（java）继承和多态（详解）

目录 1 继承 1 1为什么需要继承 1 2 继承概念 1 3 继承的语法 1 4 父类成员访问 1 4 1 子类中访问父类的成员变量 1 4 2 子类中访问父类的成员方法 1 5 super关键字 1 6 子类构造方法 1 7 super
Debug Tutorial Part 6: Navigating The Kernel Debugger

Introduction In this tutorial we will be covering a few of the basic features of the kernel debugger and get used to usi
加速matlab运行

一遵守Performance Acceleration的规则二遵守三条规则一遵守Performance Acceleration的规则关于什么是 Performance Acceleration 请参阅matlab的帮助文件我
上海~还是伤心了啊

还有西安
Zabbix 数据库表结构说明

该文档提供了zabbix中mysql数据库中各个表及其中字段的详细解释 acknowledges表 xff08 空 xff09 当trigger发生状态变化后 xff0c 即产生某个事件 xff08 event xff09 后 xff0c
2020CVPR对抗样本相关论文整理（有开源代码）

目录攻击防御攻击 1 Towards Large yet Imperceptible Adversarial Image Perturbations withPerceptual Color Distance code链接朝向具有感知
GAN & 对抗样本

目录关于对抗样本的解释GAN原理简介GAN生成对抗样本的发展关于对抗样本的解释对于对抗样本为何能够攻击成功 xff0c 目前有以下三种解释 xff1a 高维空间的线性模型解释 xff1a 当输入为图像时 xff0c 沿着梯度方向很小的
块元素与内联元素的区别

在css盒子模型中 xff0c 我们提到了html元素中的块元素 xff08 block element xff09 和内联元素 xff08 inline element xff09 那么它们究竟是什么呢 xff1f 其实 xff0c 这两
Ubuntu实用安装

1 用DVD xff0f 服务器版 ubuntu 来安装命令行系统 2 编辑更新软件源 sudo cp etc apt source list etc apt source list bak 3 安装 X 窗口系统 xff1a sudo a
关于Haar名称一点想说的：Haar而非Harr

见到一些中文文献博客师兄们的简历都出现以一个叫 Harr 的特征 xff0c 有些疑惑刨根问底一下 xff0c 最后得出结论Harr应该是对Haar的误写 Haar特征因为使用的是Haar小波变换而得名 xff0c 哈尔小波转换是于
安装远程连接Ubuntu Server 的图形界面——x2go远程连接桌面

想要远程连接你的Ubuntu服务器的图形界面么 xff1f 这里有个简单的指导告诉你如何使用X2Go来实现 xff0c 这是一个NX远程桌面协议的衍生版本你所需要做的就是 1 在服务器上面安装X2Go服务端和桌面环境 xff0c 2 在客

随机推荐

PHP正则表达式之\A、\Z、 \z、^、$

文章目录 A Z z 断言与之间的区别单行模式和多行模式的差异换行符匹配的差异示例代码及解读文中提到的模式修饰符D PCRE DOLLAR ENDONLY m PCRE MULTILINE A Z z 断言与之间的区别 A xff0c
#发布npm包遇到错误，因为用了淘宝镜像地址的原因的解决方法-403 403 Forbidden - PUT https://registry.npmmirror.com/-/user/org.cou

使用npm login 也可以使用npm adduser 登录准备发布npm依赖包到npm时 xff0c 遇到问题 xff1a span class token function npm span ERR span class token
面向对象设计和结构化分析设计(软件设计师备考笔记)

目录第十章面向对象设计和结构化分析设计第一节结构化设计第二节 UML 第三节面向对象设计设计原则第四节面向对象设计设计模式第五节结构化分析数据流图 DFD 必考下午第一道题第六节面向对象设计方法多态与绑定
大厂Mysql高频面试题！java操作excelpoi

微服务的发展微服务倡导将复杂的单体应用拆分为若干个功能简单松耦合的服务 xff0c 这样可以降低开发难度增强扩展性便于敏捷开发当前被越来越多的开发者推崇 xff0c 很多互联网行业巨头开源社区等都开始了微服务的讨论和实践微服务
知已知彼 ^.^

如何做一个让男人尊敬的精致女人转贴作者 LUKECYK 浏览 160 1 如果一个男人开始怠慢你 xff0c 请你离开他不懂得疼惜你的男人不要为之不舍 xff0c 更不必继续付出你的柔情和爱情 2 任何时候 xff0c 不要为一个负心
单片机 -定时器计数器工作原理及工作方式

时钟周期时钟周期 T 是时序中最小的时间单位 xff0c 具体计算的方法就是 1 时钟源频率 xff0c 假如单片的晶振是 11 0592M xff0c 那么对于我们这个单片机系统来说 xff0c 时钟周期 61 1 11059200 秒
单片机 LCD1602

LCD1602为工业字符型液晶 xff0c LCD表示LiquidCrystal Display 能够同时显示16 x 2 xff08 16列2行 xff09 即32个字符 1602液晶也叫1602字符型液晶 xff0c 它是一种专门用来显
javascript进制及进制之间的转换

计算机中常用的进制数有二进制八进制十进制十六进制一十进制转其他 span class token keyword var span x span class token operator 61 span span class
解决进入Ubuntu系统花屏的问题

安装ubuntu后进入系统花屏详细步骤详细步骤开机选择进入Ubuntu的高级系统模式 gt 恢复模式 xff0c 选择root xff0c 进入命令行界面输入 xff1a sudo vim etc default grub 打开gr
李沐：用随机梯度下降来优化人生

用SGD来优化人生要有目标目标要大坚持走痛苦的卷可以躺平四处看看快也是慢赢在起点很远也能到达独一无二简单最好转载 xff0c 用随机梯度下降来优化人生1 xff1a https zhuanlan zhihu com p 41400931
Ubuntu18.04 + kinova joca2机械臂 + RealSense D435i深度相机进行eye to hand手眼标定

文章目录前言一前期准备1 RealSense D435i安装2 Kinova ROS安装二手眼标定环境配置1 visip2 aruco ros3 easy handeye 三标定前准备1 终端python版本设置2 opencv4
相机成像原理详解

ybwu 64 whu edu cn 被摄景物反射出的光线通过照相镜头 xff08 摄景物镜 xff09 和控制曝光量的快门聚焦后 xff0c 被摄景物在暗箱内的感光材料上形成潜像 xff0c 经冲洗处理 xff08 即显影定影 xff0
python和numpy matplotlib版本匹配，以及安装指定版本库

python和numpy matplotlib版本匹配 xff0c 以及安装指定版本库文章目录 python和numpy matplotlib版本匹配 xff0c 以及安装指定版本库一卸载二安装三验证 Matplotlib is a
wegame桌面丢失(所有软件都可用)

1 打开此电脑 2 右上角搜索引擎里输入代码tgp daemon 即可如果想要放在左面或者添加快捷方式邮寄此软件会出现创建快捷方式或者固定到开始位置
人脸识别的LOSS（多分类Softamx）

人脸1 xff1a N应用 xff1a https blog csdn net intflojx article details 81278330 超多分类的Softmax 早期深度人脸识别方法 xff0c 框架为CNN 43 Softma
一些范冰冰的照片

你可以说她YD xff0c 也可以说她XJ xff0c 但是你不能否认她的美丽偶就是无敌小超人 xff0c 克塞前来拜访热门圈子 xff1a 王仁甫张佑赫王绍伟 tony 明道快速评论共 19 条回复
vnc的默认端口修改

http inthirties com 90 thread 1261 1 1 html vnc的默认端口是5901 xff0c 这个说法是不对的 vnc并不是只有一个端口以前另一个文章介绍了nvcserver的配置用户的过程 xff0c
JavaScript 关于进制之间的转换实现

JS要实现进制之间的转换 xff0c 可以利用parseInt xff0c toString完成 1 n进制 gt 10进制 xff1a parseInt string radix 2 n进制 gt radix进制 xff1a a toSt
VNC Server配置

VNC登录用户缺省是root xff0c 但在安装oracle时必须用oracle用户的身份登录 xff0c 下面我们就以oracle为例说明如何配置VNC xff0c 从而可以使用不同的用户登录到主机步骤描述如下 xff1a 步骤一 x
文字检测识别技术的未来发展趋势和面临的选择

未来发展趋势和面临的挑战 1文本检测与识别技术的未来发展趋势场景文本检测与识别的研究发展趋势场景文本检测识别目前来讲大概分为场景文本检测场景文本识别以及端到端文本检测和识别三个主要的方向其中文本检测方法主要是包括基于文本框回归的分

文字检测识别技术的未来发展趋势和面临的选择

文字检测识别技术的未来发展趋势和面临的选择 的相关文章

随机推荐

热门标签

文字检测识别技术的未来发展趋势和面临的选择的相关文章