c++实验总结_史上最全场景文字检测资源合集(70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息)...

2023-11-09

本文总结了2012年以来在场景文本检测领域的70篇代表性论文、21个常用数据集、15份开源代码,包含176个实验结果以及超过1300条统计信息。Github资源链接见文末。

一、前言

许多自然场景中包含着丰富的文本信息,对于理解自然场景图像有着十分重要的作用。 随着互联网和移动互联网技术飞速发展,许多新型的应用场景都需要利用自然场景中的丰富的文本信息,例如车牌检测和自动驾驶等。场景文本的分析与处理越来越成为计算机视觉领域的研究热点之一。 OCR ( Optical Character Recognition) ,  光学字符识别,是指对输入的扫描文档图像进行分析处理,检测并识别出该图像当中的文本信息 ;  而自然场景中的文本,不同于传统的扫描图像,因其文字展现形式丰富,背景复杂,分辨率和亮度不一,容易受到环境噪声等因素的影响,使得对其的分析与处理难度远高于传统的扫描文档图像。场景文本检测( Scene Text Detection ),即准确定位自然场景中文本的位置,是场景文本分析与处理的基石。近年来,随着深度学习的发展,场景文本检测取得了突破性的进展。 二、场景文本检测数据集

本文总共整理了21个场景文本检测数据集,根据数据集的形式和应用场景可以按如下标准划分:

1.  Horizontal-Text Datasets: ICDAR 2003、 ICDAR 2011、ICDAR 2013; 2.  Arbitrary-Quadrilateral-Text Datasets:  USTB-SV1K、SVT、SVT-P、ICDAR 2015、COCO-Text、MSRA-TD500、MLT 2017、MLT 2019、CTW、RCTW-17、ReCTS; 3.  Irregular-Text Datasets:  CUTE80、Total-Text、SCUT-CTW1500、LSVT、ArT;  4.  Synthetic Datasets:  Synth80k、SynthText。

详细对比内容如表1所示,其中包括语种、图片以及文本数量(训练/测试)、标注类型等,更多内容详见资源链接。

表1 场景文本检测数据集对比

10ac4316e2aa2eced0eeba7ffdd03c4f.png

三、场景文本检测方法总结

本小节整理并对比了场景文本检测中70篇重要论文(发表于TPAMI、TIP等期刊以及CVPR,ICCV等CCF A类会议),对比内容包括代码是否开源、方法分类、适用场景、出处、时间以及创新点等。

本文将场景文本检测方法分为四类:

(a) Traditional methods;

(b) Segmentation-based methods;

(c) Regression-based methods;

(d) Hybrid methods.

详细对比见表2-5以及资源链接。注:表格中Hori,Quad和Irreg分别代表水平文本,任意四边形文本以及不规则文本。

1. Traditional methods

表2 传统场景文本检测方法对比

1ef009875705326cb54944601b3ea9fb.png

2. Segmentation-based methods

表3 基于分割的场景文本检测方法对比

23557c900d7204e9669c1a73082e0ec9.png   3. Regression-based methods

表4 基于回归的场景文本检测方法对比

dfb4f482a3c279d73b667a592fd49b4a.png

4. Hybrid methods

表5 场景文本检测的集成方法对比 

aaa5f5eb79697cbabd77be23e040c09e.png

  四、场景文本检测结果汇总 本小节整理了 70 篇场景文本检测重要论文的在不同类型数据集上的评估结果。部分截图如下表,详细内容请见资源链接。(注:P、R、F 分别代表Precision、Recall和F-measure。) 1.  Detection Results on Horizontal-Text Datasets

5c2da71aed68dee76f89441b54aae27e.png

2.  Detection Results on Arbitrary Quadrilateral Text Datasets

6f6abbfd09b74a0367e228712d78d70e.png 3. Detection Results on Irregular-Text Datasets

f9117f9595e5ea72150cfbcde76000f4.png   五、小结

本文总结了2012年以来在场景文本检测领域的70篇重要论文、21个常用数据集、15份论文开源代码、176个实验结果以及超过1300条统计信息。此外,我们还总结了近年来场景文本检测评估标准的相关论文和部分企业提供的OCR服务。详细内容见下面的Github链接。

Github资源链接
  • Scene Text Detection:https://github.com/HCIILAB/Scene-Text-Detection


作者:刘崇宇 编排:高  学  审校:殷  飞  发布:金连文 

作者及资源整理者介绍:刘崇宇,华南理工大学电子与信息学院在读硕士生。

e91b03efa57faafadcffaf04242bc6ed.png

免责声明:本文仅代表作者观点,不代表本公众号立场。

cf10b0b71d0612a9acdf66458e330f0c.gif

152013ae38fbf03b01ac148749d4a7ac.png152013ae38fbf03b01ac148749d4a7ac.png

ec34564e5a4646ce7d51f9a5ee6df725.png

(长按识别上图二维码加关注)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

c++实验总结_史上最全场景文字检测资源合集(70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息)... 的相关文章

随机推荐

  • 利用XMLHttpRequest同步和异步下载二进制文件的解决方案。

    在XMLHttpRequest2里支持二进制数据的下载了 现分别以同步和异步两种方式分别介绍 异步的方式下载 xmlRequest open GET 0 jpg true xmlRequest responseType blob 这里是关键
  • Android Studio的APP目录下的build.gradle的配置说明

    Build gradle属性说明 声明是Android程序 apply plugin com android application android 程序在编译的时候会检查lint 有任何错误提示都会停止build lintOptions
  • 集合框架知识总汇之(list集合)

    目录 编辑 1 UML 统一建模语 3 List集合 3 1特点 3 2遍历方式 3 3List优化 初始容量10 负载因子1 5 3 4LinkedList 队列 堆栈 3 5如何对Arraylist进行去重处理 面试常问题 1 Coll
  • Django4.0+使用rest_framework_jwt的问题

    问题描述 python版本 3 10 Django版本 4 1 djangorestframework jwt版本 1 11 0 在写jwt认证功能时 发现run的时候会报以下错误 from django utils translation
  • VUE 自身页面跳转自身页面

    先说一下要实现的功能 点击原案件 要回到原案件 但是原案件页面和现在的页面一样 也就是自身跳转自身页面 路由地址不变 使用vue祖传的push 方法来挑转的话 你会发现可以跳转过去 但是页面会刷新 不会触发vue生命周期函数 方法一 thi
  • [转]No response for the toolbars in BEx Analyzer 2004s

    Summary Symptom After installing the frontend either from the CD or through applying the frontend support package or the
  • 2022年蓝桥杯省赛 C/C++ A组B题灭鼠先锋题解

    问题描述 本题为填空题 只需要算出结果后 在代码中使用输出语句将所填结果输出即可 灭鼠先锋是一个老少咸宜的棋盘小游戏 由两人参与 轮流操作 灭鼠先锋的棋盘有各种规格 本题中游戏在两行四列的棋盘上进行 游戏的规则为 两人轮流操作 每次可选择在
  • 《UNIX网络编程》卷一第四章学习笔记

    UNIX网络编程 卷一第四章学习笔记 4 2 socket函数 include
  • 2023华为OD机试真题【计算快递业务主站点/回溯法/深度优先搜索】

    题目描述 快递覆盖的范围有N的站 如果A和B都可以用来中转 我们就称A B站可达 如果A B可达 B C可达 则A C达 我们现在有N个编号 如果s i j 1 表示i j可达 如果s i j 0 表示i j不可达 现用二维数组给定N个站点
  • 使用python爬取微信公众号文章

    一 背景 有时候看到某一个微信公众号中的文章 觉得写的非常不错 有种当时就想把该公众号所有的文章都看完的冲动 但是使用手机看不是特别方便 就想把文章全部下载下来到电脑上面看 二 爬虫实现步骤 使用python爬取微信公众号文章 总共分为如下
  • 图片加载防闪动的CSS方法

    图片闪动 在移动端设置图片布局时 图片使用自适应的方式 其父元素的高度是被图片高度撑开的 在图片加载前 父元素高度为0 加载后 父元素高度为图片高度 这样的过程会造成视觉上的闪烁 影响用户体验 因此 在用图片撑开父元素高度之前 就需要给父元
  • 安装sql server时提示缺少.NET 3.5 sp1

    这几天遇到了一个问题 在安装sql server的时候总是提示我没有安装 NET framework 3 5 sp1 但是我电脑上已经安装了它 多次尝试之后我百思不得其解 今天终于解决了 我的系统是win8升级上来的win10 在升级的时候
  • 一种横向业务的解决方案 -- AOP

    AOP Aspect Oriented Programming 即面向切片编程 所谓面向切片编程 就是可以按照时间 将程序分成无数个时间节点 利用AOP的思想 可以在任何一个时间节点插入其他的代码 来实现自己的业务需求 换句话说 对于那些非
  • java循环栅栏CyclicBarrier 使用详解

    1 CyclicBarrier 是什么 从字面上的意思可以知道 这个类的中文意思是 循环栅栏 大概的意思就是一个可循环利用的屏障 它的作用就是会让所有线程都等待完成后才会继续下一步行动 举个例子 就像生活中我们会约朋友们到某个餐厅一起吃饭
  • 单片机c语言屏蔽第四位,【单片机C语言基础入门】第四章:运算符与表达式

    大家好 今天和大家探讨的是单片机C语言中的运算符和表达式 前边介绍了C语言中的变量的表示 然而在计算的过程中只有变量是不能完成计算的 因此运算符和表达式为变量 包括常量 来做特定的操作 来实现数据的运算 因此运算符和表达式是C语言中不可或缺
  • 网卡多队列 (解决traceroute路由不能直达)以及高丢包问题

    多队列指实例规格支持的最大网卡队列数 单个ECS实例vCPU处理网络中断存在性能瓶颈时 您可以将实例中的网络中断分散给不同的CPU处理 经测试 在相同的网络PPS和网络带宽的条件下 与1个队列相比 2个队列最多可提升性能达50 到100 4
  • Keras-9 实现Seq2Seq

    A ten minute introduction to sequence to sequence learning in Keras 简单介绍如何用Keras实现Seq2Seq模型 原文链接 https blog keras io a t
  • SIMD简介

    SIMD简介 知乎本篇文章包含的内容有SIMD指令集简介以及简短的practice环节 1 SIMD的历史与分类SIMD Single Instruction Multiple Data 即单指令流多数据流 是一种采用一个控制器来控制多个处
  • 【EI检索】第五届信号处理与机器学习国际会议

    2022年第五届信号处理与机器学习国际会议 SPML 2022 及其分会2022年第四届人工智能技术国际会议 AITC 2022 将于2022年8月4 6日在中国大连召开 SPML AITC 2022目前已成功在上海 杭州 北京 线上召开过
  • c++实验总结_史上最全场景文字检测资源合集(70篇重要论文 + 15个开源代码 + 176个实验结果 + 1305个统计信息)...

    本文总结了2012年以来在场景文本检测领域的70篇代表性论文 21个常用数据集 15份开源代码 包含176个实验结果以及超过1300条统计信息 Github资源链接见文末 一 前言 许多自然场景中包含着丰富的文本信息 对于理解自然场景图像有