ORC识别

2023-05-16

OCR(Optical Character Recognition, 光学字符识别)是指对输入图像进行分析识别处理,获取图像中文字信息的过程,具有广泛的应用场景,例如场景图像文字识别、文档图像识别、卡证识别(如身份证、银行卡、社保卡)、票据识别等。而场景文字识别(Scene Text Recognition,STR) 不需要针对特殊场景进行定制,可以识别任意场景图片中的文字

 

场景图片需要将照片或视频中的文字识别出来,其主要分为两个步骤:

  • 对照片中存在文字的区域进行定位(Text Detection),即找到单词或文本行(Word/Line-level)的边界框(Bounding Box);

  • 对定位后的文字进行识别(Text Recognition)

  • 1、文本检测技术

  • (1)基于连通域的方法

    该类方法认为场景图像中的文字一般都是作为连通域出现,这类方法一般可以分为连通域提取和文字连通域判别两个环节。其中,连通域提取环节会将图像中的所有连通域提取出来作为备选,文字连通域判别环节则会根据分类器或者启发式规则判断提取的连通域到底是文字连通域还是背景连通域。

     

    图2 基于连通域的文本检测方法流程图

    (2)基于滑动窗口的方法

    将场景文字作为一类特殊的目标,使用类似于目标检测的方法对场景文字进行定位。首先从每一个滑动窗口中提取若干特征,然后将提取的特征送入事先训练好的分类器判断当前滑动窗口中是否包含文字,最后需要通过二值化来精确定位场景文本的位置。

     

    图3 基于滑动窗口的文本检测方法流程图

    (3)基于深度学习的方法

    近年来,深度学习因其强大的学习能力以及广泛的适用性,已经成为人工智能领域最热门的方向之一。虽然基于连通域和滑动窗口的方法在传统OCR任务能够获得不错的效果,但在更为复杂的场景图像文本检测任务中却完全落后于深度学习方法。基于深度学习的文本检测方法使用效果更加鲁棒的高层语义特征,利用更多的数据去拟合更复杂、泛化能力更强的模型,在场景图片文本检测中取得了突破性进展。在基于深度学习的文本检测方法中,使用最广泛的是基于Region Proposal的方法

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

ORC识别 的相关文章

随机推荐

  • bash PS1配置

    PS1默认配置 span class token punctuation span e span class token punctuation span 0 span class token punctuation span u 64 h
  • 与JWT的不解之缘

    jar xff1a maven lt dependency gt lt groupId gt io jsonwebtoken lt groupId gt lt artifactId gt jjwt lt artifactId gt lt v
  • Linux 给桌面程序设置个性化图标

    由于安装点系统是 Ubuntu 9 04 自带点Firefox 版本是3 0x xff0c 刚好现在需要用一个web developer 插件 能手动更改 xff0c 添加Cookie xff0c 有点想类似Cookie偷窃专用工具 老兵C
  • python初学一(python中 ~ 号的用法)

    一 python中 的用法 1 作用于正负数的时候 表示按位取反 查看 xff1a Python中按位取反运算符 xff08 xff09 在计算机中的计算过程 简单计算 xff1a a 61 a 43 1 2 在numpy中用于 bool
  • Android Animation的一些简单用法

    View Animation startoffset xff1a 动画执行的时间 pivotX xff1a 缩放 xff08 旋转 xff09 的中轴点X坐标 xff0c 距离自身左边缘的位置 pivoty xff1a 缩放 xff08 旋
  • [笔记]有关Static初始化的一点小小记忆

    Q1 xff1a 看下列代码 xff0c 分析输出结果 xff1f span class hljs keyword public span span class hljs keyword class span Test span class
  • Android随手指移动的DragView(一)——获取偏移量

    想要DragView随着手指移动首先得获取偏移量 xff0c 获取偏移量一般有2种思路 xff08 1 xff09 xff0c 通过event getX 64 Override span class hljs keyword public
  • Android随手指移动的DragView(二)——移动DragView

    获取偏移量offsetX和offsetY后 xff0c 可以通过以下几种方式移动DragView xff1a xff08 1 xff09 xff0c 通过layout实现DragView的移动 span class hljs functio
  • android之onNewIntent()用法

    onNewIntent 用法 知识点 xff1a 1 intent的显示和隐式启动 xff1b 2 activity对intent的action的相应 xff1b 3 onNewIntent 和singleTask xff08 栈唯一模式
  • IBM MQ两个队列管理器之间的通信

    本文为转载 原文链接 2个队列管理器之间的通信 前提 1 确保两边的队列管理器的名称不能相同 xff08 如果名称相同将无法通信 xff0c 在连接的时候虽然发送通道和接收通道都是可以运行的 xff0c 但是当放入测试消息的时候会报2087
  • kotlin-android-extensions过时了,迁移到ViewBinding

    前言 回顾历史 xff0c kotlin android extensions插件让我们省去了很多findViewById的代码 xff0c 直接使用控件id操作控件 不过在Android Studio 4 1及以上IDE新建项目的时候 x
  • “下列软件包有未满足的依赖关系“解决方案

    有读者反映 xff0c 安装aptitude后宕机 xff0c 请各位酌情配置 xff0c 这只是个解决方案 根据各位反应的情况 xff0c 会在适配的同时会修改掉一些必要的核心库 xff0c 从而导致严重的系统问题 大家可以先寻找最优方案
  • NanoDet尝试日志(Windows10 + pytorch1.2 + torchvision 0.4.0 + CUDA 10.2)

    作者源码 xff1a https github com RangiLyu nanodet 按照作者的要求来说 xff0c torch的版本需要 1 3 0 xff0c 一方面由于项目需求 xff0c 另一方面由于torch官网未给出1 3
  • ubuntu安装opencv3.4.13的血与泪(一些坑)

    只提tips xff0c 不做教程 xff1a 0 darknet中出现stream stop xff01 一定先安装ffmpeg conda install c conda forge ffmpeg 并在编译时进行 D xff0c 参考d
  • Windows10下编译opencv以及yolov4、yolov4_cpp_dll.dll

    编译的安装顺序是 xff0c CUDA 43 CUDNN xff08 安装包与压缩包不要删除 xff0c 不要删除 xff0c 不要删除 xff0c 防止踩坑的后备 xff09 然后是VisualStdio xff0c 其次是OPENCV
  • darknet添加新层以编译yolo_cpp_dll-------shufflenet模块

    首先感谢AlexeyAB大神提供的YOLOv4源码 xff0c 以及gmayday1997大神提供的split以及shuffle模块源码 xff0c 本文以两位的工作进行yolov4版本中轻量化模块shufflenet模块的添加 首先寻找到
  • TensorBoard出现错误Requirement.parse(‘google-auth<2,>=1.6.3‘))

    在YOLOv5的训练之中 xff0c 可以采用tensorboard工具进行训练过程的查看 xff0c 从而观察模型的收敛情况 在even的上一级目录运行 xff1a tensorboard logdir 61 34 exp4 34 发现出
  • Scene-Graph-Benchmark.pytorch服务器部署

    未采用md编辑 xff0c 望见谅 目录 序言 部署 数据集制作 数据准备 xff1a VG数据集 数据转换 xff08 参考issue xff09 预测 xff08 还未使用模型预测 xff0c 后续添加 xff09 引用 xff08 T
  • [Ubuntu] Argument list too long的问题

    问题溯源 在使用rm rf时 xff0c 文件夹内部大概有4万多的图像文件 xff0c 造成列表长度过长 xff0c 无法删除 此时参考了强哥大佬使用管道 及xarg的方法顺利完成 span class token operator spa
  • ORC识别

    OCR xff08 Optical Character Recognition 光学字符识别 xff09 是指对输入图像进行分析识别处理 xff0c 获取图像中文字信息的过程 xff0c 具有广泛的应用场景 xff0c 例如场景图像文字识别