使用 OpenCV 对 Tesseract OCR 进行图像预处理

2024-03-27

我正在尝试开发一个应用程序，它使用 Tesseract 来识别手机摄像头拍摄的文档中的文本。我使用 OpenCV 来预处理图像以实现更好的识别，应用高斯模糊和阈值方法进行二值化，但结果非常糟糕。

Here https://s6.postimg.cc/sft9tot9d/0_img02.png is the the image I'm using for tests:

And here https://s6.postimg.cc/mswww7qqp/2_img02_sharpened_threshold1.png the preprocessed image:

我还可以使用哪些其他过滤器来使图像对于 Tesseract 更具可读性？

我在这里描述了为 Tesseract 准备图像的一些技巧：使用tesseract识别车牌 https://stackoverflow.com/questions/19268648/using-tesseract-to-recognize-license-plates/19418347#19418347

在您的示例中，发生了几件事......

您需要将文本设置为黑色，将图像的其余部分设置为白色（not相反）。这就是字符识别的功能。灰度is好的，只要背景大部分是全白，文字大部分是全黑即可；文本的边缘可能是灰色的（抗锯齿）并且may帮助识别（但不一定 - 你必须进行实验）

您看到的问题之一是，在图像的某些部分，文本确实很“薄”（阈值处理后字母中出现间隙），而在其他部分，文本确实很“厚”（并且字母开始合并）。 Tesseract 不会这样:) 发生这种情况是因为输入图像的光照不均匀，因此单个阈值并不适用于所有地方。解决方案是进行“局部自适应阈值处理”，其中为图像的每个邻域计算不同的阈值。有很多方法可以做到这一点，但请查看例如：

OpenCV 中的自适应高斯阈值 https://docs.opencv.org/3.0-beta/doc/py_tutorials/py_imgproc/py_thresholding/py_thresholding.html with cv2.adaptiveThreshold(...,cv2.ADAPTIVE_THRESH_GAUSSIAN_C,...)
当地大津的方法 http://sharky93.github.io/docs/dev/auto_examples/plot_local_otsu.html
局部自适应直方图均衡 http://sharky93.github.io/docs/dev/auto_examples/plot_local_equalize.html

您遇到的另一个问题是线条不直。根据我的经验，Tesseract 可以处理非常有限非直线的程度（百分之几的透视变形、倾斜或歪斜），但它实际上并不能与wavy线。如果可以的话，请确保源图像具有直线:) 不幸的是，对此没有简单的现成答案；你必须研究研究文献并自己实现一种最先进的算法（如果可能的话将其开源 - 确实需要一个开源解决方案）。谷歌学术搜索“" 将帮助您开始，例如：

弯曲文档图像的文本行分割 http://www.academia.edu/7675762/S_Text_line_Segmentation_of_Curved_Document_Images

最后：我认为使用 python 生态系统（ndimage、skimage）会比使用 C++ 中的 OpenCV 做得更好。 OpenCV python 包装器对于简单的东西来说是可以的，但是对于你想要做的事情，它们无法完成工作，你将需要获取许多 OpenCV 中没有的部分（当然你可以混合和匹配）。在 C++ 中实现曲线检测之类的功能将比在 python 中长一个数量级（*即使您不了解 python，也是如此）。

祝你好运！

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 OpenCV 对 Tesseract OCR 进行图像预处理的相关文章

如何提取图像中的表格

我想从图像中提取表格这个 python 模块https pypi org project ExtractTable https pypi org project ExtractTable 与他们的网站https www extractta
编译使用Basler相机的程序

我正在尝试使用 Basler 相机捕获图像的 C 程序来工作我拿到来自制造商的代码它应该非常容易使用但是链接它有成为一场噩梦我的 C 时代已经过去了最近只使用 Matlab 所以我可能会犯一些愚蠢的错误但请赐教代码如下
使用 python 突出显示图像中的特定文本

我想突出显示网站屏幕截图中的特定单词句子截取屏幕截图后我使用提取文本pytesseract and cv2 效果很好我可以获得有关它的文本和数据 import pytesseract import cv2 if name main
如何使用requirements.txt 在 Heroku python Web 应用程序中安装 Dlib？

我构建了一个涉及机器学习的 Python Flask Web API 但在 Heroku 上部署它时遇到了很多挫折问题是我的应用程序依赖于 Dlib 一个库我似乎找不到在我的 Heroku 服务器中安装的方法我正在试图解决这个问题
如何使图像呈现出陈旧、布满灰尘、颜色褪色的外观？

我有旧画的图像这些画很旧布满灰尘颜色褪色如图所示here https i stack imgur com xuoEF jpg 如何赋予任何图像这种旧外观我找不到任何过滤器或 openCV 函数来实现这种类型的外观 EDIT 我
opencv 视频上的颜色阈值

I am thresholding for a color range in an opencv video The goal is to seperate the B mode black and white information on
使用相位相关和对数极坐标变换获得旋转位移

我一直在编写一个脚本它使用 cv2 计算两个图像之间的旋转位移phaseCorrelate method 我有两张图像第二张是第一张图像的 90 度旋转版本加载图像后我将它们转换为对数极坐标然后将它们传递到phaseCorrela
OpenCV findContours 破坏源图像

我编写了一个在单通道空白图像中绘制圆形直线和矩形的代码之后我只需找出图像中的轮廓就可以正确获取所有轮廓但找到轮廓后我的源图像变得扭曲为什么会出现这种情况任何人都可以帮我解决这个问题我的代码如下所示 using namesp
使用 openCV 和 python 检测物体

我正在尝试使用 OpenCV 和 Python 检测下图中的白点我尝试使用函数 cv2 HoughCircles 但没有成功我需要使用不同的方法吗这是我的代码 import cv2 cv import numpy as np impo
如何使用 OpenCV 检测图像帧中的对象？

我正在使用 Raspberry Pi 开发一个漫游器它将清扫房间并捡起掉落在地上的物体为了检测物体我使用了在流动站操作开始时拍摄的参考图像以及每 10 秒单击一次的图像新图像为了确定图像帧是否发生变化我在参考图像和新图像之间进
在 C、C++ 中实现腐蚀、膨胀

我对二值图像的膨胀是如何完成的有理论上的了解 AFAIK 如果我的 SE 结构元素是这样的 0 1 1 1 在哪里代表中心我的图像二进制是这样的 0 0 0 0 0 0 1 1 0 0 0 1 0 0 0 0 1 0 0 0 0 0
如何将 Tesseract 导入 Angular2 (TypeScript)

我正在尝试将 Tesseract 导入 Angular2 TypeScript 我可以看到它保存到 node modules 文件夹中但是在使用时 import Tesseract from types tesseract js it s
如何在Python中使用tcp套接字发送和接收网络摄像头流？

我正在尝试重新创建这个项目 https github com hamuchiwa AutoRCCar 我拥有的是服务器我的电脑和客户端我的树莓派我所做的与原始项目不同的是我尝试使用一个简单的网络摄像头而不是树莓派摄像头将图像从我的
如何在Eclipse中配置Tesseract进行Android开发？

我已经从事 Android 工作 6 个月了至此我对Android开发有了基本的了解现在我想使用 Tesseract 开发一个 OCR Android 应用程序为此我从 Tesseract 下载了 android ndk r6b t
相机标定（OpenCV 2.3）-如何使用畸变参数？

我有一组带有一些附加标记的刚体图像我在这些标记之一中定义了一个原点坐标系我想获得该坐标系与在相机原点定义的坐标系之间的旋转和平移我尝试了一段时间 POSIT 以下this http goo gl cUYYt 但从未获得可接受的结果直
在 RGB 图像上绘制多类语义分割透明叠加

我有语义分割掩码的结果值在 0 1 之间需要大津阈值来确定什么是积极的我想直接在 RGB 图像上绘制在 RGB 图像上每个预测类具有不同的随机颜色我使用以下内容绘制了具有单一颜色的单个蒙版是否有一个包或简单的策略可以为多类别做到
用Python识别图像

我对 OCR 识别和 Python 都有点陌生我想要实现的是从 Python 脚本运行 Tesseract 以识别 tif 中的某些特定数字我以为我可以为 Tesseract 做一些培训但我在 Google 和 SO 上没有找到任何
如何设置K-means openCV c++的初始中心

我正在尝试使用 OpenCv 和 Kmeans 对图像进行分割我刚刚实现的代码如下 include opencv2 objdetect objdetect hpp include opencv2 highgui highgui hpp i
CUDA、NPP 滤波器

CUDA NPP 库支持使用 nppiFilter 8u C1R 命令过滤图像但不断出现错误我可以毫无问题地启动并运行 boxFilterNPP 示例代码 eStatusNPP nppiFilterBox 8u C1R oDeviceS
OpenCV 仅围绕大轮廓绘制矩形？

第一次发帖希望我以正确的方式放置代码我正在尝试检测和计算视频中的车辆因此如果您查看下面的代码我会在阈值处理和膨胀后找到图像的轮廓然后我使用 drawContours 和矩形在检测到的轮廓周围绘制一个框我试图在 drawCont

随机推荐

诗歌是否忽略了额外内容或 pyproject.toml 配置错误？ [复制]

这个问题在这里已经有答案了我有一个由诗歌创建的新项目 yolo 我做了以下步骤 poetry new poetry add requests poetry add D pytz poetry add D optional extras d
如何设置Kubernetes启动的容器的workdir

使用 Kubernetes 启动容器时是否可以设置工作目录是的通过workingDir领域的集装箱规格 https kubernetes io docs reference kubernetes api workload resourc
确定多维numpy数组中是否至少有一个零

我有以下代码存在一个 numpy 数组multidimensional array其中要么全是整数且没有零要么是多个整数中只有一个零 zeros list for line in multidimensional array if fi
使用生成器表达式而不是列表进行排序（）

看到这里的讨论后 Python 生成时差 https stackoverflow com questions 4154116 python generate the time difference 4154298 4154298我很好奇我
Python 使用 tabulate 打印列表

我正在尝试打印天文学模拟的输出以便它在我的控制台中看起来不错我生成了 4 个 numpy 数组分别称为振幅质量周期和偏心率我想将它们放在一个表中每个数组的第一个索引是行星 1 的值第二个索引是行星 2 的值依此类推所以我
构建失败 Sphinx 错误内容.rst 未找到

我按照阅读文档的说明进行操作但收到此错误 bash Sphinx 错误主文件 home docs checkouts readthedocs org user builds mybinders checkouts latest docs
ASP.NET MVC 通过 ExecuteSqlCommand 获取插入项的 ID

我在 ASP NET MVC3 项目中插入以下内容 var query INSERT INTO MyTable VALUES some values db Database ExecuteSqlCommand query 有没有简单的方法获
西南点和东北点

我正在开发一个使用谷歌API的iPhone应用程序我有一组纬度和经度我需要从这些点找到西南和东北点我该怎么做提前致谢 Given A point LAT LNG A distance or radius DIST 1 of lati
如何在鼠标左键按下自动点击器C ++时触发循环

嘿我试图让我的自动点击器仅在按住鼠标左键时单击 void clikr INPUT Input 0 int sleepzZz 1000 times active false system cls while 1 if GetAsyncKey
Modelica 外部函数：C 与 C99

在 Modelica 中可以定义外部函数规范第 12 9 章表示支持 C 和 Fortran77 将来可能会支持 C 和 Fortran90 现在我想知道哪个C 的版本 http en wikipedia org wiki C progr
PHP5。将数组声明为类成员的两种方法[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案当将数组声明为类成员时应该采取哪种方式 class Test1 private paths array public function con
Powershell 不会使用 install-module 安装几乎任何模块

我的 Powershell v5 1 不会使用以下命令自动安装几乎任何模块install module而手动安装确实有效首先当我跑步时install module 它会下载模块然后抛出错误比如 pscx 模块 PackageManag
更改 Swagger/Swashbuckle 导出的属性类型

我有一个相当复杂的对象其中包含嵌套对象请注意在下面的示例中我极大地简化了这个对象假设有以下示例对象 public class Result public string Name get set public IpAddress I
来自数组的 Pandas Multiindex => TypeError：不可散列的类型：'dict'

我正在尝试从具有以下结构的数组创建数据框 df date time Timestamp 2015 05 22 05 37 59 name Tom value 129 date time Timestamp 2015 05 22 05 37
如何找到调用该方法的ABAP程序/FM？

我是SAP SD模块专家经常需要调试代码有时我需要知道哪些程序 FM 地址特定的表我用使用地点在 SE11 中的表中它会找到寻址该表的类方法但是当我使用使用地点对于类方法系统找不到任何内容你知道如何找到调用此方法的程序或FM吗
在 Rust 中从数组调用闭包

如何迭代一系列闭包依次调用每个闭包通过函数我发现我可以通过迭代数组并取消引用生成的值来做到这一点 fn square x int gt int x x fn add one x int gt int x 1 fn main let f
django-endless 与基于类的视图示例

我第一次使用基于类的视图我无法理解如何使用基于类的视图来实现django 无尽分页 http django endless pagination readthedocs org en latest twitter pagination h
使用 Pandoc 和 LaTeX 从 docx 转换为 pdf 时如何修复“缺少字符”警告？

Goal 我有几千种高棉语 docx文件并希望将它们转换为 pdf格式使用Pandoc https pandoc org 背景我使用 MacPorts 安装了 Pandoc Pandoc需要LaTeX来进行PDF转换所以我安装了MacT
在 iframe 中运行 Google Analytics？

我们公司与向我们发送流量的联属合作伙伴一起运营一个网站 oursite com 在某些情况下我们会使用自己的子域 affiliate oursite com 来设置我们的联营公司然后他们使用 iframe 在其网站 affiliate
使用 OpenCV 对 Tesseract OCR 进行图像预处理

我正在尝试开发一个应用程序它使用 Tesseract 来识别手机摄像头拍摄的文档中的文本我使用 OpenCV 来预处理图像以实现更好的识别应用高斯模糊和阈值方法进行二值化但结果非常糟糕 Here https s6 postimg c

使用 OpenCV 对 Tesseract OCR 进行图像预处理

使用 OpenCV 对 Tesseract OCR 进行图像预处理 的相关文章

随机推荐

热门标签

使用 OpenCV 对 Tesseract OCR 进行图像预处理的相关文章