文档图像处理

2023-11-25

我正在开发一个用于处理文档图像（主要是发票）的应用程序，基本上，我想将某些感兴趣的区域转换为 XML 结构，然后根据该数据对文档进行分类。目前我正在使用 ImageJ 来分析文档图像，并使用 Asprise/tesseract 来进行 OCR。

现在我正在寻找一些能让开发变得更容易的东西。具体来说，我正在寻找一些东西来自动校正文档图像并分析文档结构（例如，将图像转换为四叉树结构以便于处理）。虽然我更喜欢 Java 和 ImageJ，但我对任何库/代码/论文都感兴趣，无论它是用什么编程语言编写的。

虽然我正在开发的系统应尽可能自动处理数据，但用户应监督结果，并在必要时更正系统建议的分类。因此，我有兴趣使用机器学习技术来获得更可靠的结果。当处理类似的文档时，例如特定公司的发票，其结构通常是相同的。当用户之前更正过公司文档的数据时，应在将来考虑这些更正。我对机器学习技术的了解有限，想知道如何实现我的想法。

Mathematica 中的以下原型查找文本块的坐标并在每个块内执行 OCR。您可能需要调整参数值以适合实际图像的尺寸。我不讨论问题的机器学习部分；也许您甚至不需要此应用程序。

导入图片，为打印部分创建二进制蒙版，并使用水平闭合（膨胀和腐蚀）放大这些部分。

enter image description here

查询每个斑点的方向，对方向进行聚类，并通过对最大聚类的方向进行平均来确定整体旋转。

enter image description here

使用之前的角度来拉直图像。此时 OCR 是可能的，但您会丢失文本块的空间信息，这将使后处理比需要的困难得多。相反，通过水平闭合来查找文本块。

enter image description here

对于每个连接的组件，查询边界框位置和质心位置。使用边界框位置提取相应的图像块并对块执行 OCR。

enter image description here

此时，您已经有了字符串及其空间位置的列表。这还不是 XML，但听起来像是一个很好的起点，可以直接根据您的需求进行定制。

这是代码。同样，形态函数的参数（结构元素）可能需要根据实际图像的比例进行更改；此外，如果发票太倾斜，您可能需要大致“旋转”结构元素，以便仍然实现良好的“不倾斜”。

img = ColorConvert[Import@"http://www.team-bhp.com/forum/attachments/test-drives-initial-ownership-reports/490952d1296308008-laura-tsi-initial-ownership-experience-img023.jpg", "Grayscale"];
b = ColorNegate@Binarize[img];
mask = Closing[b, BoxMatrix[{2, 20}]]
orientations = ComponentMeasurements[mask, "Orientation"];
angles = FindClusters@orientations[[All, 2]]
\[Theta] = Mean[angles[[1]]]
straight = ColorNegate@Binarize[ImageRotate[img, \[Pi] - \[Theta], Background -> 1]]
TextRecognize[straight]
boxes = Closing[straight, BoxMatrix[{1, 20}]]
comp = MorphologicalComponents[boxes];
measurements = ComponentMeasurements[{comp, straight}, {"BoundingBox", "Centroid"}];
texts = TextRecognize@ImageTrim[straight, #] & /@ measurements[[All, 2, 1]];
Cases[Thread[measurements[[All, 2, 2]] -> texts], (_ -> t_) /; StringLength[t] > 0] // TableForm

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

文档图像处理的相关文章

单词预测算法

我确信有一篇关于此问题的帖子但我找不到提出这个确切问题的帖子考虑以下我们有字典可供使用我们收到了许多单词段落我希望能够根据此输入预测句子中的下一个单词假设我们有几个句子例如你好我的名字是汤姆他的名字是杰瑞他去了没有水的
Python：处理图像并保存到文件流

我需要使用 python 处理图像应用过滤器和其他转换然后使用 HTTP 将其提供给用户现在我正在使用 BaseHTTPServer 和 PIL 问题是 PIL 无法直接写入文件流因此我必须写入临时文件然后读取该文件以便将其发
Keras 可以处理不同尺寸的输入图像吗？

Keras 可以处理不同尺寸的输入图像吗例如在全卷积神经网络中输入图像可以具有任意大小然而我们在用Keras创建网络时需要指定输入形状因此我们如何使用 Keras 来处理不同的输入尺寸而不将输入图像调整为相同的尺寸谢谢你的帮
使用Python对图像进行反转和平移

我编写了以下代码来循环遍历文件夹中的所有图像创建其底片并将其保存在新的相似名称下我怎样才能做同样的事情来将它们向右平移 5 个像素 Code from PIL import Image import PIL ImageOps impor
承诺的反面是什么？

承诺代表将来可能可用或无法实现的值我正在寻找的是一种数据类型它表示将来可能变得不可用的可用值可能是由于错误 Promise a b TransitionFromTo
在防风草模型上使用 VIP 包计算重要性度量

我正在尝试使用 vi firm 在防风草中制作的逻辑回归模型上计算特征重要性对于正则表达式我将使用 iris 数据集并尝试预测观察结果是否为 setosa iris1 lt iris gt mutate class case when
使用 TensorFlow 和 Keras 的卷积神经网络精度较低 [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我计划创建一个 CNN 来预测蘑菇类型并从互联网上收集了 2500 多张照片数据集有 156 个类别不同类型的蘑菇我在 Tensorfl
有向无环图的人类可读文本表示

一棵树有一堆人类和机器可读的文本表示例如嵌套列表以各种表示形式例如 JSON 和 YAML 和 XML 与缩进相结合它们使我们很容易想象得到的结构但我没有看到任何具有相同水平可读性的东西有向无环图 https en wikiped
期望最大化算法的数值示例[重复]

这个问题在这里已经有答案了由于我不确定给出的公式有人可以提供 EM 算法的简单数字示例吗一个非常简单的具有 4 或 5 个笛卡尔坐标的坐标就可以了那这个呢 http en wikibooks org wiki Data Mining
Keras 错误：预计会看到 1 个数组

当我尝试在 keras 中训练 MLP 模型时出现以下错误我使用的是 keras 版本1 2 2 检查模型输入时出错您输入的 Numpy 数组列表传递给您的模型的尺寸不是模型预期的尺寸预期的查看 1 个数组但得到以下 12859
如何命名变量

您使用什么规则来命名变量哪里允许使用单字母变量你在名字中加入了多少信息例如代码怎么样你最喜欢的无意义变量名是什么在 foo 和 bar 之后为什么它们被拼写为 foo 和 bar http en wikipedia org wi
将 Scikit-Learn OneHotEncoder 与 Pandas DataFrame 结合使用

我正在尝试使用 Scikit Learn 的 OneHotEncoder 将 Pandas DataFrame 中包含字符串的列替换为 one hot 编码的等效项我的下面的代码不起作用 from sklearn preprocessin
Azure 机器学习 - CORS

我已经搜索了几个小时但找不到任何可以回答这个问题的东西我创建并发布了新的 Azure 机器学习服务并创建了一个终结点我可以使用 Postman REST 客户端调用该服务但通过 JavaScript 网页访问它会返回一个控制台日志
有人真正有效地实现了斐波那契堆吗？

你们中有人曾经实施过斐波那契堆 http en wikipedia org wiki Fibonacci heap 几年前我就这样做了但它比使用基于数组的 BinHeaps 慢了几个数量级当时我认为这是一个宝贵的教训告诉我们研究并不
是否可以使用具有余弦相似度的 KDTree？

看来我不能使用这个相似度度量sklearn例如 KDTree 但我需要因为我正在使用测量单词向量相似度对于这种情况快速鲁棒定制算法是什么我知道关于Local Sensitivity Hashing 但它应该经过大量调整和测试才能找到
OpenCV：处理每一帧

我想使用 OpenCV 编写一个跨平台应用程序进行视频捕获在所有示例中我发现来自相机的帧是使用抓取功能进行处理并等待一段时间我想处理序列中的每一帧我想定义自己的回调函数每次当一个新帧准备好处理时都会执行该函数例如直播对于 Win
在 R 中绘制决策树（插入符）

我已经训练了一个数据集rf方法例如 ctrl lt trainControl method LGOCV repeats 3 savePred TRUE verboseIter TRUE preProcOptions list thresh
如何在 keras 模型中使用张量流度量函数？

使用Python 3 5 2张量流RC 1 1 我正在尝试在 keras 中使用张量流度量函数所需的功能接口似乎是相同的但调用 import pandas import numpy import tensorflow contrib k
尝试校准keras模型

我正在尝试通过 Sklearn 实现来校准我的 CNN 模型CalibratedClassifierCV 尝试将其包装为KerasClassifier并覆盖预测功能但没有成功有人可以说我做错了什么吗这是模型代码 def create m
Bitmap.Maketransparent 函数的不同结果

我的问题是我想让图像背景透明以下功能对我来说效果很好但在另一台机器上进行测试时我发现有很多伪影颜色并且透明度不像我的机器和其他一些机器上那么清晰我正在使用调试版本测试是在发布版本上完成的但即使使用发布版本我们也会在不同的机器

随机推荐

Amazon S3 TransferUtility.Upload 在 C# 中挂起

因此我正在编写一个迁移应用程序从本地存储中获取一些数据并将其上传到亚马逊一切工作正常除了一旦我进入大于 15 megs megs 是的不是 Gigs 的文件应用程序就会冻结这是用 C 编写的非常简单 var transfer
单击 @angular/service-worker 推送通知的操作部分

我一直在尝试将用户重定向到来自后端 PHP 的 Web 推送的操作部分 return new WebPushMessage gt title Title gt icon icon png gt body Body Msg gt acti
如何绕过cloudflare浏览器检查selenium Python

我正在尝试使用 selenium Python 访问网站但该网站正在通过cloudflare不断检查没有其他页面出现检查此处的屏幕截图我尝试过未检测到的铬但它根本不起作用未检测到的 chrome 是指未检测到的 chromedr
iphone nsurlconnection 读取cookie

我正在使用异步 NSURLConnection 从 iPhone 连接到网站处理 didReceiveResponse 在响应时被激活我试图通过使用 NSHTTPURLResponse 中的 allHeaderFields 来获取所有
如何使用 MongoDB 按名字和姓氏搜索用户？

我有一个基本的用户集合他们有自己的firstName lastName以及其他一些细节我如何简单地通过两个名称的组合或部分搜索来搜索用户例如对于以下集合 firstName Bob lastName Jerry firstName
sbt 程序集无法创建 jar 并获取 java.lang.UnsupportedOperationException

我在用 scala 1 12 10 akka 2 6 3 addSbtPlugin io spray sbt revolver 0 9 1 addSbtPlugin com eed3si9n sbt assembly 1 1 0 然而执行时
使用pyinstaller后执行编译文件时出错“No module named 'scipy._lib.messagestream'”

我正在尝试编译你的代码https bitbucket org OES muni massiveoes using py安装程序从 python 2 7 升级到 3 6 并同时迁移到 scipy 1 0 0 后我正在64位win7机器上工作
mysql存储过程动态排序与混合类型

我正在创建一个存储过程向其中动态传递订单如下所示 CREATE PROCEDURE getStuff IN orderSQL VARCHAR 100 BEGIN SELECT id name createdate FROM mytab
如何在 C/C++ 应用程序中使用 lsof(列出打开的文件)？

有什么方法可以使用所有打开的套接字c 我知道lsof命令这就是我正在寻找的但是如何在c 应用这个想法是通过它来获取打开的套接字的FDport数量和pid 只需打开 proc net 中的文件例如 proc net tcp proc
Powershell - IIS 上的 ConvertTo-WebApplication

我正在尝试使用 powershell 将 NET 4 应用程序部署到虚拟目录我使用以下代码 Import Module webadministration New Item IIS AppPools MainAppPool Set Ite
将 DateTime 对象列表转换为 python 中的字符串[重复]

这个问题在这里已经有答案了我有一个在两个日期之间返回星期一的日期列表星期一 datetime date 2019 2 14 datetime date 2019 2 21 如何将此列表格式化为 Y m d 格式期望输出列表采用以下格式
用 nom 解析整数总是导致不完整

我尝试的一切都给了我Incomplete Size 1 我现在最好的猜测是 named my u64 str gt u64 map res recognize nom digit u64 from str Test cfg test mod
尝试使用 pip 安装看门狗时如何修复“错误：命令错误，退出状态 1：”

我正在重新审视 python 语言并且在设置环境时遇到困难我在用 Mac 莫哈维 10 14 python 2 7 10 随系统打包 python 3 7 4 使用自制软件安装自制软件 2 1 14 点 19 2 3 我在尝试通过 p
使用 ggplot 将线图绘制到散点图上

我有这个简单的数据框为每个因素 CT 保存三个重复值我想将其绘制为 geom point 并将该点的平均值绘制为 geom line gene lt c Ckap5 Ckap5 Ckap5 Ckap5 Ckap5 Ckap5 Ckap
使用 calendarWithIdentifier 的 EKCADErrorDomain

在我的 iOS 应用程序中我曾经使用以下方法访问日历 EKCalendar cal eventStore calendarWithIdentifier calendarIDs objectAtIndex i 通过以下方式向用户请求权限 e
如何从传递给 for 循环的数组中访问“键”和“值”？

我怎样才能改变foreach下面循环以便我可以分配 myradiooption数组的key as the value对于每个输入而不是数组的option正如我现在所做的那样我仍然想回显数组的option值作为标签
python 拉取历史频道消息

我正在尝试通过从我所属的松弛通道中提取消息响应来创建一个小型数据集我想使用 python 从通道中提取数据但是我无法确定我的 api 密钥我已经在 slack 上创建了一个应用程序但我不知道如何找到我的 api 密钥我看到我的客
Java 并发：“级联”变量中的 Volatile 与 Final？

is final Map
为什么 C++ 可变参数函数声明中的逗号是可选的？

这两个声明有区别吗 int foo int a and int foo int a 如果没有区别那么使第二个在语法上有效的意义何在这是推测但在 C 中拥有一个没有其他参数的函数是有意义的例如void f 而在 C 中这样的函数没
文档图像处理

我正在开发一个用于处理文档图像主要是发票的应用程序基本上我想将某些感兴趣的区域转换为 XML 结构然后根据该数据对文档进行分类目前我正在使用 ImageJ 来分析文档图像并使用 Asprise tesseract 来进行 OC

文档图像处理

文档图像处理 的相关文章

随机推荐

热门标签

文档图像处理的相关文章