如何改进印地语文本提取？

2023-11-24

我正在尝试从 PDF 中提取印地语文本。我尝试了所有从 PDF 中提取内容的方法，但都不起作用。有解释为什么它不起作用，但没有答案。所以，我决定将PDF转换为图像，然后使用pytesseract提取文本。我已经下载了印地语训练数据，但这也给出了非常不准确的文本。

这是 PDF 中的实际印地语文本（下载链接):

到目前为止，这是我的代码：

import fitz

filepath = "D:\\BADI KA BANS-Ward No-002.pdf"

doc = fitz.open(filepath)
page = doc.loadPage(3)  # number of page
pix = page.getPixmap()
output = "outfile.png"
pix.writePNG(output)
from PIL import Image
import pytesseract

# Include tesseract executable in your path
pytesseract.pytesseract.tesseract_cmd = r"C:\Program Files\Tesseract-OCR\tesseract.exe"

# Create an image object of PIL library
image = Image.open('outfile.png')

# pass image into pytesseract module
# pytesseract is trained in many languages
image_to_text = pytesseract.image_to_string(image, lang='hin')

# Print the text
print(image_to_text)

这是一些输出示例：

कार बिता देवी व ०... नाम बाइुनान िक०क नाक तो
पति का नाव: रवजी लात. “50९... पिला का सामशामाव.... “पति का नाम: बादुलल
कान सब: 43 लसमनंध्या: 93९. मकान ंब्या: 3९
आप: 29 _ लिंग सी. | आइ 57 लिंग पुरुष आप: 62 लिंग सी
एजगल्णब्णस्य (बन्द जगाख्मिणण्य
नमः बायगी बसों ०४... नि बयावर्णो ०५०... निफर सनक नी
चिता का नामजबूजल वर्ष.“ ००० | पिला का नामब्राइलाल वर्षो... 0 2... | पिता कामामशुल चब्द .... “20०
|सकानसंब्या: 43९ बसवकंब्या: 43९. कान संब्या: 44
जाए: 27 लिंग सो कई: 27 नि खी मा लिंग पुरुष

这个问题有答案了我想用 python 抓取印地语（印度语言）pdf 文件，它似乎告诉了如何做到这一点，但没有提供任何解释。

有什么办法可以做到这一点吗？

我将给出一些如何处理图像的想法，但我会将其限制在给定文档的第 3 页，即问题中显示的页面。

为了将 PDF 页面转换为某些图像，我使用了pdf2image.

对于 OCR，我使用pytesseract，但不是lang='hin', I use lang='Devanagari'，参见这超立方体 GitHub。一般来说，请确保完成提高输出质量来自 Tesseract 文档，尤其是页面分割方法.

这是整个过程的（冗长）描述：

对图像进行逆二值化以进行轮廓查找：黑色背景上的白色文本、形状等。
找到所有轮廓，并过滤掉两个非常大的轮廓，即这是两个表。
Extract texts outside of the two tables:
1. 屏蔽二值化图像中的表格。
2. 进行形态闭合以连接剩余的文本行。
3. 找到这些文本行的轮廓和边界矩形。
4. Run pytesseract提取文本。
Extract texts inside of the two tables:
1. 从当前表格中更好地提取单元格：它们的边界矩形。
2. For the first table:
  1. Run pytesseract按原样提取文本。
3. For the second table:
  1. 填充数字周围的矩形，以防止 OCR 输出错误。
  2. 遮盖左侧（印地语）和右侧（英语）部分。
  3. Run pytesseract using lang='Devaganari'在左边，并使用lang='eng'位于正确的部分，以提高两者的 OCR 质量。

这就是整个代码：

import cv2
import numpy as np
import pdf2image
import pytesseract

# Extract page 3 from PDF in proper quality
page_3 = np.array(pdf2image.convert_from_path('BADI KA BANS-Ward No-002.pdf',
                                              first_page=3, last_page=3,
                                              dpi=300, grayscale=True)[0])

# Inverse binarize for contour finding
thr = cv2.threshold(page_3, 128, 255, cv2.THRESH_BINARY_INV)[1]

# Find contours w.r.t. the OpenCV version
cnts = cv2.findContours(thr, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]

# STEP 1: Extract texts outside of the two tables

# Mask out the two tables
cnts_tables = [cnt for cnt in cnts if cv2.contourArea(cnt) > 10000]
no_tables = cv2.drawContours(thr.copy(), cnts_tables, -1, 0, cv2.FILLED)

# Find bounding rectangles of texts outside of the two tables
no_tables = cv2.morphologyEx(no_tables, cv2.MORPH_CLOSE, np.full((21, 51), 255))
cnts = cv2.findContours(no_tables, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
cnts = cnts[0] if len(cnts) == 2 else cnts[1]
rects = sorted([cv2.boundingRect(cnt) for cnt in cnts], key=lambda r: r[1])

# Extract texts from each bounding rectangle
print('\nExtract texts outside of the two tables\n')
for (x, y, w, h) in rects:
    text = pytesseract.image_to_string(page_3[y:y+h, x:x+w],
                                       config='--psm 6', lang='Devanagari')
    text = text.replace('\n', '').replace('\f', '')
    print('x: {}, y: {}, text: {}'.format(x, y, text))

# STEP 2: Extract texts from inside of the two tables

rects = sorted([cv2.boundingRect(cnt) for cnt in cnts_tables],
               key=lambda r: r[1])

# Iterate each table
for i_r, (x, y, w, h) in enumerate(rects, start=1):

    # Find bounding rectangles of cells inside of the current table
    cnts = cv2.findContours(page_3[y+2:y+h-2, x+2:x+w-2],
                            cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
    cnts = cnts[0] if len(cnts) == 2 else cnts[1]
    inner_rects = sorted([cv2.boundingRect(cnt) for cnt in cnts],
                         key=lambda r: (r[1], r[0]))

    # Extract texts from each cell of the current table
    print('\nExtract texts inside table {}\n'.format(i_r))
    for (xx, yy, ww, hh) in inner_rects:

        # Set current coordinates w.r.t. full image
        xx += x
        yy += y

        # Get current cell
        cell = page_3[yy+2:yy+hh-2, xx+2:xx+ww-2]

        # For table 1, simply extract texts as-is
        if i_r == 1:
            text = pytesseract.image_to_string(cell, config='--psm 6',
                                               lang='Devanagari')
            text = text.replace('\n', '').replace('\f', '')
            print('x: {}, y: {}, text: {}'.format(xx, yy, text))

        # For table 2, extract single elements
        if i_r == 2:

            # Floodfill rectangles around numbers
            ys, xs = np.min(np.argwhere(cell == 0), axis=0)
            temp = cv2.floodFill(cell.copy(), None, (xs, ys), 255)[1]
            mask = cv2.floodFill(thr[yy+2:yy+hh-2, xx+2:xx+ww-2].copy(),
                                 None, (xs, ys), 0)[1]

            # Extract left (Hindi) and right (English) parts
            mask = cv2.morphologyEx(mask, cv2.MORPH_CLOSE,
                                    np.full((2 * hh, 5), 255))
            cnts = cv2.findContours(mask,
                                    cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_NONE)
            cnts = cnts[0] if len(cnts) == 2 else cnts[1]
            boxes = sorted([cv2.boundingRect(cnt) for cnt in cnts],
                           key=lambda b: b[0])

            # Extract texts from each part of the current cell
            for i_b, (x_b, y_b, w_b, h_b) in enumerate(boxes, start=1):

                # For the left (Hindi) part, extract Hindi texts
                if i_b == 1:

                    text = pytesseract.image_to_string(
                        temp[y_b:y_b+h_b, x_b:x_b+w_b],
                        config='--psm 6',
                        lang='Devanagari')
                    text = text.replace('\f', '')

                # For the left (English) part, extract English texts
                if i_b == 2:

                    text = pytesseract.image_to_string(
                        temp[y_b:y_b+h_b, x_b:x_b+w_b],
                        config='--psm 6',
                        lang='eng')
                    text = text.replace('\f', '')

                print('x: {}, y: {}, text:\n{}'.format(xx, yy, text))

并且，这是输出的前几行：

Extract texts outside of the two tables

x: 972, y: 93, text: राज्य निर्वाचन आयोग, राजस्थान
x: 971, y: 181, text: पंचायत चुनाव निर्वाचक नामावली, 2021
x: 166, y: 610, text: मिश्र का बाढ़ ,श्रीराम की नॉगल
x: 151, y: 3417, text: आयु 1 जनवरी 2021 के अनुसार
x: 778, y: 3419, text: पृष्ठ संख्या : 3 / 10

Extract texts inside table 1

x: 146, y: 240, text: जिलापरिषद का नाम : जयपुर
x: 1223, y: 240, text: जि° प° सदस्य निर्वाचन क्षेत्र : 21
x: 146, y: 327, text: पंचायत समिति का नाम : सांगानेर
x: 1223, y: 327, text: पं° स° सदस्य निर्वाचन क्षेत्र : 6
x: 146, y: 415, text: ग्रामपंचायत : बडी का बांस
x: 1223, y: 415, text: वार्ड क्रमांक : 2
x: 146, y: 502, text: विधानसभा क्षेत्र की संख्या एवं नाम:- 56-बगरु

Extract texts inside table 2

x: 142, y: 665, text:
1 RBP2469583
नाम: आरती चावला
पिता का नामःलाला राम चावला
मकान संख्याः १९
आयुः 21 लिंगः स्त्री

x: 142, y: 665, text:
Photo is
Available

x: 867, y: 665, text:
2 MRQ3101367
नामः सूरज देवी
पिता का नामःरामावतार
मकान संख्याः डी /18
आयुः 44 लिंगः स्त्री

x: 867, y: 665, text:
Photo is
Available

我使用手动逐个字符比较检查了一些文本，认为它看起来相当不错，但无法理解印地语或阅读梵文脚本，我无法评论 OCR 的整体质量。请告诉我！

令人烦恼的是，数字9从相应的“卡”中被错误地提取为2。我认为，发生这种情况是由于与文本的其余部分相比字体不同，并且结合lang='Devanagari'。无法找到解决方案 - 不从“卡片”中单独提取矩形。

----------------------------------------
System information
----------------------------------------
Platform:      Windows-10-10.0.19041-SP0
Python:        3.9.1
PyCharm:       2021.1.1
NumPy:         1.19.5
OpenCV:        4.5.2
pdf2image      1.14.0
pytesseract:   5.0.0-alpha.20201127
----------------------------------------

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何改进印地语文本提取？的相关文章

动态向类添加类方法

我有以下片段 FEED TYPES fan mail Fan Mail review Review tip Tip fan user Fan User fan song Fan Song fan album Fan Album played
使用 Python Multiprocessing Pool.map() 的问题在 Python 3.7.2 中变得棘手，但在 3.6.2 中很快完成

我刚刚将Python从3 6 2 gt 3 7 2并且遇到了问题multiprocessing图书馆我在 Django 应用程序中使用它该应用程序在工作函数中使用 Django 特定的函数见下文在我的代码中我有以下内容 impor
如何（重新）命名 pandas 数据框中的空列标题而不导出到 csv

我有一个熊猫数据框df1带有一个索引列和一系列未命名的值我想为未命名的系列指定一个名称到目前为止我知道的唯一方法是导出到df1 csv using df1 to csv df1 csv header Signal 然后使用以下命令重新
来自 pandas 数据帧的烛台图，用日期替换索引

此代码给出了带有移动平均线的烛台图但 x 轴位于索引中我需要 x 轴位于日期中需要做什么改变 import numpy as np import pandas as pd import matplotlib pyplot as plt
查找正在导入哪些 python 模块

从应用程序中使用的特定包中查找所有 python 模块的简单方法是什么 sys modules是将模块名称映射到模块的字典您可以检查其键以查看导入的模块 See http docs python org library sys html
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
Django 多对多关系（类别）

我的目标是向我的 Post 模型添加类别我希望以后能够按不同类别有时是多个类别查询所有帖子模型 py class Category models Model categories 1 red 2 blue 3 black title
在 Linux 上使用多处理时，TKinter 窗口不会出现

我想生成另一个进程来异步显示错误消息同时应用程序的其余部分继续我正在使用multiprocessingPython 2 6 中的模块来创建进程我试图用以下命令显示窗口TKinter 这段代码在Windows上运行良好但在Linux上
使用 subprocess.Popen() 或 subprocess.check_call() 时程序卡住

我想从 python 运行一个程序并找到它的内存使用情况为此我正在使用 l a out lt in txt gt out txt p subprocess Popen l shell False stdout subprocess PI
通过 Python 循环浏览网络上的目录并显示其内容（文件和其他目录）

同样的道理在Python中处理从源目录到目标目录的一组文件 https stackoverflow com questions 2593399 process a set of files from a source directory t
类型错误：此 COM 对象无法自动执行 makepy 过程 - 请为此对象手动运行 makepy

这是什么错误回溯错误 C Users DELL PycharmProjects MyNew venv Scripts python exe C Users DELL PycharmProjects MyNew agaaaaain py T
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
使用 if 语句的网格网格和用户定义函数的真值不明确

假设我有一个函数f x y 足够光滑然而有些值仅在有限的意义上存在以sin x x的价值x 0只存在于极限 x gt 0 中在一般情况下我用一个来处理这个问题if陈述如果我在情节中使用它meshgrid我收到一条错误消息 Val
是否可以在Python中将日+月（不是年）与当前日+月进行比较？

我正在获取 5 月 10 日格式的数据我试图弄清楚它是今年还是明年该日期仅一年因此 5 月 10 日表示 2015 年 5 月 10 日而 5 月 20 日表示 2014 年 5 月 20 日为此我想将字符串转换为日期格式并进
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
如何在matplotlib中调整x轴

I have a graph like this x轴上的数据表示小时所以我希望x轴设置为0 24 48 72 而不是现在的值很难看到 0 100 之间的数据 fig1 plt figure ax fig1 add subplot 11
Python：如何在不先创建整个列表的情况下计算列表的总和？

通常我们必须 1 声明一个列表 2 使用以下方法计算该列表的总和sum 但现在我希望指定一个以 1 开头间隔为 4 100 个元素的列表如下所示 1 5 9 13 17 21 25 29 33 37 我不想涉及数学公式所以 1 如何在
pandas.read_fwf 忽略提供的数据类型

我正在从文本文件导入数据框我想指定列的数据类型但 pandas 似乎忽略了dtype input 一个工作示例 from io import StringIO import pandas as pd string USAF WBAN S
使用 pandas 单元格中列表的长度选择行[重复]

这个问题在这里已经有答案了我有一张表 df a b c 1 x y x 2 x z c d 3 x t e f g 只是想知道如何使用 c 列的长度选择行 such as df loc len df c gt 1 我知道这是不对的正确的
在Python中停止ThreadPool中的进程

我一直在尝试为控制某些硬件的库编写一个交互式包装器用于 ipython 有些调用对 IO 的影响很大因此并行执行任务是有意义的使用 ThreadPool 几乎效果很好 from multiprocessing pool import

随机推荐

VSTS 中 Android 应用程序的 Gradle 构建在内存不足后失败

我在 VSTS 中有一个 gradle 构建正在构建 Android 应用程序但它失败并出现以下错误构建机器真的只有很少的内存吗还是我应该更改一些设置gradle properties 例如这org gradle jvmargs设置
WebBrowser DocumentCompleted 事件多次触发

我一直在研究这个东西每个人似乎都同意解决方案是检查ReadyState直到设置为完成但实际上该事件有时会被触发ReadyState多次设置为完成我认为对于那个蹩脚的 NET WebBrowser 没有解决方案但如果我使用底层 D
Java 中抛出异常

我有一个关于在 Java 中抛出异常的问题这似乎是我这边的一种误解我想自己澄清一下我一直在读到处理异常代码的两种基本方法是 1 在 try 块中使用 throw new 抛出异常并立即在 catch 块中捕获它所谓的 try th
所有者绘制的进度条中的动画“发光”（ListView/DataGridView）

我注意到 NET 2 0 Winforms 中的沼泽标准 ProgressBar 在 Vista 中确实显示为精美的动画发光条但是使用 ProgressBarRenderer 通常在尝试在所有者绘制的列表视图网格视图或其他此类控件中绘
ChartJS 折线图 - 多条线，在工具提示上显示一个值

我正在尝试制作一个图表该图表必须显示每个客户的帐户变动我正在尝试做什么我有树线第一行最低余额如果客户的余额低于最低余额余额他的余额将从他的银行帐户自动加载第二行当前余额第三行最大余额如果客户的余额超过最大余额他
想要使用 VBScript 运行不同文件夹中的 .bat 文件

我正在尝试使用 VBScript 运行 bat 文件当在与 bat 相同的文件夹中执行时我可以让 VBScript 工作但是我不知道如何使其在文件夹外成功运行 Dim shell Set shell CreateObject WSc
Python 中 C _PyTime_t 的值

长时间睡觉时比如跑步time sleep 3 3 3 在 Python 3 中程序返回 OverflowError 并显示错误消息时间戳太大无法转换为 C PyTime t 我最多可以睡多久该值应为 9223372036 8547
是否可以读取.net中的.eml文件

我想知道是否可以解析 dot net 中的 eml 和 msg 文件最好来自内存流以便我可以在 ASP Net 页面上使用它们 EML MIME 消息在大多数情况下 EML 是带有邮件消息的 MIME 编码文件 EML 文件的常见来源
如果 web.xml 中有两个与请求匹配的 servlet 映射，会发生什么情况？

如果 web xml 中有两个与请求匹配的 servlet 映射会发生什么情况它选择最具体的吗例如如果我有以下 xml 并且请求到达 something 而它转到 someservlet 或 everything else serv
在 Android 的列表视图中滑动时显示删除按钮

扩展另一个 Stackoverflow 问题我实现了一些手势检测代码以便我可以检测列表视图位于 FrameLayout 中中的行何时被滑动我在这里关注了达米安关于如何从适配器获取单个行视图的问题答案如何获取列表视图中行的位置
imaplib2 ：imap.gmail.com 处理程序 BYE 响应：系统错误

我正在更新一个 python 脚本该脚本检查 IMAP 是否有新电子邮件并在有新电子邮件时发送推送通知问题是每隔几个小时我就会崩溃一次起初我不太明白发生了什么但后来我发现M debug 4这给了我一个很好的输出但我仍然不明白是什
用于最小化其他应用程序的批处理文件

我怎样才能有一个打开应用程序的bat文件让我们称之为firefox exe 我如何调用bat文件或任何其他脚本即vbs 来最小化应用程序即firefox exe 然后在一两分钟后关闭它请注意start min不起作用下面是我的脚本
如何在 Vaadin 8 中添加验证器？

在 Vaadin 7 中有一个 addValidator 函数但在 Vaadin 8 中它不存在 Vaadin 7 示例 TextField user new TextField User user setRequired true us
使用 THREE.OBJLoader 渲染 OBJ 文件

如何使用 THREE OBJLoader 方法渲染 OBJ 文件我有一个示例 OBJ 格式但它不会渲染任何内容也不会在 chrome 开发工具中看到错误查看 OBJLoader 使用示例 https github com mrdoo
在 ncurses 中实现文本滚动的推荐方法是什么？

我正在尝试实现一个 ncurses 应用程序其文本滚动效果如下推荐的方法是什么这是我所知道的您可以使用scroll将文本缓冲区向上或向下移动 1 行但是如果向下滚动您最终会在顶部出现一个空行如果向上滚动则会在底部出现一个空
C++ 将十六进制字符串转换为有符号整数

我想在 C 中将十六进制字符串转换为 32 位有符号整数例如我有十六进制字符串 fffefffe 其二进制表示形式为 11111111111111101111111111111110 其有符号整数表示形式为 65538 我如何在 C 中
如何将 groupby() 和 value_counts() 转换为多个饼图/条形图

假设我有一个数据框并且正在查看其中的 2 列 2 个系列使用其中一列 no employees 下面有人可以帮我弄清楚如何创建 6 个不同的饼图或条形图每个 no employees 分组 1 个来说明处理列中是否值的值计数
C++程序需要文件关联

我正在分发一个免费软件产品该产品可以读取和写入具有唯一扩展名的文本文件我希望双击这样的文件会自动启动该应用程序在 Windows 7 Professional 上进行开发时我设置了一个关联以便在双击时打开文件方法是右键单击文件
奇怪的UTF8字符串比较

我在 UTF8 字符串比较方面遇到了这个问题我真的不知道它开始让我头疼请帮帮我基本上我有一个来自 UTF8 编码的 xml 文档的字符串 Mina Tidigare anst llningar 当我将该字符串与我自己输入的完全相同的
如何改进印地语文本提取？

我正在尝试从 PDF 中提取印地语文本我尝试了所有从 PDF 中提取内容的方法但都不起作用有解释为什么它不起作用但没有答案所以我决定将PDF转换为图像然后使用pytesseract提取文本我已经下载了印地语训练数据但这也给

如何改进印地语文本提取？

如何改进印地语文本提取？ 的相关文章

随机推荐

热门标签

如何改进印地语文本提取？的相关文章