在Python中从pdf中提取印地语编写的文本[重复]

2024-03-23

我想从 pdf 文档中提取印地文输入的文本。我已附上示例页面的图像 https://i.stack.imgur.com/UkT86.jpg我正在处理。

我尝试使用 pdfminer 从中获取文本，但文本是乱码（可能是由于印地语字体）

现在我正在考虑将页面分成三部分，然后将每个部分分成两部分（分开英语和印地语文本），然后在每一半上运行 ocr 来获取文本，但唯一的问题是我不知道印地语使用的字体，所以我可能会再次收到乱码文本。

My 问题是，有没有更好的方法来处理印地文字体？如何找到字体名称？

我已经在您的 PDF 上尝试了以下操作，它似乎提取了很多文本，我猜它可能不是最佳布局，但我无法判断。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO

def convert_pdf_to_txt(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)

    with open(path, 'rb') as fp:
        interpreter = PDFPageInterpreter(rsrcmgr, device)
        password = ""
        caching = True
        pagenos = set()

        for page in PDFPage.get_pages(fp, pagenos, password=password,caching=caching, check_extractable=True):
            interpreter.process_page(page)

        text = retstr.getvalue()

    device.close()
    retstr.close()
    return text

print convert_pdf_to_txt("Electoral roll - Faizabad.pdf")

它显示为utf-8所以你必须确保你的输出控制台能够使用它来显示。

例如：

भभग ससखखभककल मतदभतभ 11 1.रजजरभ आसशशकपपथममक ववददपलद रजजरप - सपमपनद779 420 359 0 779ननरभरचक नभमभरलल 2014 0S24उततर पददशवरधभन सभभ कदत कक ससखखभ ,नभम र आरकण सससनत:ललक सभभ कदत कक ससखखभ ,नभम र आरकण सससनत: 1 . पकनरलकण कभ वरररणपकनरलकण कभ ररर : 2014अहतभर कक नतथस: 01.01.2014पकनरलकण कभ सररप: ससककपत पकनरलकणपकभशन कक नतथस: 01.10.2013पकनरमकदण कक नतथस : 15.03.2014

要确定它正在使用的字体列表，您只需将 PDF 加载到 PDF 阅读器中，例如Adobe Reader or Foxit Reader并选择Properties从文件菜单。从这里您应该能够选择Fonts。当我尝试这个时Foxit Reader它显示以下字体：

Mangal-Bold
Arial
Mangal
Arial Bold
Times-New-Roman-Bold

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

OCR

hindi

pdfminer

在Python中从pdf中提取印地语编写的文本[重复] 的相关文章

Django 是否使用一个线程来处理 WSGI 或 Gunicorn 中的多个请求？

根据标题我想知道 Django 在通过 WSGI 或 Gunicorn 运行时是否使用一个线程来处理多个请求我知道从不应该访问的地方访问请求是一种不好的做法但我仍然想这样做我认为有充分的理由例如在我的自定义模板加载器中访问当前用户
“初始化 MCI 时出现问题”播放声音问题

我正在尝试使用 Playsound 播放代码文件夹中的文件但是每次运行代码时它似乎都能够调用该文件但我总是收到以下输出 playsound PlaysoundException Error 277 for command open p
动态添加jinja模板

我有一个 jinja 模板它是一组 div 标签内的唯一内容 div include temppage html div 当我按下按钮时我想用其他内容替换标签之间的所有内容我希望用另一个 jinja 模板 include realpa
Zend 框架 PDF 问题

又是我伙计们我有一个小问题 Create new PDF pdf new Zend Pdf Add new page to the document page pdf gt newPage Zend Pdf Page SIZE A4 p
QTextEdit.find() 在 Python 中不起作用

演示问题的简单代码 usr bin env python import sys from PyQt4 QtCore import QObject SIGNAL from PyQt4 QtGui import QApplication QTe
如何使用scrapy抓取xml url

你好我正在使用 scrapy 来抓取 xml url 假设下面是我的 Spider py 代码 class TestSpider BaseSpider name test allowed domains www example com s
使用 Python-AppKit-Objective C 转换为预组合 Unicode 字符串

苹果公司的这份文件技术问答 QA1235 http developer apple com qa qa2001 qa1235 html描述了一种将 unicode 字符串从组合版本转换为分解版本的方法由于我对包含某些字符例如重音符号的
Scrapy 仅抓取每个页面的第一个结果

我目前正在尝试运行以下代码但它只保留每个页面的第一个结果知道可能是什么问题吗 from scrapy contrib spiders import CrawlSpider Rule from scrapy contrib linkext
使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random
如何在 Mac OS X 10.8 上安装 hg Convert 所需的 python subversion 绑定？

我正在寻找一种解决方案最好是干净且简单的以启用hg convert使用 SVN 存储库在 OS X 10 8 上工作目前如果您尝试转换 SVN 存储库您将得到一个could not load Subversion python b
使用 RGB 数据将输入数据剪切到 imshow 的有效范围（对于浮点数为 [0..1]，对于整数为 [0..255]）

我尝试将 MRI 切片转换为 PNG 格式后运行图形切割算法我不断遇到以下问题 Clipping input data to the valid range for imshow with RGB data 0 1 for floats
通过Python通过蓝牙发送消息或数据

如何通过 python 通过蓝牙发送消息而无需输入数字等密钥身份验证我用过 pybluez 但我收到了这个错误 File send line 12 in
如何编辑 QProgressBar 的样式表

我无法在我的应用程序中编辑进度条的颜色仅编辑文本颜色 pyhton 3 9 PySide6 QT Creator 7 0 2 Python应用程序 https i stack imgur com 6hKFI png import sys
为什么你可以在字符串上重载 __radd__ 而不是 __rmod__ ？

在Python中您可以覆盖右和左加法运算符
加载 IPython 笔记本时出错

一旦我用 Jupyter 打开笔记本文件它要求我转换文件我就再也无法在标准 IPython 笔记本中打开它了我收到以下错误 Error loading notebook Bad Request 2014 12 21 04 13 03
为什么计算大整数阶乘的“分而治之”方法如此快？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
获取 pandas 中最后一次出现特定值之后的所有行

我的数据框看起来像 ID colA 1 B 1 D 2 B 2 D 2 C 我已返回每组中事件 B 最后一次出现后的所有行输出将是 ID colA 1 D 2 D 2 C 我试过 a df colA str contains B grou
预训练 inception v3 模型的层名称（tensorflow）[重复]

这个问题在这里已经有答案了任务是获取a的每层输出预训练的 cnn inceptionv3 https www tensorflow org versions master tutorials image recognition index
类型提示：解决循环依赖

以下产生NameError name Client is not defined 我该如何解决 class Server def register client self client Client pass class Client de
重定向到破折号中的 url

我正在使用 dash 构建一个仪表板每当单击特定数据点时我都会创建一个唯一的 url 如何将用户重定向到此创建的 url 我正在使用下面给出的代码每当有人单击任何数据点时单击事件就会触发并执行回调函数 app layout html

随机推荐

UnsafeNativeMethods.IWebBrowser2.Navigate2 中的 HRESULT E_FAIL

我们在 Office 2007 中使用 NET 3 5 开发了一个复杂的应用程序在某些表单中我们使用 WebBrowser 控件导航到 HTML 页面问题在于在某些机器上当控件调用 Navigate 方法时它会引发异常错误 H
如何在子窗体打开时冻结父窗体

我遇到的情况是在某些情况下我需要打开另一个表单并保持该表单的焦点 modal true 当它们不聚焦并且关闭时父表单上的控件将使用可能已更改的可能数据进行刷新最初我有一个方法可以DoEvents虽然子表单已打开但它导致多个子表单无
单击“确定”后如何停止 sweetalert 滚动到顶部？

我在用着甜蜜警报2 https sweetalert2 github io当用户在我的网站上发表评论时的脚本它会向下滚动到他们的评论并弹出甜蜜警报但是当他们在甜蜜警报框中单击确定时它会滚动回顶部从我读到的内容来看我需要某种预防
禁用 Alamofire iOS 缓存

我试图在使用 Alamofire 发出 iOS 请求时禁用缓存当我尝试向服务器发出请求然后以其他用户身份进行身份验证时发出请求时我会收到 304 状态代码我已经尝试过一切这个链接 https stackoverflow com qu
具有 HTML 支持的 Angular Material 工具提示

我只是想知道有没有好的第三方angular material tool tip plugin在的支持下HTML 我在用Material design with Angular 7仅无引导程序虽然我正在使用ng2 工具提示指令 http
函数超时（Windows）？

我正在尝试为特定功能实现超时我检查了SE中的许多问题但找不到任何适合我的问题的解决方案因为我在 Windows 中运行 python 超时应用于我无法控制的Python函数即它是在已经设计的模块中定义的 python函数不是子进程
如何通过 ID 检查 Scratch 项目是否被共享？

我不希望很多人知道这一点但是有没有办法检查 Scratch 项目 ID 是否属于共享项目例如项目 ID3是一个实际项目但不共享而 ID399293697是共享的那么我如何使用 JavaScript 来查看这些是否共享呢我搜索了
“RVM 不是函数”错误

RVM 已正确安装在我的计算机上运行 Mac OSX 10 6 8 并且运行良好奇怪的是要运行它我必须使用source rvm scripts rvm对于每个新会话我尝试从它创建一个符号链接 opt local bin rvm 但
如何删除 poi 3.8 中的超链接？

我在读取包含 poi 中超链接文本的 Excel 文件时遇到一些问题数据是这样的 excel文件 1 type category job type position name email 2 测试开发商兼职经理洪 asdf dsa
广播接收器中的 Android AlarmManager

我有广播接收器该广播接收器应安排警报通常我会这样做 AlarmManager am AlarmManager getSystemService ALARM SERVICE am set AlarmManager RTC time myP
如何保持 Mercurial 存储库较小？

我的中央存储库存储在 8GB USB 记忆棒上我不小心提交了一些大文件因此存储库不再适合放在内存条上有办法纠正这种情况吗我投票赞成了吸引人的答案因为他有你可能会使用的步骤但这里有一个方便的列表不过首先要提醒一下如果您已经将
使用 Boost::spirit 编写的解析器存在性能问题

我想解析一个如下所示的文件类似 FASTA 的文本格式 gt InfoHeader Some text sequence that has a line break after every 80 characters gt InfoHea
Facebook og：图像未以全尺寸显示

从 ElfYourself com 共享视频时发送到 Facebook 的 OG 图像为 130x130 像素 Facebook 表示这是它将在新闻提要时间轴中显示的最大尺寸然而 Facebook 在图像提要中实际显示的是 90x9
我们可以在 sails 中的 Create() 回调之后/之前更改属性值吗？

我有一个场景我必须用模型的 id 填充模型的属性对于例如在用户模型中 module exports attributes activation link string afterCreate function value cb val
java.lang.ClassNotFoundException：org.apache.commons.fileupload.FileItemFactory [重复]

这个问题在这里已经有答案了我已关注本教程 http www tutorialspoint com servlets servlets file uploading htm用于使用 servlet 进行文件上传这是文件夹结构使用 Ecl
无法获取默认调试密钥库位置

我在 Android Studio 设置中更改了项目默认位置 Documents Android Studio projects to Documents AndroidProjects 然后我在文件资源管理器中将现有项目从前者移动到后者
Play框架：继承按类型排序

在我的应用程序中我有两个课程 Group Model 和一个基类Element 我使用单表策略来持久化这些模型 strategy InheritanceType SINGLE TABLE 因此一列dtype在我的表中创建我现在尝试根据此
修复了使用 FlatList 进行原生反应的页脚

下列的这个问题 https stackoverflow com questions 29447715 react native fixed footer在带有 ScrollView 的固定页脚上我试图在屏幕上实现固定页脚FlatList
jquery防止窗口滚动

我正在 jquery 中开发一个选择菜单替换首先我必须通过添加来使新的选择菜单可聚焦tabindex 0 到容器然后我禁用原始选择菜单的焦点并将焦点放在新菜单上当新的焦点被聚焦并按下向上和向下箭头时选项会相应改变但有一个大问题
在Python中从pdf中提取印地语编写的文本[重复]

这个问题在这里已经有答案了我想从 pdf 文档中提取印地文输入的文本我已附上示例页面的图像 https i stack imgur com UkT86 jpg我正在处理我尝试使用 pdfminer 从中获取文本但文本是乱码可能是由

在Python中从pdf中提取印地语编写的文本[重复]

在Python中从pdf中提取印地语编写的文本[重复] 的相关文章

随机推荐

热门标签