我想用 python 抓取印地语（印度语言）pdf 文件

2023-11-22

我已经编写了Python代码，可以从PDF文件中抓取所有数据。这里的问题是，一旦被刮掉，单词就失去了语法。如何解决这些问题？我附上代码。

from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.converter import TextConverter
from pdfminer.layout import LAParams
from pdfminer.pdfpage import PDFPage
from cStringIO import StringIO
def convert_pdf_to_txt(path):
   rsrcmgr = PDFResourceManager()
   retstr = StringIO()
   codec = 'utf-8'
   laparams = LAParams()
   device = TextConverter(rsrcmgr, retstr, codec=codec,laparams=laparams)
   with open(path, 'rb') as fp:
         interpreter = PDFPageInterpreter(rsrcmgr, device)
         password = ""
         caching = True
         pagenos = set()

         for page in PDFPage.get_pages(fp, pagenos, password=password,caching=caching, check_extractable=True):
             interpreter.process_page(page)
         text = retstr.getvalue()
  device.close()
  retstr.close()
  return text
print convert_pdf_to_txt("S24A276P001.pdf")

and here is the screenshot of PDF.

解决问题的最好方法是使用textract从 python 中加载模块并从其 github 存储库加载印地文测试数据，并将提取的文本写入 txt 文件。这解决了我的问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

OCR

pdfminer

pdfscraping

我想用 python 抓取印地语（印度语言）pdf 文件的相关文章

使用应用程序脚本将 MS Word 文件（保存在云端硬盘中）转换为 Google 文档

我被某些事情困住了找不到解决办法有没有办法使用文件 url 或 id 将存储在 Google Drive 中的 MS Word 文件转换为 Google 文档我目前有一个电子表格其中包含文件的网址或者也可以使用 python 脚
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
Tipfy：如何在模板中显示blob？

鉴于在 gae 上使用tipfy http www tipfy org python 以下模型 greeting avatar db Blob avatar 显示 blob 此处为图像的模板标签是什么在这种情况下斑点是一个图像这很棒
使用多级解决方案计算二维网格中的最近邻

我有一个问题在 x y 大小的网格中我提供了一个点并且我需要找到最近的邻居在实践中我试图在 pygame 中找到距离光标最近的点该点跨越颜色距离阈值计算如下 sqrt rgb1 0 rgb2 0 2 rgb1 1 rgb2 1
在谷歌云上训练神经网络时出现“无法获取路径的文件系统”错误

我正在使用 Google Cloud 在云上训练神经网络如下例所示 https cloud google com blog big data 2016 12 how to classify images with tensorflow u
如何正确导入主代码和模块中同时使用的模块？

假设我有一个主脚本 main py 它导入另一个 python 文件import coolfunctions另一个 import chores 现在假设 Coolfunctions 也使用家务活中的东西因此我声明import chore
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
在seaborn中对箱线图x轴进行排序

我的数据框round data看起来像这样 error username task path 0 0 02 n49vq14uhvy93i5uw33tf7s1ei07vngozrzlsr6q6cnh8w 39 png 1 0 10 n49vq
Selenium 不会在新选项卡中打开新 URL（Python 和 Chrome）

我想使用 Selenium WebDriver 和 Python 在不同的选项卡中打开相当多的 URL 我不确定出了什么问题 driver webdriver Chrome driver get url1 time sleep 5 driv
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
线性同余生成器 - 如何选择种子和统计检验

我需要做一个线性同余生成器它将成功通过所选的统计测试我的问题是如何正确选择发电机的数字以及我应该选择哪些统计检验我想均匀性的卡方频率测试每代收集10 000个号码的方法将 0 1 细分为10个相等的细分柯尔莫哥洛夫斯米尔
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
更换壳牌管道[重复]

这个问题在这里已经有答案了在 subprocess 模块的 Python 2 7 文档中我找到了以下片段 p1 Popen dmesg stdout PIPE p2 Popen grep hda stdin p1 stdout stdo
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
Python 导入非常慢 - Anaconda python 2.7

我的 python import 语句变得非常慢我使用 Anaconda 包在本地运行 python 2 7 导入模块后我编写的代码运行得非常快似乎只是导入需要很长时间例如我使用以下代码运行了一个 tester py 文件 imp
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
Python 中的字符串slugification

我正在寻找 slugify 字符串的最佳方法蛞蝓是什么 https stackoverflow com questions 427102 in django what is a slug 我当前的解决方案基于这个食谱 http code

随机推荐

在一个 JFrame 中使用两个 JPanel

我正在尝试创建一个程序允许用户单击按钮将某些内容放入JPanel并允许他们移动该物品我已经找到了一个很好的布局来允许移动组件请参阅this关联但是我只是好奇创建这样的布局的最佳方法我的希望是有这样的东西我怎样才能做到这一点我
Python 读取输入的最快方法

我想读取一个包含整数列表列表的巨大文本文件现在我正在执行以下操作 G with open test txt r as f for line in f G append list map int line split 然而大约需要 17
实时更新 Google Compute Engine 实例类型

我想知道您是否可以将一个实例的类型更改为另一种实例例如 n1 标准 1 到 n1 标准 2 我在文档中没有看到任何内容但可能我错过了一些东西如果这是不可能的我如何处理这个问题还有另一种方法可以进行此更改您可以停止机器对其进行编
AngularJS ngTable 按日期过滤

我正在尝试在我的应用程序中设置 ngTable 但它不支持按日期过滤而且我不知道如何实现它我最初将数据中的日期作为时间戳这使我能够由于时间戳的增量性质而对列进行正确排序但显然我无法输入 9 月并过滤数据 Example row da
两个文本文件的内连接

希望对两个不同的文本文件执行内部联接基本上我正在寻找与 GNU join 程序等效的内部联接这样的事情存在吗如果没有则awk or sed解决方案将是最有帮助的但我的第一选择是 Linux 命令这是我想要做的事情的一个例子 fi
在应用程序购买恢复交易中，我无法弄清楚代码

我在我的编码中添加了应用程序内购买它在购买时运行良好但当我尝试在删除并再次安装应用程序时添加 Restore Transaction 代码时它会出现错误并且应用程序关闭我添加了以下编码在 onCreate 我写的 startSer
MySQL 创建外键的语法

创建外键时这种语法是否正确 create table department departmentID int not null auto increment primary key name varchar 30 type InnoDB c
.NET 中的单元测试 System.Threading.Timer

如何在 NET中基于System Threading Timer对计时器进行单元测试 System Threading Timer有一个回调方法您可以通过不实际创建直接依赖项来对其进行单元测试System Threading Timer
使用WebService自动捕获所有未处理的异常

我有一个 C WebService 应用程序我想在其中捕获应用程序抛出的所有未处理的异常我怎样才能做到这一点由于某种原因 Web 服务不会触发 Application Error 事件请参阅其他问题杰夫阿特伍德先生本人也发表了一
Waitress和GUnicorn大数据输入比Flask开发服务器慢很多

问题描述我正在尝试创建一个 Flask 应用程序它应该仅在本地主机上可见因此不会降低网络速度获取相当多的数据 30MB 作为一个大型 numpy 数组作为输入并输出相对较小的数据量大约 1MB 我做了一个快速测试并使用 Fl
如何在本机活动中显示软键盘

当我尝试使用时ANativeActivity showSoftInput 它不会调出软键盘我尝试过使用ANativeActivity showSoftInput engine gt app gt activity ANATIVEACTIV
如何保留 EditText 中的换行符？

当我显示以下内容时忽略新行 private void post String subject String message subject etSubject getText toString message etMessage getTe
如何从插件中的单独 C++ 线程调用发射器回调？

对于上下文我从this问题我需要在另一个线程中调用发射器的回调我做了一个最小的例子但它出现了段错误emit Call cb result 我的第一直觉是我对生命周期有疑问env or the emit功能插件 cpp includ
jpa使用标准api延迟获取多个级别的实体

我使用 JPA2 及其 Criteria API 从数据库中选择我的实体该实现是 WebSphere Application Server 上的 OpenJPA 我的所有实体都是使用 Fetchtype Lazy 建模的我从数据库中选择
android中访问wifi的安全异常

请看下面的代码 wifi WifiManager getSystemService Context WIFI SERVICE if wifi isWifiEnabled false Toast makeText getApplication
即使设置了包含路径，Eclipse 也找不到头文件

这是我们已经处理了一段时间的问题我们正在使用 Cygwin 工具链构建 C 项目无论我们在 C 编译器中添加项目设置下的包含路径 Eclipse 似乎都找不到必要的头文件到目前为止我们已经完成了 Stackoverflow 社区建议
启动器和发送活动的意图过滤器

我试图让我的主要活动成为启动器活动并接收发送事件不知怎的我似乎无法让两者同时工作例如我的应用程序托盘中有启动器图标但不在图库中的图像共享菜单中我怎样才能让两者同时工作使用此意图过滤器图标位于应用程序托盘中但不在共享菜单中
SQL 数据透视日期列？

我对 SQL 相当陌生但相信我在发布此内容之前我已经搜索过帮助我有一个查询它返回分配给工作的人员列表这些工作的长度也不同分配给这些工作的人员的工作长度也不同我想做的是转换类似记录的列表唯一改变的变量是日期以及如何旋转此数据
如何在 .net 内存转储中列出正在运行的任务

我们有一个使用异步等待模式的复杂 ASP Net Core 应用程序该应用程序最近停止响应我们为其进行了内存转储我们怀疑有一些异步操作导致应用程序卡住但不确定是哪一个在对 Web 应用程序进行内存转储后我们可以看到很少有正在运
我想用 python 抓取印地语（印度语言）pdf 文件

我已经编写了Python代码可以从PDF文件中抓取所有数据这里的问题是一旦被刮掉单词就失去了语法如何解决这些问题我附上代码 from pdfminer pdfinterp import PDFResourceManager PD

我想用 python 抓取印地语（印度语言）pdf 文件

我想用 python 抓取印地语（印度语言）pdf 文件 的相关文章

随机推荐

热门标签

我想用 python 抓取印地语（印度语言）pdf 文件的相关文章