使用 Python 从 PDF 中的物理坐标返回文本字符串

2024-04-27

在过去的几个小时里，我一直在与 Google 和 PDFMiner 的有限文档作斗争，虽然我感觉很接近，但我只是没有得到我需要的东西。我已经经历过http://www.unixuser.org/~euske/python/pdfminer/ http://www.unixuser.org/~euske/python/pdfminer/以及所有三个 YouTube 视频，以便更好地了解 PDF，并且我能够很好地输出原始文本。

我正在编写一个脚本来解析多个 PDF 页面。不幸的是，对于这个项目，我处理的是质量较差的 PDF 文件，我看到的唯一可靠的常量是文本字符串的物理位置完全相同。尽管我已经阅读过可以通过物理坐标提取文本字符串的提示，但我还没有看到一个有效的示例。

有没有人可以阐明如何使用 PDFMiner 完成此操作？如果有明显更好的选择，我愿意接受其他模块，但我需要坚持使用 Python 来编写脚本。

此外，我也尝试过 PyPdf 但没有成功（除了基本文本输出）。

Thanks!

我一直在写一个库来尝试简化这个过程，pdfquery https://github.com/jcushman/pdfquery。要从特定页面的特定位置提取文本，您可以执行以下操作：

pdf = pdfquery.PDFQuery(file)
# load first, third, fourth pages
pdf.load(0, 2, 3) 
# find text between 100 and 300 points from left bottom corner of first page
text = pdf.pq('LTPage[page_index=0] :in_bbox("100,100,300,300")').text() 
# save tree as XML to try to figure out why the last line didn't work the way you expected :)
pdf.tree.write(filename, pretty_print=True)

如果您想在该框中查找单个字符，而不是完全在该框中查找文本行，请将 merge_tags=None 传递给 PDFQuery （默认情况下，它将连续字符合并到单个元素中，以使树不那么荒谬，因此整行将具有位于盒子内）。如果您想查找与框部分重叠的任何内容，请使用 :overlaps_bbox 而不是 :in_bbox。

这基本上是使用 PyQuery 选择器语法从 PDFMiner 布局中获取文本，因此，如果您的文档对于 PDFMiner 来说太混乱，那么它对此也可能太混乱，但至少使用起来会更快。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

使用 Python 从 PDF 中的物理坐标返回文本字符串的相关文章

如何在 Windows 64 上安装 NumPy？

NumPy 安装程序在注册表中找不到 python 路径无法安装需要 Python 2 5 版本但在注册表中未找到该版本 OK 我必须修改注册表吗我已经修改了 PATH 以指向Python25安装目录我可以检查一下您使用的是什么安
Pandas：GroupBy 到 DataFrame

参考这个关于 groupby 到 dataframe 的非常流行的问题 https stackoverflow com questions 10373660 converting a pandas groupby object to dat
如何检查python xlrd库中的excel文件是否有效

有什么办法与xlrd库来检查您使用的文件是否是有效的 Excel 文件我知道还有其他库可以检查文件头我可以使用文件扩展名检查但为了多平台性我想知道是否有任何我可以使用的功能xlrd库本身在尝试打开文件时可能会返回类似 false 的内
Python - 来自 .进口

我第一次尝试图书馆我注意到解决图书馆内导入问题的最简单方法是使用如下结构 from import x from some module import y 我觉得这件事有些糟糕也许只是因为我不记得经常看到它尽管公平地说我还没有深入研究
检查 Python 中的可迭代对象中的所有元素的谓词是否计算为 true

我很确定有一个常见的习语但我无法通过谷歌搜索找到它这是我想做的用Java Applies the predicate to all elements of the iterable and returns true if all ev
Mac OS X 中文件系统的 Unicode 编码在 Python 中不正确？

在 OS X 和 Python 中处理 Unicode 文件名有点困难我试图在代码中稍后使用文件名作为正则表达式的输入但文件名中使用的编码似乎与 sys getfilesystemencoding 告诉我的不同采取以下代码 usr b
sklearn 中的 pca.inverse_transform

将我的数据拟合后 X 我的数据 pca PCA n components 1 pca fit X X pca pca fit transform X 现在 X pca 具有一维当我根据定义执行逆变换时它不是应该返回原始数据即 X 二维
Keras：如何保存模型或权重？

如果这个问题看起来很简单我很抱歉但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
一段时间后终止线程的最 Pythonic 方法

我想在线程中运行一个进程它正在迭代一个大型数据库表当线程运行时我只想让程序等待如果该线程花费的时间超过 30 秒我想终止该线程并执行其他操作通过终止线程我的意思是我希望它停止活动并优雅地释放资源我认为最好的方法是通过Thre
.pyx 文件出现未知文件类型错误

我正在尝试构建一个包含 pyx 文件的 Python 包 pyregion 但在构建过程中出现错误检查以下输出 python setup py build running build running build py creating b
在系统托盘中隐藏 tkinter 窗口 [重复]

这个问题在这里已经有答案了我正在制作一个程序来提醒我朋友的生日这样我就不会忘记祝福他们为此我制作了两个 tkinter 窗口 1 First one is for entering name and birth date 2 Sec
从 NumPy 数组到 Mat 的 C++ 转换 (OpenCV)

我正在围绕 ArUco 增强现实库基于 OpenCV 编写一个薄包装器我试图构建的界面非常简单 Python 将图像传递给 C 代码 C 代码检测标记并将其位置和其他信息作为字典元组返回给 Python 但是我不知道如何在 Pytho
如何与其他用户一起使用 pyenv？

如何与其他用户一起使用 pyenv 例如如果我在用户 test 的环境中安装了 pyenv 则当我以 test 身份登录时可以使用 pyenv 但是当我以其他用户例如 root 身份登录时如何使用 pyenv 即使你这么做了我也会s
python 线程安全可变对象复制

Is 蟒蛇的copy http docs python org 2 library copy html模块线程安全吗如果不是我应该如何在 python 中以线程安全的方式复制 deepcopy 可变对象蟒蛇的GIL http en w
TKinter 中的禁用/启用按钮

我正在尝试制作一个像开关一样的按钮所以如果我单击禁用按钮它将禁用按钮有效如果我再次按下它它将再次启用它我尝试了 if else 之类的东西但没有成功这是一个例子 from tkinter import fenster Tk
从 pandas DataFrame 中删除少于 K 个连续 NaN

我正在处理时间序列数据我在从数据帧列中删除小于或等于阈值的连续 NaN 时遇到问题我尝试查看一些链接例如标识连续 NaN 出现的位置以及计数 Pandas NaN 孔的游程长度 https stackoverflow com que
将上下文管理器的动态可迭代链接到单个 with 语句

我有一堆想要链接的上下文管理器第一眼看上去 contextlib nested看起来是一个合适的解决方案但是此方法在文档中被标记为已弃用该文档还指出最新的with声明直接允许这样做自 2 7 版起已弃用 with 语句现在支持此
多个对象以某种方式相互干扰[原始版本]

我有一个神经网络 NN 当应用于单个数据集时它可以完美地工作但是如果我想在一组数据上运行神经网络然后创建一个新的神经网络实例以在不同的数据集甚至再次同一组数据上运行那么新实例将产生完全错误的预测例如对 XOR 模式进行训练
查找总和为给定数字的值组合的函数

这个帖子查找提供的 Sum 值的组合 https stackoverflow com a 20194023 1561176呈现函数subsets with sum 它在数组中查找总和等于给定值的值的组合但由于这个帖子已经有6年多了我发这
Apache Beam Pipeline 写表后查询表

我有一个 Apache Beam Dataflow 管道它将结果写入 BigQuery 表然后我想查询该表以获取管道的单独部分但是我似乎无法弄清楚如何正确设置此管道依赖性我编写的新表然后想要查询与一个单独的表连接以进行某些过滤

随机推荐

Facebook 绘制所有共同好友的图表

我有一个应用程序可以显示共同的朋友在我的节点服务器上我有以下代码来为我的用户获取共同的朋友 var express require express FB require fb appFB FB extend appId
在嵌套函数中自我捕获

对于闭包我通常会附加 weak self 到我的捕获列表然后进行空检查self func myInstanceMethod let myClosure weak self result Bool in if let this self
在键盘隐藏的颤动页面文本字段中

我正在使用 flutter 制作一个有人可以评论的页面该页面由 showModalBottomSheet 显示但是当键盘显示在前面时文本字段会被键盘隐藏 flutter doctor output Doctor summary to
如何更改java8中字符串列表中的项目

我想更改中的所有项目list 正确的做法是什么java8 public class TestIt public static void main String args ArrayList
使用 shell 脚本在 Jenkins 中手动构建失败吗

我想将 Jenkins 构建标记为在一种情况下失败例如 if f file then echo file found else echo file not found Do Jenkins Build Fail fi 可以通过Shell脚
android可以在本机模式下从sd卡加载dll吗

我想把我写的程序移植到android上该程序是在 Windows 和 Linux 上用 C 编写的该程序使用 dll 作为插件架构通过下载程序从特定文件夹加载的 dll 可以将新插件添加到程序中我的问题是是否可以将为 androi
VS Code：ModuleNotFoundError：没有名为“pandas”的模块

尝试导入pandas在 VS 代码中 import pandas and got Traceback most recent call last File c Users xxxx hello sqltest py line 2 in
jQuery text() 的替代方案包括元素之间的空格？

我在容器中有一些任意的正文文本我不控制它所以我不知道它的结构但像这样的事情 div h1 Heading h1 p A paragraph or two p ul li item 1 li li item 2 li ul div 这只
如何在 JavaScript 中访问自定义 html 属性？

您好我在这个 html 文档中遇到问题请帮助我我对此很陌生也许我很愚蠢错过了一些东西我在这里只放了有用的来源来解决请 a Hurray a br 我希望它显示
访谈：函数指针与 switch case

在面试期间我被要求为具有 100 个状态的系统实现一个状态机其中每个状态又具有 100 个事件我回答了以下 3 种方法 if else 开关盒函数指针 if else 显然不适合这样的状态机因此主要比较是 switch case
Visual Studio 2017命令行提示符

我无法从 Windows 10 中的命令行提示符运行 cl Microsoft Visual Studio C 编译器我使用的是新的 Windows 10 安装和新的 Microsoft Visual Studio 2017 社区版我收
Python 的类表示魔法方法？

我有一个自定义类例如 class foo object def init self name self name name def get name self return self name 我想做的是写 test foo test p
无法使用 CSS 设置文本区域宽度

我尝试使用此 CSS 来设置表单元素的宽度 input type text textarea width 250px 如果您查看此 Firefox 屏幕截图您会发现字段的宽度不同我在 Safari 中也得到了类似的效果替代文本 htt
使用 C# 读取数百万个小文件

我有数百万个每天生成的日志文件我需要读取所有这些文件并将其放在一起作为单个文件以便在其他应用程序中对其进行一些处理我正在寻找最快的方法来做到这一点目前我正在使用线程任务和并行如下所示 Parallel For 0 files L
Ruby 脚本即服务

嗯标题说明了一切我有一个 ruby 脚本我想在我的 Linux 机器上作为一项服务我可以启动和停止运行我找到了如何在 Windows 上执行此操作here https stackoverflow com questions 16
Dialogflow 不记名令牌分析

如何获取 Dialogflow v2beta1 API 调用的不记名令牌我想集成 Dialogflow API 所以现在我什至无法在没有不记名令牌的情况下在邮递员中测试 API 为了进行测试我在 GCP 项目中为我的代理生成了 API
打开页面时出现问题（许可协议页面）

我很困扰如何在使用应用程序时仅显示一次协议页面我不知道如何解释这一点但我正在尝试解释这一点我正在创建一个应用程序其中有协议页面其中有两个按钮 1 按钮名称为Accept 2 按钮名称为拒绝如果用户单击接受按钮应用程序进入下一页
DDMS 显示在线模拟器的空文件资源管理器

我很多天都面临这个问题我搜索了很多但没有找到任何方便的答案每当我启动模拟器时一段时间后当我看到 DDMS 时它会显示模拟器在线但其文件资源管理器什么也不显示当我再次重新启动模拟器或重新启动 Eclipse 时它会再次可见
有完整的 tomcat 角色列表吗？

我希望能够完全访问和控制 tomcat 以使我的开发生活变得简单我知道角色 admin 和 manager 并且知道还有一些带有连字符的角色例如 manager gui 但在哪里可以找到包含可用角色描述的完整列表我什至无法在文档中找到
使用 Python 从 PDF 中的物理坐标返回文本字符串

在过去的几个小时里我一直在与 Google 和 PDFMiner 的有限文档作斗争虽然我感觉很接近但我只是没有得到我需要的东西我已经经历过http www unixuser org euske python pdfminer htt

使用 Python 从 PDF 中的物理坐标返回文本字符串

使用 Python 从 PDF 中的物理坐标返回文本字符串 的相关文章

随机推荐

热门标签

使用 Python 从 PDF 中的物理坐标返回文本字符串的相关文章