Pdfplumber 无法识别表 python [重复]

2024-03-03

我使用 Pdfplumber 提取第 2 页第 3 部分的表格（通常）。但它只适用于某些 pdf，其他则不起作用。对于失败的 pdf 文件，似乎 Pdfplumber 读取的是按钮表而不是我想要的表。

我怎样才能拿到桌子？ pdf 的链接不起作用：pdfA http://www.epc.shell.com/docs/GSAP_msds_01259319.PDF

有效的pdf链接：pdfB http://www.msds.exxonmobil.com/IntApps/psims/Download.aspx?ID=743681

这是我的代码：

import pdfplumber
pdf = pdfplumber.open("/Users/chueckingmok/Desktop/selenium/Shell Omala 68.pdf")
page = pdf.pages[1]
table=page.extract_table()

import pandas as pd
df = pd.DataFrame(table[1:], columns=table[0])
df

and the result is

But the table I want in page 2 is

但是，此代码适用于 pdfB（我上面提到过）。

顺便说一句，我想要每个 pdf 中的表格位于第 3 节中。

有人可以帮忙吗？

非常感谢琼

Updated: 我刚刚找到了一个很好的包来提取 pdf 文件，没有任何问题。该软件包是 fitz，也称为 PyMuPDF。

嘿，这是该问题的正确解决方案，但首先请阅读我下面的一些观点

好吧，您使用 pdfplumber 进行表格提取，但我认为您应该阅读有关表格设置的内容，表格的设置有很多，当您根据需要阅读它们时，您肯定会从那里找到答案。PdfPlumber API - 用于表提取的就在这里 https://github.com/jsvine/pdfplumber#extracting-tables
截至目前，我在下面为您的问题提供了完美的解决方案，但首先正确检查 pdfplumber API 的文档，您肯定可以从那里找到所有答案，并且我确信将来您不需要询问有关使用表提取的问题pdfplumber 因为您肯定会从那里找到有关表格提取以及其他内容（例如文本提取、单词提取等）的所有解决方案。
为了更好地理解表设置，您还可以使用可视化调试，这是 pdfplumber 的最佳功能，用于了解表设置对表的确切作用以及如何使用表设置提取表。表的可视化调试 https://github.com/jsvine/pdfplumber/blob/stable/examples/notebooks/extract-table-nics.ipynb

以下是您问题的解决方案，

import pandas as pd
import pdfplumber 
pdf = pdfplumber.open("GSAP_msds_01259319.pdf")
p1 = pdf.pages[1]
table = p1.extract_table(table_settings={"vertical_strategy": "lines", 
                                         "horizontal_strategy": "text", 
                                         "snap_tolerance": 4,})
df = pd.DataFrame(table[1:], columns=table[0])
df

查看上述代码的输出 https://i.stack.imgur.com/YFv32.jpg

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

tabular

pdfextraction

Pdfplumber 无法识别表 python [重复] 的相关文章

如何在Python中选择要写入(.csv)的列

import csv f csv reader open lmt csv r open input file for reading Date Open Hihh mLow Close Volume zip f s plit it into
Python：使用 string.format() 将单词大写

是否可以使用字符串格式将单词大写例如 user did such and such format user foobar 应该返回 Foobar 做了这样那样的事情请注意我很清楚 capitalize 但是这是我正在使用的代码非常
MANIFEST.in、package_data 和 data_files 澄清吗？

我正在尝试创建一个 Python 包并且目录结构如下 mypkg init py module1 x py y py z txt module2 a py b py 然后我将所有文件添加到MANIFEST in当我检查创建的存档时它包含
pandas Wide_to_long 后缀参数

我对在 pandas 中使用 Wide to long 时的参数有疑问有一个参数叫suffix我不明白在文档中它说后缀 str 默认 d 捕获所需后缀的正则表达式 d 捕获数字后缀没有数字的后缀可以用否定字符类 D 指定您还可以进
Perl 是否有相当于 Python 的 `if __name__ == '__main__'` 的功能？

有没有一种方法可以确定当前文件是否是 Perl 源中正在执行的文件在 Python 中我们使用以下结构来做到这一点 if name main This file is being executed raise NotImplemente
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
返回上个月的日期时间对象

如果 timedelta 在它的构造函数中有一个月份参数就好了那么最简单的方法是什么 EDIT 正如下面指出的那样我并没有认真考虑这一点我真正想要的是上个月的任何一天因为最终我只会获取年份和月份因此给定一个日期时间对象返回的最
Pandas groupby apply 执行缓慢

我正在开发一个涉及大量数据的程序我正在使用 python pandas 模块来查找数据中的错误这通常工作得非常快然而我当前编写的这段代码似乎比应有的速度慢得多我正在寻找一种方法来加快速度为了让你们正确测试它我上传了一段相当大的
Pandas：将 pytz.FixedOffset 应用于系列

我有一个带有timestamp列看起来像这样 0 2020 01 26 05 00 00 08 00 1 2020 01 26 06 00 00 08 00 Name timestamp dtype datetime64 ns pytz F
pandas 中连续数据的平行坐标图

pandas 的 parallel coordinates 函数非常有用 import pandas import matplotlib pyplot as plt from pandas tools plotting import par
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
根据列索引重命名 Dataframe 列

是否有内置函数可以按索引重命名 pandas 数据框我以为我知道列标题的名称但事实证明第二列中有一些十六进制字符根据我接收数据的方式我将来可能会在第 2 列中遇到这个问题因此我无法将这些特定的十六进制字符硬编码到 datafram
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
如何在Tensorflow中保存估计器以供以后使用？

我按照教程 TF Layers 指南构建卷积神经网络以下是代码 https github com tensorflow tensorflow blob r1 1 tensorflow examples tutorials layers
如何使用 Pandas Series 绘制两个不同长度/开始日期的时间序列？

我正在绘制每周总事件的几个熊猫系列对象系列中的数据events per week看起来像这样 Datetime 1995 10 09 45 1995 10 16 63 1995 10 23 83 1995 10 30 91 1995
在父类中访问子类变量

我有一个父类和一个继承的子类我想知道如何访问我的父类中的子类变量我尝试了这个但失败了 class Parent object def init self print x class Child Parent x 1 x Child Er
Java/Python 中的快速 IPC/Socket 通信

我的应用程序中需要两个进程 Java 和 Python 进行通信我注意到套接字通信占用了 93 的运行时间为什么通讯这么慢我应该寻找套接字通信的替代方案还是可以使其更快更新我发现了一个简单的修复方法由于某些未知原因缓冲输出流似

随机推荐

JAVAFX：可以通过代码设置css吗？

我有以下代码 progress bar gt bar fx background color linear gradient from 0em 0 75em to 0 75em 0px repeat fx accent 0 fx accen
我如何向 Activemq 发送消息

我从来不工作JMS 最近我下载了Activemq并更改端口号61616 to 61617 in all conf activemq xml文件我从命令提示符运行以下命令并在浏览器上打开控制台页面 C Users Infratab Bang
如何自动缩放一组控件的字体大小？

我在 WPF 网格中有一些 TextBlock 我想根据它们的可用宽度高度进行缩放当我搜索自动缩放字体大小时典型的建议是将 TextBlock 放入 ViewBox 中所以我这样做了
Android MediaRecorder API 不断裁剪视频比特率

我使用 MediaRecorder API 一段时间了我以为所有问题都已经过去了但我想我错了我正在使用 MediaRecorder API 将视频录制到文件中当我使用高质量的 setProfile 时我得到了良好的质量但是当我尝
如何在 React Native 中拉伸静态图像作为背景？

我想在我的 React Native 应用程序中使用背景图像图像比屏幕小所以我必须拉伸它但如果图像是这样它就不起作用从资源包加载 var styles StyleSheet create bgImage flex 1 flexDir
使用 MediaWiki 从 Wikia 页面提取文本，但返回结果一片混乱，是否有更好的方法可以从每个部分提取文本？

我正在开发一个 Android 应用程序它从 Wikia 页面提取信息并将其显示在应用程序中我目前正在拉动所有类别进行导航并将我的应用程序设置为在 WebView 中显示页面但我只想拉动信息并自行格式化而不是通过传递到 WebVi
android：如何在字符串中添加下划线
按组计算值之间的差异并匹配时间

对于每只鸟我想计算不同日期的平均每小时体温 Tb 测量值 Tb Periods 之间的差异我的目标是能够比较 BirdX 从 0900 PreI 到 09 00 DayI 10 00 PreI 到 10 00 PostI 等的 Tb 变
如何在 POST 期间获取不同资源的 JAX-RS @Path？

我有两个用于涉及用户资源的简单 Web 服务 Jersey 和 GlassFish 的 REST 类一个对所有用户进行操作例如 POSTing 的工厂另一个对单个用户进行操作例如 GET PUT 删除他们位于 Stateless
在sql server中使用case语句更新多列

我想使用 case 语句更新表查询是这样的 select case columnname when name1 then begin update table set pay1 pay1 100 pay2 pay2 20 pay3 pa
.Net Core 无法使用位图

我正在使用 Net Core 2 1 开发 Web 服务我有一个字节数组其中包含所有像素值灰度宽度高度我想从这些参数创建一个位图这是我的代码来自一个正在运行的 Net Framework 4 项目 public FileRe
CollapsingToolbarLayout 未正确调用 requestLayout()

我有一个折叠的工具栏布局其中包含图像折叠时显示工具栏标题我需要更改工具栏标题字体因此我在工具栏布局中添加了一个文本视图现在每当我折叠工具栏时都会重复生成以下错误 08 12 13 14 19 604 2263 2263 com
什么时候应该从类方法返回对对象的引用

从类方法返回引用的最佳实践是什么是否希望在没有引用的情况下返回基本类型而希望通过引用返回类对象您推荐的任何文章最佳实践文章我假设你所说的类方法是指成员函数通过引用返回的意思是返回对成员数据的引用这主要与返回对 local
Coq 中的“错误：宇宙不一致”是什么意思？

我正在努力通过软件基础 http www cis upenn edu bcpierce sf current 目前正在做教堂数字的练习这是自然数的类型签名 Definition nat forall X Type X gt X gt X
Google Finance，如何获取 JSON 数据流？

我之前试图解释这一点但显然失败了因此如果您打开了谷歌金融图表例如 http www google com finance q INDEXNASDAQ IXIC http www google com finance q INDEXN
将 HTTP 响应正文解析为 XML

我使用此代码执行 HTTP 请求并解析 XML 响应 using HttpWebResponse resp req GetResponse as HttpWebResponse if resp StatusCode HttpStatusCo
R中基于移动时间窗口连接数据

我有每小时记录一次的天气数据以及每 4 小时记录一次的位置数据 X Y 我想知道 X Y 位置的温度是多少天气数据并不完全相同因此我为每个位置编写了这个循环以扫描天气数据查找日期时间中的最接近并提取该时间的数据问题是我编
prolog 如何使用 succ 运行递归查询？

有人可以向我解释一下为什么这个序言查询会这样工作吗定义是 add 0 Y Y add succ X Y succ Z add X Y Z 鉴于这种 add succ succ succ 0 succ succ 0 R 这是查询的轨迹 Ca
如何根据数据属性内对象的属性选择元素？

如果我的标记如下所示 div div div div div div 如果我只有键 bar 或 foo 我将如何使用 JQuery 选择特定元素我可以取出每一行的整个对象并迭代它以查找匹配项但如果有更有
Pdfplumber 无法识别表 python [重复]

这个问题在这里已经有答案了我使用 Pdfplumber 提取第 2 页第 3 部分的表格通常但它只适用于某些 pdf 其他则不起作用对于失败的 pdf 文件似乎 Pdfplumber 读取的是按钮表而不是我想要的表我怎样才能拿到

Pdfplumber 无法识别表 python [重复]

Pdfplumber 无法识别表 python [重复] 的相关文章

随机推荐

热门标签