PDF 到 Pandas 数据框

2023-12-20

就在我以为我终于明白了的时候，真是个新手。

我正在尝试从 PDF 表格的一列中获取数字列表。

第一步我想转换为 Panda DF。

pip install tabula-py
pip install PyPDF2

import pandas as pd
import tabula
df = tabula.read_pdf('/content/Manifest.pdf')

然而，我得到的输出是一个 1 的列表，而不是 DF。当我查看 DF 时，信息就在那里，我只是不知道如何访问它，因为它是一个 1 的列表。

所以不知道为什么我没有得到 DF，也不知道我对 1 的列表意味着什么。Output https://i.stack.imgur.com/iDutl.png

不确定这是否重要，但我正在使用 google Colab。

任何帮助都是极好的。

Thanks

tabula.read_pdf 返回数据帧列表，无需任何其他参数。要访问您的特定数据框，您可以选择索引并使用它。

这是一个示例，我已阅读文档并选择第一个索引并比较类型

import tabula

df = tabula.read_pdf(
    "https://github.com/chezou/tabula-py/raw/master/tests/resources/data.pdf")

df_0 = df[0]

print("type of df :", type(df))
print("type of df_0", type(df_0))

Returns:

type of df : <class 'list'>
type of df_0 <class 'pandas.core.frame.DataFrame'>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

googlecolaboratory

PDF 到 Pandas 数据框的相关文章

Ubuntu 上的 Chromedriver：selenium.common.exceptions.SessionNotCreatedException：消息：会话未创建

我在 AWS EC2 实例的 Ubuntu 环境中使用 Selenium Chromedriver 时遇到问题我正在使用 Chromedriver Linux64 版本 wnload chromedriver for Linux wge
Python2 math.fsum 不准确？

我正在使用 python2 数学模块来计算 fsum 的总和据我所知 0 1通常不能存储二进制据我了解 math fsum 应该以某种方式解决这个问题 import math math fsum 0 0 0 1 0 1 math fsu
为什么这个“[::-1]”在Python中返回一个反向列表？ [复制]

这个问题在这里已经有答案了可能的重复 Python 切片表示法的良好入门指南 https stackoverflow com questions 509211 good primer for python slice notation P
如何在 Pandas 中用多个唯一字符串替换重复值？

import pandas as pd import numpy as np data Name Tom Tom Jack Terry Age 20 21 19 18 df pd DataFrame data 假设我有一个如下所示的数据框
尝试打开 Excel 时出现“KeyError：“存档中没有名为“xl/sharedStrings.xml”的项目”

我正在尝试使用 Python 脚本将数据导入 PowerBi 以便我可以安排它定期刷新数据我面临着从 Excel 文件获取数据并收到错误的挑战 KeyError 没有名为 xl sharedStrings xml 的项目在档案中导入时
如何在Tensorflow中读取json文件？

我正在尝试编写一个函数用于读取张量流中的 json 文件 json 文件具有以下结构 bounding box y 98 5 x 94 0 height 197 width 188 rotation yaw 27 970195770263
如何有效地找到两个轮廓集之间的所有交点

我想知道找到两组轮廓线之间所有交点舍入误差的最佳方法哪种方法最好这是示例 import matplotlib pyplot as plt import numpy as np x np linspace 1 1 500 X Y np
OSMNX - 边缘的哪个“部分”被认为是最近的

我正在使用 OSMNX 中的 returned edges 函数我不清楚在进行此计算时使用边缘的哪个部分它是边缘的任何部分吗是中间点吗对于网络中的长边来说这会产生很大的差异这取决于您如何参数化该函数来自nearest edg
python中matlab find函数的替换

我正在尝试寻找合适的python函数来替代matlabfind在我的脚本和一些谷歌搜索中我看到np where 大多数时候都能解决目的但在双重条件的情况下我有不同的输出有人可以告诉我这种方法有什么问题以及如何继续吗示例代码和差异如下
如何使用 Python 从 URL 中删除查询字符串

Example http example com a text q2 text2 q3 text3 q2 text4 删除后 q2 它将返回 http example com q text q3 text3 在这种情况下出现了多个 q2
重置Keras模型的所有权重

我希望能够重置整个 Keras 模型的权重这样我就不必再次编译它编译模型目前是我的代码的主要瓶颈这是我的意思的一个例子 import tensorflow as tf model tf keras Sequential tf kera
如何向 Iron Python 添加模块？

我一直在尝试使用 C Visual Studio 执行以下 Python 代码 graphcreater py 我通过 NuGet 包管理器添加了 IronPyton 2 7 7 和 IronPython StdLib 2 7 7 一旦我运
Python Selenium 将内容添加到 pandas 数据帧

我正在尝试循环list用于抓取内容的邮政编码this url http kadastralekaart com 但我面临着错误例如TimeoutException and StaleElementReferenceException 我该
Python 中 Javascript 的 reduce()、map() 和 filter() 的等价物是什么？

Python 的等价物是什么 Javascript function wordParts currentPart lastPart return currentPart lastPart word Che mis try console l
是否可以通过 Python 使用 Cocoa API？

我想知道是否可以将 Cocoa Apple 的 API 与 Python 一起使用以便能够运行像这样的任何代码link https developer apple com documentation appkit nsworkspace
使用 Python for PyQt WebEngine 授予对 Cam & Mic 的访问权限

我正在构建一个从 Python 调用的简单 Web 应用程序我正在使用下面的代码加载此页面时以编程方式授予对摄像头和麦克风的访问权限的最简单方法是什么我只在网上找到了 C 示例无法找到在 Python 代码中执行此操作的方法 fr
pandas 数据帧和聚合中的行明智排序

我在 pandas dataframe df 中有一个表 col1 col2 count 12 15 3 13 17 5 1 36 4 15 12 7 36 1 4 等等我想要的是将 12 和 15 和 15 和 12 等计算值视为相同
在 AWS ec2 实例上使用“sudo pip”时出现错误

我正在尝试在 aws ec2 实例上运行一个小型 python 代码需要 pytz 和其他一些包当我尝试安装 pytz 时出现一些错误 ec2 user ip 172 31 28 178 pip install pytz Collec
检查Python multiprocessing.Connection 的实例吗？

Connection对象是在打开时创建的multiprocessing Pipe 然而尚不清楚如何检查一个对象是否是一个实例Connection 在Python3 3 4 3 3 3 2 中检测Connection我可以 from mu
Dash ImportError：无法从“werkzeug.debug.tbtools”导入名称“get_current_traceback”

我正在尝试在 Pycharm 的 conda 环境中运行一个简单的破折号应用程序但是我遇到了标题中的错误奇怪的是我在互联网上找不到提到这个错误的地方除了here https community plotly com t dash w

随机推荐

在robot框架中读取excel内容

我是机器人框架和 python 的新手我正在使用 SudsLibrary 开发网络服务我想从excel文件中读取数据内容我已经为其编写了下面的代码但它只从文件中读取 1 行我希望它读取文件中的所有行 Test robot Sett
Scala 的并行集合能保证顺序吗？

如果我有这个 val a Array 我写 a par map e gt someFunc e 结果集合的顺序是否与非并行集合的顺序相同是的但是函数本身的执行没有任何特定的顺序 List 1 2 3 par foreach print
如何获取 Android 10 及更高版本的路径 /storage/emulated/0/Download/file_name.mime_type

我正在将文件保存在Downloads设备目录 Android 11 稍后由我的应用程序查看我允许多种文件类型例如pdf word等等我能够像这样保存文件我从here https gitlab com commonsguy downl
在 for 循环中将参数传递给 setTimeout

我正在尝试学习如何在 javacript for 循环中将参数传递给 setTimeout 这是示例代码正如目前所写的 setTimeout 每次都会传递相同的 i 而不反映数组中实际存在的不同 i var a 100 for i in
从数组中删除发现空格和标点符号的字符[重复]

这个问题在这里已经有答案了在我的程序中我正在检查整个 cstring 如果发现任何空格或标点符号只需将空字符添加到该位置但编译器给我一个错误空字符常量请帮助我在我的循环中我正在这样检查 if ispunct str1 star
使用 Google Chrome Puppeteer 进行反应

尝试去渲染一个反应组件 with 镀铬木偶师 https github com GoogleChrome puppeteer issues在我的 Node js 环境中运行时遇到以下问题 logging element给我在无头镀铬安慰 c
Management Studio 和探查器中的查询执行时间。它测量什么？

I have my production SQL Server in a remote data center and the web servers are located in the same data center During d
强制点（“.”）作为java中的小数分隔符

我目前使用以下代码来打印双精度 return String format 2f someDouble 这很有效除了 Java 使用我的区域设置的小数点分隔符逗号而我想使用点是否有捷径可寻使用过载String format http
绘制等高线图时出现错误 (Error in if (any(h <= 0)) stop("bandwidths must be strict Positive") : in R

对于以下数据 gt head df Date Longitude Latitude Elevation Max Temperature Min Temperature Precipitation Wind Relative Humidity
为简单、可访问的应用程序选择哪种 J2EE Web 开发框架？

我想在 J2EE 上编写一个简单的 Web 应用程序具有以下特征我不需要任何 AJAX 它甚至应该在浏览器禁用 JavaScript 的情况下工作这是一个简单的 CRUD 应用程序我需要完全控制每个元素在页面上的布局方式不影响 G
如何在 Riak 中停用或删除存储桶类型？

home khorkak gt sudo riak admin bucket type Usage riak admin bucket type
如何忽略函数返回的其余参数？ [复制]

这个问题在这里已经有答案了 def get return x y z a b c get 我不需要 b c 有没有办法忽略它们诸如不在乎之类的东西推荐的方法是使用变量名称如 Abdul Niyas P M 所示这不会存储捕获
无法在 Symfony2 中启用 SoftDeleteable - 无法识别的选项“过滤器”

我在尝试激活时遇到问题软删除过滤入StofDoctrine扩展包我按照中的描述进行配置manual https github com stof StofDoctrineExtensionsBundle blob master Resour
PDO MySQL 如何处理准备好的语句中的参数？

例如在我准备好的语句中的命名占位符中我可以
C++ 11：使用成员函数并将 this 作为参数启动线程

使用这段代码我得到了错误错误 1 错误 C2064 术语未计算为采用 1 个参数的函数 c program files x86 microsoft Visual Studio 11 0 vc include featured 1152
KeyError：'axes.color_cycle 不是有效的 rc 参数（有关有效参数的列表，请参阅 rcParams.keys()）'

我在这条线上遇到错误rcParams axes color cycle dark2 colors下面是回溯我怎样才能确保我解决了这个问题 Error anaconda3 lib site packages matplotlib init
从编号列表中删除数字和分隔符

我经常处理用户提交到网站的列表列表通常如下所示 Item Item 该模式通常是一个数字后跟分隔符可以是或或或任何其他典型的分隔符数字和分隔符之间以及分隔符和列表项之间可以有一个或多个空格有时列表项前面没有数字在这种情况下不
创建带有图像行的 UI 滚动视图

我想在滚动视图上显示数据库中存在的图像此外我想在一行中显示 4 个图像然后在下一行中显示下 4 个图像依此类推最初滚动视图将仅显示 2 行垂直滚动后用户将看到将能够滚动浏览数据库中存在的所有图像任何人都可以建议任何合适的措
列表视图内的可点击链接

列表视图可点击链接问题我在 getView 中使用以下代码在列表视图中生成可单击的链接 myTextView setMovementMethod LinkMovementMethod getInstance String linkText
PDF 到 Pandas 数据框

就在我以为我终于明白了的时候真是个新手我正在尝试从 PDF 表格的一列中获取数字列表第一步我想转换为 Panda DF pip install tabula py pip install PyPDF2 import pandas as

PDF 到 Pandas 数据框

PDF 到 Pandas 数据框 的相关文章

随机推荐

热门标签

PDF 到 Pandas 数据框的相关文章