读取 PDF 文档中的所有书签，并使用书签的页码和标题创建字典

2023-12-12

我尝试使用 Python 和 PyPDF2 包来阅读 PDF 文档。目标是读取pdf中的所有书签，并构建一个以书签页码为键、书签标题为值的字典。

互联网上没有太多关于如何实现它的支持，除了this文章。其中发布的代码不起作用，我不是 python 专家来纠正它。 PyPDF2 的阅读器对象有一个名为outlines它为您提供了所有书签对象的列表，但没有书签的页码，并且遍历该列表并不困难，因为书签之间没有父/子关系。

我在下面分享我的代码来阅读 pdf 文档并检查outlines财产。

import PyPDF2

reader = PyPDF2.PdfFileReader('SomeDocument.pdf')

print(reader.numPages)
print(reader.outlines[1][1])

通过使列表彼此嵌套来保留父/子关系。此示例代码将以缩进的目录形式递归显示书签：

import PyPDF2


def show_tree(bookmark_list, indent=0):
    for item in bookmark_list:
        if isinstance(item, list):
            # recursive call with increased indentation
            show_tree(item, indent + 4)
        else:
            print(" " * indent + item.title)


reader = PyPDF2.PdfFileReader("[your filename]")

show_tree(reader.getOutlines())

我不知道如何检索页码。我尝试了一些文件，并且page的属性Destination对象始终是一个实例IndirectObject，其中似乎不包含任何有关页码的信息。

UPDATE:

有一个获取目标页码从中获取页码的方法Destination对象。修改代码以创建您想要的字典：

import PyPDF2


def bookmark_dict(bookmark_list):
    result = {}
    for item in bookmark_list:
        if isinstance(item, list):
            # recursive call
            result.update(bookmark_dict(item))
        else:
            result[reader.getDestinationPageNumber(item)] = item.title
    return result


reader = PyPDF2.PdfFileReader("[your filename]")

print(bookmark_dict(reader.getOutlines()))

但是，请注意，如果同一页面上有多个书签（字典键必须是唯一的），您将覆盖并丢失一些值。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python3x

pypdf

读取 PDF 文档中的所有书签，并使用书签的页码和标题创建字典的相关文章

Tensorflow：导入错误：libcudnn.so.7：无法打开共享对象文件：没有这样的文件或目录

我最近使用 pip 安装了tensorflow gpu 但是当我导入它时出现以下错误 ImportError libcudnn so 7 cannot open shared object file No such file or dir
通过服务器端的服务帐户使用 gmail api，避免使用 OAUTH2 GUI

我有一个用 python 开发的应用程序它使用 SMTP 服务连接到 gmail 帐户这种类型的连接典型为访问不安全的应用程序不太安全的应用程序 https myaccount google com lesssecureapps 为
通过一个正则表达式以任意顺序匹配多个单词

如标题中所述我想要正则表达式它将根据我的查询按顺序给出结果 line VERSION OTHER POWER LOW FREQ OFF MAXTUN BLER 示例1 re findall r FREQ VERSION line r
使用定制距离函数从 Pandas Dataframe 创建距离矩阵

我有一个包含两列的 Pandas 数据框 id 唯一标识符和 date 如下所示 test df head id date 0 N1 2020 01 31 1 N2 2020 02 28 2 N3 2020 03 10 我创建了一个自定义
无法让我的脚本自动生成一些值以在有效负载中使用

我创建了一个脚本通过随后发送两个 https 请求来从目标页面获取 html 元素我的脚本可以完美地完成这件事但是我必须从 chrome 开发工具复制四个值来填充其中的四个键payload为了发送最终的http请求到达目标页面这是
使用 python-3.x 从 zip 存档中读取 CSV 文件

我有一个压缩档案其中包含几个csv files 例如假设myarchive zip包含myfile1 csv myfile2 csv myfile3 csv In python 2 7我能够迭代加载所有myfiles in pandas
FutureWarning：使用非元组序列进行多维索引

我收到的警告是 C Users el Anaconda3 envs Py3 lib site packages scipy io matlab miobase py 414 FutureWarning 使用非元组序列进行多维不推荐使用索引
初始化整数变量以进行比较

我正在学习麻省理工学院的开放课件课程计算机科学和 Python 编程简介 https ocw mit edu courses electrical engineering and computer science 6 0001 introd
如果出现重复，则主键取正值

我有一个数据框df Key1 Key2 Value K11 K21 V1 K11 K21 V1 K13 K23 V2 K13 K23 V2 现在例如对于相同的键 K11 K21 组合我们有 2 个值一负一正如何从此 df 中仅获取正
数据帧中标志切换之间的行的总和/平均值

我有一个像这样的数据框 id power flag 0 20 0 1 25 0 2 26 1 3 30 1 4 18 0 5 30 0 6 19 0 7 21 1 8 23 0 我正在尝试获取行的平均值总和power柱子输出应该是这样的
如何获取 sklearn.metrics.classification_report 的输出作为字典？

我一直在尝试以字典的形式获得分类报告所以根据 scikit learn 0 20 文档我这样做 from sklearn import metrics rep metrics classification report y true y
如何使用 pyinstaller 包含文件？

我也使用 tkinter 使用 python 3 7 编写了一个程序由于我使用的是外部图片因此当我将所有内容编译为一个 exe 时我需要包含它们我试过做 add data bg png files 但我仍然收到此错误 tkinter
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
有没有办法在每个特定的时间间隔运行 python Flask 函数并在本地服务器上显示输出？

我正在使用 Flask 工作 python 程序我想从字典中提取键该密钥为文本格式但我想在每个特定的时间间隔后重复上述整个过程并每次在本地浏览器上显示此输出我已经使用flask apscheduler尝试过这个程序只运行一次并显
动态 __init_subclass__ 方法的参数绑定

我正在尝试让类装饰器工作装饰器会添加一个 init subclass 方法到它所应用的类但是当该方法动态添加到类中时第一个参数不会绑定到子类对象为什么会发生这种情况举个例子这是可行的下面的静态代码是我试图最终得到的示例 cl
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
mac安装Tensorflow出错

我正在尝试使用以下说明在 mac 中安装 Tensorflow https www tensorflow org install https www tensorflow org install 但是当我想导入tensorflow时我总是
在Spyder(Python 3.6)中导入cv2时出现导入错误

我已经在Windows操作系统中安装了opencv 3 0 0 我已运行该应用程序并已成功将其安装在C 驱动器并还复制了cv2 pyd文件输入C Python27 Lib site packages正如我在几个教程视频中看到的那样在我的
裁剪 .pdf 文件的页面

我想知道是否有人有以编程方式处理 pdf 文件的经验我有一个 pdf 文件我需要将每一页裁剪到一定大小经过快速谷歌搜索后我找到了 python 的 pyPdf 库但我的实验失败了当我更改页面对象上的cropBox 和trimBo
setColumnStretch 和 setRowStretch 如何工作

我有一个使用构建的应用程序PySide2它使用setColumnStretch用于柱拉伸和setRowStretch用于行拉伸它工作得很好但我无法理解它是如何工作的我参考了 qt 文档但它对我没有帮助我被困在括号内的两个值上例如

随机推荐

将本地文件推送到 github 存储库中的目录

我的本地存储库中有一个文件我想将其推送到我的 Github 存储库中的目录我有以下文件 F Development Python Workspace StringCalculator py 我需要将此文件推送到我的存储库的以下路径 ht
尽管存在显式实例化，但类模板的成员函数模板找不到定义。不链接

Edit 这不是链接问题的重复因为我使用的是显式实例化并且只有特定类型的成员函数不链接其他函数会链接以下代码可以编译但无法链接我不明白为什么它显式实例化Vector类来限制可能的参数数量T因此隐藏了定义Vector
SQL Server 2008 Express 无法附加 mdf 文件

这是消息它出什么问题了是安装问题吗标题 Microsoft SQL Server Management Studio 无法显示请求的对话框附加信息参数名称 nColIndex 实际值为 1 微软 SqlServer GridCon
Powershell - 根据文件名创建文件夹，然后将该文件放入该文件夹中

我有一个文件列表说 T123 Product 1 jpg T123 Product 2 jpg T123 Product 3 jpg T456 Product 1 jpg T456 Product 2 jpg T456 Product 3
如何在循环中使用 mutate 和 ifelse？

我所做的是创建虚拟变量来指示连续变量是超过某个阈值 1 还是低于该阈值 0 我通过几次重复的突变实现了这一点我想用循环代替 load tidyverse library tidyverse create data data lt data
覆盖 XML 序列化方法

我在尝试自定义 DateTime 变量在我的对象中序列化的方式时遇到问题我希望它输出为 2011 09 26T13 00 00Z 但是当我重写 GetObjectData 函数我认为这是执行此操作的方法时根本不会为它们输出任何 XM
带有动态选项组的下拉列表

嗨 cakephp 专家我正在寻求您对带有动态 optgroup 的动态下拉列表的帮助假设我有两个表 countries id country name counties id county name country id 现在我想显
Android-NavigationView从右到左

我正在使用 Android Studio 1 5 的最新版本我想使用抽屉布局制作一个菜单用于定位其调用 GravityCompat 我正在尝试使用这个组件并修改它将抽屉从右向左放置这是我的代码 public class MainAc
iOS 8 中的 NSDateFormatter 日期格式问题

我有一个 NSDateFormatter 用来将 NSDate 格式化为字符串以下格式不起作用 ddMMyyyy hhmmss SSS 当我尝试格式化 NSDate 时我得到以下输出 18092014 08 49 03 638 其中有一
Azure 搜索是否处理同义词

Azure 搜索可以根据同义词进行搜索吗例如如果我搜索鞋类系统应该获取以下结果鞋类的同义词如鞋子凉鞋等我进行了很多搜索但未能找到有关它的适当文档我能找到的最接近的是一个帖子说它还不支持但这是一个旧帖子 https s
从静态方法调用 startActivityForResult

我有一个按钮监听器当用户单击按钮时我想启动相机意图目前我有这个 public class ButtonListener implements View OnClickListener private ArrayList
在整个页面加载之前显示加载栏

我想在加载整个页面之前显示一个加载栏目前我只是使用了一个小的延迟 document ready function page fadeIn 2000 该页面已使用 jQuery 注意我已经尝试过这个但它对我不起作用脚本运行时加载栏
Python“for i in”+变量

我有以下代码 Euler Problem 1 print We are going to solve Project Euler s Problem 1 euler number input What number do you want
如何在Linux上指定时间运行脚本？ [关闭]

Closed 这个问题不符合堆栈溢出指南目前不接受答案我有一个包含特定日期和时间的文本文件我希望能够在该文件中指定的时间运行脚本你将如何实现这一目标创建另一个在后台运行的脚本类似于守护程序并每秒检查当前时间是否与文件中的时间匹
将电子邮件另存为 MSG 文件，无需使用 Outlook（COM 对象等）或第 3 方软件

现在我正在使用 Exchange Web 服务 API 和 PowerShell 从 Exchange 中提取特定电子邮件并将其保存为 EML 文件这很好用但是用户客户要求电子邮件采用 msg 格式我见过有两种方法可以做到这一点
录制时拍摄相机屏幕截图 - 就像 Galaxy S3 一样？

我正在开发一个使用 SurfaceView 进行显示的相机应用程序我可以截取 SurfaceView 的屏幕截图并将其保存为位图使用 getDrawingCache 在包装 SurfaceView 的布局上还有canvas draw
VBA：等待 Bloomberg BDP 通话完成

我有一个脚本将一些外部数据导入到工作表中这反过来会影响一些 BDP 公式最好我想在复制数据后立即对 BDP 结果进行一些检查 Bloomberg Excel 插件异步更新如何等待结果然后恢复脚本似乎只有在 VBA 脚本完成后才会导
为 Nitrogen6x 构建 Qt 5 时出现 libm 重定位错误

我正在尝试在 Qt 5 上构建氮气6x板由 i MX6Q 供电我已经安装了Debian 喘息在板上我正在使用乌班图12 10交叉编译机配置 Qt 就像一个魅力但我陷入了 make 步骤这是我运行的配置脚本 configure v
如何设计一封安全且“自毁”的电子邮件？

正如大多数人所知电子邮件非常不安全即使客户端和发送电子邮件的服务器之间有 SSL 安全连接消息本身在 Internet 上的节点间跳跃时也将采用明文形式从而容易被窃听另一个考虑因素是发件人可能不希望邮件在一段时间后或在被阅读一次
读取 PDF 文档中的所有书签，并使用书签的页码和标题创建字典

我尝试使用 Python 和 PyPDF2 包来阅读 PDF 文档目标是读取pdf中的所有书签并构建一个以书签页码为键书签标题为值的字典互联网上没有太多关于如何实现它的支持除了this文章其中发布的代码不起作用我不是 pyth

读取 PDF 文档中的所有书签，并使用书签的页码和标题创建字典

读取 PDF 文档中的所有书签，并使用书签的页码和标题创建字典 的相关文章

随机推荐

热门标签

读取 PDF 文档中的所有书签，并使用书签的页码和标题创建字典的相关文章