合并 PDF，同时保留自定义页码（也称为页面标签）和书签

2024-04-27

我正在尝试自动合并多个 PDF 文件，并且有两个要求：a) 现有书签和 b) 需要保留页面标签（自定义页码）。

默认情况下，PyPDF2 和 pdftk 会在合并时保留书签，但 pdfrw 不会。 PyPDF2、pdftk 或 pdfrw 中始终不保留页面标签。

经过大量搜索后，我猜测没有直接的方法可以做我想做的事情。如果我错了，那么我希望有人能指出这个简单的解决方案。但是，如果没有简单的解决方案，任何关于如何在 python 中实现这一点的提示将不胜感激！

一些示例代码：

1）使用PyPDF2

from PyPDF2 import PdfFileWriter, PdfFileMerger, PdfFileReader 
tmp1 = PdfFileReader('file1.pdf', 'rb')
tmp2 = PdfFileReader('file2.pdf', 'rb')
#extracting pagelabels is easy
pl1 = tmp1.trailer['/Root']['/PageLabels']
pl2 = tmp2.trailer['/Root']['/PageLabels']
#but PdfFileWriter or PdfFileMerger does not support writing from what I understand

所以我不知道如何从这里开始

2）使用 pdfrw （有更多希望）

from pdfrw import PdfReader, PdfWriter
writer = PdfWriter()
#read 1st file
tmp1 = PdfReader('file1')
#add the pages
writer.addpages(tmp1.pages)
#copy bookmarks to writer
writer.trailer.Root.Outlines = tmp1.Root.Outlines
#copy pagelabels to writer
writer.trailer.Root.PageLabels = tmp1.Root.PageLabels
#read second file
tmp2 = PdfReader('file2')
#append pages
writer.addpages(tmp2.pages)
# so far so good

第二个文件中的书签页码在添加之前需要偏移，但是在阅读大纲时我几乎总是得到 (IndirectObject, XXX) 而不是页码。目前还不清楚如何使用 pdfrw 获取每个标签和书签的页码。所以，我又陷入困境了

正如我的评论中提到的，我发布了一个通用解决方案来合并在 PyPDF2 中工作的多个 pdf。除了初始化之外，不知道在 PyPDF2 中进行这项工作有什么不同ArrayObject()

from PyPDF2 import PdfFileWriter, PdfFileMerger, PdfFileReader
import PyPDF2.pdf as PDF

# pls holds all the pagelabels as we iterate through multiple pdfs
pls = PDF.ArrayObject()
# used to offset bookmarks 
pageCount = 0
cpdf = PdfFileMerger()
# pdffiles is a list of all files to be merged
for i in range(len(pdffiles)):
    tmppdf = PdfFileReader(pdffiles[i], 'rb')
    cpdf.append(tmppdf)
    # copy all the pagelabels which I assume is present in all files
    # you could use 'try' in case no pagelabels are present
    plstmp = tmppdf.trailer['/Root']['/PageLabels']['/Nums']
    # sometimes keys are indirect objects
    # so, iterate through each pagelabel and...
    for j in range(len(plstmp)):
        # ... get the actual values 
        plstmp[j] = plstmp[j].getObject()
        # offset pagenumbers by current count of pages
        if isinstance(plstmp[j], int): 
            plstmp[j] = PDF.NumberObject(plstmp[j] + pageCount) 
    # once all the pagelabels are processed I append to pls
    pls += plstmp
    #increment pageCount
    pageCount += tmppdf.getNumPages()

# rest follows KevinM's answer
pagenums = PDF.DictionaryObject()
pagenums.update({PDF.NameObject('/Nums') : pls})
pagelabels = PDF.DictionaryObject()
pagelabels.update({PDF.NameObject('/PageLabels') : pagenums})
cpdf.output._root_object.update(pagelabels)
cpdf.write("filename.pdf")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

pypdf

pdfrw

合并 PDF，同时保留自定义页码（也称为页面标签）和书签的相关文章

env: python: 使用 Xcode 构建应用程序时没有这样的文件或目录

当我在 Xcode 在 MacOS 12 3 上中构建运行存档我的应用程序时遇到此错误 env python No such file or directory Command Ld failed with a nonzero e
如何获取右侧数据框中不在左侧数据框中的数据

我有两个数据帧我正在尝试输出其中一个数据帧中的数据而不是另一个数据帧中的数据我可以使用第一个数据帧中的数据但不能使用第二个数据帧中的数据 only new old merge new outer on Employee ID Ben
Python 的“platform.mac_ver()”报告不正确的 MacOS 版本

我正在使用Pythonplatform module https docs python org 3 library platform html要识别 MacOS 版本如下所示 import platform print platform
按 A 列删除重复项，保留 B 列中具有最高值的行

我有一个数据框 A 列中有重复值我想删除重复项保留 B 列中具有最高值的行 So this A B 1 10 1 20 2 30 2 40 3 10 应该变成这样 A B 1 20 2 40 3 10 我猜想可能有一种简单的方法可以做到
可以memmap pandas系列。数据框怎么样？

看来我可以通过创建 mmap d ndarray 并使用它来初始化系列来对 python 系列的底层数据进行内存映射 def assert readonly iloc try iloc 0 999 Should be non editabl
在 python 中查找价格动量的有效方法：对列的最后 n 个条目求平均值

我正在定义价格动量是给定股票过去动量的平均值n days 反过来动量是一种分类如果当天的收盘价高于前一天则每天标记为 1 如果当天的收盘价低于前一天则标记为 1 我的库存变化百分比如下 df close in percent np
从另一个文件覆盖函数中的变量

一总结我不知道如何从另一个文件覆盖函数中的变量 2 示例 2 1 配置 I use logbook http logbook pocoo org and pyfancy https github com ilovecode1 Pyfan
将 pandas 多索引数据帧转换为嵌套字典

我有一个 pandas 多索引数据框我试图将其输出为嵌套字典 create the dataset data clump thickness 0 0 274 0 0 1 19 0 1 0 67 0 1 1 12 0 2 0 83 0 2
如何在 Django 1.4 中自定义管理过滤器

我是 Python 和 Django 开发的新手我从社区提供的易于阅读的示例中学到了很多东西但最近我想为 Django 附带的管理控制台实现一个自定义的管理过滤器我进行了很多搜索只发现了一些过时的方法来完成它例如 Django 1
Buildozer Numpy RuntimeError：工具链损坏：无法链接简单的 C 程序

用 Python 编写我的第一个 Android 应用程序并使用 Buildozer 对其进行打包因为稍后在项目中需要使用numpy 所以我尝试打包以下测试代码 import numpy import kivy kivy require
创建 df 以生成给定格式的 json

我正在尝试生成一个 df 来生成下面的 json Json数据 name flare children name K1 children name Exact size 4 name synonyms size 14 name K2 chi
如何避免在matplotlib中调用latex（输出到pgf）

我使用 matplotlib 及其 pgf 后端来生成包含在 LaTeX 投影仪文档中的绘图当我使用未定义的乳胶命令时我遇到了麻烦但对于我的应用程序我不需要 matplotlib 来使用 Latex 生成标签或注释我只想要正确的
如何在 PyTorch 中对子集使用不同的数据增强

如何针对不同的情况使用不同的数据增强转换 Subset在 PyTorch 中吗例如 train test torch utils data random split dataset 80000 2000 train and test将具
Python 用静态图像将 mp3 转换为 mp4

我有x文件包含一个列表mp3我想转换的文件mp3文件至mp4文件带有static png photo 似乎这里唯一的方法是使用ffmpeg但我不知道如何实现它我编写了脚本来接受输入mp3文件夹和一个 png photo 然后它将创建新文件
在 WebView 中打开 PDF 文件

大约 2 天我尝试在我的自定义中打开 PDF 文件WebvView 这是我的WebView code import android app AlertDialog import android app ProgressDialog imp
Django admin.py 未知命令：'collectstatic'

我已经从 django 1 2 7 升级到 django 1 5 1我正在使用 python 2 6 6当我尝试跑步时python manage py collectstatic i get 未知命令 collectstatic 从我的设置
如何使用 SymPy 求给定一阶导数的 n 阶导数？

Given some f and the differential equation x t f x t how do I compute x n t in terms of x t For example given f x t sin
在 python 中使用 re.sub 将字母变成大写？

在许多编程语言中以下内容 find foo a z bar并替换为GOO U 1GAR 将导致整个匹配项变为大写我似乎无法在 python 中找到等效项它存在吗您可以将函数传递给re sub http docs python org
通过过滤对 Pyspark Dataframe 进行分组

我有一个数据框如下 cust id req req met 1 r1 1 1 r2 0 1 r2 1 2 r1 1 3 r1 1 3 r2 1 4 r1 0 5 r1 1 5 r2 0 5 r1 1 我必须观察客户看看他们有多少要求看看
将非方邻接矩阵导入 Networkx python

我在下面有一些 pandas 数据框形式的数据其中列代表离散技能行代表离散工作仅当工作需要该技能时才存在 1 否则为 0 skill 1 skill 2 job 1 1 0 job 2 0 0 job 3 1 1 我想使用 netwo

随机推荐

查找游戏对象的子对象的子对象

我在场景中有一个预制件我想访问该预制件的子项该预制件的结构如下 PauseMenu UI Resume TextField TextField2 UI Side Back lt I need this child UI Home tra
如何 adb 提取 SD 卡中文件夹中的所有文件

我的 SD 卡中有一个文件夹 mnt sdcard Folder1 Folder2 Folder3 jpg 文件夹 1 和文件夹 2 的名称保持不变文件夹 2 内有文件夹 3 4 5 等我想使用 adb 将所有 jpeg 文件而不是所有
具有多个数据源的 Spring Boot + JNDI

我尝试创建一个 Spring Boot 应用程序它连接两个数据源我能够通过遵循 Spring 文档来实现这一目标但我面临的挑战是实现以下目标通过使用 Spring Boot DataSourceAutoConfiguration 通
Baqend 中的关系和 ACL

我试图弄清楚 baqend 是否可以做到这一点或者甚至是正确的方法我有很多用户使用 Baqend 附带的默认用户帐户系统其中一些用户将是公司的管理员一家公司将拥有 1 到 5 名管理员用户有一个单独的数据类其中包含公司的记录和
数据库连接未使用 jpaFlowExecutionListener 关闭

我正在使用 Spring Web Flow 来构建应用程序我正在利用Flow Managed Persistence Context因此实体管理器在流程执行期间保持打开状态我可以访问延迟加载的属性类似于OpenEntityManage
创建 QT 应用程序作为 Windows 上现有基于控制台的应用程序的 GUI

我正在尝试使用 Qt 为现有应用程序设置一个 GUI 该应用程序旨在在 Windows 命令行中运行这不仅仅是运行应用程序system 命令但我需要通过命令行与现有应用程序交互 The system 当我启动现有的可执行文件时命令会阻
sql 查询不适用于 order by

这是我原来有效的查询 Select FROM story st sentences s speaker sp WHERE st lesson id 1 AND st speaker id sp speaker id AND st sente
是否有一个排序的java集合可以处理重复项？

我需要一个行为类似于 C multimap 的集合但我还需要能够通过一系列键获取元素你可以看看谷歌收藏 http code google com p google collections 它有多种实现MultiMap
泛型和实体框架：如何根据列值返回不同的类型

我们有一个人员表其中存储不同类型的人员买方卖方代理人等我们的 ORM 是实体框架 CodeFirst CTP5 我们使用存储库模式来实现良好的 TDD 和模拟在 PersonRepository 中我想返回特定类型这样我就可
如何为 64 位 Windows 编译现有的 posix 代码？

我可以使用 Cygwin 或 MinGW 但我需要最终得到 64 位代码而不是 32 位这是因为我将从 64 位托管 C 调用 DLL 我似乎找不到关于设置这些工具来创建 64 位二进制文件的良好参考另外如果 GCC 是版本 4
将 jQuery 单击事件分配给正文中除少数 div 及其子元素之外的所有内容

当我按下页面上的 div 时会出现一个弹出窗口当您再次单击该 div 时弹出窗口就会消失当您单击 div 外部时弹出窗口就会消失到目前为止一切看起来都很好问题是当我单击弹出窗口时我希望弹出窗口及其子窗口可以单击它们是无序
在外语版本的 Excel 中从 vba 调用工作表函数

以下代码片段在英语版本的 Excel 中运行正常但是当尝试在葡萄牙语版本的 Excel 中的同一工作簿中运行此代码时会出错 Add color bars on every other row attempt to make list e
分面搜索的后过滤器和全局聚合之间有什么区别？

搜索界面中的一个常见问题是您想要返回结果的选择但可能想返回有关所有文档的信息例如我想查看所有红色衬衫但想知道什么其他颜色可供选择这有时被称为多面结果或者多面导航这Elasticsearch 参考中的示例 https ww
“形式参数“foo”与多个参数匹配”-如何在 R 中处理这个问题？

有时调用带有某些参数的函数会导致错误消息formal argument foo matched by multiple actual arguments 是否可以打印不明确的实际参数列表我问这个问题的原因是目前的问题plot类对象的函数
使用导航控制器更改弹出窗口内容大小

我想显示一个具有自定义内容大小的弹出窗口我可以这样做 UINavigationController popoverContent UINavigationController alloc init UIView popoverView U
php 的问题：读取文件名，生成 javascript 和 html

UPDATE 再一次问好我发现自己遇到了一个新问题 php代码在我的PC wamp服务器上完美运行但我现在已将其上传到免费的网络主机服务器上虽然php部分运行完美它生成数组但javascript函数本身不起作用因为没有照片在网
科尔多瓦闹钟

我构建了一个带有计时器的 Cordova 闹钟应用程序一切都运行良好除了我现在想通过视觉和音频警报通知用户时钟到时我使用了以下插件来进行本地通知 https github com katzer cordova plugin local
Alamofire 的响应序列化失败

import UIKit import Alamofire import SwiftyJSON class LoginViewController UIViewController IBOutlet weak var urlTextFile
Visual Studio 2015 数据库项目目录包含扩展名为 jfm 的文件

假设我们有一个数据库项目名为MyDatabase然后是一个名为MyDatabase jfm出现在项目的根目录中当项目在 Visual Studio 中打开时它会被独占锁定它是一个二进制文件它最近才开始出现过去几天我已经进行了谷歌
合并 PDF，同时保留自定义页码（也称为页面标签）和书签

我正在尝试自动合并多个 PDF 文件并且有两个要求 a 现有书签和 b 需要保留页面标签自定义页码默认情况下 PyPDF2 和 pdftk 会在合并时保留书签但 pdfrw 不会 PyPDF2 pdftk 或 pdfrw 中始终不保

合并 PDF，同时保留自定义页码（也称为页面标签）和书签

合并 PDF，同时保留自定义页码（也称为页面标签）和书签 的相关文章

随机推荐

热门标签

合并 PDF，同时保留自定义页码（也称为页面标签）和书签的相关文章