使用 Python 或其他方法从 PDF 中提取指向另一个 PDF 中页面的链接

2024-01-31

我有 5 个 PDF 文件，每个文件都有指向另一个 PDF 文件中不同页面的链接。这些文件都是大型 PDF 的目录（每个大约 1000 页），使得手动提取成为可能，但非常痛苦。到目前为止，我已尝试在 Acrobat Pro 中打开该文件，我可以右键单击每个链接并查看它指向的页面，但我需要以某种方式提取所有链接。我并不反对对链接进行大量的进一步解析，但我似乎无法以任何方式将它们拉出来。我尝试将 PDF 从 Acrobat Pro 导出为 HTML 或 Word，但这两种方法都无法保留链接。

我束手无策，任何帮助都会很棒。我可以轻松地使用 Python 或一系列其他语言

使用以下方式查找 URIpyPdf http://pybrary.net/pyPdf/,

import pyPdf

f = open('TMR-Issue6.pdf','rb')

pdf = pyPdf.PdfFileReader(f)
pgs = pdf.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'

for pg in range(pgs):

    p = pdf.getPage(pg)
    o = p.getObject()

    if o.has_key(key):
        ann = o[key]
        for a in ann:
            u = a.getObject()
            if u[ank].has_key(uri):
                print u[ank][uri]

gives,

http://www.augustsson.net/Darcs/Djinn/
http://plato.stanford.edu/entries/logic-intuitionistic/
http://citeseer.ist.psu.edu/ishihara98note.html

etc...

我找不到包含另一个 pdf 链接的文件，但我怀疑 URI 字段应包含以下形式的 URIfile:///myfiles

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

使用 Python 或其他方法从 PDF 中提取指向另一个 PDF 中页面的链接的相关文章

env: python: 使用 Xcode 构建应用程序时没有这样的文件或目录

当我在 Xcode 在 MacOS 12 3 上中构建运行存档我的应用程序时遇到此错误 env python No such file or directory Command Ld failed with a nonzero e
如何检查当前日期并移至下一个日期

我遇到了一个我似乎无法理解的 python 问题不确定是否需要使用 if 语句但因为我是 python 新手所以我实际上不确定如何编写这个小问题事实上这就是我遇到的问题对于出发日历我希望 python 能够执行以下操作查看
如何获取右侧数据框中不在左侧数据框中的数据

我有两个数据帧我正在尝试输出其中一个数据帧中的数据而不是另一个数据帧中的数据我可以使用第一个数据帧中的数据但不能使用第二个数据帧中的数据 only new old merge new outer on Employee ID Ben
keras 层教程和示例

我正在尝试编码和学习不同的神经网络模型我对输入维度有很多复杂性我正在寻找一些教程显示层的差异以及如何设置每个层的输入和输出 Keras 文档 https keras io layers core 向您展示所有input shape每层
如何使用 QWebView 显示 html。 Python？

如何在控制台中显示 HTML 格式的网页 import sys from PyQt4 QtGui import QApplication from PyQt4 QtCore import QUrl from PyQt4 QtWebKit i
将字段重新格式化为列，其他字段（与先前结构中成为列的字段配对）成为新列中的字段

我的任务是清理慈善机构设计的移动应用程序中的数据在一个部分中用户问答应用程序使用会话由一行表示该部分由重复的问题答案字段对组成其中一个字段代表所提出的问题然后它旁边的字段代表相应的答案每个问题字段和答案列对一起代表一个独特的问
使用记事本打开文本文件作为python中的帮助文件？

我想为我的简单程序的用户提供打开帮助文件的机会以指导他们如何充分利用我的程序理想情况下我希望在 GUI 上有一个蓝色的小帮助链接可以随时单击该链接从而在本机文本编辑器例如记事本中打开 txt 文件有没有一种简单的方法可以做到
如何使用 iTextSharp 设置 PDF 段落或字体行高？

如何使用 iTextSharp 更改 PDF 字体或段落的行高排版中的行距称为行距如果可以使用行间距则可以使用 Paragraph Leading 或 Paragraph LeadingMultiplier 看http itextsh
如何在 Django 1.4 中自定义管理过滤器

我是 Python 和 Django 开发的新手我从社区提供的易于阅读的示例中学到了很多东西但最近我想为 Django 附带的管理控制台实现一个自定义的管理过滤器我进行了很多搜索只发现了一些过时的方法来完成它例如 Django 1
配置 Flask 以正确加载 Bootstrap js 和 css 文件

如何使用 Flask 中的 url for 指令来正确设置以便使用 Bootstrap 和 RGraph 的 html 页面可以正常工作假设我的 html 页面看起来像这样部分片段
如何在 Python for 循环中获取 GAE ndb 中当前记录的密钥？

我目前有一个网页其中显示数据存储中的记录列表以及编辑链接我想从数据库转换它至新开发银行我是 Python 和 GAE 新手当前代码 tbody for listtype in listtypes tr td listtype Li
如何列出静态链接的 python 版本中可用的所有 openssl 密码？

在python 2 7 8到2 7 9升级中 ssl模块从使用更改为 DEFAULT CIPHERS DEFAULT aNULL eNULL LOW EXPORT SSLv2 to DEFAULT CIPHERS ECDH AESGCM D
如何在 iPython 中获取最后分配的变量的值？

我是一个完全的 iPython 新手但我想知道是否有办法获取最后分配的变量的值 In 1 long variable name 333 In 2
Tkinter 按钮鼠标右键和左键单击有不同的命令

我正在用 Python 制作扫雷游戏并使用 tkinter 库来创建 gui 有没有绑定到 tkinter 按钮两个命令的方法一个是右键单击按钮时的命令另一个是单击左键时的命令通常按钮仅设计用于单击但 tkinter 允许您为
Python 用静态图像将 mp3 转换为 mp4

我有x文件包含一个列表mp3我想转换的文件mp3文件至mp4文件带有static png photo 似乎这里唯一的方法是使用ffmpeg但我不知道如何实现它我编写了脚本来接受输入mp3文件夹和一个 png photo 然后它将创建新文件
Pandas 使用什么规则来生成视图和副本？

我对 Pandas 在决定数据帧中的选择是原始数据帧的副本或原始数据帧的视图时使用的规则感到困惑例如如果我有 df pd DataFrame np random randn 8 8 columns list ABCDEFGH index
在 grpc python 中处理异步流请求

我试图了解如何使用双向流处理 grpc api 使用 Python API 假设我有以下简单的服务器定义 syntax proto3 package simple service TestService rpc Translate stre
检测反射 DLL 注入

在过去的几年中恶意软件以及一些渗透测试工具如 Metasploit 的 meterpreter 负载已经开始使用反射 DLL 注入 PDF http www harmonysecurity com files HS P005 Ref
使用 pyspark 计算所有可能的单词对

我有一个文本文档我需要找到整个文档中重复单词对的可能数量例如我有下面的word文档该文档有两行每行用分隔文档 My name is Sam My name is Sam My name is Sam My name is Sa
Pandas：如何删除以 nan 作为列名的多个列？

根据标题这是一个可重现的示例 raw data x this that this that this np nan np nan np nan np nan np nan np nan y np nan np nan np nan np

随机推荐

更改 :before 和 :after 伪元素的样式？ [复制]

这个问题在这里已经有答案了这就是我的代码的样子 mainSpan before css background url gfx cmn main bg png 这似乎不起作用所以我问是否可以添加使用 jQuery 将背景图像添加到阴影元
如何在 cmake 上获取库的完整本机名称？

我需要将构建的库的本机名称 libfoo so 或 foo dll 传递给 add custom command 如何获取目标的完整库名称该财产LOCATION有它但有完整的路径属性 OUTPUT NAME 不返回任何内容您可以使用生
使用 Storyboard 中的属性字符串本地化 UILabel

我有一个 UILabel 其文本在情节提要中设置为归属当我生成 Main strings 文件以翻译成其他语言时该标签的文本不会出现我尝试通过复制对象 ID 手动将条目添加到 Main strings 文件中我尝试设置 text
Firebird x Windows 7 x gds32.dll错误

我有一个来自新客户的 fdb 文件 firebird 他不知道版本我尝试过使用一些 GUI 来访问数据库但没有成功他们都说它缺少 gds32 dll 但我有这个我已将此 dll 复制到 GUI 文件夹已将 dll 复制到 syst
GlGenTextures 不断返回 0

我正在尝试生成这样的纹理 define checkImageWidth 64 define checkImageHeight 64 static GLubyte checkImage checkImageHeight checkImageW
如何模拟 @InjectMocks 类的方法？

例如我有处理程序 Component public class MyHandler AutoWired private MyDependency myDependency public int someMethod return anoth
回调（）或返回回调（）

可能我对 Node 的事件循环了解不够说我有一个函数foo其中包含一个异步函数async func 我有吗 1 function foo callback stuff here async func function do somethi
负载平衡线程请求百分比

我有一个工作线程池我在其中根据百分比向它们发送请求例如工作人员 1 必须处理总请求的 60 工作人员 2 必须处理总请求的 31 最后工作人员 3 必须处理 9 我需要从数学上知道如何缩小数字并保持比率这样我就不必向线程 1 发送
如何在 MFC 中的 CRichEditCtrl 中显示红色波浪线

我正在致力于在 MFC 应用程序中实现拼写检查器我想要做的是在拼写错误的单词下显示红线我找到了一个示例但它仅适用于简单的编辑框因为它可以简单地使用编辑控件默认字体进行计算来绘制波浪线但它不适用于丰富的编辑控件因为在丰富的编辑控件
Vue组件通信

我有两个 Vue 组件 Vue component A Vue component B 如何从组件B访问组件A 组件之间的通信如何进行跨组件通信在 Vue js 文档中并没有引起太多关注也没有很多教程涵盖这个主题由于组件应该是隔离的
用于生成用户友好的相对时间戳的 PHP 库

我正在寻找 PHPlibrary生成用户友好的时间表示例如当时间戳为两小时前时time 2 3600 有几个现有问题及其答案和博客文章 1 https stackoverflow com questions 2690504 php
为什么 build_runner 在 dart/flutter 中序列化 JSON 时不生成文件

我只是尝试使用 3 个月前存储的相同命令生成文件我对后端和 devops 不太擅长但现在它不再生成文件了它告诉我使用我不记得的删除命令但即使使用该命令我的文件仍然不会生成这就是我的日志的样子下面您可以找到一个简单类的代码我的
为什么 swift 中函数有多种返回类型？

我注意到这个函数有一个独特的返回类型 func chooseStepFunction backward Bool gt Int gt Int func stepForward input Int gt Int return input 1
FileSystemWatcher 在网络机器上设置凭据

有没有办法为 filesystemwatcher 对象设置凭据该应用程序在不同的用户上运行该用户无权访问网络计算机上的目录但我想向 filesystemwatcher 对象提供凭据以便它可以侦听该目录可行吗不需要只需确保您的应
PHP 强制下载损坏的 .xlsx 文件

我正在开发一个允许教师上传文档和学生下载文档的网站然而有一个问题 Microsoft Word docx 文件下载完美但下载 Excel xlsx 文件时 Excel 会显示此文件已损坏无法打开对话框任何对此的帮助将不胜感激
Windows 手机 8.1 |如何判断本地文件夹中是否存在文件？

如何确定文件是否存在于本地文件夹中 Windows Storage ApplicationData Current LocalFolder 在 Windows Phone 8 1 上不幸的是目前没有直接的方法来检查文件是否存在您可以尝
PyQt5 QWebEngineView不显示网页

The part where webpage should be rendered gets white for a fraction of second and then gets empty 这是我的代码基本上是https www p
构建两个独立数据库集成的最佳方法？

我在工作中遇到了以下问题我没有经验或知识来回答这些问题我希望你们中的一些明智的人能够为我指明正确的方向任何答案将不胜感激 Scenario 实施立面图案 http en wikipedia org wiki Facade patter
捕获 async void 方法抛出的异常

使用 Microsoft for NET 的异步 CTP 是否可以在调用方法中捕获异步方法抛出的异常 public async void Foo var x await DoSomethingAsync Handle the result
使用 Python 或其他方法从 PDF 中提取指向另一个 PDF 中页面的链接

我有 5 个 PDF 文件每个文件都有指向另一个 PDF 文件中不同页面的链接这些文件都是大型 PDF 的目录每个大约 1000 页使得手动提取成为可能但非常痛苦到目前为止我已尝试在 Acrobat Pro 中打开该文件我可

使用 Python 或其他方法从 PDF 中提取指向另一个 PDF 中页面的链接

使用 Python 或其他方法从 PDF 中提取指向另一个 PDF 中页面的链接 的相关文章

随机推荐

热门标签

使用 Python 或其他方法从 PDF 中提取指向另一个 PDF 中页面的链接的相关文章