我有 5 个 PDF 文件,每个文件都有指向另一个 PDF 文件中不同页面的链接。这些文件都是大型 PDF 的目录(每个大约 1000 页),使得手动提取成为可能,但非常痛苦。到目前为止,我已尝试在 Acrobat Pro 中打开该文件,我可以右键单击每个链接并查看它指向的页面,但我需要以某种方式提取所有链接。我并不反对对链接进行大量的进一步解析,但我似乎无法以任何方式将它们拉出来。我尝试将 PDF 从 Acrobat Pro 导出为 HTML 或 Word,但这两种方法都无法保留链接。
我束手无策,任何帮助都会很棒。我可以轻松地使用 Python 或一系列其他语言
使用以下方式查找 URIpyPdf http://pybrary.net/pyPdf/,
import pyPdf
f = open('TMR-Issue6.pdf','rb')
pdf = pyPdf.PdfFileReader(f)
pgs = pdf.getNumPages()
key = '/Annots'
uri = '/URI'
ank = '/A'
for pg in range(pgs):
p = pdf.getPage(pg)
o = p.getObject()
if o.has_key(key):
ann = o[key]
for a in ann:
u = a.getObject()
if u[ank].has_key(uri):
print u[ank][uri]
gives,
http://www.augustsson.net/Darcs/Djinn/
http://plato.stanford.edu/entries/logic-intuitionistic/
http://citeseer.ist.psu.edu/ishihara98note.html
etc...
我找不到包含另一个 pdf 链接的文件,但我怀疑 URI 字段应包含以下形式的 URIfile:///myfiles
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)