有哪些方法可以将 PDF 转换为 HTML?它可以是任何东西——在线服务、软件、图书馆。 (首选开源。在后一种情况下,首选 php 或 python。)它必须保留原始布局(包括页码、脚注等),保留图像(可以将它们组合为每页一个背景图像)并保留链接。它最好应该输出有效的 XHTML 并清理 PDF 功能(例如连字),但如果需要一些后处理,我可以接受。具有干净、相对语义的 HTML 输出的东西会很棒。
我发现的最接近的是扎姆扎尔网站 http://zamzar.org/,但它被链接阻塞了。 (此外,HTML 输出是一堆丑陋的绝对定位的 div,并且由于编码问题需要进行后处理。)
我知道两个选择。两者在视觉上看起来非常相似,但输出肯定不是语义的。
Python:PyMuPDF
安装 PyMuPDF:pip install pymupdf
import fitz
def to_html(filepath: str):
doc = fitz.open(filepath)
for i, page in enumerate(doc):
text = page.getText("html")
with open(f"pymupdf-page-{i}.html", "w") as fp:
fp.write(text)
doc.close()
pdf转html
在 debian 源代码中 (this one https://linux.die.net/man/1/pdftohtml)
pdftohtml -c
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)