查找 PDF 文件中的文本位置

2024-05-05

我有一个 PDF 文件,我试图在 PDF 中查找特定文本并使用 Python 突出显示它。 我发现pypdf https://pypi.org/project/pypdf/, 哪个行突出显示 PDF 的一部分 https://gist.github.com/agentcooper/4c55133f5d95866acdee5017cd318558当我们给出文件中想要的突出显示位置的坐标时。

我正在尝试找到一个可以为我提供给定文本在 PDF 中的位置的工具。


PyMuPDF https://pymupdf.readthedocs.io/en/latest/page.html#Page.search_for可以通过坐标查找文本。您可以将其与 PyPDF2 突出显示方法结合使用来完成您所描述的内容。或者你可以只是使用 PyMuPDF 突出显示文本 https://pymupdf.readthedocs.io/en/latest/recipes-annotations.html.

以下是使用 PyMuPDF 查找文本并突出显示的示例代码:

import fitz

### READ IN PDF
doc = fitz.open("input.pdf")

for page in doc:
    ### SEARCH
    text = "Sample text"
    text_instances = page.search_for(text)

    ### HIGHLIGHT
    for inst in text_instances:
        highlight = page.add_highlight_annot(inst)
        highlight.update()


### OUTPUT
doc.save("output.pdf", garbage=4, deflate=True, clean=True)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

查找 PDF 文件中的文本位置 的相关文章

随机推荐