我尝试过使用 pypdf 和 pdfMiner 从 PDF 文件中提取文本。我有一些不友好的 PDF,只有 pdfMiner 才能成功提取。我正在使用代码here提取整个文件的文本。但是,我真的很想在每页的基础上提取文本,例如pages[i].extract_text()
pypdf 中的功能。有谁知道如何使用 pdfMiner 提取每页文本?
for pageNumber, page in enumerate(PDFDocument.get_pages()):
if pageNumber == 42:
#do something with the page
有一篇文章相当不错here.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)