pdfextraction

Pdfplumber 无法识别表 python [重复]

这个问题在这里已经有答案了我使用 Pdfplumber 提取第 2 页第 3 部分的表格通常但它只适用于某些 pdf 其他则不起作用对于失败的 pdf 文件似乎 Pdfplumber 读取的是按钮表而不是我想要的表我怎样才能拿到

python tabular pdfextraction

我试图看看是否可以使用文本的背景和前景色识别 PDF 内表格中可能的表格标题通过 PyMuPDF 文本提取我能够获得前景色想知道是否有办法也获得背景颜色我使用 pymupdf 1 16 2 和 python 3 7 我已检查过文档

python pdfextraction pymupdf

我正在编写一个 Web 应用程序用于提取 PDF 中每个页面顶部的一行 PDF 来自产品的不同版本并且可以通过多个 PDF 打印机同样具有不同的版本和不同的设置到目前为止我已经使用 PDFSharp 和 iTextSharp 成功

pdf fonts itext pdfsharp pdfextraction

我正在尝试从 PDF 中提取印地语文本我尝试了所有从 PDF 中提取内容的方法但都不起作用有解释为什么它不起作用但没有答案所以我决定将PDF转换为图像然后使用pytesseract提取文本我已经下载了印地语训练数据但这也给

python pythontesseract pdfextraction