pdfminer

如何根据字体计算字符数？

对于给定 PDF 文件中的每个页面可以列出所使用的字体 pdffonts f 10 l 10 file pdf name type encoding emb sub uni object ID none Type 3 Custom yes

python pdf pdfminer

当我的脚本导入模块 pikepdf 和 pdfminer3 时，如何修复 pyinstaller“无名为...”的错误？

我使用 PikePDF 和 PDFminer3 构建了一个有效的 py 脚本它将从我的桌面上获取 PDF 并根据可用的单词创建一个 txt 文件这样做的目的是帮助我的工作团队修改通常无法复制粘贴修改因此必须手写的法律文件由于我的大

python EXE pyinstaller pdfminer pikepdf

在Python中从pdf中提取印地语编写的文本[重复]

这个问题在这里已经有答案了我想从 pdf 文档中提取印地文输入的文本我已附上示例页面的图像 https i stack imgur com UkT86 jpg我正在处理我尝试使用 pdfminer 从中获取文本但文本是乱码可能是由

python pdf OCR hindi pdfminer

在python中将pdf转换为docx格式

请问如何将pdf转换为docx 我尝试使用 pdfminer 转换为 html 来提取文本但看起来仍然不够好 pdf2docx 安装pdf2docx包点击here https github com dothinking pdf2docx

pdf docx pythondocx pdfminer

使用pdfminer从pdf中提取文本给出多个副本

我正在尝试使用 PDFMiner 从 PDF 文件中提取文本代码位于在Python中使用PDFMiner从PDF文件中提取文本 https stackoverflow com questions 26494211 extracting t

python pdf pdfminer

struct.error：解包需要长度为 16 的字符串参数

处理 PDF 时文件 2 pdf https yadi sk i 2vABlTaexZerg使用 pdfminer pdf2txt py 我收到以下错误 pdf2txt py 2 pdf Traceback most recent call

python pdf pdftotext pdfminer pdfparsing

尝试使用 pdfminer.6 提取文本时如何修复“UnicodeDecodeError”？

使用 pdfminer 时出现 UnicodeEncodeError 来自 git 的最新版本 https github com pdfminer pdfminer six commit d79612c455a5de0526d5bc3244

python pdf pythonunicode pdfminer

无论如何，多线程pdf挖掘？

我有一个代码正在一堆 pdf 中寻找特定的字符串序列问题是这个过程极其缓慢有时我会得到超过 50000 页的 pdf 有没有办法实现多线程不幸的是尽管我进行了搜索但我对线程代码还是一无所知 import os import shu

python pdf Runtime pdfminer slate

python pdfplumber 将 pdf 转换为 jpg 时出错 FailedToExecuteCommand `"gswin64c.exe"

我正在尝试使用 python 中的 pdfplumber 将 pdf 转换为图像 IDE JUPYTER 我尝试过以下代码 with pdfplumber open path to pdf as pdf first page pdf pag

python3x pdfminer pdftotext tabula

从 pdf 中提取表格

我正在尝试从这个表中获取数据PDF https www dropbox com s y3nivxhjvvzva7d test1 pdf dl 0 我尝试过 pdfminer 和 pypdf 运气不错但我无法真正从表中获取数据 This i

python python27 OCR pdfminer pdfparsing

如何在Python中使用pdfminer从在线PDF中提取文本

我想使用 pdfminer 使用下面的代码从在线 PDF 中提取文本它没有显示错误但输出什么也没有 from pdfminer pdfpage import PDFPage from urllib import request from

python webscraping pdfminer

将 pdf 转换为 txt 文件的函数的输出重定向到 python 中的新文件夹

我正在使用 python 3 我的代码使用 pdfminer 将 pdf 转换为文本我想在新文件夹中获取这些文件的输出目前它位于现有文件夹中使用 pdfminer 从该文件夹转换为 txt 如何将输出重定向到不同的文件夹我希望输出位

python fileio output filehandling pdfminer

使用 Python 抓取 PDF 文本 (pdfquery)

我需要抓取一些 PDF 文件来提取以下文本信息我尝试使用 pdfquery 来完成此操作方法是解决我在 Reddit 上找到的示例请参阅第一篇文章 https www reddit com r Python comments 4bnj

python pdf pdfminer

从pdf中提取已知bbox中的文本，PDFQuery太慢

我在 lxml 文件中找到了 bbox 坐标并设法使用 PDFQuery 提取了所需的数据然后我将数据写入 csv 文件 def pdf scrape pdf Extract each relevant information indi

python pdf pdfminer pymupdf

如何在Python中检测PDF文档中的旋转页面？

给定一个多页 PDF 文档如何检查给定页面是否旋转 90 90 或 180 最好使用 Python pdfminer pyPDF 更新页面是扫描的大部分页面都是由文本组成的我简单地用过 Rotate页面的属性在PyPDF2 pdf

python pdf imageprocessing pypdf pdfminer

PDFMiner 无法提取字体

我正在使用 PDFMiner 将一些 pdf 报告转换为纯文本并且我的一堆输入 pdf 只是输出了几行可识别的行然后是一个 cid d 列表有点像这样检查报告用户ID 4 用户ID 5 用户ID 6 用户ID 7 用户ID 8 用

python pdf fonts pdfminer

使用 Python pdfMiner 提取每页文本？

我尝试过使用 pypdf 和 pdfMiner 从 PDF 文件中提取文本我有一些不友好的 PDF 只有 pdfMiner 才能成功提取我正在使用代码here提取整个文件的文本但是我真的很想在每页的基础上提取文本例如pages i

python pdf pdfminer

从 PDF 文件中提取文本时，使用 Python 将 (cid:) 替换为字符

我用 Python 编写了一个从 PDF 文件中提取文本的代码但对于某些文件我得到一些奇怪的输出这是我的代码 import requests from io import BytesIO from pdfminer high leve

python pdf encoding pdfminer

Python PDFMIner - PDF 到 CSV

我希望能够将 PDF 转换为 CSV 文件并找到了几个有用的脚本但是作为 Python 新手我有一个问题在哪里指定要打印到的 PDF 和 CSV 的文件路径我正在使用 Python 2 7 11 和 PDFMiner 201403

python csv pdf pdfminer

我想用 python 抓取印地语（印度语言）pdf 文件

我已经编写了Python代码可以从PDF文件中抓取所有数据这里的问题是一旦被刮掉单词就失去了语法如何解决这些问题我附上代码 from pdfminer pdfinterp import PDFResourceManager PD

python pdf OCR pdfminer pdfscraping