Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何根据字体计算字符数?
对于给定 PDF 文件中的每个页面 可以列出所使用的字体 pdffonts f 10 l 10 file pdf name type encoding emb sub uni object ID none Type 3 Custom yes
python
pdf
pdfminer
当我的脚本导入模块 pikepdf 和 pdfminer3 时,如何修复 pyinstaller“无名为...”的错误?
我使用 PikePDF 和 PDFminer3 构建了一个有效的 py 脚本 它将从我的桌面上获取 PDF 并根据可用的单词创建一个 txt 文件 这样做的目的是帮助我的工作团队修改通常无法复制粘贴修改 因此必须手写 的法律文件 由于我的大
python
EXE
pyinstaller
pdfminer
pikepdf
在Python中从pdf中提取印地语编写的文本[重复]
这个问题在这里已经有答案了 我想从 pdf 文档中提取印地文输入的文本 我已附上示例页面的图像 https i stack imgur com UkT86 jpg我正在处理 我尝试使用 pdfminer 从中获取文本 但文本是乱码 可能是由
python
pdf
OCR
hindi
pdfminer
在python中将pdf转换为docx格式
请问如何将pdf转换为docx 我尝试使用 pdfminer 转换为 html 来提取文本 但看起来仍然不够好 pdf2docx 安装pdf2docx包点击here https github com dothinking pdf2docx
pdf
docx
pythondocx
pdfminer
使用pdfminer从pdf中提取文本给出多个副本
我正在尝试使用 PDFMiner 从 PDF 文件中提取文本 代码位于在Python中使用PDFMiner从PDF文件中提取文本 https stackoverflow com questions 26494211 extracting t
python
pdf
pdfminer
struct.error:解包需要长度为 16 的字符串参数
处理 PDF 时文件 2 pdf https yadi sk i 2vABlTaexZerg使用 pdfminer pdf2txt py 我收到以下错误 pdf2txt py 2 pdf Traceback most recent call
python
pdf
pdftotext
pdfminer
pdfparsing
尝试使用 pdfminer.6 提取文本时如何修复“UnicodeDecodeError”?
使用 pdfminer 时出现 UnicodeEncodeError 来自 git 的最新版本 https github com pdfminer pdfminer six commit d79612c455a5de0526d5bc3244
python
pdf
pythonunicode
pdfminer
无论如何,多线程pdf挖掘?
我有一个代码正在一堆 pdf 中寻找特定的字符串序列 问题是这个过程极其缓慢 有时我会得到超过 50000 页的 pdf 有没有办法实现多线程 不幸的是 尽管我进行了搜索 但我对线程代码还是一无所知 import os import shu
python
pdf
Runtime
pdfminer
slate
python pdfplumber 将 pdf 转换为 jpg 时出错 FailedToExecuteCommand `"gswin64c.exe"
我正在尝试使用 python 中的 pdfplumber 将 pdf 转换为图像 IDE JUPYTER 我尝试过以下代码 with pdfplumber open path to pdf as pdf first page pdf pag
python3x
pdfminer
pdftotext
tabula
从 pdf 中提取表格
我正在尝试从这个表中获取数据PDF https www dropbox com s y3nivxhjvvzva7d test1 pdf dl 0 我尝试过 pdfminer 和 pypdf 运气不错 但我无法真正从表中获取数据 This i
python
python27
OCR
pdfminer
pdfparsing
如何在Python中使用pdfminer从在线PDF中提取文本
我想使用 pdfminer 使用下面的代码从在线 PDF 中提取文本 它没有显示错误 但输出什么也没有 from pdfminer pdfpage import PDFPage from urllib import request from
python
webscraping
pdfminer
将 pdf 转换为 txt 文件的函数的输出重定向到 python 中的新文件夹
我正在使用 python 3 我的代码使用 pdfminer 将 pdf 转换为文本 我想在新文件夹中获取这些文件的输出 目前它位于现有文件夹中 使用 pdfminer 从该文件夹转换为 txt 如何将输出重定向到不同的文件夹 我希望输出位
python
fileio
output
filehandling
pdfminer
使用 Python 抓取 PDF 文本 (pdfquery)
我需要抓取一些 PDF 文件来提取以下文本信息 我尝试使用 pdfquery 来完成此操作 方法是解决我在 Reddit 上找到的示例 请参阅第一篇文章 https www reddit com r Python comments 4bnj
python
pdf
pdfminer
从pdf中提取已知bbox中的文本,PDFQuery太慢
我在 lxml 文件中找到了 bbox 坐标 并设法使用 PDFQuery 提取了所需的数据 然后我将数据写入 csv 文件 def pdf scrape pdf Extract each relevant information indi
python
pdf
pdfminer
pymupdf
如何在Python中检测PDF文档中的旋转页面?
给定一个多页 PDF 文档 如何检查给定页面是否旋转 90 90 或 180 最好使用 Python pdfminer pyPDF 更新 页面是扫描的 大部分页面都是由文本组成的 我简单地用过 Rotate页面的属性在PyPDF2 pdf
python
pdf
imageprocessing
pypdf
pdfminer
PDFMiner 无法提取字体
我正在使用 PDFMiner 将一些 pdf 报告转换为纯文本 并且我的一堆输入 pdf 只是输出了几行可识别的行 然后是一个 cid d 列表 有点像这样 检查报告 用户ID 4 用户ID 5 用户ID 6 用户ID 7 用户ID 8 用
python
pdf
fonts
pdfminer
使用 Python pdfMiner 提取每页文本?
我尝试过使用 pypdf 和 pdfMiner 从 PDF 文件中提取文本 我有一些不友好的 PDF 只有 pdfMiner 才能成功提取 我正在使用代码here提取整个文件的文本 但是 我真的很想在每页的基础上提取文本 例如pages i
python
pdf
pdfminer
从 PDF 文件中提取文本时,使用 Python 将 (cid:
) 替换为字符
我用 Python 编写了一个从 PDF 文件中提取文本的代码 但对于某些文件 我得到一些奇怪的输出 这是我的代码 import requests from io import BytesIO from pdfminer high leve
python
pdf
encoding
pdfminer
Python PDFMIner - PDF 到 CSV
我希望能够将 PDF 转换为 CSV 文件 并找到了几个有用的脚本 但是作为 Python 新手 我有一个问题 在哪里指定要打印到的 PDF 和 CSV 的文件路径 我正在使用 Python 2 7 11 和 PDFMiner 201403
python
csv
pdf
pdfminer
我想用 python 抓取印地语(印度语言)pdf 文件
我已经编写了Python代码 可以从PDF文件中抓取所有数据 这里的问题是 一旦被刮掉 单词就失去了语法 如何解决这些问题 我附上代码 from pdfminer pdfinterp import PDFResourceManager PD
python
pdf
OCR
pdfminer
pdfscraping
1
2
»