将 pdf 图像转换为 jpg 图像的最快方法是什么？ [关闭]

2024-04-30

我正在尝试将多个 pdf（10k +）转换为 jpg 图像并从中提取文本。我目前正在使用pdf2imagepython 库，但它相当慢，有没有比这更快/最快的库？

from pdf2image import convert_from_bytes
images = convert_from_bytes(open(path,"rb").read())

注意：我使用的是ubuntu 18.04
CPU：4核8线程（锐龙3 3100）
内存：8GB

pyvips https://pypi.org/project/pyvips/比 pdf2image 快一点。我做了一个小基准：

#!/usr/bin/python3

import sys
from pdf2image import convert_from_bytes

images = convert_from_bytes(open(sys.argv[1], "rb").read())
for i in range(len(images)):
    images[i].save(f"page-{i}.jpg")

With 这个测试文档 http://www.rollthepotato.net/%7Ejohn/nipguide.pdf I see:

$ /usr/bin/time -f %M:%e ./pdf.py nipguide.pdf 
1991624:4.80

2GB 内存和 4.8 秒的运行时间。

你可以在 pyvips 中将其写为：

#!/usr/bin/python3

import sys
import pyvips

image = pyvips.Image.new_from_file(sys.argv[1])
for i in range(image.get('n-pages')):
    image = pyvips.Image.new_from_file(filename, page=i)
    image.write_to_file(f"page-{i}.jpg")

I see:

$ /usr/bin/time -f %M:%e ./vpdf.py nipguide.pdf[dpi=200]
676436:2.57

670MB 内存和 2.6 秒运行时间。

它们都在幕后使用 poppler，但 pyvips 直接调用库而不是使用进程和临时文件，并且可以重叠加载和保存。

您可以将 pyvips 配置为使用 pdfium 而不是 poppler，尽管这需要更多工作，因为许多发行版仍未打包 pdfium。对于某些 PDF，pdfium 可能比 poppler 快 3 倍。

您可以使用多重处理来进一步提高速度。这对于 pyvips 来说效果更好，因为内存使用量较低，而且它不使用巨大的临时文件。

如果我修改 pyvips 代码以仅呈现单个页面，我可以使用gnu并行 https://www.gnu.org/software/parallel/在单独的进程中渲染每个页面：

$ time parallel ../vpdf.py us-public-health-and-welfare-code.pdf[dpi=150] ::: {1..100}
real    0m1.846s
user    0m38.200s
sys 0m6.371s

150dpi 下的 100 页只需 1.8 秒。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

ImageMagick

Ghostscript

textextraction

pdf2image

将 pdf 图像转换为 jpg 图像的最快方法是什么？ [关闭] 的相关文章

阻止 TensorFlow 访问 GPU？ [复制]

这个问题在这里已经有答案了有没有一种方法可以纯粹在CPU上运行TensorFlow 我机器上的所有内存都被运行 TensorFlow 的单独进程占用我尝试将 per process memory fraction 设置为 0 但未成功
检测到通过 ChromeDriver 启动的 Chrome 浏览器

我正在尝试在 python 中使用 selenium chromedriver 来访问 www mouser co uk 网站然而从第一次拍摄开始它就被检测为机器人有人对此有解释吗此后我使用的代码 options Options
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
Python 是解释型的还是编译型的，或者两者兼而有之？

据我了解 An 解释的语言是由解释器将高级语言转换为机器代码然后执行的程序实时运行和执行的高级语言它一次处理一点程序 A compiled语言是一种高级语言其代码首先由编译器将高级语言转换为机器代码的程序转换为机器代码然后由执
使用 NLTK 在 Python 中获取大量名词（或形容词）；或 Python Mad Libs

Like 这个问题 https stackoverflow com questions 7439555 noun adjective etc word lists or dictionaries common words 我有兴趣按词性获取
ImportError：运行 jupyter Notebook 时没有名为 IPython.paths 的模块？

我通过以下方式安装了 jupyter usr local opt python bin python2 7 m pip install jupyter 这将安装 ipython 版本 4 1 2 但是当我运行 jupyter Notebo
CNTK 抱怨 LSTM 中的动态轴

我正在尝试在 CNTK 中实现 LSTM 使用 Python 来对序列进行分类 Input 特征是固定长度的数字序列时间序列标签是 one hot 值的向量 Network input input variable input dim
揭秘sharedctypes性能

在 python 中可以在多个进程之间共享 ctypes 对象然而我注意到分配这些对象似乎非常昂贵考虑以下代码 from multiprocessing import sharedctypes as sct import ctypes
如何在Python中按AaB而不是ABa顺序对字符串进行排序

我正在尝试对字符串进行排序为 punnetsquare 制作基因型我目前的实现是 unsorted genotype ABaB sorted genotype sorted list unsorted genotype sorted s
Python Django-如何从输入文件标签读取文件？

我不想将文件保存在我的服务器上我只想在下一页中读取并打印该文件现在我有这个 index html
如何在 Azure 数据工厂 - Databricks 中使用 continuation_token 获取 ADF Pipeline 运行详细信息的下一页？

我在用 adf client pipeline runs query by factory resourceGroupName 工厂名称过滤器参数的方法azure mgmt datafactory DataFactoryManageme
GradientTape 根据损失函数是否被 tf.function 修饰给出不同的梯度

我发现计算的梯度取决于 tf function 装饰器的相互作用如下所示首先我为二元分类创建一些合成数据 tf random set seed 42 np random seed 42 x tf random normal 2 1 y
Python：我不明白 sum() 的完整用法

当然我明白你使用 sum 与几个数字然后它总结所有但我正在查看它的文档我发现了这一点 sum iterable start 第二个参数 start 的作用是什么这太尴尬了但我似乎无法通过谷歌找到任何示例并且对于尝试学习该语言的
使用 pybtex 将 bibtex 转换为格式化的 HTML 参考书目，例如哈佛风格

我正在使用 Django 并将 bibtex 存储在我的模型中并且希望能够以格式化 HTML 字符串的形式向我的视图传递引用使其看起来像哈佛引用样式使用中描述的方法Pybtex 无法识别 bibtex 条目 https stackov
使用 NLP 进行地址分割

我目前正在开发一个项目该项目应识别地址的每个部分例如来自 str Jack London 121 Corvallis ARAD ap 1603 973130 输出应如下所示 street name Jack London no 121
从 python 检测 macOS 中的暗模式

我正在编写一个 PyQt 应用程序我必须添加一个补丁以便在启用暗模式的 Macos 上可以读取字体 app QApplication Fix for the font colours on macos when running dark
附加两个具有相同列、不同顺序的数据框

我有两个熊猫数据框 noclickDF DataFrame 0 123 321 0 1543 432 columns click id location clickDF DataFrame 1 123 421 1 1543 436 colu
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
使用 Python 将对象列表转为 JSON

我在转换时遇到问题Object实例到 JSON ob Object list name scaping myObj base url u number page for ob in list name json string json du

随机推荐

Datatables.net 与 ReactJS，在列中渲染 ReactJS 组件

我有以下带有数据表的组件 import React Component from react import Link from react router import PanelContainer Panel PanelBody Grid
隐式参数解析——设置优先级

我正在尝试创建一个类型类Default为给定类型提供默认值这是我到目前为止所想到的 trait Default A def value A object Default def withValue A a A new Default A
按应用于 Pandas 中同一列的条件进行计数

这是我的数据框 acc index veh count veh type 001 1 1 002 2 1 002 2 2 003 2 1 003 2 2 004 1 1 005 2 1 005 2 3 006 1 2 007 2 1 007
Tensorflow：使用 Adam 优化器

我正在张量流中试验一些简单的模型包括一个看起来与第一个非常相似的模型面向 ML 初学者的 MNIST 示例 http www tensorflow org tutorials mnist beginners index md 但维数稍大一
有没有办法根据分组值一次生成多个 x-y 散点图，并按第三个变量排序？

我有多级数据组级别是个人由id指定变量索引表示不同的时间点有没有办法为每个人制作单独的散点图 x 与 y 全部显示在同一输出中并根据第三个变量 z 排序如果是这样可以添加颜色来指示第三个变量 z 的程度吗数据如下谢谢 gt
如何在blob存储中创建文件夹

我有一个文件例如Parent zip解压后它将产生以下文件 child1 jpg child2 txt child3 pdf 跑步时Parent zip通过下面的函数文件被正确解压到 some container child1 jpg
错误：无法找到“async”修饰符所需的所有类型。您是否定位了错误的框架版本，或者缺少对程序集的引用？

我的电脑配置如下视窗8 视觉工作室2012 NET框架4 5 我的项目配置是 WP 7 1 银光4 0 NET框架4 0 CTP ASYNC 已安装使用 async 和await 关键字该项目是在Windows 7机器上使用VS201
根据函数 R 中的 dot dot 获取变量参数的名称（解析）

我正在创建一个基于一些虚拟变量的自动绘图仪我这样设置 plotter lt function 将绘制我喂它的所有假人但是我希望它能够向绘图添加标签即变量名称我确实知道 deparse substitute variablename
如何编写返回 Validation 的函数？

这是我之前的后续question https stackoverflow com questions 30527740 composing validating functions in scala 假设我有两个验证函数如果输入有效则返回
消息传递功能创建 Sql 查询和数据库视图

鉴于以下情况我需要能够获取给定用户参与的所有线程的列表首先按最新消息排序仅显示最新消息每个线程 1 条消息这是上面的 SQL 查询 SELECT Message MessageId Message CreateDate Messa
Jena tdb 中的事务发生错误？

我正在尝试将属性写入模型然后查询它我的代码的这一部分 String directory EMAILADDRESS create the dataset for the tdb store Dataset ds TDBFactory cr
从补丁文件中删除对特定文件的更改

我有一个更改了许多文件的补丁文件它意外地包含了对某些不应该更改的文件的更改我可以手动从补丁中删除所有提及这些文件的内容以生成正确的补丁文件但这是一个繁琐的过程如何以编程方式标准 nix 工具从补丁中删除所有提及文件的内容注意
对于缺少基线点的重复 ID，从基线进行更改

对于缺少基线点的重复 ID 从基线进行更改类似的问题已被提出并回答如下重复 id 相对于基线的变化 https stackoverflow com questions 31619437 change from baseline for
如何在会话自动加载的同时在 vim 中打开文件？

我在 vimrc 中有以下代码可以在 vim 启动时自动保存加载会话 Session saving Automatically save rewrite the session when leaving Vim augroup leav
如何在Java中读取文件的最后“n”个字节

如何在不使用 RandomAccessFile 的情况下从文件中读取最后 n 个字节我的文件中的最后 6 个字节包含写回文件时的重要信息我需要写入原始文件然后将最后 6 个字节附加到其他地方有什么指导吗谢谢你必须使用随机存取文件
如何防止`ssconvert`在转换之前重新计算Excel文件？

我正在尝试转换 xlsx 文件http www eia gov forecasts steo archives mar14 base xlsx http www eia gov forecasts steo archives mar14 b
匹配所有 utf-8/unicode 小写字母形式的正确正则表达式是什么

我想匹配all拉丁语块中的小写字母形式简单的 a z 仅匹配 U 0061 和 U 007A 之间的字符而不匹配所有其他小写形式我想匹配所有小写字母最重要的是 EFIGS 语言中使用的拉丁语块中的所有带重音的小写字母 a z 是一个
Ruby 有 mkdir -p 吗？ [复制]

这个问题在这里已经有答案了可能的重复如何在 ruby 中递归创建目录 https stackoverflow com questions 3686032 how to create directories recursively in
如何跟踪用户在网站上的使用情况？

我正在使用 PHP MYSQL 每次用户登录时我们都会插入他们登录的时间和登录日期虽然我们很容易知道特定一天有多少用户登录但我不确定如何计算他们在网站上花费的时间例如就像用户登录并将记录插入到 login tracking 表中一
将 pdf 图像转换为 jpg 图像的最快方法是什么？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我正在尝试将多个 pdf 10k 转换为 jpg 图像并从中提取文本我目前正在使用pdf2imagepython 库但它相当慢有没有比这更

将 pdf 图像转换为 jpg 图像的最快方法是什么？ [关闭]

将 pdf 图像转换为 jpg 图像的最快方法是什么？ [关闭] 的相关文章

随机推荐

热门标签