Python、pyPdf、Adobe PDF OCR 错误：不支持的过滤器 /lzwdecode

2024-01-07

我的东西：python 2.6 64 位（安装了 pyPdf-1.13.win32.exe）。翼IDE。 Windows 7 64 位。

我收到以下错误：

NotImplementedError：不支持的过滤器/LZWDecode

当我运行以下代码时：

from pyPdf import PdfFileWriter, PdfFileReader
import sys, os, pyPdf, re

path = 'C:\\Users\\Homer\\Documents\\' # This is where I put my pdfs

filelist = os.listdir(path)

has_text_list = []
does_not_have_text_list = []

for pdf_name in filelist:
    pdf_file_with_directory = os.path.join(path, pdf_name)
    pdf = pyPdf.PdfFileReader(open(pdf_file_with_directory, 'rb'))

    for i in range(0, pdf.getNumPages()):
        content = pdf.getPage(i).extractText() #this is the line what done it
        does_it_have_text = re.findall(r'\w{2,}', content) 
        if does_it_have_text == []:
            does_not_have_text_list.append(pdf_name)
            print pdf_name
        else:
            has_text_list.append(pdf_name)

print does_not_have_text_list

这里有一些背景知识。该路径充满了 pdf 文件。有些是使用 Adobe pdf 打印机从文本文档保存的（至少我认为他们就是这样做的）。有些被扫描为图像。我想将它们分开并 OCR 图像（非图像是完美的，不应该弄乱）。

几天前我在这里问过如何做到这一点：

PDF 批量 OCR 程序 https://stackoverflow.com/questions/6026287/batch-ocr-program-for-pdfs

我得到的唯一答案是VB，而且我只会说Python。所以我想我会尝试写一个我自己问题的答案。我的策略（反映在上面的代码中）是这样的。如果它只是一个图像，那么该正则表达式将返回一个空列表。如果它有文本，则正则表达式（表示任何具有 2 个或更多字母数字字符的单词）将返回一个列表，其中填充了诸如 u'word' 之类的内容（在 python 中，我认为这是一个 unicode 字符串）。

所以代码应该可以工作，我们可以采取第一步使用开源软件完成另一个线程（将 ocrd 与图像 pdf 分开），但我不知道如何处理这个过滤器错误，谷歌搜索也不是有帮助。所以如果有人知道的话，将会很有帮助。

我真的不知道如何使用这个东西。我不确定 pyPdf 中的过滤器意味着什么。我认为它说的是它不能真正阅读pdf之类的东西，即使它是ocrd。有趣的是，我将其中一个非 ocrd 和一个 ocrd pdf 放在与 python 文件相同的文件夹中，这仅适用于没有 for 循环的版本，所以我不知道为什么要使用创建的 for 循环来执行它们过滤器错误。我将在下面发布单个代码。谢谢。

from pyPdf import PdfFileWriter, PdfFileReader
import sys, os, pyPdf, re

pdf = pyPdf.PdfFileReader(open(my_ocrd_file.pdf', 'rb'))

has_text_list = []
does_not_have_text_list = []

for i in range(0, pdf.getNumPages()):
    content = pdf.getPage(i).extractText()
    does_it_have_text = re.findall(r'\w{2,}', content)
      print does_it_have_text

它会打印一些东西，所以我不知道为什么我在一个上出现过滤器错误，而在另一个上却没有。当我针对目录中的另一个文件（不是 ocrd 的文件）运行此代码时，输出在一行上是一个空字符串，在下一行上是一个空字符串，如下所示：

[]
[]

所以我也不认为这是非 ocrd pdf 的过滤器问题。这超出了我的能力范围，我需要一些帮助。

Edit:

谷歌搜索发现了这个，但我不知道该怎么理解：

http://vaitls.com/treas/pdf/pyPdf/filters.py http://vaitls.com/treas/pdf/pyPdf/filters.py

将 pyPdf 的 filter.py 替换为http://vaitls.com/treas/pdf/pyPdf/filters.py http://vaitls.com/treas/pdf/pyPdf/filters.py在你的 pyPdf 源文件夹中。这对我有用。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Python、pyPdf、Adobe PDF OCR 错误：不支持的过滤器 /lzwdecode 的相关文章

如果 Excel 文件是由程序创建的，Pandas read_excel 对于具有简单公式的单元格返回 nan [重复]

这个问题在这里已经有答案了 I use pd read excel读取由以下命令创建的 excel 文件openpyxl并从一个网址下载解析后的数据框将给出nan如果单元格值是公式 which formula is simply 100
Flask 中“缺少 CSRF 令牌”，但它在模板中呈现

问题当我尝试登录使用 Flask login 时我得到Bad Request The CSRF session token is missing但令牌正在呈现在模板中 secret key 已设置并且我在本地运行localhost
如何计算数据框中按另一列的列值分组的一列的连续字符串值？

我有以下数据框 Levels Labels Confidence 0 Hands 0 8 0 Leg 0 7 0 Eye 0 9 1 Ear 0 9 1 Eye 0 8 2 Hands 0 9 2 Eye 0 8 3 Eye 0 8 我想检
雅虎财务请求功能出现 404 客户端错误

yahoo Financials的请求功能出现404 Client Error 直接点击以下网址没有问题 https finance yahoo com quote AAPL financials p AAPL https finance
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
App Engine NDB：如何访问属性的 verbose_name

假设我有这个代码 class A ndb Model prop ndb StringProperty verbose name Something m A m prop a string value 当然现在如果我打印 m prop 它会
在linux上安装python ssl模块，无需重新编译

是否可以在已经安装了 OpenSSL 的 Linux 机器上安装 python 的 SSL 模块而无需重新编译 python 我希望它就像复制几个文件并将它们包含在库路径中一样简单 Python版本是2 4 3 谢谢是否可以在已经安装了
用 Python 绘制直方图

我有两个列表 x 和 y x 包含字母表 A Z Y 包含它们在文件中的频率我尝试研究如何在直方图中绘制这些值但在理解如何绘制它方面没有成功 n bins patches plt hist x 26 normed 1 facecolor
如何从hdfs读取文件[重复]

这个问题在这里已经有答案了我在 project1目录下的hadoop文件系统中有一个文本文件名mr txt 我需要编写 python 代码来读取文本文件的第一行而不将 mr txt 文件下载到本地但我无法从 hdfs 打开 mr tx
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
如何用正则表达式替换多个匹配/组？

通常我们会编写以下内容来替换一场比赛 namesRegex re compile r is life re I replaced namesRegex sub r butter There is no life in the void pr
更改 Matplotlib 投影轴的背景颜色

我正在尝试使用 Cartopy 创建一个图形该图形需要在未投影的轴上绘制投影轴这是一个尽可能简单的代码版本它将轴上的内容替换为背景颜色 import matplotlib pyplot as plt import cartopy cr
Python 属性和 Swig

我正在尝试使用 swig 为一些 C 代码创建 python 绑定我似乎遇到了一个问题试图从我拥有的一些访问器函数创建 python 属性方法如下 class Player public void entity Entity enti
Python：在字典中查找具有唯一值的键？

我收到一个字典作为输入并且想要返回一个键列表其中字典值在该字典的范围内是唯一的我将用一个例子来澄清假设我的输入是字典 a 构造如下 a dict a cat 1 a fish 1 a dog 2 lt unique a bat 3
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
如何创建用于霍夫曼编码和解码的树？

对于我的作业我将对霍夫曼树进行编码和解码我在创建树时遇到问题并且陷入困境不要介意打印语句它们只是让我测试并查看函数运行时的输出是什么对于第一个 for 循环我从主块中用于测试的文本文件中获取了所有值和索引在第二个 for 循
使用 MPI 的 Allreduce 对 Python 对象求和

我正在使用使用 Python 中的字典和计数器构建的稀疏张量数组操作我想让并行使用这个数组操作成为可能最重要的是我最终在每个节点上都有计数器我想使用 MPI Allreduce 或另一个不错的解决方案将其添加在一起例如使用计数
MoviePY 无法在 Windows 上检测 ImageMagick 二进制文件

我刚买了一台新笔记本电脑想要设置MoviePY在那新的Windows 64x Python3 7 0 机器我对所有内容都进行了三次检查但是当涉及到我的代码的文本部分时它向我抛出了这个错误 OSError MoviePy Error

随机推荐

克朗表达式

我该如何编写一个 Cron 表达式来每天上午 8 点和下午 3 30 触发我了解如何创建每天触发一次的表达式而不是在多个设定时间触发提前致谢你应该只使用两行 0 8 command 30 15 command 当然在典型的 etc
有人成功使用 Amazon OpsWorks 部署节点（快速）应用程序吗？

正如标题所示我一直在尝试使用 Amazon 新的 OpsWorks 管理系统部署应用程序但是我无法弄清楚如何让节点服务器开始在实例上运行应用程序层也可以从端口进行访问我假设我需要侦听端口 80 但是我觉得问题在于没有启动正确的文件
在 C# 中，System.Collections.Generic.IEnumerable`1 中 IEnumerable 之后的 1 是什么意思

是什么意思1在 IEnumerable 之后 System Collections Generic IEnumerable 1 它是类型的泛型数量或者换句话说泛型类型支持的类型参数的数量 IEnumerable
Process.Dispose() 实际上做了什么？

In C class Process继承自class Component实现IDisposable所以我可以打电话Dispose on any Process目的我真的必须这样做吗我怎么知道我是否真的需要这样做假设我有以下代码 var
带 WindowListener 的 JDialog - windowClosing 未触发

我有一个扩展 JDialog 的类它有一个窗口侦听器 class MyClass extends JDialog public MyClass setDefaultCloseOperation JDialog DO NOTHING ON
无法在 jQuery Mobile 中以编程方式打开面板或弹出窗口

我正在构建我的第一个 JQM 网站所以我认为我错过了一些简单的小事情这给我带来了很多问题我已经设置了页面页眉内容和页脚以及菜单面板然后我有一个 js 文件其中包含以下内容 document on pageinit functi
检测 IOS 10（Swift 3、Xcode 8）中的 GSM 呼叫状态和后台状态通知

TLDR 从后台检测通话结束事件请参阅以下问题的更新是否可以使用 Swift 检测获取 IOS 10 中的呼叫状态事件背景状态在早期版本中有一个核心电话 https developer apple com reference core
强制 graphviz 保留节点位置

我有一个随时间变化的图表通常会添加新节点我需要多次重新生成图表并希望所有节点都保留在原来的位置当使用 graphviz 时这部分有效fdp 算法设置pin flag 并指定位置pos 争论在大多数情况下这非常有效但特别是当
Flutter - 'initialValue == null ||控制器== null'：不是真的。错误

我正在尝试为文本字段设置初始值但我无法在文本表单字段中设置初始值我收到这个错误 initialValue null controller null is not true code Widget buildFirstName Build
Paypal C# REST API 要求未记录的配置部分

我正在努力破解伦敦战斗哈克 http battlehack org london 我遇到了一个恼人的问题用于 c 的 PayPal SDK 似乎工作不太正常我正在尝试进行我的第一笔交易这是我的代码我将其放在一起修复损坏的在线文档 h
使用 EditorTemplate 将字节显示为复选框？

我的模型类 public class StatusList public int StatusID get set UIHint ByteCheckbox public byte Active get set 在 Views Shared
Gboard：在 EditText 上启用 GIF 插入

我正在使用Gboard来自我的应用程序中的 Google 当我输入GIF从键盘应用程序到我的EditText然后它会显示一个吐司文本字段不支持从键盘插入 GIF 我已经搜索了一千遍却找不到结果任何帮助将不胜感激图像键盘支持 User
TortoiseSVN命令保持打开的进程

我正在使用计划任务来运行更新我的 SVN 存储库的 bat 脚本计划任务每小时运行一次每次我运行脚本时它仍然会创建一个新进程 TortoiseProc exe 直到有很多打开的进程并且 CPU 处于 99 为止脚本运行良好但是不
错误：目录“.”无法安装。找不到“setup.py”和“pyproject.toml”

我正在尝试运行下面的文件https colab research google com github tensorflow models blob master research object detection colab tutoria
我可以在 finish() 上传递额外的 Intent 吗？

我想知道是否可以将信息发送到调用 finish 后返回的活动例如我有一个活动SendMessageActivity class它允许用户向他们的提要发布消息将消息保存到服务器后我调用finish 我应该开始我的MainActivi
使矩形透明

我需要使鼠标绘制的矩形透明以便看到桌面下面的代码绘制了我的矩形我应该添加什么才能得到这个感谢帮助 public void start Stage primaryStage Group group new Group Rectangl
没有 iframe 的 IE 8 和 9 中的跨域 cookie？

假设我控制两个域 www api domain com and www website domain com www api domain com提供一个 API 要求用户进行身份验证然后使用会话 cookie 来识别发出请求的用户 ww
`SET ANSI_NULLS OFF` 的作用是什么？

什么是SET ANSI NULLS OFF do 来自 MSDN http msdn microsoft com en us library aa259229 SQL 80 aspx SQL 92 标准要求对空值进行等于或不等于比较时计
如果单元格超出范围（范围 = 行中最左边的值 + 接下来 11 列），则求和列 R 或 Excel？

请看图片在图中的矩阵中从最左边的值接下来的 11 列总共 12 个月开始条目被视为新业务我用黄色突出显示了这个窗口该窗口右侧的任何内容都是退货业务对于每一列月我需要计算新业务和退货业务我需要一个公式或某种方法来
Python、pyPdf、Adobe PDF OCR 错误：不支持的过滤器 /lzwdecode

我的东西 python 2 6 64 位安装了 pyPdf 1 13 win32 exe 翼IDE Windows 7 64 位我收到以下错误 NotImplementedError 不支持的过滤器 LZWDecode 当我运行以下代码

Python、pyPdf、Adobe PDF OCR 错误：不支持的过滤器 /lzwdecode

Python、pyPdf、Adobe PDF OCR 错误：不支持的过滤器 /lzwdecode 的相关文章

随机推荐

热门标签