如何使用 Python 识别 PDF 文件中的删除文本

2024-03-30

我想从 .pdf 文件中仅提取删除线文本。我已经尝试过下面的代码，它正在使用我拥有的示例 pdf 文件。但它不适用于另一个我认为是扫描文件的 pdf 文件。有没有任何标准方法可以使用 python 从 pdf 文件中仅提取删除文本？任何帮助将非常感激。

这是我正在使用的代码：

from pydoc import doc
from pdf2docx import parse
from typing import Tuple
from docx import Document

def convert_pdf2docx(input_file: str, output_file: str, pages: Tuple = None):
    """Converts pdf to docx"""
    if pages:
        pages = [int(i) for i in list(pages) if i.isnumeric()]
    result = parse(pdf_file=input_file,
                   docx_with_path=output_file, pages=pages)
    summary = {
        "File": input_file, "Pages": str(pages), "Output File": output_file
    }

if __name__ == "__main__":
    pdf_file = 'D:/AWS practice/sample_striken_out.pdf'
    doc_file = 'D:/AWS practice/sample_striken_out.docx'
    convert_pdf2docx(pdf_file, doc_file)
    document = Document(doc_file)
    with open('D:/AWS practice/sample_striken_out.txt', 'w') as f:
        for p in document.paragraphs:
            for run in p.runs:
                if not run.font.strike:
                    f.write(run.text)
                    print(run.text)
            f.write('\n')

Note：我首先将 PDF 转换为 DOCX，然后尝试识别删除文本。此代码正在使用示例文件。但它不适用于扫描的 pdf 文件。 pdf 到 doc 的转换正在进行，但删除线检测没有进行。

另一个pdf文件，我认为是扫描的。有没有任何标准方法可以使用 python 从 pdf 文件中仅提取删除文本？

您可以使用包括 Python 在内的任何语言，但由于与反编译非常复杂但愚蠢的编译页面语言文件相关的许多反转任务一样，它不是一项任务，而是许多通常基于单个字符。有关 PDF 提取的更好解决方案之一，请参阅使用 PDFBox 和 VB.NET 检测粗体、斜体和删除线文本 https://stackoverflow.com/questions/39962563/detect-bold-italic-and-strike-through-text-using-pdfbox-with-vb-net also Amazon Textract 识别 pdf 文件中的文本删除线 https://stackoverflow.com/questions/72452745/amazon-textract-to-identify-strike-through-text-from-pdf-file

一般来说，每种转换源和目标格式都有非常不同的方式来描述穿过文本放置的行。让我们看一下其中的一些。因此，PDF 中的删除线与文本无关，它可以有多种形式，具体取决于印刷作者。这里只是在纯文本之后添加了一个。

23 0 obj
<<
  /Type /Annot
  /Subtype /StrikeOut
  /C [ 1 0 0 ]
  /P 3 0 R
  /F 4
  /M (D:20220614085648Z)
  /T (K)
  /Rect [ 26.577025 361.84715 70.29766 393.2207 ]
  /AP <<
    /N 24 0 R
  >>
  /QuadPoints [ 28.32 391.47773 68.55469 391.47773 28.32 363.59013
      68.55469 363.59013 ]
  /Contents (AEI)
>>
endobj

24 0 obj
<<
  /Type /XObject
  /Subtype /Form
  /BBox [ 26.577025 361.84715 70.29766 393.2207 ]
  /Matrix [ 1 0 0 1 0 0 ]
  /Length 62
>>
stream
1 0 0 RG
1.7429752 w
28.32 375.54197 m
68.55469 375.54197 l
S

endstream
endobj

所以虽然在这种情况下它确认线路已经结束Contents (AEI)通常情况并非如此，因为它只是独立于文本的一行。唯一的联系是页面上某处定义为矩形的位置。因此，上面的 PDF 是此屏幕截图中左侧的红线，但是黑红蓝绿线与源 txt 文件生成的删除线不同，它们除了位置之外还通过颜色绑定（请注意，文本的间距与这些线但它们似乎是一条连续的线）。

在 docX 中常见文本（例如带下划线的 IOX）以不同方式“内嵌”分组。

<w:r>
<w:rPr>
<w:rFonts w:ascii="Verdana" w:hAnsi="Verdana" w:cs="Verdana" w:eastAsia="Verdana"/>
<w:strike w:val="true"/>
<w:color w:val="auto"/>
<w:spacing w:val="0"/>
<w:position w:val="0"/>
<w:sz w:val="50"/>
<w:u w:val="single"/>
<w:shd w:fill="auto" w:val="clear"/>
</w:rPr>
<w:t xml:space="preserve">I0X</w:t>
</w:r>

因此，单色文本首先按浮在其下的行进行分组，然后再分组为“stricken”。

由于这个原因和许多原因，程序不容易检测如何处理此类情况，每个库都会根据不同的输入采取不同的做法。然而，他们普遍同意的一件事是，基本的 PDF 转换器不太可能将一行像素中的像素转换为 OCR 删除线。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用 Python 识别 PDF 文件中的删除文本的相关文章

Python 3 os.urandom

在哪里可以找到完整的教程或文档os urandom 我需要获得一个随机 int 来从 80 个字符的字符串中选择一个字符如果你只需要一个随机整数你可以使用random randint a b 来自随机模块 http docs pytho
Twisted 的 Deferred 和 JavaScript 中的 Promise 一样吗？

我开始在一个需要异步编程的项目中使用 Twisted 并且文档非常好所以我的问题是 Twisted 中的 Deferred 与 Javascript 中的 Promise 相同吗如果不是有什么区别你的问题的答案是Yes and No
如何使用 Ghostscript DLL 将 PDF 转换为 PDF/A

如何使用 GhostScript DLL 将 PDF 转换为 PDF A 我知道我必须调用 gsdll32 dll 的导出函数其名称为 gsapi init with args 但如何传递正确的参数顺便说一句我正在使用 C 请尝试从命
用缺失的日期填充其他列 Nan Pandas DataFrame

我实际上是从几个 Excel 文件中提取数据来监控我的每日卡路里摄入量我设法使用列表理解来生成日期我尝试使用合并或连接但它不起作用 ValueError 您正在尝试合并对象和 float64 列 date list 2021 05 2
Python 中的流式传输管道

我正在尝试使用 Python 将 vmstat 的输出转换为 CSV 文件因此我使用类似的方法转换为 CSV 并将日期和时间添加为列 vmstat 5 python myscript py gt gt vmstat log 我遇到的问题是
如何在 Python 中加密并在 Java 中解密？

我正在尝试在 Python 程序中加密一些数据并将其保存然后在 Java 程序中解密该数据在Python中我像这样加密它 from Crypto Cipher import AES KEY 1234567890123456789012
Keras：如何保存模型或权重？

如果这个问题看起来很简单我很抱歉但是阅读 Keras 保存和恢复帮助页面 https www tensorflow org beta tutorials keras save and restore models https www t
Django send_mail SMTPSenderRefused 530 与 gmail

一段时间以来我一直在尝试使用 Django 从我正在开发的网站接收电子邮件现在我还没有部署它并且我正在使用Django开发服务器我不知道这是否会影响它这是我的 settings py 配置 EMAIL BACKEND djang
pytest：同一接口的不同实现的可重用测试

想象一下我已经实现了一个名为的实用程序可能是一个类 Bar在一个模块中foo 并为其编写了以下测试测试 foo py from foo import Bar as Implementation from pytest import ma
Geodjango距离查询未检索到正确的结果

我正在尝试根据地理位置的接近程度来检索一些帖子正如您在代码中看到的我正在使用 GeoDjango 并且代码在视图中执行问题是距离过滤器似乎被完全忽略了当我检查查询集上的距离时我得到了预期距离 1m 和 18km 但 18km 的帖
使用 Pandas 计算 delta 列

我有一个数据框如下所示 Name Variable Field A 2 3 412 A 2 9 861 A 3 5 1703 B 3 5 1731 A 4 0 2609 B 4 0 2539 A 4 6 2821 B 4 6 2779 A
使用 Keras np_utils.to_categorical 的问题

我正在尝试将整数的 one hot 向量数组制作为 keras 将能够使用的 one hot 向量数组来拟合我的模型这是代码的相关部分 Y train np hstack np asarray dataframe output vecto
Python：IndexError：修改代码后列表索引超出范围

我的代码应该提供以下格式的输出我尝试修改代码但我破坏了它 import pandas as pd from bs4 import BeautifulSoup as bs from selenium import webdriver im
Anaconda 无法导入 ssl 但 Python 可以

Anaconda 3 Jupyter笔记本无法导入ssl 但使用Atom终端导入ssl没有问题我尝试在 Jupyter 笔记本中导入 ssl 但出现以下错误 C ProgramData Anaconda3 lib ssl py in
SocketIO + Flask 检测断开连接

我在这里有一个不同的问题但意识到它可以简化为如何检测客户端何时从页面断开连接关闭其页面或单击链接换句话说套接字连接关闭我想制作一个带有更新用户列表的聊天应用程序并且我在 Python 上使用 Flask 当用户连接时浏览器发
动态过滤 pandas 数据框

我正在尝试使用三列的阈值来过滤 pandas 数据框 import pandas as pd df pd DataFrame A 6 2 10 5 3 B 2 5 3 2 6 C 5 2 1 8 2 df df loc df A gt 0
Elasticsearch 通过搜索返回拼音标记

我用语音分析插件 https www elastic co guide en elasticsearch plugins current analysis phonetic html由于语音转换从弹性搜索中进行一些字符串匹配我的问题是
Python SSL X509：KEY_VALUES_MISMATCH

Python HTTPS server from http server import HTTPServer SimpleHTTPRequestHandler import ssl https stackoverflow com a 408
如何与其他用户一起使用 pyenv？

如何与其他用户一起使用 pyenv 例如如果我在用户 test 的环境中安装了 pyenv 则当我以 test 身份登录时可以使用 pyenv 但是当我以其他用户例如 root 身份登录时如何使用 pyenv 即使你这么做了我也会s
双击打开 ipython 笔记本

相关文章通过双击 osx 打开 ipython 笔记本 https stackoverflow com questions 16158893 open an ipython notebook via double click on osx

随机推荐

使用 Azure 缓存（.NET MVC3 应用程序）时，为什么无法组合 [Authorize] 和 [OutputCache] 属性？

使用 Windows Azure 的Microsoft Web DistributedCache DistributedCacheOutputCacheProvider作为 MVC3 应用程序的 outputCache 提供程序下面是相关
如何在自定义 Telegram 机器人内部循环？

我们正在尝试制作一个电报价格机器人但遇到了一个可以使用第三方代码解决的问题但是我们无法将机器人设置为每 5 分钟或更长时间向我们发送更新的价格而不使用第三方解决方案安全原因如何在不使用其他第三方 Telegram 机器人的情况下
安卓谷歌地图。按地址添加标记

我在 Android 应用程序中添加了地图并想按地址在地图上添加标记有可能的我已经尝试过做长和拉Geocoder 但是我收到错误Service not Available my code Geocoder geocoder new G
JQuery 问题....焦点不起作用

这是我的 jquery 代码我想验证文本字段的数值如果无效则再次聚焦相同的文本字段并再次 price blur function if this val Pre o em USD isNaN this val alert Enter
如何在.NET中创建HTTP请求侦听器Windows服务

我想创建充当 HTTP 侦听器并可以处理大约 500 个客户端的 Windows 服务这种服务有什么特别的考虑吗我对 HTTPListener 类和 TCPListener 类有点困惑将哪一个用于 Windows 服务将接受客户端连
TextView 选框不起作用

我已经尝试了所有我能想到的方法来使这种字幕效果发挥作用这是我的 xml
在Python 3.x中继承Python的对象是否有必要或者有用？ [复制]

这个问题在这里已经有答案了在较旧的 Python 版本中当您创建类时它可以继承自object据我所知这是一个特殊的内置Python元素它允许你的类成为一个新样式的类新版本 gt 3 0 和 2 6 怎么样我用谷歌搜索了obje
Angular2 + webpack 不显示图像

我已遵循Angular2 webpack 教程 https angular io docs ts latest guide webpack html 但似乎该应用程序无法加载任何图像这是我的应用程序的目录结构 dist src asset
根据放大/缩小时的可见区域在框的表面显示文本

I have a sample 3D application built by taking reference from the Javafx sample 3DViewer which has a table created by la
RPostgreSQL - 将数据帧导入表中

我想将完整的数据帧导出到已在数据库 postgresql 中创建并包含类似数据的表中我发现一些关于 dbwrite 表的问题 overwrite TRUE 我不想覆盖表中已经存在的数据我只想使用 r 控制台中的数据框更新我的表有人可以
Angular 2 ngFor - 使用索引逆序输出

尝试学习一些有关 Angular 2 中的过滤和排序的知识我似乎找不到任何像样的资源并且我陷入了如何使用索引以相反的顺序排序 ngFor 输出的问题我写了下面的管道它一直给我错误数组切片不是函数 Pipe name reverse
无尽重复滚动背景

我遇到了 AS3 和 AIR 的问题我正在为带有飞机的智能手机开发一款横向卷轴游戏我使用不同的背景作为图层首先我使用 GPU 并且仅使用位图质量设置为低因此性能设置均适合智能手机使用我使用绘图 API 将它们放入一个矩形中
如何针对 gtk 3 库运行 javaFx 应用程序？

如何强制 javaFx 应用程序使用 gtk3 库我知道SWT允许设置SWT GTK3 1用于此目的的环境变量 javaFx 是否有类似的可能性解决方法新功能 8087516 对 Linux 上的 GTK 3 有条件支持 https
使用 HTML 和 CSS 的复选框仅适用于 Outlook Web（不适用于桌面应用程序）

在 Outlook Windows 桌面应用程序中不支持复选框因为它使用 MS Word 作为其渲染引擎但是在网络应用程序中复选框可以工作并且我可以通过电子邮件发送网站吗 https www caniemail com searc
Node.js：如何限制HTTP请求大小和上传文件大小？

我正在使用 Node js 和 Express 我想限制 HTTP 请求的大小比方说如果有人向我发送超过 2 MB 的 HTTP 请求那么我会立即停止该请求我看了代码我想如果我改变核心我可以做到但是有没有办法设置max re
如何在 Silverlight BackgroundWorker 中运行批量 WCF 服务调用

是否有任何现有的管道可以在 a 中批量运行 WCF 调用后台工作者 http msdn microsoft com en us library system componentmodel backgroundworker VS 95 asp
哪个 Cassandra 分区器更好：Random 或 Murmur3（就吞吐量而言），它们之间有什么区别？

分区器的选择会给我的 Cassandra 吞吐量和延迟带来什么差异我已经检查了所有三个分区我注意到的一件事是ByteOrdered分区器有开销所以我不使用它现在我有点分裂Random and Murmur3分区器两者之间的主要区别
我的 iOS 程序将自己宣传为什么 HTTP 用户代理？

我为我的播客编写了一个应用程序御宅族的播客 http otakunopodcast com 在应用程序的各个部分我使用NSURLConnection 获取 RSS 源 UIWebView 显示网站内容 AVPlayer 从我们的 CDN
包含图像的 div 底部的空间[重复]

这个问题在这里已经有答案了对于这个小提琴为什么底部有一个空格div imageDiv JSFiddle http jsfiddle net 7Knyx 1 div div div img src http upload wikimedi
如何使用 Python 识别 PDF 文件中的删除文本

我想从 pdf 文件中仅提取删除线文本我已经尝试过下面的代码它正在使用我拥有的示例 pdf 文件但它不适用于另一个我认为是扫描文件的 pdf 文件有没有任何标准方法可以使用 python 从 pdf 文件中仅提取删除文本任何帮助将

如何使用 Python 识别 PDF 文件中的删除文本

如何使用 Python 识别 PDF 文件中的删除文本 的相关文章

随机推荐

热门标签

如何使用 Python 识别 PDF 文件中的删除文本的相关文章