从 pdf 中提取表格

2024-01-07

我正在尝试从这个表中获取数据PDF https://www.dropbox.com/s/y3nivxhjvvzva7d/test1.pdf?dl=0。我尝试过 pdfminer 和 pypdf，运气不错，但我无法真正从表中获取数据。

This is what one of the tables looks like: enter image description here

如您所见，某些列标有“x”。我正在尝试将此表放入对象列表中。

这是到目前为止的代码，我现在正在使用 pdfminer。

# pdfminer test
from pdfminer.pdfdocument import PDFDocument
from pdfminer.pdfparser import PDFParser
from pdfminer.pdfinterp import PDFResourceManager, PDFPageInterpreter
from pdfminer.pdfdevice import PDFDevice, TagExtractor
from pdfminer.pdfpage import PDFPage, PDFTextExtractionNotAllowed
from pdfminer.converter import XMLConverter, HTMLConverter, TextConverter, PDFPageAggregator
from pdfminer.cmapdb import CMapDB
from pdfminer.layout import LAParams, LTTextBox, LTTextLine, LTFigure, LTImage
from pdfminer.image import ImageWriter
from cStringIO import StringIO
import sys
import os


def pdfToText(path):
    rsrcmgr = PDFResourceManager()
    retstr = StringIO()
    codec = 'utf-8'
    laparams = LAParams()
    device = TextConverter(rsrcmgr, retstr, codec=codec, laparams=laparams)
    fp = file(path, 'rb')
    interpreter = PDFPageInterpreter(rsrcmgr, device)
    password = ''
    maxpages = 0
    caching = True
    pagenos = set()

    records = []
    i = 1
    for page in PDFPage.get_pages(fp, pagenos, maxpages=maxpages, password=password,
                                  caching=caching, check_extractable=True):
        # process page
        interpreter.process_page(page)

        # only select lines from the line containing 'Tool' to the line containing "1 The 'All'"
        lines = retstr.getvalue().splitlines()

        idx = containsSubString(lines, 'Tool')
        lines = lines[idx+1:]
        idx = containsSubString(lines, "1 The 'All'")
        lines = lines[:idx]

        for line in lines:
            records.append(line)
        i += 1

    fp.close()
    device.close()
    retstr.close()

    return records


def containsSubString(list, substring):
    # find a substring in a list item
    for i, s in enumerate(list):
        if substring in s:
            return i
    return -1


# process pdf
fn = '../test1.pdf'
ft = 'test.txt'

text = pdfToText(fn)
outFile = open(ft, 'w')
for i in range(0, len(text)):
    outFile.write(text[i])
outFile.close()

That produces a text file and it gets all of the text but, the x's don't have the spacing preserved. The output looks like this: enter image description here

x 在文本文档中只是单倍行距

现在，我只是生成文本输出，但我的目标是使用表中的数据生成一个 html 文档。我一直在寻找 OCR 示例，其中大多数看起来令人困惑或不完整。我愿意使用 C# 或任何其他可能产生我正在寻找的结果的语言。

EDIT:将会有多个这样的 pdf 文件，我需要从中获取表格数据。所有 pdf 的标题都是相同的（据我所知）。

我明白了，我走错了方向。我所做的是为 pdf 中的每个表格创建 png，现在我正在使用 opencv 和 python 处理图像。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

从 pdf 中提取表格的相关文章

如何使用我自己的自定义表单覆盖 django-rest-auth 中的表单？

我正在使用 django rest auth 并尝试通过覆盖表单的方法之一来修复密码重置视图中的错误尽管我已经使用不同的 django rest auth 表单成功完成了类似的操作但我无法让它在这个表单上工作无论我做什么都会使用旧的
Python函数组成

我尝试使用良好的语法来实现函数组合这就是我所得到的 from functools import partial class compfunc partial def lshift self y f lambda args kwargs s
在 PhotoImage 下调整图像大小

我需要调整图像大小但我想避免使用 PIL 因为我无法使其在 OS X 下工作不要问我为什么无论如何因为我对 gif pgm ppm 感到满意所以 PhotoImage 类对我来说没问题 photoImg PhotoImage fi
如何调试 numpy 掩码

这个问题与this one https stackoverflow com q 73672739 11004423 我有一个正在尝试矢量化的函数这是原来的函数 def aspect good angle float planet1 goo
当我从本地计算机更改为虚拟主机时，从 python 脚本调用 pdftotext 不起作用

我编写了一个小的 python 脚本来解析提取 PDF 中的信息我在本地机器上测试了它我有 python 2 6 2 和 pdftotext 版本 0 12 4 我正在尝试在我的虚拟主机服务器 dreamhost 上运行它它有 py
Bokeh 中单独的节点和边缘悬停工具？

我正在尝试为 Bokeh 中的节点和边缘获取单独的悬停工具提示但未能使其正常工作有人可以指出我做错了什么吗我相信代码应该如下所示 from bokeh io import show output notebook from bokeh
一个类似 dict 的 Python 类

我想编写一个自定义类其行为类似于dict 所以我继承自dict 不过我的问题是我是否需要创建一个私有的dict我的成员 init 方法我不明白这个有什么意义因为我已经有了dict如果我只是继承自的行为dict 谁能指出为什么大多
Python：“直接”调用方法是否实例化对象？

我是 Python 新手在对我的对象进行单元测试时我注意到一些奇怪的东西 class Ape object def init self print ooook def say self s print s def main Ape
Jupyter笔记本突然变得很慢

我以前在anaconda环境下运行jupyter运行得很好显示警告后 IOPub data rate exceeded The notebook server will temporarily stop sending output to
在 pygame 中，我如何创建一个数据结构来跟踪调整大小事件和对象的坐标？

我希望在调整屏幕大小后使鼠标事件与对象保持同步有人告诉我需要创建一个数据结构来跟踪调整事件大小新坐标以匹配调整大小如何使用简单的代数方程来完成此操作并将其集成到调整大小事件中以进行准确更新反过来做创建一个虚拟游戏地图在绘制场景
如何在 Python 中跟踪日志文件？

我想在 Python 中提供 tail F 或类似内容的输出而无需阻塞或锁定我找到了一些非常旧的代码来做到这一点here http code activestate com recipes 436477 filetailpy 但我认为现
无法将matplotlib安装到pycharm

我最近开始使用Python速成课程学习Python编程我陷入困境因为我无法让 matplotlib 在 pycharm 中工作我已经安装了pip 我已经通过命令提示符使用 pip 安装了 matplotlib 现在当我打开 pych
RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 目录 'app/static' 不存在

当我运行 server py 文件时出现错误 File C Users nawin AppData Local Programs Python Python38 lib site packages starlette staticfiles
在 for 循环中访问 itertools 产品的元素

我有一个列表列表是附加 itertools 产品的一些其他结果的结果我想要的是能够使用 for 循环访问列表列表中列表的每个元素但我无法访问所有元素我只能访问最后一个列表的元素结果是一个非常巨大的列表列表例如 1 2 4 3 6
使用 Sphinx 时，如何记录没有文档字符串的成员？

我正在为我发布的包编写文档我发现您的文档越全面人们就越容易找到您的包来使用废话实际上我在充满爱心地编写代码的所有功能和细节方面获得了很多乐趣然而我对如何为类级变量编写与 Sphinx 兼容的文档感到完全困惑特别是我有一些e
Python RE（总之检查第一个字母是否区分大小写，其余部分不区分大小写）

在下面的情况下我想匹配字符串 Singapore 其中 S 应始终为大写其余单词可能为小写或大写但在下面的字符串 s 是小写的它在搜索条件中匹配任何人都可以让我知道如何实施吗 import re st Information in
在 python 中使用高精度时间戳

嘿我正在使用 python 处理日期时间我想知道解析这个时间戳的最佳方法是什么时间戳是ISO标准这里是一个例子 2010 06 19T08 17 14 078685237Z 现在到目前为止我已经使用过 time datetime d
当训练和测试的特征数量不同时，如何处理生产环境中的One-Hot Encoding？

在做某些实验时我们通常在 70 上进行训练在 33 上进行测试但是当您的模型投入生产时会发生什么可能会发生以下情况训练集 Ser Type Of Car 1 Hatchback 2 Sedan 3 Coupe 4 SUV 经过
正则表达式 - 匹配不包含字符串的模式

我对正则表达式很陌生并且一直在寻找方法来做到这一点但没有成功给定一个字符串我想删除以 abc 开头以 abc 结尾且中间不包含 abc 的任何模式如果我做 abc abc abc 它将匹配以 b 开头以 abc 结尾并且中间包
防止 Ada DLL 中的名称损坏

有没有一种简单的方法可以防止在创建 Ada DLL 时 Ada 名称被破坏这是我的 adb 代码 with Ada Text IO package body testDLL is procedure Print Call is begin

随机推荐

在 Brunch 应用程序中使用 npm 模块会导致“找不到模块”

我想使用这个节点库 https github com sudhirj simply deferred https github com sudhirj simply deferred I ran npm install simply def
ios7取消3次后无法登录游戏中心增益[重复]

这个问题在这里已经有答案了问题很奇怪我的系统版本是IOS 7 在ios 7模拟器上一切正常但是当我尝试在 iPhone 上进行身份验证时回调块中的错误始终是 GkErrorCanceled the requested operat
Objective C - 如何连接整个字符串数组？

我是 Objective C 新手我想编写一个方法它接受一个字符串数组并返回一个连接字符串每个字符串之间有一个逗号所以如果一个数组是 a b c d 我想返回a b c d 最简单的方法是什么方法有很多种最简单的就是 yourA
如何在Python脚本中设置PATH=%PATH%作为环境？

我正在尝试从Python程序启动一个exe文件该exe文件是使用Visual Studio编译的C 项目的输出在此 c 项目的属性中配置 gt 属性 gt 调试 gt 环境中的以下设置 PATH PATH lib testfolde
与库版本相关的 TypeScript @types 版本

谁能解释一下 TypeScript types 背后的版本控制https github com DefinitelyTyped DefinitelyTyped https github com DefinitelyTyped Definit
像 Facebook 一样从任何 URL 获取特定图像

My Question might be looks like similar to other questions but really this is not according to my knowledge i can t unde
开发算法的人和开发人员之间最有效的工作流程是什么？

我们正在开发具有视频模式识别功能的软件我们有 7 位数学家正在创建算法另外我们有 2 名开发人员使用这些算法维护开发应用程序问题在于数学家使用不同的开发工具来创建算法例如 Matlab C C 另外因为他们不是开发人员所以不
Android 在单击按钮时返回到第一个 Activity

我正在编写一个应用程序其中处理 4 个活动比方说 A B C 和 D 活动 A 调用 B B 调用 C C 调用 D 在每个活动上我都有一个名为 home 的按钮按钮当用户单击任何 B C D 活动中的主页按钮时应用程序应该返回到
如何创建列表的 numpy 数组？

我想创建一个 numpy 数组其中每个元素都必须是一个列表因此稍后我可以向每个元素附加新元素我已经在谷歌和堆栈溢出上查看过但似乎无处可寻主要问题是 numpy 假设你的列表必须成为一个数组但这不是我想要的正如你发现的那样 np
如何从 ngGrid 中显示的按钮调用作用域方法 - 在 Angular js 中

angular module harbinger controller Admin UserlistController function rootScope scope location http userService etc scop
使用 Dagger 2 进行 Presenter 注入

我刚刚开始使用 Dagger 2 我在网上发现了数千个指南每个指南都有不同的实现我现在有点困惑所以基本上这就是我现在写的应用程序模块 java Module public class AppModule Application mA
如何获取属于自定义属性的属性？

我需要从自定义属性中查找应用自定义属性的属性的类型例如 MyAttribute string MyProperty get set 给定 MyAttribute 实例我如何获取 MyProperty 的类型描述符换句话说我正在寻找
可滚动 TextView 不允许在应用程序暂停后选择文本

我有一个可滚动的TextView用户可以在其中选择文本我通过将移动方法设置为来添加滚动条ScrollingMovementMethod Problem 除非应用程序暂停例如切换应用程序后否则选择效果很好一旦应用程序再次处于活动状态
在本地开发 Azure 函数

我领导着一个由天蓝色函数开发人员组成的大型团队因此微软引用的大多数使用 azure Web 界面的示例对我来说不起作用我正在使用模拟器在本地开发Azure功能以节省一些成本我通过 Visual Studio 将所有功能发布到我的集成
如何在 Flutter 中使用 Dio 和 multi_image_picker 插件上传多张图片

我想在 Flutter 中使用 Dio 和 multi image picker 插件上传多张图片 List
Android 5.0 上点击 Switch 崩溃

在 Android 5 0 中单击我的应用程序中的开关时应用程序崩溃并显示如下所示的 logcat logcat 没有在其中的任何地方引用我的代码并且此开关在所有以前的版本上都运行良好除了背景颜色之外该开关看起来是不可见的并且只有
在 Unix shell 中将一列数字相加

给定文件列表files txt 我可以得到它们的尺寸列表如下所示 cat files txt xargs ls l cut c 23 30 会产生这样的结果 151552 319488 1536000 225280 我怎样才能得到tota
如何确定导致 Windows Installer 重复自我修复的原因？

如何仅记录导致 Installshield 2008 所做的 MSI 文件通过重新安装的更改自我修复自修复的原因是什么如何使用 Installshield 2008 禁用 MSI 自我修复自我修复简单简短的解释如果我删除文件
SampleSyncAdapter 断点不起作用

我正在使用 Eclipse 来了解 SampleSyncAdapter 示例的工作原理我无法让断点发挥作用我在多个位置设置了断点但没有一个被击中例如 AuthenticatorActivity onCreate 永远不会被调用有人
从 pdf 中提取表格

我正在尝试从这个表中获取数据PDF https www dropbox com s y3nivxhjvvzva7d test1 pdf dl 0 我尝试过 pdfminer 和 pypdf 运气不错但我无法真正从表中获取数据 This i

从 pdf 中提取表格

从 pdf 中提取表格 的相关文章

随机推荐

热门标签

从 pdf 中提取表格的相关文章