如何从 PDF 中提取表格作为文本

2023-11-24

我有一个 PDF 文件，其中包含表格、文本和一些图像。我想在 PDF 中有表格的地方提取表格。

现在正在手动从页面中查找表。从那里我捕获该页面并保存到另一个 PDF 中。

import pypdf import PdfReader, PdfWriter

filename = "Sammamish.pdf"
reader = PdfReader(filename)

page = reader.pages[126]

writer = PdfWriter()
writer.add_page(page)

new_filename = "allTables.pdf"
with open(new_filename, "wb") as output_stream:
    writer.write(output_stream)

我的目标是从整个 PDF 文档中提取表格。

这个答案适用于任何遇到带有图像的 pdf 并需要使用 OCR 的人。我找不到可行的现成解决方案；没有任何东西能给我带来我所需要的准确性。

以下是我发现有效的步骤。

Use pdfimages from https://poppler.freedesktop.org/将 pdf 页面转换为图像。
Use 超立方体检测旋转和图像魔术师 mogrify要解决这个问题。
使用 OpenCV 查找并提取表格。
使用 OpenCV 从表中查找并提取每个单元格。
使用 OpenCV 裁剪和清理每个单元格，这样就不会有干扰 OCR 软件的噪音。
使用 Tesseract 对每个单元格进行 OCR。
将每个单元格提取的文本合并为您需要的格式。

我编写了一个 python 包，其中包含可以帮助完成这些步骤的模块。

Repo: https://github.com/eihli/image-table-ocr

文档和来源：https://eihli.github.io/image-table-ocr/pdf_table_extraction_and_ocr.html

有些步骤不需要代码，它们利用外部工具，例如pdfimages and tesseract。我将为需要代码的几个步骤提供一些简短的示例。

查找表：

在了解如何查找表格时，此链接是一个很好的参考。https://answers.opencv.org/question/63847/how-to-extract-tables-from-an-image/

import cv2

def find_tables(image):
    BLUR_KERNEL_SIZE = (17, 17)
    STD_DEV_X_DIRECTION = 0
    STD_DEV_Y_DIRECTION = 0
    blurred = cv2.GaussianBlur(image, BLUR_KERNEL_SIZE, STD_DEV_X_DIRECTION, STD_DEV_Y_DIRECTION)
    MAX_COLOR_VAL = 255
    BLOCK_SIZE = 15
    SUBTRACT_FROM_MEAN = -2

    img_bin = cv2.adaptiveThreshold(
        ~blurred,
        MAX_COLOR_VAL,
        cv2.ADAPTIVE_THRESH_MEAN_C,
        cv2.THRESH_BINARY,
        BLOCK_SIZE,
        SUBTRACT_FROM_MEAN,
    )
    vertical = horizontal = img_bin.copy()
    SCALE = 5
    image_width, image_height = horizontal.shape
    horizontal_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (int(image_width / SCALE), 1))
    horizontally_opened = cv2.morphologyEx(img_bin, cv2.MORPH_OPEN, horizontal_kernel)
    vertical_kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (1, int(image_height / SCALE)))
    vertically_opened = cv2.morphologyEx(img_bin, cv2.MORPH_OPEN, vertical_kernel)

    horizontally_dilated = cv2.dilate(horizontally_opened, cv2.getStructuringElement(cv2.MORPH_RECT, (40, 1)))
    vertically_dilated = cv2.dilate(vertically_opened, cv2.getStructuringElement(cv2.MORPH_RECT, (1, 60)))

    mask = horizontally_dilated + vertically_dilated
    contours, hierarchy = cv2.findContours(
        mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE,
    )

    MIN_TABLE_AREA = 1e5
    contours = [c for c in contours if cv2.contourArea(c) > MIN_TABLE_AREA]
    perimeter_lengths = [cv2.arcLength(c, True) for c in contours]
    epsilons = [0.1 * p for p in perimeter_lengths]
    approx_polys = [cv2.approxPolyDP(c, e, True) for c, e in zip(contours, epsilons)]
    bounding_rects = [cv2.boundingRect(a) for a in approx_polys]

    # The link where a lot of this code was borrowed from recommends an
    # additional step to check the number of "joints" inside this bounding rectangle.
    # A table should have a lot of intersections. We might have a rectangular image
    # here though which would only have 4 intersections, 1 at each corner.
    # Leaving that step as a future TODO if it is ever necessary.
    images = [image[y:y+h, x:x+w] for x, y, w, h in bounding_rects]
    return images

从表中提取单元格。

这与 2 非常相似，因此我不会包含所有代码。我将参考的部分是对单元格进行排序。

我们想要从左到右、从上到下识别单元格。

我们将找到最左上角的矩形。然后，我们将找到中心位于该左上角矩形的顶部 y 值和底部 y 值内的所有矩形。然后我们将根据这些矩形中心的 x 值对它们进行排序。我们将从列表中删除这些矩形并重复。

def cell_in_same_row(c1, c2):
    c1_center = c1[1] + c1[3] - c1[3] / 2
    c2_bottom = c2[1] + c2[3]
    c2_top = c2[1]
    return c2_top < c1_center < c2_bottom

orig_cells = [c for c in cells]
rows = []
while cells:
    first = cells[0]
    rest = cells[1:]
    cells_in_same_row = sorted(
        [
            c for c in rest
            if cell_in_same_row(c, first)
        ],
        key=lambda c: c[0]
    )

    row_cells = sorted([first] + cells_in_same_row, key=lambda c: c[0])
    rows.append(row_cells)
    cells = [
        c for c in rest
        if not cell_in_same_row(c, first)
    ]

# Sort rows by average height of their center.
def avg_height_of_center(row):
    centers = [y + h - h / 2 for x, y, w, h in row]
    return sum(centers) / len(centers)

rows.sort(key=avg_height_of_center)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pdf

pdfparsing

如何从 PDF 中提取表格作为文本的相关文章

将 Poetry 与 PyEnv 一起使用并遇到 Python 版本问题

我正在使用 WSL2 Ubuntu 我一直在学习使用 Fastapi 进行后端 API 开发的课程我相信我的 Ubuntu 默认 python 是 3 8 我正在尝试使用 python 3 10 0 进行开发我做了以下事情 pyenv安
如何在python中确定过去的时区特定日期是否是夏令时？

有没有办法检查特定时区在我指定的日期是否处于夏令时 test dt datetime year 2015 month 2 day 1 pst pytz timezone America Los Angeles test dt pst loc
python blpapi安装错误

我试图根据 README 中的说明为 python 安装 blpapi 3 5 5 但是在运行时 python setup py install 我收到以下错误 running install running build running b
如何使用 Twython 将 oauth_callback 值传递给 oauth/request_token

Twitter 最近刚刚强制执行以下规定 1 您必须通过oauth callbackoauth request token 的值这不是可选的即使您已经在 dev twitter com 上设置了一个如果您正在执行带外 OAuth 请通
Django 说“id 可能不为 NULL”，但为什么会这样呢？

我今天要疯了我只是尝试插入一条新记录但它返回了 post blogpost id 可能不为 NULL 错误这是我的模型 class BlogPost models Model title models CharField max le
在Python中清理属于不同语言的文本

我有一个文本集合其中的句子要么完全是英语印地语或马拉地语每个句子附加的 id 为 0 1 2 分别代表文本的语言无论任何语言的文本都可能有 HTML 标签标点符号等我可以使用下面的代码清理英语句子 import HTMLPars
Python ElementTree 获取带有命名空间的属性

我试图访问 XML 中的 def 所以在这个例子中我会得到Evolus Common PlainTextV2作为输出我似乎无法弄清楚如何获取具有名称空间的属性如果我想得到id它工作得很好 Python for content ns in
从 Spark 数据帧中过滤大量 ID

我有一个大型数据框其格式类似于 ID Cat date 12 A 201602 14 B 201601 19 A 201608 12 F 201605 11 G 201603 我需要根据大约 500 万个 Is 的列表来过滤行最直接的方
检查列表是否已排序的 Pythonic 方法

有没有一种Python式的方法来检查列表是否已经排序ASC or DESC listtimestamps 1 2 3 5 6 7 就像是isttimestamps isSorted 返回True or False 我想输入一些消息的时间戳列
以编程方式添加数字签名外观？

我正在以编程方式对我的 PDF 文件进行签名并且我想将签名外观添加到 PDF 我需要哪些对象才能实现此目的我知道我必须Annotations BBox and XObject但我真的不知道按什么顺序以及是否需要其他东西调试此类内容以找
使用 os.forkpty() 创建一个伪终端以 ssh 到远程服务器并与其通信

我正在尝试编写一个 python 脚本它可以 ssh 到远程服务器并可以从 python 客户端执行 ls cd 等简单命令但是在成功 ssh 到服务器后我无法读取伪终端的输出任何人都可以在这里帮助我以便我可以在服务器上执行一
安塞布尔 + 10.11.6

我在非常干净地安装 10 11 6 时遇到了 Ansible 的奇怪问题我已经安装了brew zsh oh my zsh Lil snitch 和1password 实际上没有安装其他任何东西我安装了ansible brew ins
如何在 iOS 上反转使用 CoreGraphics 渲染的 pdf 上的文本颜色？

我正在使用开源 PDF 查看库 VFR PDF Readerhttps github com vfr Reader https github com vfr Reader 我正在尝试实现夜间模式或黑色背景与白色文本我可以将背景设置为我
Django：显示管理员验证错误的自定义错误消息

我正在使用 Django 1 2 4 我有一个模型其中有一个需要验证的字段当验证失败时我想向用户显示自定义错误消息模型编辑是在管理界面中完成的这就是我目前正在做的事情 def clean fields self exclude N
如何输入可变的默认参数

Python 中处理可变默认参数的方法是将它们设置为无 https stackoverflow com a 366430 5049813 例如 def foo bar None bar if bar is None else bar ret
python：xml.etree.ElementTree，删除“命名空间”

我喜欢 ElementTree 解析 xml 的方式特别是 Xpath 功能我有一个带有嵌套标签的应用程序的 xml 输出我想按名称访问此标签而不指定名称空间这可能吗例如 root findall molpro job 代替 ro
跟踪白色背景中的白球（Python/OpenCV）

我在 Python 3 中使用 OpenCV 来检测白场上的白黑球并给出它的精确 x y 半径和颜色我使用函数 cv2 Canny 和 cv2 findContours 来找到它但问题是 cv2 Canny 并不总是检测到圆的完整
gnuplot：第 1 行：无效命令

stackoverflow 上可爱的人们大家好我正在尝试使用 gnuplot 绘制数据我首先阅读表格并提取我想要的数据我将此数据写入 dat 文件截至目前我只是尝试通过命令行绘制它但会添加必要的代码以在 python 脚本工作后
如何对每一行进行 value_counts 并创建一些列，其值是每个值的计数

我得到一个数据框如下 df c1 c2 c3 c4 c5 c6 c7 c8 c9 c10 c11 c12 r1 0 1 1 1 1 0 0 0 0 0 0 0 r2 1 2 2 2 2 1 1 1 1 0 0 0 r3 1 0 2 0 0
具有重复值的 Sqlite 列

就说专栏吧aSQLite 数据库的非常重复始终有相同的 4 个值其他值可能稍后出现但不同值的数量将少于 1000 个 VALUES hello world it s a shame to store this str many tim

随机推荐

使用语言环境设置将西班牙日期转换为 python pandas datetime 对象

我有 2 个问题如何使用以下命令将西班牙语日期时间 ago122010 转换为 2010 08 12pandas 使用的格式是strptime正确的我尝试过以下方法 import locale locale setlocale loca
使用 C# 检查进程是否正在远程系统上运行

我正在尝试检查进程是否正在远程系统上运行我正在使用以下代码 string procSearc notepad string remoteSystem remoteSystemName Process proce System Diagno
使用 maven 制作 fat jar 时出现“无法找到数据源：parquet”

我正在使用 Maven 组装插件组装 fat jar 并遇到以下问题 Exception in thread main java lang ClassNotFoundException Failed to find data source
Application Insights 报告每个服务器请求的重复事件

我有一个在 Azure 应用服务下运行的 API 应用程序安装了 Application Insights 以跟踪 API 调用的服务器端遥测在 Azure 门户中查看 Application Insights 时我看到每个服务器调用
Npgsql 提供程序是否支持 TransactionScope？

我正在尝试将 TransactionScope 与 Npgsql 提供程序一起使用我在一个老问题中发现 net 中 PostgreSQL 的提供程序支持 TransactionScope Npgsql 还不支持它现在大约 5 年后
保存和加载模型优化器状态

我正在训练一组相当复杂的模型并且正在寻找一种保存和加载模型优化器状态的方法训练模型由其他几个权重模型的不同组合组成其中有些模型具有共享权重有些模型根据训练模型而冻结权重等等这个例子有点太复杂了无法分享但总之我无法使用
如何使用 Elastic Beanstalk 创建“tmp”目录？

我正在使用 Node js 需要将文件保存到我的应用程序中的 tmp 目录问题在于 Elastic Beanstalk 未将应用程序目录设置为可由应用程序写入因此当我尝试创建临时目录时出现此错误 fs js 653 return b
在 Highcharts 中绘制直方图

众所周知直方图和条形图是两个不同的东西我有很多不同的方法在 highcharts 中绘制条形图但我没有得到任何在 highcharts 中绘制直方图的示例是否可以使用 highcharts 绘制直方图如果可以如何绘制您可以使用
元素必须没有字符或元素信息项[children]，因为该类型的内容类型为空

当我从事这个项目时我不断收到一条错误消息元素客户必须没有字符或元素信息项 children 因为该类型的内容类型为空我不确定为什么这不起作用因为我遵循了注释它看起来像这样
我可以在没有 Google Glass 的情况下测试 Google Glass 程序吗？

我可以在没有实际拥有 Google Glass 的情况下编写和测试 Google Glass 的 Hello World 程序吗有可以用来测试应用程序的模拟器吗我看过一个视频显示我们可以在 Nexus 平板电脑上运行它查看链接htt
Fluent IOC 配置/模块的最佳位置（当前正在尝试 Ninject）

我正在努力寻找放置 Ninject 配置模块的最佳位置指定类型绑定的位置我希望我只是错过了一些明显的技巧因为这开始成为我使用流畅配置以及 Ninject 的一个障碍在一个简单的 Web 堆栈中包含三个独立的项目 Web 业务
Android 中的 javax.mail.AuthenticationFailedException

尝试使用 JavaMail API 从我的 Gmail 帐户发送电子邮件时我在 LogCat 中收到以下错误消息 11 09 11 04 14 385 W System err 18443 javax mail Authenticatio
SIMD编程语言[关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南目前不接受答案在过去的几年中我进行了大量的 SIMD 编程大部分时间我都依赖编译器内部函数例如用于 SSE 编程的函数或编程汇编来实现真正漂亮的功能东西
如何使用 PHP 中的 cURL 同时打开多个 URL？

这是我当前的代码 SQL mysql query SELECT url FROM urls or die mysql error Query the urls table while resultSet mysql fetch array
使用 Django 上传多个文件

如何使用 Django 上传多个文件经过一番痛苦之后我最终得到了 uploadify http www uploadify com 与 django 一起工作但问题并不是真正的 django 的问题而是让它与 Apple Mac 一起
如何在 Angular2 中操作特定路径上的组件

我有一个简单的TopbarComponent这基本上在我的视图顶部添加了一个引导式导航栏由于我的 90 的模板应该包含这个指令我想通过我的app component看起来像这样 import Component selector my
Servlet 3.0 异步

servlet 3 0 异步功能与以下内容有何区别 ld servlet 实现 doGet request response Thread t new Thread new Runnable void run heavy processin
将映射应用于函数的剩余参数

在 Clojure 中如果我有一个函数 f defn f r 我有一个 seq args 其中包含我想要调用 f 的参数我可以轻松使用 apply apply f args 现在假设我有另一个函数 g 它被设计为采用任意数量的可选命名
使用多个连接字符串

Info我的解决方案中有多个项目其中一个是 DAL 另一个是 ASP NET MVC6 项目由于 MVC6 项目也是启动项目我需要在其中添加连接字符串 I saw 这个解决方案但不被接受也不起作用 My Try 应用程序设置 js
如何从 PDF 中提取表格作为文本

我有一个 PDF 文件其中包含表格文本和一些图像我想在 PDF 中有表格的地方提取表格现在正在手动从页面中查找表从那里我捕获该页面并保存到另一个 PDF 中 import pypdf import PdfReader PdfWri

如何从 PDF 中提取表格作为文本

如何从 PDF 中提取表格作为文本 的相关文章

随机推荐

热门标签

如何从 PDF 中提取表格作为文本的相关文章