iTextSharp 如何读取PDF文件中的表格

2024-04-12

我正在努力将 PDF 转换为文本。我可以正确地从 PDF 中获取文本，但表结构很复杂。我知道 PDF 不支持表格结构，但我认为有一种方法可以正确获取单元格。嗯，例如：

我想转换成这样的文本：

> This is first example.

> This is second example.

但是，当我将 PDF 转换为文本时，这些数据如下所示：

> This is This is

> first example. second example.

如何才能正确获取值？

--EDIT:

以下是我如何将 PDF 转换为文本：

OpenFileDialog ofd = new OpenFileDialog();
        string filepath;
        ofd.Filter = "PDF Files(*.PDF)|*.PDF|All Files(*.*)|*.*";

        if (ofd.ShowDialog() == DialogResult.OK)
        {
            filepath = ofd.FileName.ToString();

            string strText = string.Empty;
            try
            {
                PdfReader reader = new PdfReader(filepath);

                for (int page = 1; page < reader.NumberOfPages; page++)
                {
                    ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.LocationTextExtractionStrategy();
                    string s = PdfTextExtractor.GetTextFromPage(reader, page, its);

                    s = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(s)));
                    strText += s;
                }
                reader.Close();
             }
             catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }
        }

为了使我的评论成为实际答案......

您使用LocationTextExtractionStrategy对于文本提取：

ITextExtractionStrategy its = new iTextSharp.text.pdf.parser.LocationTextExtractionStrategy();
string s = PdfTextExtractor.GetTextFromPage(reader, page, its);

该策略将它找到的所有文本从上到下排列在从左到右的行中（实际上还考虑了文本行角度）。因此，从包含多行内容的单元格的表格中提取文本显然不是您所需要的。

根据相关文档，可以采取不同的方法：

使用 iTextSimpleTextExtractionStrategy如果相关文档中的文本绘制操作已经按照文本提取所需的顺序进行。
如果文档表已正确标记，则使用自定义文本提取策略，该策略会利用标记信息。
使用复杂的自定义文本提取策略，尝试从文本排列、线条路径或背景颜色中获取提示，以猜测表格单元格结构并逐个单元格提取文本。

在这种情况下，OP 评论说，他changed LocationTextExtractionStrategy with SimpleTextExtractionStrategy，然后就成功了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

pdf

itext

iTextSharp 如何读取PDF文件中的表格的相关文章

CMake 和 Visual Studio：如何获得快速、安静的命令行构建？

我有一个 cmake 项目它成功地完成了我想要的一切但我有大约 100 个文件当我只需要重新编译一个文件时我厌倦了每次看到生成的巨大输出每个文件 30 行明确地说我正在编译cmake build 得到这个结果我需要传递给编译
将指针转换为浮点数？

我有一个unsigned char 通常这指向一块数据但在某些情况下指针就是数据即铸造一个int的价值unsigned char 指针 unsigned char intData unsigned char myInteger 反
隐式方法组转换陷阱

我想知道为什么给定代码的输出在 LinqPad 中执行 void Main Compare1 Action Main Dump Compare2 Main Dump bool Compare1 Delegate x return x Ac
泛型与接口的实际优势

在这种情况下使用泛型与接口的实际优势是什么 void MyMethod IFoo f void MyMethod
在桌面应用程序中，类库的连接字符串存储在哪里？我可以在app.config中使用吗？

我是桌面应用程序开发的新手目前正在使用分层架构用户界面 DAL BLL 构建桌面应用程序在 Web 开发中我曾经将连接字符串存储在 web config 中我的类库从那里访问它请指导我在桌面应用程序中如何以及在何处存储 DAL
如何从 List 中的字符串中删除数字/数字？

我有一个字符串列表 List
使用 Selenium for C# 登录 Facebook

我一直在使用 Selenium C 框架并尝试进行 facebook 登录但没有任何运气这是我到目前为止得到的基于这篇文章使用 Selenium 测试 Facebook Connect 应用程序 https stackoverflo
C 中“for”循环中的两个变量

我正在编写一些代码需要在其中使用两个变量for环形下面的代码看起来没问题吗它确实给了我预期的结果 for loop 1 offset loop 2 offset 2 loop 1 gt offset 190 loop 2 lt 190
以标准用户身份打开默认浏览器 (C++)

我目前正在使用 ShellExecute 打开在用户浏览器中打开 URL 但在 Win7 和 Vista 中遇到了一些麻烦因为该程序作为服务运行提升当 ShellExecute 打开浏览器时它似乎读取本地管理员配置文件而不是用户
替换 JSON 中的转义字符

我想用空格替换 JSON 字符串中的字符我怎样才能做到这一点我发现从 JSON 字符串中删除所有转义字符的最简单最好的方法是将字符串传递到正则表达式 Unescape 方法此方法返回一个没有转义字符的新字符串甚至删除了 n t
如何获取带有标头的 XML (

考虑下面的简单代码它创建一个 XML 文档并显示它 XmlDocument xml new XmlDocument XmlElement root xml CreateElement root xml AppendChild root X

从窗口内容截取屏幕截图（无边框）

我正在寻找有关如何使用 C 将表单内容保存在位图中的解决方案我已经尝试过使用 DrawToBitmap 但它捕获了所有带边框的窗口这就是这段代码的结果 public static Bitmap TakeDialogScreenshot
在不使用 Thread.Sleep c# 的情况下延迟发送电子邮件

我有一个 for 循环它循环并每个循环发送一封电子邮件现在我正在使用 thread sleep 但我希望用户仍然能够与程序交互只需取消该循环即可是否可以在不使用 thread sleep 的情况下做到这一点您是否在 UI 线程上运
C 的“char”使用什么字符集？ [复制]

这个问题在这里已经有答案了简单的问题我最近开始用 C 编程有一个简单的问题 C 编程语言在其 char 类型中使用什么字符集例如 ASCII 还是取决于软件操作系统 char 本质上是 1 个字节主要在所有操作系统上所以默认情
在 try catch 块中返回到 catch 内是否不好？这是很好的做法

在 try catch 块中从 C 中的 catch 块返回值是不好的做法吗 try Some code return 1 catch return 0 哪种使用 try catch 的方法是好的做法不需要只要返回的值是你想要的你可以
如何分析 VSCode 中函数的性能

我用 C Golang 编写了一个程序如何找到占用最高 CPU 周期的函数目的是提高正在执行的程序的性能 2021 年 10 月金香儿哈娜 https github com hyangah宣布 tweet https twitter
如何将 Metro 应用部署到桌面？

我正在尝试将我的 C 应用程序部署到我的 Windows 8 Metro 桌面我可以在 bin 文件夹中看到部署的文件但是当我尝试打开它们时出现以下错误该应用程序只能在 AppContainer 的上下文中运行我检查了属性上下文菜
将小数格式化为两位或整数

对于 10 我想要 10 而不是 10 00 对于 10 11 我想要 10 11 没有代码可以实现吗即通过指定格式字符串类似于 0 N2 decimal num 10 11M Console WriteLine num ToString
编译器可以报告未知属性的错误吗？即使有范围？

在N3291 7 6 1 3 5 属性语法和语义 decl attr grammar 关于如何属性是用我读过的源代码写的使用一个属性范围令牌是有条件支持的实现定义的行为 and For an 属性标记本国际标准中未指定该行为是实现定义
如何将 char 转换为 unsigned int？

我有一个字符数组它实际上用作字节数组而不是用于存储文本在数组中有两个特定字节表示我需要存储到无符号 int 值中的数值下面的代码解释了设置 char bytes bytes 2 bytes 0 0x0C For the sake

随机推荐

如果用户尚未登录，我如何拒绝他们访问我的 Backbone 应用程序的部分内容？

所以我有一个 Backbone 应用程序网页主页现在如果您登录我的网站我会使用数据库中的用户详细信息创建一个全局对象但是您仍然可以直接点击应用程序中的其中一条路线我应该如何处理未登录的用户并将他们重定向到您必须登录页面
保留 UTF-8 作为默认编码

我尝试将 UTF 8 保留为 Python 中的默认编码 I tried gt gt gt import sys gt gt gt sys getdefaultencoding ascii 我也尝试过 gt gt gt import sys
Microsoft SQL Server 2016，T-SQL：根据各个日期获取数据集的日期范围

我在 SQL Server 2016 中有一个有趣的情况我使用 T SQL 语言我有一个名为 dataset 的数据集最后一列称为 ContinuousDates 将始终具有没有间隙的连续日期值例如 2021 年 1 月 1 日到
寻求 emacs 中的自动完成功能

我正在寻找一个插件来为 emacs 中的 c 开发自动完成弹出窗口我尝试过的是 Cedet Semantics 和自动完成模式 http cx4a org software auto complete index html 只要我已经有几
将 OCaml 转换为 F#：将 OCaml open_box 和 close_box 转换为 F#

我正在将几个基于 OCaml 的模块转换为 F 并遇到了 OCaml 打印格式化函数open box 和 close box http caml inria fr pub docs manual ocaml libref Format ht
Python：将 GIF 帧转换为 PNG

我对 python 很陌生试图用它来将 GIF 的帧分割成 PNG 图像 Using this GIF http www videogamesprites net FinalFantasy1 Party Before Fighter Fr
我如何知道我正在使用哪个 python 实现？

Python 有几种不同的实现 CPython Jython PyPy 等我想以编程方式确定我的代码在哪个实现上运行我怎样才能做到这一点具体来说我正在寻找一个功能例如 get implementation name 可以像这样使用
Android 中的 Google Pay API 集成

我正在尝试探索 Google Pay API 集成我已经阅读了所提供的文件官方文件 https developers google com pay api android overview 并从 GITHUB 下载了示例GitHub 链
使用 DebugActiveProcess 和 WaitForDebugEvent 似乎挂起

我已经使用 DebugActiveProcess 附加一个进程之后我使用了 WaitForDebugEvent 但应用程序似乎陷入了某种无限循环我无法调试附加的进程下面是我的代码 DebugActiveProcess processI
Spark Streaming以Parquet格式附加到S3，小分区太多

我正在构建一个使用 Spark Streaming 从 AWS EMR 上的 Kinesis 流接收数据的应用程序目标之一是将数据持久保存到 S3 EMRFS 中为此我使用 2 分钟的非重叠窗口我的做法 Kinesis Stream
如何在 Google Compute Engine 中使用快照恢复实例？

我通过云控制台创建了虚拟机实例的快照我想知道如何使用快照恢复实例计算引擎的文档不是很有帮助该实例在 Ubuntu 上运行谢谢要从快照恢复实例而不删除重新创建实例关闭实例并分离启动磁盘 gcloud beta compute i
“is A” VS “is Like A”关系，每种关系的含义是什么以及它们有何不同？

首先举个例子来讨论 class Foo Attributes int attribute1 attribute2 Methods virtual void Foo1 With or without Implementation virtua
访问json不起作用

我正在使用 Ajax 接收 JSON 更新 document ready function form submit function event event preventDefault var form JSON stringify fo
测试读取和写入文件系统的类时的单元测试最佳实践

我有一个对磁盘上的文件进行操作的类更准确地说它遍历一个目录读取具有给定后缀的所有文件并对数据进行一些操作然后将它们输出到一个新文件我对如何为此类设计单元测试有点怀疑我正在考虑让安装方法在 tmp somefolder 中创建一
数据效率 - 以 JSON 或 XML 形式返回？

我有相当大的数据集通过 AJAX 从页面返回一次最多可以有 0 20k 条记录每条记录大约包含 10 条数据现在数据以结构化 XML 形式返回并由 javascript 处理郑重声明我目前使用的是 jQuery 当 XML 返
将每个进程的 Node.js 内存使用量限制在 300MB 以下

我们在单独的进程中运行测试并且一些测试套件包含 20 多个文件我们如何将 Node js 进程使用的内存量限制而不是增加到 300MB 以下如果我们不限制内存我们最多可以使用 20x500MB 大约 10GB 这太多了我可以在
如何用rvest过滤掉节点？

我正在使用 R rvest 库来读取包含表格的 html 页面不幸的是这些表的列数不一致这是我读过的表格的示例 table tr class alt td 1 td td 2 td td class hidden 3 td tr tr
在 Linux 上使用 PowerShell 保存 CSV 数据的方法？

在 Linux 中 Powershell 本身是否有本机或内置的方便的数据库设施虽然这适用于输入 data nicholas mordor csv nicholas mordor csv ll BCCDC COVID19 Dash
在 R 中 split() 之后保持数据的原始顺序[重复]

这个问题在这里已经有答案了在下面的 R 代码中我split a data frame通过一列一个名为的字符串变量study name But split 按字母顺序重新订购原来的data frame In BASE R 分割后数据可以
iTextSharp 如何读取PDF文件中的表格

我正在努力将 PDF 转换为文本我可以正确地从 PDF 中获取文本但表结构很复杂我知道 PDF 不支持表格结构但我认为有一种方法可以正确获取单元格嗯例如我想转换成这样的文本 gt This is first example g

iTextSharp 如何读取PDF文件中的表格

iTextSharp 如何读取PDF文件中的表格 的相关文章

随机推荐

热门标签

iTextSharp 如何读取PDF文件中的表格的相关文章