当我使用 iText 从 PDF 文件中提取文本时，我从前一页获取值

2024-07-01

我正在尝试从多页 PDF 文件中每个页面的特定位置提取文本块。

我知道文本的位置，并且能够在第一页上正确提取它。然而，在第一页之后的页面上，提取的文本似乎正在累积。

例如，如果第 1 页上的文本值为“A”，第 2 页为“B”，第 3 页为“C”，那么对于通过 FOR 循环的每次迭代，我将在输出字符串中收到以下值：

循环 1：输出 = A

循环 2：输出 = B A

循环 3：输出 = C B A

我在我的项目中使用 iTextSharp，用 C# 编写。

任何帮助，将不胜感激。

var reader = new PdfReader(foregroundFile);

RectangleJ customerIdRectangle = new RectangleJ(0, 495, 108, 27);
RenderFilter[] filters = new RenderFilter[1];
LocationTextExtractionStrategy regionFilter = new LocationTextExtractionStrategy();
filters[0] = new RegionTextRenderFilter(customerIdRectangle);
FilteredTextRenderListener strategy = new FilteredTextRenderListener(regionFilter, filters);

for (int i = 1; i <= reader.NumberOfPages; i++)
{
    string output = "";
    output = PdfTextExtractor.GetTextFromPage(reader, i, strategy);
    Console.WriteLine(output);
}

请像这样调整您的代码：

var reader = new PdfReader(foregroundFile);

RectangleJ customerIdRectangle = new RectangleJ(0, 495, 108, 27);

for (int i = 1; i <= reader.NumberOfPages; i++)
{
    RenderFilter[] filters = new RenderFilter[1];
    LocationTextExtractionStrategy regionFilter = new LocationTextExtractionStrategy();
    filters[0] = new RegionTextRenderFilter(customerIdRectangle);
    FilteredTextRenderListener strategy = new FilteredTextRenderListener(regionFilter, filters);
    string output = "";
    output = PdfTextExtractor.GetTextFromPage(reader, i, strategy);
    Console.WriteLine(output);
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

pdf

itext

当我使用 iText 从 PDF 文件中提取文本时，我从前一页获取值的相关文章

如何在 C# 中检查互联网连接是否可用

我为一家公司开发了一个软件出于某种许可目的我使用远程数据库来允许禁止使用该软件每次用户登录软件时都会应用此任务如果互联网连接不存在或对远程数据库的查询失败用户会收到错误他无法登录软件并显示远程数据库http地址我不希望他看到
如何在 c#.net 中将十进制转换为 ASCII？

谁能帮助我如何使用 C net 将十进制转换为 ASCII 当我在文本框 1 中输入小数时单击转换按钮后结果将显示在文本框 2 中我的问题是如何将十进制转换为 ASCII 的代码这个怎么做这是我在网上找到的一个简单的解决方案
类内枚举前向声明是否可能？ [复制]

这个问题在这里已经有答案了我知道在 C 11 中可以转发声明枚举类型如果提供了存储类型例如 enum E short void foo E e enum E short VALUE 1 VALUE 2 但我想转发声明一个类中定义的枚举
如何使用OpenCV的归一化相关性？

如何使用 OpenCV 的归一化相关性有人可以提供代码示例吗我的问题我有一个螺丝头图像需要找到螺丝的中心所以我正在考虑使用 OpenCV 相关性这是一个好主意吗您可以在下面的链接下找到示例图像 http imageshack
在 OpenCV C++ 中使用 gpu::GpuMat

我想知道如何修改gpu GpuMat 事实上我想知道是否可以使用gpu GpuMat like a cv Mat 我想做这样的事情 cv namedWindow Result cv Mat src host cv imread lena j
IDeserializationCallback 与 OnDeserializedAttribute

据我了解当对象在反序列化后需要执行某些任务时可以使用 IDeserializationCallback 接口和 OnDeserialized 事件 IDeserializationCallback Serializable public
浮点指令异常——FLDZ故障？

I am trying to debug the problem I posted earlier here C and pin tool very weird DOUBLE variable issue with IF statement
将数据路径数据到树状数据结构

我有以下数据 root root blue root blue temp root main root main dev root main back root etc init root etc init dev root etc ini
如何在类型依赖于派生类的基模板类中声明成员？

给定一个使用 CRTP 的基类我正在考虑在基模板类中声明一个成员其中类型依赖于派生类虽然以下内容按预期工作 template
尝试写入事件日志时出错 - 无法打开源“SourceName”的日志。您可能没有写入权限

目前我们正在尝试将现有的经典 ASP 页面集成到记录事件日志的新方法中我们通过调用公开为 COM 对象的 NET 程序集来实现此目的该程序集实际记录到事件日志中这一切都正常工作但是当我们尝试写入事件日志时我们收到错误无法打开源
在 OpenGL 中绘制 2D 纹理 [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我有一个绘图函数叫做DrawImage但这确实令人困惑并且仅适用于特定形式的重塑函数所以我有两个问题如何在 Ope
C# 我可以访问没有完整限定名称的枚举吗

我有一个 C 枚举类型它以非常长的限定名称结尾例如 DataSet1 ContactLogTypeValues ReminderToFollowupOverdueInvoice 为了便于阅读如果我可以告诉一个特定的函数只使用名称的最后
Sharepoint 客户端 GetFolderByServerRelativeUrl 文件夹修改日期

我试图在使用 GetFolderByServerRelativeUrl 函数时检索文件夹的修改日期和创建日期我该怎么做我只能从中获取relativeUrl 和文件夹名称下面是我为检索文件夹所做的操作请帮忙 FolderColl
C# 替换 Byte[] 中的字节

替换字节数组中的某些字节的最佳方法是什么例如我有bytesFromServer listener Receive ref groupEP 我可以做BitConverter ToString bytesFromServer 将其转换为可读格
使用本机 Win32 读取“C”中的文本文件（Unicode）

我有一个使用 CreateFile 和 WriteFile 创建的面向行的文本文件 Unicode 使用 ReadFile 以二进制流形式读取该文件非常简单但需要额外的低级处理才能将其分成几行是否有 Win32 函数可以为我执行此操作
如何在调试 C 程序时将 gdb 值转换为 python 数字对象

我在调试 C 程序时使用 python2 6 的 gdb 模块并希望根据实例的 Type 将 gdb Value 实例转换为 python 数字对象变量例如把我的C程序SomeStruct gt some float val 1 6
fread 在 C 中如何工作？

我有内容为的文本文件 12345678901222344567 然后我用这段代码来读取内容 FILE pFile int c char buffer 256 pFile fopen myfile txt r int a 50 0 fread
如何使用 gcc 的 -I 命令添加递归文件夹

有没有办法使用 gcc 的 I 命令并通过给出 a 将所有路径添加到搜索路径root目录我正在尝试使用 gcc E myfile c查看宏展开式但是myfile c包含不同目录中的一大堆其他头文件并且因为我在 vim 中执行此命令所
如何将特殊字符 (0x80..0x9F) 写入 Windows 控制台？

我想要这段代码 System Console Out WriteLine il display il代替oil正如我的测试程序中所做的那样 The Console OutputEncoding默认设置为Western European DO
“System.Int64”类型的表达式不能用于返回类型“System.Object”

我正在尝试创建以下形式的表达式 e gt e CreationDate CreationDate属于类型long 但是我希望表达式返回一个object反而我想用object作为返回类型因为表达式是在运行时根据查询参数动态构建的查询参数

随机推荐

Django Rest 框架和外部 api

我想从外部 API 获取数据 https example com consumers https example com consumers 我可以像这样构建我的 urls py 吗 url r P
如何在 Android 设备上添加给定日期的日历事件？

来自堆栈溢出问题如何在Android中添加日历事件 https stackoverflow com questions 3721963 how to add calendar events in android我开始知道如何添加日历事件但
从 IE 打印时，如何防止元素出现在多个页面上？

我有一个 HTML 数据表其中每个单元格可以有多行文本打印表格时一行可能会被分解以便一些数据出现在第一页的底部而一些数据出现在下一页的顶部是否有类似于 Word 的保持在一起功能可以防止表格行内发生分页我认为这将是一个常见
Heroku 中的 ActionController::RoutingError （未初始化常量 User::UsersController）（但一切都在本地工作）

我正在尝试在 heroku 中运行我的应用程序但在尝试注册甚至访问设备的登录页面时出现此错误 ActionController RoutingError uninitialized constant User UsersControlle
是否可以使用 CMD/BAT/VBS 更改 WiFi 托管网络设置？

我试图改变两个托管网络设置 of my 无线热点使用CMD BAT VBS 但我无法做到这一点我想更改的设置身份验证例如 WPA WPA2PSK 密码例如 CCMP AES 以下代码提供有关托管网络设置的信息 netsh wlan
更新主干模型/视图的轮询请求

我需要找到一种方法来更新使用以下实现的网络应用程序backbone 用例如下我有几个视图每个视图或者可能与该视图相关的模型集合需要在不同的时间向服务器发出不同的轮询请求以发现某些变化我想知道最通用的方法是什么 1 实施Tradi
通过setRequestHeader授权

我发现这段代码可以使用 setRequestheader 和 Ajax 进行身份验证 this xmlDoc setRequestHeader Authorization Basic Base64 encode User Password
Python Pandas：使用 groupby() 和 agg() 时顺序是否保留？

我经常使用熊猫 agg 函数对 data frame 的每一列运行摘要统计例如以下是生成平均值和标准差的方法 df pd DataFrame A group1 group1 group2 group2 group3 group3 B 1
如何在 kubernetes 中“部署”而不进行任何更改，只是为了让 pod 循环

我正在尝试做的事情 Pod 中运行的应用程序在启动时会刷新其数据文件每次我想刷新数据时都需要重新启动容器刷新可能需要几分钟所以我有一个探针检查准备情况 What I think是一个解决方案我将运行一个预定的工作 http kube
CVS 只读签出

我必须在项目中使用CVS 到目前为止在我的整个工作生涯中我只使用过 perforce 而且我对 CVS 一无所知我阅读了整个 CVS 手册但找不到如何执行此操作在perforce中当你签出一个文件时你首先必须执行p4 edit
C# 参数隐式转换

有这个代码 class Program static void Main string args Check 3 Console ReadLine static void Check int i Console WriteLine I am
Python中字典转小写

我希望这样做但为了一本字典 My string lower 是否有内置函数或者我应该使用循环您将需要使用循环或列表生成器理解如果你想将所有的键和值都小写你可以这样做 dict k lower v lower for k v in
为什么 Sequence 是 mypy 中 + 不支持的操作数类型？

mypy给出一个错误Sequence str 不是受支持的操作数类型操作员 test py from typing import Sequence def test x Sequence str y Sequence str gt Seq
React + Redux 中的多个/批量删除

我有一个允许多重选择和删除功能的数据网格我的 api 有一个删除端点 DELETE http localhost 8888 api audit id 这就是动作创建者 export function deleteAudit audits
使用 mqtt 协议和 kafka 作为消息代理

我们如何使用 mqtt 协议和 kafka 作为消息代理客户端 android ios 桌面 java 应用程序等将使用 mqtt phao 客户端库生成和使用消息这些客户端库可使用 kafka 作为消息代理以不同语言提供有什么建议
Python，针对频繁模式的网络日志数据挖掘

我需要开发一个用于网络日志数据挖掘的工具由于在特定用户会话中请求了许多 url 序列从 Web 应用程序日志中检索我需要找出网站用户的使用模式和组集群我是数据挖掘的新手现在经常检查谷歌发现一些有用的信息即查询似乎指向几乎完全
Electron v4 支持 ECMAScript 模块吗？

我正在使用 Electron 编写应用程序当前版本 4 0 6 基于 Node 10 11 0 和 Chrome 69 0 3947 106 我认为最新版本的 Electron 将支持 ECMAScript ES6 模块但到目前为止我还
Jenkins 管道脚本未运行

对于下面的管道脚本 Helo World 未打印甚至节点也没有被分配 pipeline agent any stages stage Example steps echo Hello World 安装了 Pipeline Declarat
为什么当缩放改变时，具有相同高度的元素“看起来”不同？

基本上要点就在主题中当我创建两个具有固定高度 2px 的相同 div 并将缩放更改为 75 或 125 时由于某种原因它们看起来不同有人可以解释一下这里发生了什么吗我该如何解决这个问题 gradient slider line
当我使用 iText 从 PDF 文件中提取文本时，我从前一页获取值

我正在尝试从多页 PDF 文件中每个页面的特定位置提取文本块我知道文本的位置并且能够在第一页上正确提取它然而在第一页之后的页面上提取的文本似乎正在累积例如如果第 1 页上的文本值为 A 第 2 页为 B 第 3 页为 C 那么

当我使用 iText 从 PDF 文件中提取文本时，我从前一页获取值

当我使用 iText 从 PDF 文件中提取文本时，我从前一页获取值 的相关文章

随机推荐

当我使用 iText 从 PDF 文件中提取文本时，我从前一页获取值的相关文章