使用 iText7 从 PDF 中提取文本。如何提高其性能？

2023-12-10

目前，我使用此代码从矩形（区域）中提取文本。

public static class ReaderExtensions
{
    public static string ExtractText(this PdfPage page, Rectangle rect)
    {
        var filter = new IEventFilter[1];
        filter[0] = new TextRegionEventFilter(rect);
        var filteredTextEventListener = new FilteredTextEventListener(new LocationTextExtractionStrategy(), filter);
        var str = PdfTextExtractor.GetTextFromPage(page, filteredTextEventListener);
        return str;
    }
}

它有效，但我不知道这是否是最好的方法。

另外，我想知道 iText 团队是否可以改进 GetTextFromPage 以提高其性能，因为我正在处理大型 PDF 中的数百个页面，并且使用我当前的配置通常需要 10 多分钟才能完成。

EDIT:

从评论来看：看起来iText可以一次提取同一页面上多个矩形的文本，这可以提高性能（批量操作往往更高效），但是如何呢？

更多细节！

我的目标是从多页 PDF 中提取数据。每个页面都有相同的布局：包含行和列的表格。

目前，我正在使用上面的方法来提取每个矩形的文本。但是，如您所见，提取不是批量的。一次只是一个矩形。如何一次性提取页面的所有矩形？

正如评论中已经提到的，我很惊讶地发现 iText 7LocationTextExtractionStrategy不再包含类似于 iText 5 的内容LocationTextExtractionStrategy method GetResultantText(TextChunkFilter)。这将允许您解析一次页面并从任意页面区域中的文本片段中提取文本。

但有可能恢复该功能。一种选择是将其添加到LocationTextExtractionStrategy。不过，这将是一个很长的答案。所以我使用了另一个选择：我使用现有的LocationTextExtractionStrategy，并且仅仅为了GetResultantText调用我操纵策略的文本块的底层列表。而不是通用的TextChunkFilter界面我将过滤限制为手头的标准，即按矩形区域进行过滤。

public static class ReaderExtensions
{
    public static string[] ExtractText(this PdfPage page, params Rectangle[] rects)
    {
        var textEventListener = new LocationTextExtractionStrategy();
        PdfTextExtractor.GetTextFromPage(page, textEventListener);
        string[] result = new string[rects.Length];
        for (int i = 0; i < result.Length; i++)
        {
            result[i] = textEventListener.GetResultantText(rects[i]);
        }
        return result;
    }

    public static String GetResultantText(this LocationTextExtractionStrategy strategy, Rectangle rect)
    {
        IList<TextChunk> locationalResult = (IList<TextChunk>)locationalResultField.GetValue(strategy);
        List<TextChunk> nonMatching = new List<TextChunk>();
        foreach (TextChunk chunk in locationalResult)
        {
            ITextChunkLocation location = chunk.GetLocation();
            Vector start = location.GetStartLocation();
            Vector end = location.GetEndLocation();
            if (!rect.IntersectsLine(start.Get(Vector.I1), start.Get(Vector.I2), end.Get(Vector.I1), end.Get(Vector.I2)))
            {
                nonMatching.Add(chunk);
            }
        }
        nonMatching.ForEach(c => locationalResult.Remove(c));
        try
        {
            return strategy.GetResultantText();
        }
        finally
        {
            nonMatching.ForEach(c => locationalResult.Add(c));
        }
    }

    static FieldInfo locationalResultField = typeof(LocationTextExtractionStrategy).GetField("locationalResult", BindingFlags.NonPublic | BindingFlags.Instance);
}

中央扩展是LocationTextExtractionStrategy扩展需要一个LocationTextExtractionStrategy它已经包含页面中的信息，将这些信息限制为给定矩形中的信息，提取文本，并将信息返回到先前的状态。这需要一些反思；我希望这对你来说没问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 iText7 从 PDF 中提取文本。如何提高其性能？的相关文章

任务并行库周围是否有一个接口包装器，以便我可以将其交换用于单元测试？

I asked 这个问题 https stackoverflow com questions 3362734 unit testing concurrent software what do you do不久以前我现在知道这是一个坏主意
使用具有现有访问令牌的 Google API .NET 客户端

用例如下移动应用程序正在通过 Google 对用户进行身份验证并且在某些时候我们需要将用户的视频发布到他的 YouTube 帐户出于实际原因实际发布应该由后端完成已经存储在那里的大文件由于用户已经通过应用程序的身份验证因此应
为什么我不能用 `= delete;` 声明纯虚函数？

Intro 纯虚函数使用通用语法声明 virtual f 0 然而自 c 11 以来有一种方法可以显式地传达non existence 特殊成员函数的 Mystruct delete eg default constructor Q
为什么大多数 C 开发人员使用 Define 而不是 const？ [复制]

这个问题在这里已经有答案了在许多程序中 define与常量具有相同的用途例如 define FIELD WIDTH 10 const int fieldWidth 10 我通常认为第一种形式优于另一种形式它依赖于预处理器来处理基本上是
如何创建可以像 UserControl 一样编辑的 TabPage 子类？

我想创建一个包含一些控件的 TabPage 子类并且我想通过设计器来控制这些控件的布局和属性但是如果我在设计器中打开子类我将无法像在 UserControl 上那样定位它们我不想创建一个带有 UserControl 实例的 Tab
C++：重写已弃用的虚拟方法时出现弃用警告

我有一个纯虚拟类它有一个纯虚拟方法应该是const 但不幸的是不是该接口位于库中并且该类由单独项目中的其他几个类继承我正在尝试使用这个方法const不会破坏兼容性至少在一段时间内但我找不到在非常量方法重载时产生警告的方法以下
JSON 数组到 C# 列表

如何将这个简单的 JSON 字符串反序列化为 C 中的列表 on4ThnU7 n71YZYVKD CVfSpM2W 10kQotV 这样 List
IronPython：没有名为 json 的模块

我安装了 IronPython 我的 python 文件如下所示 import sys print sys version import json 运行它的代码 var p Python CreateEngine var scope p C
Qt 创建布局并动态添加小部件到布局

我正在尝试在 MainWindow 类中动态创建布局我有四个框架它们是用网格布局对象放置的每个框架都包含一个自定义的 ClockWidget 我希望 ClockWidget 对象在调整主窗口大小时相应地调整大小因此我需要将它们添加到
生产代码中的 LRU 实现

我有一些 C 代码需要使用 LRU 技术实现缓存替换目前我知道两种实现LRU缓存替换的方法每次访问缓存数据时使用时间戳最后比较替换时的时间戳使用缓存项的堆栈如果最近访问过它们则将它们移动到顶部因此最后底部将包含 LRU 候选
在 C 中使用 GNU automake 中的解析器

我是 GNU autotools 的新手在我的项目中使用了 lex 和 yacc 解析器将它们作为 makefile am 中的源代码会产生以下错误配置 in AC CHECK PROGS YACC bison yacc none i
g++ 对于看似不相关的变量“警告：迭代...调用未定义的行为”

考虑以下代码strange cpp include
是否可以有一个 out ParameterExpression？

我想定义一个 Lambda 表达式out范围有可能做到吗下面是我尝试过的 C Net 4 0 控制台应用程序的代码片段正如您在 procedure25 中看到的我可以使用 lambda 表达式来定义具有输出参数的委托但是当我想使
耐用功能是否适合大量活动？

我有一个场景需要计算 500k 活动都是小算盘由于限制我只能同时计算 30 个想象一下下面的简单示例 FunctionName Crawl public static async Task
剪贴板在 .NET 3.5 和 4 中的行为有所不同，但为什么呢？

我们最近将一个非常大的项目从 NET Framework 3 5 升级到 4 最初一切似乎都工作正常但现在复制粘贴操作开始出现错误我已经成功制作了一个小型的可复制应用程序它显示了 NET 3 5 和 4 中的不同行为我还找到了一种解
我在在线程序挑战编译器中遇到演示错误

include
WinRT 定时注销

我正在开发一个 WinRT 应用程序要求之一是应用程序应具有定时注销功能这意味着在任何屏幕上如果应用程序空闲了 10 分钟应用程序应该注销并导航回主屏幕显然执行此操作的强力方法是在每个页面的每个网格上连接指针按下事件并在触
使用 CSharpCodeProvider 类编译 C# 7.3 的 C# 编译器版本是什么？

我想使用 Microsoft CSharp CSharpCodeProvider 类来编译 C 7 3 代码编译器版本在 IDictionary 中指定在创建新的 CSharpCodeProvider 时将其作为输入例如 Compil
Googletest：如何异步运行测试？

考虑到一个包含数千个测试的大型项目其中一些测试需要几分钟才能完成如果按顺序执行整套测试需要一个多小时才能完成通过并行执行测试可以减少测试时间据我所知没有办法直接从 googletest mock 做到这一点就像 async选项
错误：无效使用不完整类型“类 Move”/未定义对 Move::NONE 的引用

拜托我不知道为什么这个简单的代码被拒绝它给了我 2 个编译错误请帮帮我 I use 代码块 20 03 我的编译器是GNU GCC 移动 hpp class Move public Move Move int int public

随机推荐

重新创建一个组件？

有没有办法在 Svelte 中重新创建组件上下文是我有一个已经创建的组件一旦它完成它的过程我希望它被销毁然后再次创建这会将其属性恢复到默认状态并确保对其嵌套组件执行相同的操作我想这在技术上可以通过现有的组件方法实现但我想知道是
不同类型List的通用unapply方法

有没有办法用泛型来概括这段代码 object ListInt def unapply o Any Option List Int o match case lst List if lst forall isInstanceOf Int gt
可以在 Typescript 中扩展类型吗？

假设我有以下类型 type Event name string dateCreated string type string 我现在想扩展这种类型即 type UserEvent extends Event UserId string 这
OPTIONS http 方法在 Heroku 上给出空响应

当我在本地执行操作时我的 CORS 调用工作正常 curl i X OPTIONS http localhost 3000 api v1 login HTTP 1 1 200 OK X Powered By Express Access
Android 地图片段

我正在尝试创建一个具有一个活动和多个片段的 Android 应用程序每个片段在视图中时都会占据整个屏幕并且通过替换事务它应该切换到另一个片段
用于禁用警告的 SunStudio C++ 编译器编译指示？

与 Sun Studio11 捆绑在一起的 STLport 会生成大量警告我相信大多数编译器都有办法禁用某些源文件的警告如下所示 Sun C pragma error messages off include
属性不会序列化到 .designer.cs 文件中

在 VS2010 中尽管使用 ShouldSerializeFoo 方法但使用 DesignerSerializationVisibility Visible Content 也不会序列化控件属性这是代码 class Class1 U
使用或不使用正则表达式提取 YouTube ID

请告诉我如何在不使用正则表达式的情况下获取youtube ID 使用上述方法以下 URL 没用 http www youtube com e dQw4w9WgXcQ public static String extractYTId Stri
读取 JSF 应用程序内的资源文件

我需要在 JSF 应用程序中获取资源文件 InputStream input new FileInputStream filename xml 然而系统并没有发现filename xml文件该文件与以下文件位于同一文件夹中sample x
在 PowerShell 中终止指定用户运行的进程

如何杀死指定用户运行的所有同名进程例如我可以有多个程序 exe由不同的用户运行我可以使用 get process program exe kill 杀死他们所有人但我只想杀死指定用户运行的那些实例有没有方便的方法来做到这一点 V5
如何使用 Node JS (Express) 在 s3 存储桶中一次上传多个图像

require dotenv config const AWS require aws sdk const multer require multer const multerS3 require multer s3 const uuid
WooCommerce 购物车总表时间顺序更改

How do i add Delivery Fee after Sales Tex 在 Woocommerce 购物车页面中您需要覆盖模板cart cart totals php 通过主题所以你必须移动费用块 tr class fee
“ret”指令访问冲突

我有这个函数它主要由内联汇编组成 long toarrayl int members asm push esp mov eax members imul eax 4 push eax call malloc mov edx eax mov
* 和 deref 方法有什么区别？ [复制]

这个问题在这里已经有答案了例如我有一个实现了 Deref 的结构 use std ops Deref DerefMut IndexMut derive Debug struct Selector
在嵌套的 Fragment 之间传递数据

我正在开发一个项目我必须在片段之间传递数据所有数据均由我提供DatabaseHandler class SQLiteOpenHelper 我正在手写这篇文章因此请忽略语法错误如果有这是我的Activity看起来像包含 Selec
将 C++ 函数对象作为线程例程传递给 pthread_create 函数

我知道传递给 pthread create API 的线程例程具有以下原型 void threadproc void 我只是想知道是否可以使用 C 函数对象作为线程例程这是我的代码执行运行方法需要一个time t变量和一个functo
VBA 在特定时间段内从用户创建的文件夹中删除 Outlook 邮件

我正在寻找一个 VBA 代码片段来删除六 6 个月或更早且位于用户创建的文件夹中的 Outlook 邮件该代码是什么样的这是一个示例脚本 Sub DeleteOlderThan6months Dim oFolder As Folder
通过反射传递引用嵌套结构

type Client struct Id int Age int PrimaryContact Contact Name string type Contact struct Id int ClientId int IsPrimary b
在 Razor 中生成动态 XML

我在 ASP NET 之外使用 Razor 从模板生成 XML 文档我有以下代码
使用 iText7 从 PDF 中提取文本。如何提高其性能？

目前我使用此代码从矩形区域中提取文本 public static class ReaderExtensions public static string ExtractText this PdfPage page Rectangle

使用 iText7 从 PDF 中提取文本。如何提高其性能？

使用 iText7 从 PDF 中提取文本。如何提高其性能？ 的相关文章

随机推荐

热门标签

使用 iText7 从 PDF 中提取文本。如何提高其性能？的相关文章