性能 iText 与 PdfBox (2014)

2023-11-22

我正在尝试将 pdf（我最喜欢的书《Effective Java》，如果重要的话）转换为文本，我检查了 iText 和 Apache PdfBox。我发现性能有很大差异：使用 iText 需要 2 分 521 秒，使用 PdfBox 需要 6 分 117 秒。这是我的 PdfBOx 代码

PDFTextStripper stripper = new PDFTextStripper();
BUFFER.append(stripper.getText(PDDocument.load(pdf)));

这是针对 iText 的

PdfReader reader = new PdfReader(pdf);
for (int i = 1; i <= reader.getNumberOfPages(); i++) {
  BUFFER.append(PdfTextExtractor.getTextFromPage(reader, i));
}

我的问题是性能取决于什么，有没有办法让 PdfBox 更快？还是只使用iText？您能否详细解释一下策略如何影响绩效？

我的问题是性能取决于什么，有没有办法让 PdfBox 更快？

一个主要区别是 PDFBox 总是逐字形处理文本字形，而 iText 通常逐块处理它（即文本绘制操作的单个字符串参数）；这大大减少了 iText 中所需的资源。此外，iText 文本解析的面向事件的架构意味着比 PDFBox 的资源负担更低。 PDFBox 会将非纯文本提取严格需要的信息保留更长时间，从而消耗更多资源。

但库最初加载文档的方式也可能会产生影响。这里你可以尝试一下，PDFBox不仅提供了多种PDDocument.load过载，但也有一些PDDocument.loadNonSeq重载（实际上PDDocument.loadNonSeq正确读取文档PDDocument.load可能会被欺骗而误解 PDF）。所有这些不同的变体可能具有不同的运行时行为。

更多关于策略如何影响绩效的信息？

iText 带来了一种简单且更高级的文本提取策略。简单的假设页面内容流中的文本按阅读顺序出现，而更高级的则进行排序。默认情况下使用更高级的一种。因此，您可能可以通过使用简单的策略来进一步加快 iText 的速度。 PDFBox 始终进行排序。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

性能 iText 与 PdfBox (2014) 的相关文章

H.323，如何制作一个没有媒体的简单环。该脚本遵循 Q.931 设置，但仍然无法正常工作

谁能帮我解决这个问题吗当我发送此请求时我在wireshark中看到数据包将发送到1720 tcp端口中的SJPhone 但 SJPhone 仍然没有响铃我想让它响起无论媒体我非常感谢您的支持我一定缺少消息协议细节来实现这个请给
帮助我避免 JPA、Hibernate 和 MySQL 的连接超时

我正在使用 JPA Hibernate 作为提供者 Glassfish 和 MySQL 开发中一切都运行良好但是当我将应用程序部署到测试服务器并让它运行大部分空闲过夜时我通常会在早上遇到这样的情况 2011 03 09T15 06
jpa2 CriteriaBuilder order by “ORDER BY 表达式必须出现在选择列表中”

我正在写一个查询标准生成器但无法添加order by子句因为它随消息一起抛出错误ORDER BY 表达式必须出现在选择列表中这是我的实体 public class A Integer aId ManyToOne JoinColumn n
ResultSet：通过索引检索列值与通过标签检索

使用 JDBC 时我经常遇到这样的结构 ResultSet rs ps executeQuery while rs next int id rs getInt 1 Some other actions 我问自己以及代码作者为什么不使用
Active MQ - HelloWorld 示例异常

我正在尝试运行 hello world 示例在这里找到 http activemq apache org hello world html I added activemq all 5 5 1 jar已经到图书馆了它构建成功但出现以下警
Java Spark DataFrameReader java.lang.NegativeArraySizeException

学习 Spark for java 并尝试阅读 csv文件为DataFrame使用DataFrameReader 甚至不能得到一个超级简单的 csv文件工作因为我不断收到异常java lang NegativeArraySizeExcep
初始堆大小无效。无法创建Java虚拟机

我遇到了下一个问题我尝试通过startup bat手动启动Tomcat 但似乎没有显示任何结果然后我尝试运行shutdown bat 控制台显示如下 D apache tomcat 7 0 35 bin gt startup bat U
如何为java注释处理器编写自动化单元测试？

我正在尝试使用 java 注释处理器我可以使用 JavaCompiler 编写集成测试事实上我现在正在使用 hickory 我可以运行编译过程并分析输出问题即使我的注释处理器中没有任何代码单个测试也会运行大约半秒对于以 TDD
EL 通过 Scriptlet

在 JSP 中使用 EL 相对于 scriptlet 的优势是什么 EL 被认为是无脚本语言 EL 使 JSP 免受容易出错原始 Java 代码并强制您根据 MVC 思想编写 JSP EL 或像 JSTL 这样的标签库不可能实现的任何事情
spring mvc 跟踪引用页面

在基于注释的弹簧控制器中如果用户正在url com first page并点击一个链接或提交一份表格指出url com second page 如何制作second page知道url of first page所以这样second pa
org.apache.commons.codec.digest.Md5Crypt.md5Crypt 函数。 linux下出现异常，windows下正常

我们正在使用commons codec加密密码使用org apache commons codec digest Md5Crypt md5Crypt功能在Windows环境下工作正常但在CentOS上却抛出异常我们有3台centOS
在 Java 中创建带注释的对象时收到通知

Intent 我有一个自定义 Java 注释 DynamicField public class RESTEndpointInvoker DynamicField key httpTimeout private long httpTimeo
Java 不可变对象 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我正在学习不变性的概念据我了解一旦创建对象不可变对象就无法更改其值但我不明白不可变对象的以下用途 They are 自动是线程
.Net 4.0 应用程序在 64 位上比 32 位慢（分析和可能的解决方案）（应用程序正在使用 NetAdvantage）

我们已经用 VB NET 4 0 VS2010 编写了 NET 应用程序并使用设置为调试和发布配置的 AnyCPU 设置的所有项目进行编译我们注意到当此应用程序在 64 位环境中运行在 Windows Server 2003 R2
Java字符串查找和替换的最佳方法？

我正在寻找 Java 中字符串查找和替换的最佳方法这是一句话我的名字叫米兰人们都知道我叫米兰瓦西奇我想用 Milan Vasic 替换 Milan 弦但在我已经有 Milan Vasic 的地方情况不应该是这样搜索替换后的结
获取包中声明的所有 Java 类的名称

我正在编写一个功能它将有助于将类放入我的程序的某个包中另外我只想要子类某个类的类我需要这些类才能调用它们的静态方法有没有一种自动的方法来做到这一点如果是的话速度慢吗如果我不清楚我想要的是这样的 ArrayList
如何在Java中模拟引用传递？

我是一个十足的 Java 菜鸟我知道 Java 将所有参数视为按值传递并且还有其他几个线程人们对此进行了解释例如在 C 中我可以这样做 void makeAThree int n n 3 int main int myInt 4 m
AndroidAnnotations 和 Dagger

我正在尝试使用 Dagger 注入 Android 带注释的 Activity java lang IllegalArgumentException No inject registered for members com app serv
在没有EOF的情况下停止读取java中的输入

In 问题如何停止读取输入我的程序继续运行要求更多输入 public static void main String args throws Exception BufferedReader br new BufferedReader
使用 PDFBox 在 Android 中创建 PDF

我正在尝试通过我的 Android 应用程序创建 PDFPDFBoxapi 但出现以下错误 java lang NoClassDefFoundError org apache pdfbox pdmodel PDDocument 我已经将以下

随机推荐

Python 列表理解，具有独特的项目

有没有办法在 Python 中创建仅包含唯一项的列表理解我最初的想法是使用这样的东西 new items unicode item for item in items 然而我后来意识到我需要省略重复的项目所以我最终得到了这个丑陋的怪物
android - 如何使用 achartengine 更改图表的背景颜色

我使用 achartengine 实现了折线图但我想改变折线图的背景颜色有人建议使用以下代码来更改背景颜色 mRenderer setApplyBackgroundColor true mRenderer setBackgroundCo
用于创建尚不存在的内容的函数名称

我有时会编写一个函数如果尚不存在则只创建一些东西否则不执行任何操作名字像CreateFooIfNecessary or EnsureThereIsAFoo 做工作但他们感觉有点笨拙也可以说GetFoo 但这个名字并不意味着foo
捕获另一个表单抛出的异常

我正在尝试这样做我正在创建另一个表单它的 FormClosed 方法会抛出一个异常该异常应该由主表单捕获主要形式 try frmOptions frm new frmOptions frm ShowDialog catch Exce
循环内的 JavaScript 闭包 – 简单的实际示例

var funcs let s create 3 functions for var i 0 i lt 3 i and store them in funcs funcs i function each should log its val
在 TensorFlow 张量上调用 Keras 模型但保留权重

In Keras 作为 TensorFlow 的简化接口教程他们描述了如何在 TensorFlow 张量上调用 Keras 模型 from keras models import Sequential model Sequential m
WebRTC 对等协商工作流程如何？

我需要开发一个自定义的 WebRTC 对等点我需要在网络浏览器和非浏览器之间建立音频或和数据连接然而我很难找到对握手阶段的正确清晰的描述诸如此类的问题的答案如何在WebRTC对等连接中创建数据通道并不完全有帮助因为它们不太详
keras lstm层中的多个内核是什么意思？

On https keras io layers recurrent 我看到 LSTM 层有一个kernel and a recurrent kernel 它们的意义是什么根据我的理解我们需要 LSTM 单元的 4 个门的权重然而在
如何加密和解密 PHP 字符串？

我的意思是 Original String Salt or Key gt Encrypted String Encrypted String Salt or Key gt Decrypted Original String 也许是这样的 h
何时调用 NSURLConnection 委托的release？

当将委托传递给 a 时NSUrlConnection像这样的对象 NSURLConnection alloc initWithRequest request delegate handler 什么时候应该调用代表的release 应该是在c
Oracle执行计划中的访问和过滤谓词

Oracle执行计划中的Access谓词和Filter谓词有什么区别如果我理解正确的话访问用于确定需要读取哪些数据块而过滤则在读取块后应用因此过滤是邪恶的在下面执行计划的谓词信息部分的示例中 10 access DOMA
'-[__NSDictionaryI length]: 无法识别的选择器发送到实例' - 试图找出原因

I ve a UITableView与定制UILabel标题和副标题以使文本右对齐我的数据来自网络服务我解析并存储在其中NSArray of NSDictionary 某些标题或副标题可以是 nil 空文本为此我将其放入 try
将自定义功能区组添加到 Word 2007 中的现有自定义功能区组

如何将新组添加到现有第 3 方自定义功能区选项卡加载项我知道我可以通过指定选项卡 idMSo 值来添加到现成的功能区但如何为自定义功能区选项卡执行此操作我已经尝试过自定义功能区的 ID 值但它只是重复功能区还尝试过传递所需的自
有没有办法检查状态栏的可见性？

我有一项服务当某些顶级活动处于或不处于全屏模式时应该定期检查状态栏的可见性是否可以最后我发现了如何检查状态栏是否可见它是某种黑客但它对我有用我在我的服务中创建了该方法 private void createHelperWn
GetRoomLists 成功但没有返回任何数据

我正在使用 Exchange Web 服务调用 GetRoomLists 我们正在运行 Exchange 2010 以下代码是通过控制台应用程序执行的根据 XML 响应无错误调用成功但没有返回任何数据当您尝试通过 Outlook
在 iOS 设备上本地保存游戏分数...需要安全性吗？

我是否需要用哈希值存储分数即保护它不被用户编辑欺骗根据我的新手知识用户无法查看和操作本地存储的数据例如 plist 文件谁能详细说明一下吗编辑我在本地存储分数并定期将其上传到游戏中心排行榜即使设备已越狱我也希望具有安全性
在javascript中为什么使用“var that = this”[重复]

这个问题在这里已经有答案了嗨我是 JavaScript 新手使用这条线有什么好处 var that this 一个例子 function Person firstname lastname age this firstname fir
Mocha 如何知道done 已被指定？

如果我使用 Mocha 编写异步测试我需要做的就是在测试函数上指定 did 参数 test foo function done 我的问题是 Mocha 如何知道是否已完成测试函数的定义应该是这样的 function test title
InvalidCastException 尝试从装箱 int 转换为可为 null 的枚举

我有一个枚举 Foo public enum Foo Alpha Bravo Charlie 如果我尝试从盒装中进行以下转换int to a Foo 我得到一个InvalidCastException var x Foo object 1
性能 iText 与 PdfBox (2014)

我正在尝试将 pdf 我最喜欢的书 Effective Java 如果重要的话转换为文本我检查了 iText 和 Apache PdfBox 我发现性能有很大差异使用 iText 需要 2 分 521 秒使用 PdfBox 需要 6

性能 iText 与 PdfBox (2014)

性能 iText 与 PdfBox (2014) 的相关文章

随机推荐

热门标签