PDFBox：处理非常大的 PDF。

2024-03-13

我正在处理一些非常大的 PDF，有些大小超过 7GB。 PDF 最多有 20,000 页和许多整页彩色图像。我想使用 PDFBox 来处理 PDF，但由于大小，当我尝试打开 PDF 时，出现 OutOfMemoryError。

我正在使用版本 pdfbox-app-1.6.0，在 Windows 7 上使用 Intellij、java 6。

首先，我尝试编写一个简单的程序，仅在 PDDocument 中打开 PDF 并将每个页面复制到另一个 PDDocument：http://ideone.com/arKhB http://ideone.com/arKhB

接下来我尝试使用 PDFBoxCopyDoc http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/persistence/CopyDoc.html例子。

这两个示例都耗尽了内存。

我假设这是因为 PDFBox 正在尝试将整个文档读入内存。有没有办法让它一次只打开一页？我知道处理速度会慢一些，但目前我无法处理任何东西。

在 2.0.* 版本中，像这样打开 PDF：

PDDocument doc = PDDocument.load(file, MemoryUsageSetting.setupTempFileOnly());

这会将缓冲内存使用设置为仅使用大小不受限制的临时文件（无主内存）。

2018 年 4 月 17 日更新：更多节省内存的技巧在FAQ https://pdfbox.apache.org/2.0/faq.html。尚未描述，但自 2.0.9 起就处于活动状态，使用以下方式进行子采样（跳过像素行/行）PDFRenderer.setSubsamplingAllowed(true)进行渲染时。这可以为具有巨大图像文件的 PDF 文件节省空间。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

PDFBox

PDFBox：处理非常大的 PDF。的相关文章

存根方法时出现 InvalidUseOfMatchersException

我有这个 TestNG 测试方法代码 InjectMocks private FilmeService filmeService new FilmeServiceImpl Mock private FilmeDAO filmeDao Bef
如何将 javax.persistence.Column 定义为 Unsigned TINYINT？

我正在基于 MySQL 数据库中的现有表创建 Java 持久性实体 Bean 使用 NetBeans IDE 8 0 1 我在这个表中遇到了一个字段其类型为无符号 TINYINT 3 我发现可以执行以下操作将列的类型定义为 unsign
Java：无法从同一包中的不同类访问静态变量

这很奇怪因为我有一个可以访问 Frame dimension getWidth 的 Character 类及其伙伴 getHeight 但是当我想在 Map 类中使用它时 Eclipse 强调了它并且无法给我反馈运行该程序最终会出现
使用 Ant 将非代码资源添加到 jar 文件

我正在将 java 应用程序打包成 jar 文件我正在使用 ant 和 eclipse 我实际上需要在 jar 中直接在根文件夹下包含几个单独的非代码文件 xml 和 txt 文件而不是与代码位于同一位置我正在尝试使用includes
GWT - 如何组织项目以拥有多个网页以及它们之间的导航

我是 GET 的新手顺便说一句它给我留下了深刻的印象并且发现它对于像我这样熟悉 C NET 桌面技术并愿意编写 Web 应用程序的人来说非常有吸引力我根据 GWT Eclipse 向导生成的示例启动了自己的项目该项目生成带有面板的
在 Wildfly 中与 war 部署共享 util jar 文件

假设我有一个名为 util jar 的 jar 文件该 jar 文件主要包含 JPA 实体和一些 util 类无 EJB 如何使这个 jar 可用于 Wildfly 中部署的所有 war 无需将 jar 放置在 war 的 WEB IN
是否可以使用 Flying Saucer (XHTML-Renderer) 将 css 解析为类路径资源？

我正在尝试将资源打包到 jar 中但我无法让 Flying Saucer 在类路径上找到 css 我无法轻松构建 URL 来无缝解决此问题 https stackoverflow com questions 861500 url to l
ConcurrentHashMap 内部是如何工作的？

我正在阅读有关 Java 并发性的 Oracle 官方文档我想知道Collection由返回 public static
是否可以通过编程方式查找 logback 日志文件？

自动附加日志文件以支持电子邮件会很有用我可以以编程方式设置路径如以编程方式设置 Logback Appender 路径 https stackoverflow com questions 3803184 setting logback
从 GitHub 上托管的 Spring Cloud Config Server 访问存储库的身份验证问题

我在 GitHub 上的存储库中托管配置如果我将回购公开一切都好但如果我将其设为私有我将面临 org eclipse jgit errors TransportException https github com my user m
如何避免 ArrayIndexOutOfBoundsException 或 IndexOutOfBoundsException？ [复制]

这个问题在这里已经有答案了如果你的问题是我得到了java lang ArrayIndexOutOfBoundsException在我的代码中我不明白为什么会发生这种情况这意味着什么以及如何避免它这应该是最全面的典范 https me
Java实现累加器类，提供Collector

A Collector具有三种通用类型 public interface Collector
使用架构注册表对 avro 消息进行 Spring 云合约测试

我正在查看 spring 文档和 spring github 我可以看到一些非常基本的内容examples https github com spring cloud samples spring cloud contract sample
QuerySyntaxException：无法找到类

我正在使用 hql 生成 JunctionManagementListDto 类的实际 Java 对象但我最终在控制台上出现以下异常 org hibernate hql internal ast QuerySyntaxException
java库维护数据库结构

我的应用程序一直在开发所以偶尔当版本升级时需要创建更改删除一些表修改一些数据等通常需要执行一些sql代码是否有一个 Java 库可用于使我的数据库结构保持最新通过分析类似 db structure version 信息并执
返回 Java 8 中的通用函数接口

我想写一种函数工厂它应该是一个函数以不同的策略作为参数调用一次它应该返回一个函数该函数根据参数选择其中一种策略该参数将由谓词实现嗯最好看看condition3为了更好的理解问题是它没有编译我认为因为编译器无法弄清楚函数式
Resteasy 可以查看 JAX-RS 方法的参数类型吗？

我们使用 Resteasy 3 0 9 作为 JAX RS Web 服务最近切换到 3 0 19 我们开始看到很多RESTEASY002142 Multiple resource methods match request警告例如我们
Java中HashMap和ArrayList的区别？

在爪哇 ArrayList and HashMap被用作集合但我不明白我们应该在哪些情况下使用ArrayList以及使用时间HashMap 他们两者之间的主要区别是什么您具体询问的是 ArrayList 和 HashMap 但我认为要完
Java EE 目录结构

我对以下教程有疑问 http www mkyong com jsf2 jsf 2 internationalization example http www mkyong com jsf2 jsf 2 internationalizatio
在java中使用多个bufferedImage

我正在 java 小程序中制作游戏并且正在尝试优化我的代码以减少闪烁我已经实现了双缓冲因此我尝试使用另一个 BufferedImage 来存储不改变的游戏背景元素的图片这是我的代码的相关部分 public class QuizApp

随机推荐

如何在 Android DatePicker 中设置自定义月份名称？

如何在 Android DatePicker 中设置自定义月份名称例如 new String 一月二月您可以创建一个自定义DatePicker像这样扩展系统类 DatePicker class MyCustomDatePicker e
找不到 AsyncPostBackTrigger 的 ControlID
Kivy TextInput 位于 Android 键盘上方，但屏幕的其余部分保持原样

我正在 Kivy 中构建一个问答游戏它在屏幕底部为用户提供了一个 TextInput 选项它位于底部因为答案的线索显示在顶部我遇到的问题是当我将应用程序部署到手机上时 Android 屏幕键盘会弹出并挡住我近一半的屏幕我尝试过s
通过 shell 脚本更改文件内容

我有一个要求我需要更改文件的内容例如 xyz cfg 该文件包含如下值 group address 127 8 8 8 port 7845 Jboss username xyz ITR3 我想在需要时通过 shell 脚本更改此内容并保
我无法在 androidx.appcompat:appcompat:1.1.0 上使用 API 反射

我的 androidx appcompat appcompat 1 1 0 有问题这是一个新问题因为在 androidx appcompat appcompat 1 0 2 上它不存在我有一个代码使用反射从微调器获取 mPopup
如何保留添加到 jQuery 匹配集中的项目的顺序？

我正在尝试按特定顺序将元素添加到 jQuery 对象但是结果集的排序方式与 DOM 树相同例如 div one div span two span p three p var result span add p add div 我想要
无法创建常量值 - 仅限原始类型

两个简单的查询异常发生在 matchings Any u gt product ProductId u ProductId 怎么了如果我写true相反一切都很好 var matchings from match in db match
Zend Framework 中的 html_entity_decode 等效项

我可以看到 HTML 转义字符串打印但如何将其解码为纯文本呢已经找这个好几个小时了 Zend Framework 是否有相反的东西 this gt escape 可以在视图文件中使用吗 Zend Framework 中的 unescap
在客户端和服务器之间共享 TypeScript 类

我有一个用 TypeScript 编写的 Node js 项目在我的项目中我有一个名为 public 的文件夹其中包含客户端代码和 HTML 还有一个名为classes ts 的文件该文件应该共享到服务器端问题是我需要在类声明之前
将 Autofac 与 SignalR 结合使用时出现范围错误

我正在尝试注入HttpContextBase在我的 SignalR 中心 public class EventHub Hub IDisconnect private readonly HttpContextBase httpContextB
PySphere 和 PyVmomi 之间有什么区别？

我需要编写 python 脚本来自动配置在 ESX ESXi 主机上运行的虚拟机的时间我不知道该使用哪个 API 我能够找到 VMWare API 的 python 绑定即 PySphere 和 PyVmomi 谁能解释一下它们之间有什
Kubernetes资源文档中的M和Mi有什么区别？

阅读 Kubernetes 文档 https kubernetes io docs concepts configuration manage resources containers https kubernetes io docs co
使用 Microsoft Graph 列出 Microsoft Sharepoint 站点

我正在使用 Microsoft Graph 使用 Microsoft OneDrive 和 Microsoft Sharepoint 据我了解从登录用户获取文件列表的 URLOneDrive is v1 0 me drive root c
如何隐藏mapbox-gl中所有打开的标记弹出窗口？

我找不到隐藏所有打开的标记弹出窗口或什至检查标记弹出状态的方法我会想getPopup isOpen 可以让你检查状态并且getPopup remove 在迭代某个数组中所有存储的标记时运行将完成您在这里所需的操作
Minimax/ Alpha beta 剪枝移动顺序？

我读过例如 http radagast se othello Help order html http radagast se othello Help order html 首先搜索每个级别的最佳动作可以使用迭代加深找到使得搜索速度
如何在heroku中运行“Rails Runner”？

这就是我想做的查找是否有人在推特上发布过有关所提供的特定课程的推文如果有人确实发布了相关推文我想将该推文保存到我的推文模型中然后在相应的课程页面中显示该推文这些脚本通过运行在本地运行rails runner get tweets
transitiveMemberOf $filter 仅当您是直接成员时才有效

我正在尝试使用 Graph 来查明用户是否是某个组的传递成员例如 Bob 是 Marketing 的成员而 Marketing 是 Company 的成员 Bob 是 Company 的成员吗 If I do me transitive
如何在 FastAPI 的 CORS 中间件中正确使用正则表达式？

我有一个使用 FastAPI 后端和 Next js 前端的应用程序在具有稳定来源的开发和生产中我能够毫无问题地使用 CORSMiddleware 不过我已经使用 Vercel 部署了 Next js 前端并且希望利用 Vercel
提取“/”前后的字符

我试图提取之前和之后的字符但没有成功句子是 XXXX YYY ZZZ AV HAHEHRS 3061 SDDW ASDA DDSF SAO JOSE DOS CAMPOS SP CEP 00000 000 输出应该是 SAO JOSE
PDFBox：处理非常大的 PDF。

我正在处理一些非常大的 PDF 有些大小超过 7GB PDF 最多有 20 000 页和许多整页彩色图像我想使用 PDFBox 来处理 PDF 但由于大小当我尝试打开 PDF 时出现 OutOfMemoryError 我正在使用版本

PDFBox：处理非常大的 PDF。

PDFBox：处理非常大的 PDF。 的相关文章

随机推荐

热门标签

PDFBox：处理非常大的 PDF。的相关文章