PDFBox 中的 load() 和 parse() 方法可能存在错误？

2024-04-11

我尝试使用PDFBox http://pdfbox.apache.org/定期.pdf文件并且工作正常。

但是当我遇到损坏的.pdf，代码会“冻结”..不抛出错误或其他东西..简单地说load or parse函数需要永远执行

Here is 损坏的文件 https://dl.dropboxusercontent.com/u/41007907/MYFILE.zip（我已将其压缩，以便每个人都可以下载），它可能不是本机 pdf 文件，但它被保存为.pdf扩展名只有 4 Kb。

我根本不是专家，但我认为这是 PDFBox 的一个错误。根据文档，两者load() and parse()如果方法失败，则应该抛出异常。但是，对于我的文件，代码将永远执行并且不会抛出异常。

我尝试仅使用load,可以尝试一下parse().. 结果是一样的

import java.io.FileNotFoundException;
import java.io.IOException;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.util.PDFTextStripper;

public class TestTest {

    public static void main(String[] args) throws FileNotFoundException, IOException {
        System.out.println(pdfToText("C:\\..............MYFILE.pdf")); 
        System.out.println("done ! ! !");
    }
    private static String pdfToText(String fileName) throws IOException {
        PDDocument document = null;
        document = PDDocument.load(new File(fileName)); // THIS TAKES FOREVER
        PDFTextStripper stripper = new PDFTextStripper();
        document.close();
        return stripper.getText(document);
    }
}

如何强制此代码抛出异常或停止执行.pdf文件已损坏？谢谢

尝试这个解决方案：

private static String pdfToText(String fileName) {
    PDDocument document = null;
    try {
        document = PDDocument.load(fileName);
        PDFTextStripper stripper = new PDFTextStripper();
        return stripper.getText(document);
    } catch (IOException e) {
        System.err.println("Unable to open PDF Parser. " + e.getMessage());
        return null;
    } finally {
        if (document != null) {
            try {
                document.close();
            } catch (IOException e) {
                e.printStackTrace();
            }
        }
    }
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

PDFBox

PDFBox 中的 load() 和 parse() 方法可能存在错误？的相关文章

如何将画廊意图中的“打开”更改为“完成”？

我使用以下意图打开画廊来选择多个图像和视频 Intent intent new Intent intent setType image video intent putExtra Intent EXTRA ALLOW MULTIPLE tr
@RestController 没有 @ResponseBody 方法工作不正确

我有以下控制器 RestController RequestMapping value base url public class MyController RequestMapping value child url method Req
JVisualVM/JConsole 中的 System.gc() 与 GC 按钮

我目前正在测试处理 XML 模式的概念验证原型并围绕一个非常消耗内存的树自动机外部库我已经获得了源代码构建我想绘制真实峰值堆随着模式大小的增加不同运行的内存消耗使用的指标符合我的目的并且不会影响问题或者至少是它的合理近似
使用 GWT 读取非常大的本地 XML 文件

我正在使用 GWT 构建我的第一个 Java 应用程序它必须从一个非常大的 XML 文件中读取数据当我尝试发送对文件中信息的请求时遇到问题并且我不太确定它是否与文件的大小或我的语义有关在我的程序中我有以下内容 static fin
“java.net.MalformedURLException：未找到协议”读取到 html 文件

我收到一个错误 java net MalformedURLException Protocol not found 我想读取网络上的 HTML 文件 mainfest uses permission android name android
通往楼梯顶部的可能路径

这是一个非常经典的问题我听说谷歌在他们的面试中使用过这个问题问题制定一个递归方法打印从楼梯底部到楼梯顶部的所有可能的独特路径有 n 个楼梯您一次只能走 1 步或 2 步示例输出如果它是一个有 3 级楼梯的楼梯 1 1 1 2
在 Wildfly 中与 war 部署共享 util jar 文件

假设我有一个名为 util jar 的 jar 文件该 jar 文件主要包含 JPA 实体和一些 util 类无 EJB 如何使这个 jar 可用于 Wildfly 中部署的所有 war 无需将 jar 放置在 war 的 WEB IN
使用 Mockito 模拟某些方法，但不模拟其他方法

有没有办法使用 Mockito 模拟类中的某些方法而不模拟其他方法例如在这个诚然是人为的 Stock我想嘲笑的班级getPrice and getQuantity 返回值如下面的测试片段所示但我想要getValue 执行乘法如
Docker 和 Eureka 与 Spring Boot 无法注册客户端

我有一个使用 Spring Boot Docker Compose Eureka 的非常简单的演示我的服务器在端口 8671 上运行具有以下应用程序属性 server port 8761 eureka instance prefer i
JMenu 中的文本居中

好吧我一直在网上寻找有关此问题的帮助但我尝试的任何方法似乎都不起作用我想让所有菜单文本都集中在菜单按钮上当我使用setHorizontalTextPosition JMenu CENTER 没有变化事实上无论我使用什么常量菜单
是否可以使用 Java Guava 将函数应用于集合？

我想使用 Guava 将函数应用于集合地图等基本上我需要调整 a 的行和列的大小Table分别使所有行和列的大小相同执行如下操作 Table
“无法实例化活动”错误

我的一个 Android 应用程序拥有大约 100 000 个用户每周大约 10 次我会通过 Google 的市场工具向我报告以下异常情况 java lang RuntimeException Unable to instantiate
Java Swing：需要一个高质量的带有复选框的开发 JTree

我一直在寻找一个 Tree 实现其中包含复选框其中当您选择一个节点时树中的所有后继节点都会被自动选择当您取消选择一个节点时树中其所有后继节点都会自动取消选择当已经选择了父节点并且从其后继之一中删除了选择时节点颜色将发生变化
在 Google App-Engine JAVA 中将文本转换为字符串，反之亦然

如何从字符串转换为文本 java lang String to com google appengine api datastore Text 反之亦然 Check Javadoc http code google com appengin
Hamcrest Matchers - 断言列表类型

问题我目前正在尝试使用 Hamcrest Matchers 来断言返回的列表类型是特定类型例如假设我的服务调用返回以下列表 List
Resteasy 可以查看 JAX-RS 方法的参数类型吗？

我们使用 Resteasy 3 0 9 作为 JAX RS Web 服务最近切换到 3 0 19 我们开始看到很多RESTEASY002142 Multiple resource methods match request警告例如我们
Android：无法发送http post

我一直在绞尽脑汁试图弄清楚如何在 Android 中发送 post 方法这就是我的代码的样子 public class HomeActivity extends Activity implements OnClickListener pr
OpenCSV：将嵌套 Bean 映射到 CSV 文件

我正在尝试将 bean 映射到 CSV 文件但问题是我的 bean 具有其他嵌套 bean 作为属性所发生的情况是 OpenCSV 遍历属性找到一个 bean 然后进入其中并映射该 bean 内的所有数据如果找到另一个 bean 它就
org.apache.commons.net.io.CopyStreamException：复制时捕获 IOException

我正在尝试使用以下方法中的代码将在我的服务器中创建的一些文件复制到 FTP 但奇怪的是我随机地低于错误我无法弄清楚发生了什么 Exception org apache commons net io CopyStreamException
Java EE 目录结构

我对以下教程有疑问 http www mkyong com jsf2 jsf 2 internationalization example http www mkyong com jsf2 jsf 2 internationalizatio

随机推荐

strings.xml：错误：多次找到项目字符串/按钮

strings xml Error Found item String button more than one time 如何摆脱这个问题帮助在您的情况下您不能有多个具有相同名称按钮的字符串为每个人指定唯一的名称如下所示
Java 中记录与类的 hashCode() 和 equals() 的默认实现

尝试使用示例代码来检查默认行为equals and hashCode for record vs class 但它的行为似乎有所不同record相比于class 这是代码示例record and class public class Equ
访问 *ngIf 中的局部变量

我有一个带有下拉菜单的 primeng 角度 2 对话框我想在对话框显示时将焦点设置到下拉列表问题似乎是我的div有条件地呈现 My code
如何在 Eclipse 中启用列选择模式？

News 写道 Eclipse 3 5 终于支持列选择不幸的是我不知道如何启用它我尝试按 ALT 键就像我在 Visual Studio 和所有其他 Microsoft 产品中习惯的那样但这没有效果如何在 Eclipse 中标记垂
Visual Studio Code 终端无法启动

我尝试编译程序但终端未打开错误终端进程启动失败起始目录 cwd D vs code march long 2020 不存在这家伙有同样的错误但弹出窗口不同link https stackoverflow com posts 63
如何使用 linq/Entity Framework 绑定 gridview？

我需要绑定GridView 我正在使用这段代码 ProductDBEntities db new ProductPDBEntities var pro from u in db Products where u PID 1 select u
创建包含适用于 Selenium 的 Firefox 和 Chrome 驱动程序的 Dockerfile

我有以下 Dockerfile 将构建 Selenium 服务器 FROM selenium standalone firefox 3 4 0 chromium FROM selenium standalone chrome USER ro
Elasticsearch 6.2 / Kibana查询：一字段必须存在，一字段不能存在

我的愿望是搜索 field 存在且 fields b 不存在的文档有没有办法使用 Kibana 中的 Lucene 查询语法 Kibana 的发现部分中的搜索字段来执行此操作我尝试过使用缺失字段 b没有成功 exists
我什么时候需要基础活动和基础片段？

在我看到的很多示例中所有活动和片段都从基本活动和基本片段扩展而来 2个问题我应该什么时候使用它里面应该放什么样的代码通常当我需要在所有活动片段的一些生命周期回调中做一些工作时我会使用基本活动片段例如如果您使用牛油刀 ht
如何将子元素附加到 React 元素

我想用循环将 child 附加到我的主 div let mainContainer React createElement div className contexCon 像这样 for let i 0 i lt 3 i mainConta
如何在 Django 管理表单中添加自定义操作按钮并发布信息

我是姜戈新手我正在使用 Django 管理我怎样才能制作一个新按钮靠近保存并发布信息并在 python 脚本中使用它我正在使用 Django 版本 2 管理员 py admin site register Router admin
找不到具有以下功能的代理：grunt

当我尝试在本地 TFS 2015 Update 1 上对构建进行排队时收到以下错误消息找不到具有以下功能的代理 grunt 我已经安装了NodeJS and grunt cli他们在path 即它们可以从任何位置在 cmd 中执行我缺
无法调用未定义的方法“then”

为什么我收到无法调用未定义的方法 then http plnkr co edit yWS6hRjmZZeZMJyVA0zy p preview http plnkr co edit yWS6hRjmZZeZMJyVA0zy p previ
如何禁用 d3 对数刻度中的小刻度？

我的实时 d3 对数刻度图如下所示我只想显示主要刻度及其标签 10 2 10 1 10 0 10 1 10 2 but 不是小蜱虫我希望日志 Y 轴看起来像这样没有小刻度我怎样才能做到这一点 EDIT 发布一些代码 svg d3 s
ViewState 与 ASP.NET MVC 相关吗？

我正在学习 ASP NET MVC ASP NET 的许多概念如身份验证授权会话状态仍然适用于它但从我所了解的情况来看我不认为 ViewState 在 ASP NET 应用程序中仍然相关但它就在那里 System Web Mv
Codeigniter - cookie 在 Internet Explorer 8 中不起作用

此代码适用于除 Internet Explorer 8 之外的所有浏览器 this gt input gt set cookie array name gt test cookie value gt hello from cookie ex
T-SQL 和 WHERE LIKE %Parameter% 子句

我试图编写一个使用 WHERE LIKE text 子句的语句但当我尝试使用文本参数时我没有收到结果例如这有效 SELECT Employee WHERE LastName LIKE ning 这将返回用户 Flenning Man
Json.Encode 在 CS 文件中工作，但在 CSHTML 中不起作用

在我的 CS 文件中我正在执行以下命令它按预期工作 using System Web Helpers String json System Web Helpers Json Encode null 但是在我的 CSHTML 文件中我
使用 jQuery 重新绑定 DOM 事件

这纯粹是一个理论问题所以我不是在寻找替代解决方案有没有办法让默认处理程序执行类似的操作 var defaultHandler test click test unbind click test bind click defaultHan
PDFBox 中的 load() 和 parse() 方法可能存在错误？

我尝试使用PDFBox http pdfbox apache org 定期 pdf文件并且工作正常但是当我遇到损坏的 pdf 代码会冻结不抛出错误或其他东西简单地说load or parse函数需要永远执行 Here is 损坏的文

PDFBox 中的 load() 和 parse() 方法可能存在错误？

PDFBox 中的 load() 和 parse() 方法可能存在错误？ 的相关文章

随机推荐

热门标签

PDFBox 中的 load() 和 parse() 方法可能存在错误？的相关文章