使用 Apache tika 删除 PDFont 缓存

2024-03-21

我试图仅从许多不同的代码（rtf doc pdf）中提取文本。我很自然地转向 Apache Tika，因为它可以自动检测文档并相应地提取文本。我只对文本感兴趣，对格式等不感兴趣。

我的应用程序最终出现了严重的内存泄漏，经过调查，这是来自 PDFBox 依赖项的 PDFFont 类的缓存。我对从 pdf 中缓存 Fontmetrics 和其他字体格式问题不感兴趣，因为我只想提取文本。

我正在使用蒂卡1.12。有谁知道如何解决这个缓存问题。这就是我使用自动检测的方式：

        AutoDetectParser parser = new AutoDetectParser();

        BodyContentHandler handler = new BodyContentHandler(-1);
        Metadata metadata = new Metadata();
        FileInputStream inputstream = new FileInputStream(new File(child.getPath()));
        ParseContext context = new ParseContext();              
        parser.parse(inputstream, handler, metadata, context);
        String s=null;
        s =handler.toString();
        handler=null;
        context=null;
        inputstream.close();
        PDFont.clearResources();

所以我捏造了一个解决方法，然后打电话给System.gc();每次文件处理完毕时，这都会很不错，但并不能真正回答问题。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PDFBox

apachetika

使用 Apache tika 删除 PDFont 缓存的相关文章

PDFBox 2.0.4：XFA 到文本错误

我在尝试将 PDF XFA 转换为字符串时收到以下错误当我从PDFBox 1 8 12 to PDFBox 2 0 4 这是日志 Mar 09 2017 7 16 07 AM org apache pdfbox pdfparser Bas
使用 apache pdfbox 从 PDF 中提取希伯来语文本不会返回所有字符

下面的代码从中提取希伯来语文本http www language brain com journal docs Gvion Friedmann LanguageBrain7 frigvi pdf http www language brai
PDF 文本和坐标解析 [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我目前正在使用 PDF Box 来解析 pdf 并试图弄清楚如何检索有关文本的数据例如字体粗体大
使用 PDFBox 从 PDF 文档中读取特定页面

如何使用 PDFBox 从 PDF 文档中读取特定页面给定页码这应该有效 PDPage firstPage PDPage doc getAllPages get 0 如中所见教程的书签部分 http pdfbox apache org
PDFBox U+00A0 在此字体的编码中不可用

我在调用 PDField 的 setValue 方法并尝试设置包含特殊字符的值时遇到问题 field setValue TEST BY TEST 详细来说如果我的值包含 U 00A0 等字符我会收到以下异常引起原因 java lang
Apache Tika 无法正确检测 MIME 类型

我试图在使用inn上传文件时检测文件类型Apache Tika如下所示 static final List
如何修复使用 pdfbox java 链接的可访问性标记注释失败/错误？

使用 adobe 找到了解决方案 https answers acrobatusers com How I fix Tagged Annotations fail error accessibility links q228128 aspx
将图表保存为 pdf 时消除模糊图表

所以我在网上找到了一个如何将javafx图表保存为pdf的例子所以我尝试了一下 final AreaChart
向 Apache Tika 添加语言配置文件

请任何成功做到这一点的人解释一下如何做到这一点我是否需要获取我需要添加的语言的 n gram 文件是创造的问题吗tika language override properties 添加一些其他 lang 代码并在 classPath 上
PDFBox 2.0.0 - 使用密码解密

我正在尝试使用 PDFBox 2 0 0 的密码解锁 PDF 在 1 8 11 中我使用的是PDDocument openProtection DecryptionMaterial pm http grepcode com file rep
java.lang.IllegalArgumentException：协议= http主机= null

对于这个链接这段代码不起作用但如果我添加另一个例如 https www google com https www google com一切都好 URL url new URL http bits blogs nytimes com 201
使用 PDFBox 设置字符间距

我目前正在使用 Java 和 PDFBox 库来动态创建一些 PDF 我需要能够设置某些文本的字符间距跟踪但似乎无法弄清楚看起来有一种方法可以做到这一点 http ci apache org projects pdfbox javad
PDFBox - PageDrawer 在 PdfPagePanel 外部绘制

我正在使用 PDFBox 在我的应用程序中显示生成的 pdf 文件我将 PdfPagePanel 添加到 JScrollPane 中当我缩小窗口并出现滚动条时 PageDrawer 会绘制到滚动条上这种效果也出现在 PDFReader
Apache PDFBox：如何指定要输出的文本的位置

所以基本上我已经实现了在特定位置生成 pdf 时创建文本但现在我的问题是如何处理位于不同位置的文本预期生成的 PDF contentStream setLeading 15 contentStream newLineAtOffset
PDF Signing，生成的PDF文档认证无效？（使用外部签名、web-eid、HSM）

我有一项服务可以对数据进行签名并为我提供签名的哈希值它正确生成 PKCS 7 DigestInfo 如中所述rfc2315 section 9 4 Something like this 上述系统的代码是 https pastebin c
计算pdf中（Td，TD，Tm，cm，T*）内容流的确切位置？

获取或计算 pdf 中 Td TD Tm cm T 内容流的确切位置作为一个人我能够通过比较字形在pdf和内容流位置值中的位置来计算无论是替换最后一个Td还是添加到最后一个Td或与fontsize相乘 pdf内容流中标签的位置但我无
从 Rails 应用程序（Word、PDF、Excel 等）搜索附件

我在 Stack Overflow 上发表的第一篇文章请温柔一点我即将为客户启动一个新的 Ruby on Rails 3 1 项目他们的要求之一是有一个搜索引擎该引擎将索引大约 2 000 个文档这些文档是 PDF Word Ex
PDFBox：处理非常大的 PDF。

我正在处理一些非常大的 PDF 有些大小超过 7GB PDF 最多有 20 000 页和许多整页彩色图像我想使用 PDFBox 来处理 PDF 但由于大小当我尝试打开 PDF 时出现 OutOfMemoryError 我正在使用版本
使用 Apache tika 删除 PDFont 缓存

我试图仅从许多不同的代码 rtf doc pdf 中提取文本我很自然地转向 Apache Tika 因为它可以自动检测文档并相应地提取文本我只对文本感兴趣对格式等不感兴趣我的应用程序最终出现了严重的内存泄漏经过调查这是来自 PD
使用 Tika jars 检查 Mimetype

我正在开发标准的单独 Java 批处理过程我正在尝试使用 Tika Jars 确定文件附件 mimetype 我正在使用 Tika 1 4 Jar 文件我的代码看起来像 Parser parser new AutoDetectParse

随机推荐

使用 JPype-total 新手查询从 Python 调用 jar 文件

所以我一直在使用 subprocess call 来运行jar来自 Python 的文件如下 subprocess call java jar jarFile jar a input file output file 它将结果写入外部 ou
Flask - 当内容类型为“application/x-www-form-urlencoded”时，如何读取 POST 请求中的原始正文

结果 Flask 设置了request data如果请求的内容类型为空字符串application x www form urlencoded 由于我使用的是 JSON 正文请求我只想解析 json 或强制 Flask 解析它并返回req
将主题应用到应用程序小部件

我正在尝试为应用程序小部件定义一个主题并将其应用于应用级别我有一个主题比如在我的清单中我设置了android theme style theme dark 在应用程序中但是当我运行应用程序小部件时它不会从样式中获取项目我
Oracle ORA-00933: SQL 命令未正确结束？

我不断收到此错误我该如何解决这个问题 Error java sql SQLSyntaxErrorException ORA 00933 SQL 命令未正确结束 Code
AWS：为实例指定安全组时，其 ENI 是否在幕后指定了安全组？

这里我有一个AWS实例它指定了两个安全组default and my first group 现在我想让这个实例 ssh 可用以下两种方式都有效使用新的安全组指定该实例ssh available 或者找到该实例的弹性网络接口 ENI
严重：为 servlet 分配异常 java.lang.ClassNotFoundException：异常 [重复]

这个问题在这里已经有答案了当我使用以下内容时web xml 我的项目运行良好我可以看到 Hello World 通过index jsp 页面显示我在用网豆 7 4 and 阿帕奇汤姆猫 6 0 41
如何删除 JavaScript 中的查询字符串参数？

除了使用正则表达式之外是否有更好的方法可以从标准 JavaScript 中的 URL 字符串中的查询字符串中删除参数这是我到目前为止所想出的似乎在我的测试中有效但我不喜欢重新发明查询字符串解析 function RemovePara
在android中使用Intent选择PDF文件

嘿我是 android 新手我有一个选择要求pdf文件使用Intent 我正在使用此代码来设置 MIME 类型 Intent intent new Intent Intent ACTION GET CONTENT intent setT
Android Studio 无法解析导入项目中的 R？

我正在尝试新的 Android Studio 我使用 build gradle 选项从 eclipse 导出了一个项目然后我将其导入到 Android Studio 中 gen下的R java文件上面有一个小红圈的j 在我的源文件中只要
当选中某个项目时，UpdatePanel 内的复选框列表会触发完整回发

所以我有这个复选框列表我想为其内部的元素实现全选功能我将其放置在 UpdatePanel 中但每次单击某个项目时整个页面都会重新加载这是我的代码
如何使用 VIM 搜索项目的所有文件？

有几件事我还不明白 VIM 方式其中之一是在项目中进行搜索如下所示在 Atom 中使用 VIM 我目前使用 CtrlP 作为文件名但是内容呢如何使用字符串进行搜索然后使用 VIM 和或 VIM 插件查看所有出现的事件的列表我
launchctl 无法运行二进制文件并以代码 78 退出

我一直在构建一个 golangapp https gist github com krlc 8b9a79b33b857d1a66221ffc802d3c0d带有系统托盘 GUI 我想了launchctl每当我登录时运行我的程序程序编译并运
使用 Docker Compose 的交互式 shell

有没有办法仅使用 Docker Compose 在容器中启动交互式 shell 我在 docker compose yml 中尝试过类似的操作 myapp image alpine latest entrypoint bin sh 当我使用
SublimeLinter：PHP linting 不起作用

PHP linting 不适用于SublimeLinter https github com SublimeLinter SublimeLinter虽然它说PHP loaded在控制台中我正在 Windows 上工作此外如果我打开命令
哪里可以找到Hibernate的DTD？

hibernate jar 中的 DTD 是了解可以包含哪些属性以及该标记的预期名称的好方法打开 DTD 文件是获取所有元素和属性概览查看默认值以及一些注释的最简单方法这将帮助程序员从头开始编写 hibernate cfg xml 文
VS2022：如何使 ASP.NET Core 5 应用程序显示其控制台窗口

在 VS2019 中当我启动 ASP NET Core 5 应用程序时它只公开一个 API 如果重要的话会弹出该应用程序的控制台窗口曾经有一些设置来决定是将其作为控制台独立应用程序运行还是将其托管在 IIS Express 中我
Glassfish 4不加载js文件

我最近搬家了从 glassfish 3 1 jsf 2 0 primefaces 3 5 java 6 到 glassfish 4 jsf 2 2 primefaces 5 java 8 Javascript 文件通常是 Primefa
是否可以在没有开发者 ID 的情况下测试推送通知？

在 xcode 7 beta 版本之后我可以在没有开发者 ID 的情况下在真实设备上安装应用程序但是我们可以做同样的事情吗 push notification 还是必须申请开发者ID 如果有方法请参考链接为了使用 Apple 推送通
Sequelize 查找软删除的行

我试图从数据库中获取一些已软删除的行和一些未软删除的行但它对我不起作用 Model findAll where cond xxx include Model2 paranoid false then function rows do so
使用 Apache tika 删除 PDFont 缓存

我试图仅从许多不同的代码 rtf doc pdf 中提取文本我很自然地转向 Apache Tika 因为它可以自动检测文档并相应地提取文本我只对文本感兴趣对格式等不感兴趣我的应用程序最终出现了严重的内存泄漏经过调查这是来自 PD

使用 Apache tika 删除 PDFont 缓存

使用 Apache tika 删除 PDFont 缓存 的相关文章

随机推荐

热门标签

使用 Apache tika 删除 PDFont 缓存的相关文章