使用 pdfbox 解析文件内容时使用后备字体 - 会导致错误吗?

2024-01-08

我正在使用 Apache Tika 1.14,它使用 pdfbox 2.0.3。 我用它来提取文件的文本内容。在生产模式下,当处理许多文件时,我会记录许多如下语句:

WARN  o.a.p.pdmodel.font.PDTrueTypeFont - Using fallback font 'LiberationSans' for 'TimesNewRomanPSMT'
WARN  o.a.p.pdmodel.font.PDTrueTypeFont - Using fallback font 'LiberationSans' for 'TimesNewRomanPS-BoldMT'

我比较了几个文件,并将提取的文本与原始文档进行了比较,没有丢失任何内容。

我的问题是:如果我仅使用 pdfbox 进行文本提取,那么我可以安全地忽略这种类型的语句,而不会有任何错过某些内容的风险吗?或者也许我应该安装缺少的字体?

感谢您的任何建议


根据我在这里找到的https://pdfbox.apache.org/1.8/cookbook/workingwithfonts.html https://pdfbox.apache.org/1.8/cookbook/workingwithfonts.html他们建议安装所谓的标准 14 字体.

由于许可要求,我们需要提供替代字体。

基于类中的代码org.apache.pdfbox.pdmodel.font.FontMapperImpl, 这些都是标准 14 字体及其替代品:

Courier:CourierNew,CourierNewPSMT,LiberationMono,NimbusMonL-Regu
Courier-Bold:CourierNewPS-BoldMT,CourierNew-Bold,LiberationMono-Bold,NimbusMonL-Bold
Courier-Oblique:CourierNewPS-ItalicMT,CourierNew-Italic,LiberationMono-Italic,NimbusMonL-ReguObli
Courier-BoldOblique:CourierNewPS-BoldItalicMT,CourierNew-BoldItalic,LiberationMono-BoldItalic,NimbusMonL-BoldObli
Helvetica:ArialMT,Arial,LiberationSans,NimbusSanL-Regu
Helvetica-Bold:Arial-BoldMT,Arial-Bold,LiberationSans-Bold,NimbusSanL-Bold
Helvetica-Oblique:Arial-ItalicMT,Arial-Italic,Helvetica-Italic,LiberationSans-Italic,NimbusSanL-ReguItal
Helvetica-BoldOblique:Arial-BoldItalicMT,Helvetica-BoldItalic,LiberationSans-BoldItalic,NimbusSanL-BoldItal
Times-Roman:TimesNewRomanPSMT,TimesNewRoman,TimesNewRomanPS,LiberationSerif,NimbusRomNo9L-Regu
Times-Bold:TimesNewRomanPS-BoldMT,TimesNewRomanPS-Bold,TimesNewRoman-Bold,LiberationSerif-Bold,NimbusRomNo9L-Medi
Times-Italic:TimesNewRomanPS-ItalicMT,TimesNewRomanPS-Italic,TimesNewRoman-Italic,LiberationSerif-Italic,NimbusRomNo9L-ReguItal
Times-BoldItalic:TimesNewRomanPS-BoldItalicMT,TimesNewRomanPS-BoldItalic,TimesNewRoman-BoldItalic,LiberationSerif-BoldItalic,NimbusRomNo9L-MediItal
Symbol:Symbol,SymbolMT,StandardSymL
ZapfDingbats:ZapfDingbatsITC,Dingbats,MS-Gothic

据我了解,例如处理使用字体的文件时黑体我没有安装该字体,那么将使用替代字体之一:ArialMT, Arial, 解放三世, 雨云圣雷古。 很清楚。

如果我没有字体怎么办Arial(这不是其中之一标准 14 字体)已安装,我想要解放三世处理文件时使用Arial。有没有办法配置这样的映射?

还有一件事:在1.8.13版本中我在课堂上看到:org.apache.pdfbox.pdmodel.font.FontManager资源文件加载:org/apache/pdfbox/resources/FontMapping.properties可以用来提供这样的映射。 在 2.x 版本中,我看不到任何这样做的可能性。我想知道为什么被删除了...

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 pdfbox 解析文件内容时使用后备字体 - 会导致错误吗? 的相关文章

随机推荐

  • 打印出指定宽度的 ASCII 圆

    我正在尝试更改以下代码 以便得到半径 2 的输出 任何帮助将不胜感激 因为我快要疯了 public class Main public static void main String args dist represents distanc
  • 跨多个容器或父级的 jQuery UI 可排序 div

    我有一个对象列表 它被分成两个容器 我想通过 jQuery 对其进行排序 但我不知道如何使一个对象能够添加到其他容器列表中 反之亦然 因此 我希望能够将一个对象从一个容器拖到另一个容器中 并让代码将其视为一个列表 下面是我的代码
  • 如何在不变得模糊的情况下放大图像

    I have an ImageView that is 32x32 Its a sprite basically But when I go to upscale the image it blurs like this But I wan
  • 如何创建此查询

    如果我需要在选择行中包含两个聚合函数并且每个函数我需要不同的分组依据和位置条件 如何创建查询 在我的示例中 我需要返回玩家名称 以及玩家获胜的次数 可以检查桌面游戏结果 第一中的结果 以及他玩了多少次 但不知道如何处理两个聚合函数 只是我想
  • 为什么 OpenGL 中没有圆形或椭圆形图元?

    圆是基本几何实体之一 然而没有定义原语OpenGL http en wikipedia org wiki OpenGL为此 例如直线或多边形 为什么这样 一直为此包含自定义标头有点烦人 有什么具体原因可以省略吗 虽然圆形可能是基本形状 但在
  • C# WPF MenuItem 自定义模板

    在 Main xaml 中 我有这两个菜单项 第一个带有标题 断开电流 第二个带标题 Quit 更多具有不同标题文本的菜单项 为了编辑第一个项目的一些颜色 我在 App xaml 中创建了一个自定义模板
  • _SESSION 变量不起作用

    我有一个 PHP 脚本 我尝试在 HTML 标头开始之前获取会话变量 如果我使用 SESSION变量位于 HTML 正文中的某个位置 由于某种原因它可以工作 但如果我使用 SESSION变量在 HTML 开始之前 我无法从中获取值 有人知道
  • MapReduce作业的Map阶段的输出总是排序的吗?

    我对从 Mapper 获得的输出有点困惑 例如 当我使用以下输入文本运行一个简单的字数统计程序时 hello world Hadoop programming mapreduce wordcount lets see if this wor
  • Selenium.click 对某些锚元素不起作用

    我正在开发的应用程序最近进行了改进 作为其中的一部分 引入了新的 JQuery 日历 我需要单击日历中的链接来选择时间和日期 但是 Selenium click 不起作用 命令被执行 但屏幕上没有任何反应 为了检查我的 XPATH CSS
  • 如何使用 pg-promise 将 jsonb[] 数据插入列

    给定一个包含 type 列的表jsonb 如何将 json 数组插入到列中 使用提供的格式化程序 array json在这种情况下不起作用 除非我错过了正确的组合或其他东西 const links title IMDB url https
  • bootstrap-typeahead.js 在 select 事件上添加监听器

    我是 Bootstrap Twitter 框架的新手 我需要使用 bootstrap typeahead js 进行自动完成 但我还需要获取用户为 typeahead 选择的值 这是我的代码
  • 对于 std::generate,传递的函数可以使用索引吗?

    问题有点难以表达 所以我将举一个例子 可以说我这样做 generate myvec begin myvec end func 我可以拥有它 以便 function 可以读取生成的索引吗 int func if index lt 2 retu
  • Gson 有类似 @JsonProperty 的方法吗?

    Jackson 有 JsonProperty name 注释 可以应用于方法 方法的返回值将分配给 JSON 中的 name 参数 我发现 Gson 有 SerializedName 注释 但不能与方法一起使用 有没有办法获得 Gson 中
  • 使用嵌入式互操作类型时发出警告

    我最近将我的 C 解决方案之一从 VS2008 更新到 VS 2010 以利用嵌入式互操作类型功能 这样我就可以停止提供目前由于与旧版 VB6 代码库交互而必须使用的互操作库 由于某种原因 我在编译解决方案时收到以下消息 类型库导入程序遇到
  • 带有 GigE 视觉相机的 OpenCV [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 Locked 这个问题及其答案是locked help locked posts因为这个问题是题外话 但却具有历史意义 目前不接受新的
  • Google 地图 v3 自动刷新 仅标记

    我正在使用 Google 地图 V3 来显示一些图钉 我希望能够刷新标记而不影响您在地图上的位置或缩放级别 我希望标记每 x 秒更新一次 我该怎么做呢 我对 jQuery ajax 没有太多经验 我的地图的工作示例如下 http jsfid
  • Python Pillow 的缩略图方法返回 None

    我有一个小脚本 用于使用 Python 的 Pillow 库批量调整图像大小 该脚本适用于调整大小方法 但是纵横比的变化会扭曲图像 因此我尝试使用缩略图方法测试相同的脚本 我很困惑 因为从文档和其他堆栈问题看来 我可以将调整大小方法替换为缩
  • 为什么我的 UDP 客户端/服务器数据报无法进行双向通信?

    我在两个应用程序之间设置了一个简单的 UDP 客户端 服务器数据报 Android Java Client 和 Windows C Server 这是我第一次使用 Java 编程和 Android 应用程序 因此解决方案可能是显而易见的 这
  • 如何获取服务中当前登录的用户

    在 Symfony 2 8 3 0 中 使用我们精美的新安全组件 我如何获取当前记录的User 即 FOSUser 服务中的对象without注入整个容器 是否有可能在非黑客方式 PS 我们不要考虑 将其作为参数传递给服务函数 因为这是显而
  • 使用 pdfbox 解析文件内容时使用后备字体 - 会导致错误吗?

    我正在使用 Apache Tika 1 14 它使用 pdfbox 2 0 3 我用它来提取文件的文本内容 在生产模式下 当处理许多文件时 我会记录许多如下语句 WARN o a p pdmodel font PDTrueTypeFont