iText PdfTextExtractor 结果文本中缺少连字

2024-04-18

我正在尝试获取 pdf 文件并从中获取文本。

我发现了 iText 并一直在使用它，并取得了不错的成功。我剩下的一个问题是连字。

起初我注意到我只是缺少字符。经过一些搜索后，我发现了这个：http://support.itextpdf.com/node/25 http://support.itextpdf.com/node/25

当我知道我缺少的是连字时，我开始寻找解决问题的方法，但目前还没有找到解决方案。

这是我的代码：

import com.itextpdf.text.Document;
import com.itextpdf.text.pdf.PdfImportedPage;
import com.itextpdf.text.pdf.PdfReader;
import com.itextpdf.text.pdf.parser.PdfTextExtractor;
import com.itextpdf.text.pdf.parser.SimpleTextExtractionStrategy;
import com.itextpdf.text.pdf.parser.FilteredTextRenderListener;
import java.io.File;
import java.io.OutputStreamWriter;
import java.io.FileOutputStream;
import java.io.FileWriter;
import java.io.BufferedWriter;
import java.io.IOException;

import java.util.Formatter;
import java.lang.StringBuilder;


public class ReadPdf {

  private static String INPUTFILE = "F:/Users/jmack/Webwork/Redglue_PDF/live/ADP/APR/ADP_41.pdf";

  public static void writeTextFile(String fileName, String s) {    

    // s = s.replaceAll("\u0063\u006B", "just a test");
    s = s.replaceAll("\uFB00", "ff");
    s = s.replaceAll("\uFB01", "fi");
    s = s.replaceAll("\uFB02", "fl");
    s = s.replaceAll("\uFB03", "ffi");
    s = s.replaceAll("\uFB04", "ffl");
    s = s.replaceAll("\uFB05", "ft");
    s = s.replaceAll("\uFB06", "st");
    s = s.replaceAll("\u0132", "IJ");
    s = s.replaceAll("\u0133", "ij");

    FileWriter output = null;
    try {
      BufferedWriter writer = new BufferedWriter(new OutputStreamWriter(new FileOutputStream(fileName), "UTF-8"));
      writer.write(s);
      writer.close();
    } catch (IOException e) {
      e.printStackTrace();
    } finally {
      if (output != null) {
        try {
          output.close();
        } catch (IOException e) {
          e.printStackTrace();
        }
      }
    }
  }

  public static void main(String[] args) {
    try {

      PdfReader reader = new PdfReader(INPUTFILE);
      int n = reader.getNumberOfPages();    

      String str = PdfTextExtractor.getTextFromPage(reader, 1, new SimpleTextExtractionStrategy());      
      writeTextFile("F:/Users/jmack/Webwork/Redglue_PDF/live/itext/read_test.txt", str);

    }
    catch (Exception e) {
      System.out.println(e);
    }     
  }
}

在上面引用的 PDF 中，有一行内容如下：

其设计差异的一部分是屋顶线

但是当我运行上面的 Java 类时，文本输出包含：

其设计差异的一部分是屋顶

请注意，差异变成了差异，屋顶线变成了屋顶线。

有趣的是，当我从 PDF 复制并粘贴到堆栈溢出文本字段时，它看起来也像第二个句子，其中两个连字“ff”和“fl”简化为简单的“f”。

我希望这里有人可以帮助我弄清楚如何捕获连字，并可能用它们代表的字符替换它们，例如将连字“fl”替换为实际的“f”和“l”。

我对 PDFTextExtractor 的输出进行了一些测试，并尝试用实际字符替换连字 unicode 字符，但发现这些连字的 unicode 字符在它返回的值中不存在。

看来 iText 本身一定是没有正确读取这些连字。我希望有人知道如何解决这个问题。

感谢您提供的任何帮助！

TLDR：使用 iText 将 PDF 转换为文本，缺少字符，发现它们是连字，现在我需要捕获这些连字，不知道如何去做。

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

pdf

Unicode

itext

ligature

iText PdfTextExtractor 结果文本中缺少连字的相关文章

编码java Cookie值

应如何对 Java Cookie 对象的实际值进行编码我无法传递等字符或 US ASCII 之外的任何字符 Br 乔因斯如何并不重要但通常Base64 http en wikipedia org wiki Base64应该可以正常工
如何判断lucene索引版本？

我正在编写一个 shell 脚本 csh 它必须确定 lucene 索引版本然后根据该版本将索引升级到下一个版本所以如果 lucene 索引是 2 x 我必须将索引升级到 3 x 最后索引需要升级到6 x 由于升级索引是一个顺序过程
我什么时候应该在 RMI 中实现 java.io.Serializable？

我刚刚开始 Java RMI 对于何时使用 java io Serialized 存在一些问题所以任何人都可以给我一个必须实现 java io Serializing 的 RMI 示例谢谢 UPDATE i had made a sim
在 Java 中打印 HashMap

我有一个HashMap private HashMap
切换枚举值：case 表达式必须是常量表达式

我有一个具有以下结构的枚举 public enum Friends Peter Peter von Reus Engineer Ian Ian de Villiers Developer Sarah Sarah Roos Sandwich
VideoView SeekTo 在不同设备上工作异常 - Android

我在视频视图上使用此代码来寻求自定义位置但它在三星设备上工作正常但在索尼设备上视频寻求开始位置开始我想让视频回到上次暂停的位置创建视频视图 VideoView mVideoPlayer setVideoPath ViDpath
Windows API 代码包 - ShellFile 不生成 PDF 位图

使用之前堆栈溢出问题中的代码 System Drawing Bitmap image ShellFile f ShellFile FromFilePath fileLocation image f Thumbnail ExtraLargeB
Spring Boot 动态重置数据源

当 Spring 配置文件或自定义数据库属性文件中的数据库名称密码或主机名等数据库属性发生更改时我尝试更新 Spring Boot 中的数据源当属性更改时应用程序必须通过侦听属性更改来自行更新一旦数据库配置发生更改我就使用 Sp
NGINX 与 Tomcat 配置

我是 Nginx 新手我需要你的帮助根据很多论坛我了解到我们所有的静态页面都存储在Nginx中当有请求到来时我必须将该请求传递给 tomcat 获取数据并在 tomcat 生成响应后生成响应目前我刚刚做到了我将请求直接传递给
如何在Android中将图像文件转换为pdf文件

我正在尝试在 Android 应用程序中将图像文件 jpg 转换为 pdf 文件我用过itextpdf罐子和机器人文本罐都不适合我下面是使用时的代码itextpdf Document document new Document Str
当点击 JButton 连接到服务器时，程序冻结

我正在使用 Java 中的 TCP 进行简单的 1v1 私人聊天目前每当我使用 JButtons 时都会遇到问题这是我第一次尝试使用 JButtons 和 ActionListeners 所以我不能 100 确定这里发生了什么我有两
序列化的 lambda 且没有serialVersionUID？

我正在尝试了解 Java 及其最新版本的序列化如何工作我正在尝试像这样序列化 lambda Runnable r Runnable Serializable gt System out println This is a test 但我注
使用 BigInteger 进行 Karatsuba 乘法

我首先使用 long 编写了 Karasuba 算法的代码我认为它工作得很好使用相同的逻辑我将代码转换为 BigInteger 但由于某些原因它给出了 StackOverflowError 我不明白为什么请帮忙 EDIT1 长时间
异常：java.lang.ClassNotFoundException：运行 Servlet 时的 javax.servlet.http.HttpServletRequest [重复]

这个问题在这里已经有答案了我正在编写一个简单的上传 JSP 和 Servlet 教程概述如下上传教程 http www java forums org blogs servlet 667 how write servlet uploa
与 Java 7 相比，Java 8 ScriptEngine 的主要性能问题

我有一个 Java 程序使用 JDK 7u80 编译它广泛使用了 JavaScript ScriptEngine JSR 223 我注意到与 Java 7 运行时环境 JRE 7u80 相比我的程序在 Java 8 运行时环境 JR
ReactJS React-pdf 错误“无法加载 PDF 文件。”经过一些尝试

我创建了一个 React js 应用程序create react app我正在尝试react pdf查看 pdf 我遇到的问题是我的代码有时有效有时无效当我第一次加载应用程序时 pdf 总是加载得很好但如果我访问网站上的其他链接 ur
如何使用 DynamicJasper 在 JasperReports 的页脚处显示每列的总和而不进行分组？

我尝试使用下面的方法 drb addGlobalFooterVariable totalAmount DJCalculation SUM drb addGlobalFooterVariable basicAmount DJCalculati
OSGI Felix 容器正在初始化模拟私有字段

我试图模拟我的类中的一个私有字段该字段由运行我的应用程序的 OSGI 容器初始化我放了一个示例代码供参考请提供任何线索 import org apache felix scr annotations Component name My
奇怪的 Atomikos 异常 - init() 中的错误：日志已在使用中？

我们尝试在多个本地环境上运行相同的 Web 应用程序该应用程序使用 Atomikos 作为事务管理器每个环境都使用相同版本的 spring atomikos tomact 等并具有相同的配置文件其中一些工作正常但其中之一当我们尝
Spring JPA - 通过 EmbeddedId 部分查找

以下代码仅用于演示目的 My Entity豆看起来像这样 Entity class Employee EmbeddedId private EmployeeKey employeeKey private String firstName p

随机推荐

C 中正确的 Hello World [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案正确的 C 语言 Hello World 程序是什么从第一页开始 c 你好世界的 Google 搜索结果 http www google c
离线时如何将数据写入firebase？斯威夫特3

在 tableView 中我有一个工作列表这些作业可以由多个用户访问因此我需要使用 FIRTransaction 根据第一次写入 FirebaseDatabase 的结果我需要写入不写入 Firebase 中的另一个路径架构如下
Firebase 通知主题的限制

我想为我的 Android 应用程序使用 Firebase 通知我想知道主题数量是否有限制或者可以订阅某个主题的用户数量例如我可以有 10000 个主题每个主题有 100 万用户吗主题或订阅的数量没有限制主题最初推出后第一年的
自己的图像作为范围内的滑块拇指。如何在CSS上设置样式

如何使用 css 将图像设置为范围输入类型上的拇指滑块它在 Internet Explorer 中不起作用 Chrome 和 Firefox 没问题但在 IE 上我的图像被隐藏了还是怎么的我用 ms thumb 并尝试将图像设置为背景
使用 TEXT 或 VARCHAR 哪种 DATATYPE 更好？

这个问题基于两件事表现 and size 使用 TEXT 或 VARCHAR 哪种 DATATYPE 更好基于哪些性能会影响哪些性能会得到改善这取决于你用它做什么我不想给出如此笼统的答案但这是事实一般来说尝试尽可能具体地获取数据
调试时会忽略依赖项 org.apache.httpcomponents:httpclient:4.5，因为它可能与提供的内部版本冲突

我试图将图像上传到服务器由于我是 Android 新手我正在尝试使用其他代码这是我的错误错误文件 https i stack imgur com rZnw6 jpg 这是我的活动文件 import android app Activ
Excel、ActiveCell.Row 取决于单击与按 Enter 键

我的工作表中有 VBA 代码它是工作表更改事件 Private Sub Worksheet Change 在此工作表上我有带有数据验证的下拉菜单所以我可以选择一个下拉菜单并选择水果做出选择后工作表更改事件会记录我当前所在的行并
Flex - 将滚动条的位置更改为 HorizontalList 组件的顶部

默认情况下 Horizo ntalList 组件的水平滚动条位于底部有没有办法重新定位它使其位于顶部为了清楚起见我并不是指使用scrollToIndex或horizo ntalScrollPosition或类似的方法移动滚动位置而
在 Flex 中将字符串模式解析为日期

flex 中是否有某种方法可以解析迄今为止的字符串我希望它支持类似于 dateformatter 的自定义格式使用 dateformatter 类我们可以解析 formatString property 指定的各种字符串格式的日期对象
您可以在 64 位 Windows 7 上使用 Mercurial “推送”到网络共享吗？

我们正在从 Windows XP x86 升级到 Windows 7 x64 我正在测试当前工作流程的兼容性问题目前我们将中央 Mercurial 存储库存储在网络共享上将副本克隆到我们的工作站并将更改推送回基于网络的存储库这在
相当于 php call_user_func 的 javascript

我发现了我已经实现的这个主题参见已接受的答案相当于 PHP 的 call user func 的 JavaScript https stackoverflow com questions 5818313 javascript equiv
没有人拥有者（99 99）在FTP中由php功能引起？

我有一个脚本 Joomla 可以在服务器上创建文件和目录问题是它在所有者 99 99 无人下创建它们并且在没有服务器管理员帮助的情况下我无法通过 FTP 删除或修改它们我认为那是move uploaded filephp 的函数 W
加入剪贴板链最佳实践

进一步到我的post https stackoverflow com q 8695081 744588在自定义格式剪贴板上我正在考虑编写自己的自定义剪贴板监视组件的可能性声明之前 ClipboardWindow SetClipboard
如何在表单的 __init__ 函数中绑定字段

class Example Form Form field 1 TextAreaField field 2 TextAreaField def init self type kwargs super Example Form self in
C++ std::thread 和方法类[重复]

这个问题在这里已经有答案了我正在尝试将类的函数与 std thread 一起使用以下代码片段返回错误 MyClass MyClass ptr new MyClass MyClass ptr gt MyFunction Works std
mpi.h：使用未定义的类型？

我正在尝试将 OpenMPI 的 mpi h 的重要部分翻译为 D 编程语言以便我可以从 D 调用它 HTOD 根本不起作用我无法理解以下代码段 typedef struct ompi communicator t MPI Comm O
为 URLConnection 设置“User-Agent”参数，以便从 Java 应用程序查询 Google

我试图从 Java 中的 Google 查询中获取结果如下所示 String urlquery https www google com search hl en gl us tbm nws q apples oq apples URL
Google V8 Javascript 引擎、Ubuntu 和 PHP - 如何构建并运行它？

在这里我们将非常感谢一些帮助我正在运行 Ubuntu 10 04 我想使用V8 JavaScript 引擎 http php net manual en book v8js phpPHP 内部有人设法做到这一点了吗所以我安装了lib
Angular 2 应该使用哪种类型的文件夹结构？

我是一名 Angular 1 开发人员正在开始学习 Angular 2 根据培训材料有许多不同类型的文件夹结构方法我将在下面列出每一个我很乐意听取人们对我应该使用哪些以及为什么使用的意见另外如果有没有列出的方法但您觉得它效果更
iText PdfTextExtractor 结果文本中缺少连字

我正在尝试获取 pdf 文件并从中获取文本我发现了 iText 并一直在使用它并取得了不错的成功我剩下的一个问题是连字起初我注意到我只是缺少字符经过一些搜索后我发现了这个 http support itextpdf com no

iText PdfTextExtractor 结果文本中缺少连字

iText PdfTextExtractor 结果文本中缺少连字 的相关文章

随机推荐

热门标签

iText PdfTextExtractor 结果文本中缺少连字的相关文章