pdfBox 返回错误的编码字符

2024-04-28

我有一个pdfhttp://www.persianacademy.ir/UserFiles/File/fe1394.pdf http://www.persianacademy.ir/UserFiles/File/fe1394.pdf我想从中提取单词（包含波斯语单词。）。我使用 PDFBox 库来获取单词。这是我的代码：

package ir.blog.stack;

import java.io.File;
import java.io.IOException;

import org.apache.pdfbox.cos.COSDocument;
import org.apache.pdfbox.io.RandomAccessFile;
import org.apache.pdfbox.pdfparser.PDFParser;
import org.apache.pdfbox.pdmodel.PDDocument;
import org.apache.pdfbox.text.PDFTextStripper;

public class PDFManager {

    public static void main(String[] args) {
        PDFManager pdfManager = new PDFManager();
        pdfManager.setFilePath("/home/saeed/Documents/words.pdf");
        try {
            System.out.println(pdfManager.ToText());
        } catch (IOException e) {
            // TODO Auto-generated catch block
            e.printStackTrace();
        }
    }

    private PDFParser parser;
    private PDFTextStripper pdfStripper;
    private PDDocument pdDoc ;
    private COSDocument cosDoc ;

    private String Text ;
    private String filePath;
    private File file;

    public PDFManager() {

    }
    public String ToText() throws IOException
    {
        this.pdfStripper = null;
        this.pdDoc = null;
        this.cosDoc = null;

        file = new File(filePath);
        parser = new PDFParser(new RandomAccessFile(file,"r")); // update for PDFBox V 2.0

        parser.parse();
        cosDoc = parser.getDocument();
        pdfStripper = new PDFTextStripper();
        pdDoc = new PDDocument(cosDoc);
        pdDoc.getNumberOfPages();
        pdfStripper.setStartPage(1);
        pdfStripper.setEndPage(5);

        // reading text from page 1 to 10
        // if you want to get text from full pdf file use this code
        // pdfStripper.setEndPage(pdDoc.getNumberOfPages());
        Text = pdfStripper.getText(pdDoc);
        return Text;
    }

    public void setFilePath(String filePath) {
        this.filePath = filePath;
    }

}

这是输出的一部分：

° Ç½A ° SwA ²j±ÇÇM/SwA ²joÇ Ak¼ÇQ ³Ç«AjA p°oÇ«A ³ÇM BÇU éÇ
BÇM ¤ Ø°A ·ª¦ °j ³ An <»wB®{Sv½p> ° <»wB®z¯BMp> ,<³¯BhQBa> ,<³¯BiRnB\U>
»¯BwC³ÇM ©½o¼¢MoÇ¯nj kÇ¯A²k{ ³TiBw <»wB®{> BM ¨°j ·ª¦ °j ° <³¯Bi> ·ª¦
k{BÇM ³TÇ{Aj j±]° o¯ ßB
UA ¬C nj ³ ºA²kîB RBª¦ ½A ßºÀ«A ³ ©¼MB½»«nj
/jnAk¯
° ²k{tBLTA »¼® Øßi pA j±i »Moî Øßi ° ²k{ ³To£ »Moî Øßi pA B« Øßi

我应该采取额外的行动来获得正确的词语吗？

相关 PDF 根本不包含文本提取所需的信息。您必须尝试使用 OCR。

详细

为了成功从 PDF 中提取文本，PDF 必须包含一些有关每个使用的字形表示 Unicode 字符的信息。

PDF 规范描述了以下文本提取过程：

9.10.2 将字符代码映射到 Unicode 值

符合要求的读者可以按照给定的优先级使用这些方法，将字符代码映射到 Unicode 值。特别是，带标签的 PDF 文档应至少提供以下方法之一（请参阅 14.8.2.4.2，“带标签的 PDF 中的 Unicode 映射”）：

如果字体字典包含转UnicodeCMap（参见 9.10.3，“ToUnicode CMaps”），使用该 CMap 将字符代码转换为 Unicode。

如果字体是使用预定义编码之一的简单字体MacRoman编码, Mac专家编码, or WinAnsi编码，或者有一个编码，其差异数组仅包含取自 Adobe 标准拉丁字符集的字符名称以及符号字体中的命名字符集（请参阅附录 D）：

a) 根据表D.1和字体的对应关系将字符代码映射到字符名称差异 array.

b) 在 Adobe Glyph List（参见参考书目）中查找字符名称以获得相应的 Unicode 值。

如果字体是使用表 118 中列出的预定义 CMap 之一的复合字体（Identity–H 和 Identity–V 除外）或其后代 CIDFont 使用 Adobe-GB1、Adobe-CNS1、Adobe-Japan1 或 Adobe-Korea1人物收集：

a) 根据字体的 CMap 将字符代码映射到字符标识符 (CID)。

b) 从字体的 CMap（例如 Adobe 和 Japan1）获取其使用的字符集的注册表和排序来电显示系统信息字典。

c) 通过以注册表-排序-UCS2 格式连接注册表和在步骤 (b) 中获得的排序来构造第二个 CMap 名称（例如，Adobe-Japan1-UCS2）。

d) 获取具有步骤 (c) 中构造的名称的 CMap（可从 ASN 网站获得；参见参考书目）。

e)根据步骤(d)中获得的CMap对步骤(a)中获得的CID进行映射，产生Unicode值。

如果这些方法无法生成 Unicode 值，则无法确定字符代码代表什么，在这种情况下，符合要求的读者可以选择自己选择的字符代码。

对于示例 PDF，有问题的字体

没有转Unicode maps;
是复合的；
use 身份-H as Encoding;
have a 来电显示系统信息Adobe-Identity-0 的值。

因此，上面引用的过程无法生成 Unicode 值。

PDF 规范也允许使用实际文本结构元素字典或标记内容序列中的条目，用于覆盖某些内容应表示的文本。

对于示例 PDF，没有实际文本使用条目。

人们可以比 PDF 规范描述的更深入地研究，特别是可以深入研究嵌入式字体程序，以查找有关某些字体字形表示的 Unicode 字符的字体特定信息。

对于示例 PDF，嵌入字体程序

不包含字形的 Unicode 值；
使用无信息的字形名称，例如“glyph89”。

因此，对于示例 PDF，您很可能必须求助于 OCR。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

PDFBox

pdfBox 返回错误的编码字符的相关文章

PDFBox如何从另一个pdf导入acrofield

我在将现有的 acrofield 从 pdf 导入到另一个 pdf 时遇到问题两个pdf很相似我尝试导入并保存文件代码如下如果我从文件系统打开它我看不到更改但如果我使用 pdfbox 打开它我会看到之前插入的 acrofile
使用 Apache PDFBox 在 PDF 中查找 javascript 代码

我的目标是提取和处理 PDF 文档可能包含的任何 JavasCript 代码通过在编辑器中打开 PDF 我可以看到如下对象 402 0 obj lt JavaScript JS n r n Set day 25 r n FormRoute
使用 apache pdfbox 从 PDF 中提取希伯来语文本不会返回所有字符

下面的代码从中提取希伯来语文本http www language brain com journal docs Gvion Friedmann LanguageBrain7 frigvi pdf http www language brai
PDFBox U+00A0 在此字体的编码中不可用

我在调用 PDField 的 setValue 方法并尝试设置包含特殊字符的值时遇到问题 field setValue TEST BY TEST 详细来说如果我的值包含 U 00A0 等字符我会收到以下异常引起原因 java lang
添加 LTV 签名后，某些 pdf 文件已损坏

我正在尝试在数字签名文档中添加 LTV 在某些文件中它工作正常但在某些文件中它不起作用我附上所有文件以供参考我的 LTV 添加代码链接如下https github com akr pdftimestamp https github
附件损坏签名第 2 部分

我创建了将图像添加到现有 pdf 文档然后对其进行签名的代码所有这些都使用 PDFBox 请参阅下面的代码该代码很好地添加了图像和签名但是在某些文档中 Acrobat Reader 抱怨签名字节范围无效该问题似乎与中描述的问题相
使用 PDFBox 获取文本行的位置

我正在使用 PDFBox 从 pdf 中提取信息我当前尝试查找的信息与该行中第一个字符的 x 位置相关但我找不到任何与如何获取该信息相关的信息我知道 pdfbox 有一个名为 TextPosition 的类但我也无法找到如何从 PD
签名字段中的“锁定”字典是签名后签名损坏的原因

在 PDFBox 2 x 中我把 Lock字典到签名字段 import org apache pdfbox cos COSDictionary import org apache pdfbox cos COSName import org
在PDFBox中，是否可以在标记注释中添加工具提示（提示）？

简而言之我一直在开发一个程序它可以获取pdf 突出显示一些单词通过pdfbox Mark Annotation obj 并保存新的pdf 我希望突出显示的单词显示一个工具提示上面有一些小描述例如提示例如我希望在我的 pdf 中
PDF Box 由于其中包含 JBIG2 图像而生成空白图像

首先让我向您介绍一下我的项目我有一个 pdf 文件需要将其转换为图像一页一张图像 PDFBoxAPI 并将所有这些图像写入新的 pdf 中PDFBoxAPI 本身基本上将 pdf 转换为 pdf 我们称之为 PDF 转码对于某些
PDFBox - 如何创建目录

有没有办法使用创建目录Java PDFBox图书馆目录应该是可点击的跳转到右侧页面 Thanks 没有简单的方法可以做到这一点但这里有一个方法我还没有弄清楚如何将链接直接附加到文本所以我的方法意味着您必须将注释分别绘制为矩形和文本
PDFBox 是否允许从 AcroForm 中删除一个字段？

我正在使用阿帕奇PDF盒子2 0 8 https mvnrepository com artifact org apache pdfbox pdfbox 2 0 8并试图删除一个字段但找不到方法来做到这一点就像我可以用 iText 做的
如何在PDF BOX中创建按钮？

我想在 PDFBOX 中创建一个按钮即验证或重置按钮它将调用 PDF 中嵌入 JavaScript 的某些功能如何在 PDFBOX 中创建这样的按钮我已尝试使用 PDPushButton 代码片段执行以下代码但它现在可以正常工作
如何将 PDFBox 添加到 Android 项目或建议替代方案

我正在尝试打开现有的 pdf 文件然后从 Android 应用程序中将另一个页面添加到 pdf 文档中在添加的页面上我需要添加一些文本和图像我想尝试一下 PDFBox 由于许可条款价格的原因 iTextPDF 等其他解决方案不适合
如何使用 Apache PDFBox 从 PDF 中的按钮图标提取图像？

我想使用 java netbeans 从 pdf 中的按钮获取图像图标并将其放在某个面板中然而我在这里碰了砖头我使用 PDFBox 作为我的 PDF 导出器但我似乎理解不够我已经成功地从表单字段中读取内容但是只要我尝试在 PDF
PDFBox setValue 后的 PDTextField 自动调整大小行为不一致

我正在使用 Apache PDFBox 进行配置PDTextField位于我加载的 PDF 文档上Lato使用以下命令添加到文档中 font PDType0Font load j pd document java io FileInputS
使用 pdfbox 1.8.8 进行视觉签名

我正在尝试生成带有视觉签名和 pdfbox 的 PDF 我有两个流似乎 pdfbox 只能处理文件如果没有三个临时文件我就无法使其工作我可以看到从here https github com apache pdfbox blob b7
如何使用PDFBOX确定文本的人工粗体样式、人工斜体样式和人工轮廓样式

我正在使用 PDFBox 来验证 pdf 文档检查 PDF 中存在的以下类型的文本有一定要求人工粗体样式文本人造斜体样式文本人工轮廓样式文本我在 PDFBOX api 列表中进行了搜索但找不到此类 api 任何人都可以帮助我并告
创建仅在使用 PDFBox 打印时显示的水印（pdf 可选内容）

我遇到过许多使用 PDFBox Layer Utility 的appendFormAsLayer 方法的示例如下所示 Places the given form over the existing content of the indic
Java - 使用 PDFBox 将多个图像合并为一个 PDF

我能够使用下面的代码将多个 PDF 文件合并为一个 PDF public void mergePDF File file1 new File inputPDF 001 pdf File file2 new File inputPDF 002

随机推荐

如何在 Swift 中正确测试 Core Data

已经有很多关于此的主题但我还没有找到适用于 Swift Xcode 6 2 的解决方案为了在 Swift 中测试 Core Data 支持的类我生成了新的托管对象上下文然后将其注入到我的类中 Given let testManage
从实例驻留在固定格式（数据库、MMF）的基类派生...如何安全？

Note 我正在寻找有关正确搜索词的任何建议来阅读此类问题对象关系映射 http en wikipedia org wiki Object relational mapping我想到了一个可以找到一些好的现有技术的地方但我还没有看到任何
CALayer 不显示

这是我第一次尝试使用 CALayer 构建成功并且没有报告错误所以我认为我一定做了一些明显错误的事情但该图层根本不显示 void viewDidLoad Get Reliant Magenta in amazingly verbose
正则表达式：忽略大小写

如何使以下正则表达式忽略大小写它应该匹配所有正确的字符但忽略它们是小写还是大写 G a b 假设你想要whole正则表达式忽略大小写你应该寻找i flag http www regular expressions info modif
Windows 8 的 mvvmlight 中缺少 EventToCommand 行为 - 解决方法？

问题确实说明了一切我正在使用 MVVM Light 用 XAML C 编写一个 Windows 8 应用程序我注意到 EventToCommand 功能尚未实现有人可以建议对此有任何解决方法吗 thanks 您现在可以使用 Event
使用带有二进制存档的 boost 序列化时出错

我在读取时收到以下错误boost archive binary iarchive进入我的变量 test serialization 9285 0x11c62fdc0 malloc can t allocate region mach vm
使用当前用户的凭据进行 javamail NTLM 身份验证

如何将 JavaMail API 与 NTLM 身份验证结合使用到 Exchange 服务器而无需指定用户名和密码而是自动使用当前登录用户的凭据单点登录我的目的是让我的客户端程序在我公司网络中的 Windows 计算机上运行能够
如何在 Prolog 中计算数字序列的和

任务是计算从0到M的自然数之和我使用SWI Prolog编写了以下代码 my sum From To From gt To my sum From To S From 0 Next is 1 S is 1 my sum Next To S
JMS队列消息接收顺序

我按顺序在同一目标中添加两条 JMS 消息这两条消息的接收顺序是否与我添加它们的顺序相同或者是否有可能进行相反的排序即首先检索目的地中首先接收到的消息我将添加到目的地 producer send Msg1 producer send
Groovy 二维数组

我有3个数组 l1 l2 and l3 每个都有 5 个字符 e g l1 A B C D E 二维数组由这些组成 screen l1 l2 l3 所以它看起来像这样 screen 我怎样才能迭代这个数组我打电话吗screen 5 or
在单个图中，由“标签”列分割的所有列的箱线图

看着箱线图 API 页面 http seaborn pydata org generated seaborn boxplot html seaborn boxplot 我想要看起来像这样的组合的东西 gt gt gt iris sns lo
gform_after_submission 发布到第三方 API

我正在尝试使用客户WordPress网站的functions php文件中的gform after submission钩子将这串信息发送到第三方API 此url由第三方客户提供我需要将其与每次注册相匹配这是我在 Functions p
使用 window.print 内容将网页下载为 pdf

我想要一个链接当单击该链接时会自动开始下载网页的可打印版本我正在使用Moodle 我想要的内容是完全相同的如果我使用 ctrl p 下载页面并保存为 pdf 或使用 a href Download web page a 我正是想要该内
根据自定义数组位置排序帖子

我想根据自定义字段列出帖子列表这里我有 9 个帖子有不同的 3 个位置中上下 Post ID title position 1 Post1 Top 2 Post2 Bottom 3 Post3 Top 4 Post4 Bottom
C# - 使用 TableAdapter 从存储过程返回单个值返回 null

我不明白但我添加到表适配器的存储过程仅返回空值它应该返回一个简单的整数值在我使用数据集设计器进行的预览中我可以清楚地获得我想要的整数值但由于某种原因我无法从我的代码中获取价值我按照MSDN库的说明进行操作 http msdn
对 solr 搜索结果进行排序。给出错误无法对多值字段进行排序：名称

我对 Apache Solr 搜索比较陌生我正在尝试对 Solr 查询中的结果集进行排序查询名称 abc AND 隐藏 false sort name desc 它显示错误无法对多值字段进行排序名称 Solr版本是 7 2 1 如
将列的百分比设置为 0 (pandas)

我有一个 pandas 数据框我想将列的某些百分比设置为 0 假设 df 有两列 A B 1 6 2 7 3 8 4 4 5 9 我现在想将 df 的前 20 和后 20 的 B 设置为 0 A B 1 0 2 7 3 8 4 4 5 0
通过 DFS 查找图中的强连通分量

我正在阅读有关 BFS 和 DFS 的图算法当我分析通过DFS在图中查找强连通分量的算法时我想到了一个疑问为了找到强连通分量书 Coremen 做了什么首先它在图上运行 DFS 以获得顶点的完成时间然后再次以完成时间的降序在图的
如何“安装”自定义 Windows 驱动程序？

我计划用 C 语言编写一个基本的 Windows 注册表过滤器该过滤器的目的是挂钩所有用户和内核特权注册表调用以便我可以在我的程序中使用它们我基本上是复制 Mark Rusinovich 的 regmon 进程监视器但更基本我
pdfBox 返回错误的编码字符

我有一个pdfhttp www persianacademy ir UserFiles File fe1394 pdf http www persianacademy ir UserFiles File fe1394 pdf我想从中提取单词

pdfBox 返回错误的编码字符

详细

9.10.2 将字符代码映射到 Unicode 值

pdfBox 返回错误的编码字符 的相关文章

随机推荐

热门标签

pdfBox 返回错误的编码字符的相关文章