使用 iTextSharp 阅读 PDF 时出现奇怪的字符

2024-02-12

我正在使用 iTextSharp 来阅读 PDF 文件。我尝试使用以下简单的代码阅读第一页中的全文：

var pdfReader = new PdfReader("<fileName>");
var pageText = PdfTextExtractor.GetTextFromPage(pdfReader, 1, new SimpleTextExtractionStrategy());

它返回一个像这样的字符串：

"\0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \ 0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \ 0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \ 0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \ 0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \ 0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \ 0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 !\n\" \0 \0 \0 \0 \0 \0 # \0 $ \0 % \0 & $ \0 ' \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 \0 !\n\" \0 \0 \0 (\n\0 \0 \0 ) \0 \0 * \0 + , \0 , \0 \0 & , \ 0 - \0 .# \0 \0 \0 & $ \0 , \0 /\n+ \0 & & \0 * 0 \0 1 .\n2 \0 3\n4 - \0 5 \0 \0 $ \0 \0 # \0 \0 \0 & $ \0 , \0 * & \0 \0 ' \0 .\n6\n\0 \0 \0 - \0 \0 \0 \0 & \0 \0 \0 \0 \0 \0 \0 , \0 # \0 \0 \0 & $ \0 , \0 \0 \0 & \0 # \0 \0 & $ ') & \0 \0 \0 \0 # \0 ' ' \0 7 - \0 $ \0 \0 7 \0 ' \0 , \0 8\n9 5 \0 \0 , \0 \0 $ $ \0 \0 \0 \0 \0 ' \0 \0 3\n\0 \0 \0 ) \0 \0 \0 \0 4 - \0 5 \0 \0 $ \0 \0 * & \0 \0 ' \0 .\n\0 \0 \0 \0 # \0 $ \0 $ \0 \0 ) \0 \0 \0 : 0 ; \0 ; \0 ？ \0 ? \0 3 \0 (\n@\n\0 \0 # \0 $ \0 % \0 & $ \0 ’ \0 ! 3\n\0 ......"

我可以使用 Acrobat Reader 和浏览器阅读原始 PDF。该文件似乎是 PDF/A。

我使用的代码适用于其他 PDF。

iText 这个标准有问题吗？

有人能指出我正确的方向吗？

Update

从 Acrobat 复制/粘贴会出现损坏的文本。我不认为这是 iTextSharp (5.5.10) 问题。

Update

您可以尝试使用此文件：PDF 示例 http://www.olgiatidaniele.com/Public/CU.pdf

该文件不包含文本提取所需的信息。此外，该文件作为 PDF/A 文件无效。

文本提取信息

该示例文件包含显示空表单的背景（位于表单 XObject 资源中）和填充值的前景（紧邻页面内容流中）。

XObject 表单中的文本是使用 Type 3 字体绘制的，其编码中没有标准编码或标准名称。也没有转Unicode地图在里面。

这意味着文字绘图说明在这种形式中，XObject 的参数是字节序列，并且对于每个字节值，Type 3 字体对象提供一个包含简单绘图指令的流（使用直线和曲线的路径定义；路径填充指令），但没有任何 Unicode 值的信息对应于该字节值或绘图指令集。

因此，PDF 查看器可以绘制页面，但他们无法正确地将 Unicode 字符串放入剪贴板中（我们人类将从该绘图中读取该字符串），iTextSharp 也不能。

如果没有 OCR，就没有合理的方法从表单中提取文本。

另一方面，紧邻前景的文本是使用具有标准编码的字体绘制的（WinAnsi编码），因此可以被提取。因此，在OP代码输出的末尾，你会发现

\u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000 \u0000

 ...

\u0000 \u0000 \u0000 x s \u0000 l t n q o x m l \u0000 z \u0000 ~ { \u0000 } } \u0000 l w x
2016
14874587948 DITTA PROVA SRL
CREMA CR 26013 VIA DANTE 17
011110
LPRGCM82T26D150H LEOPARDI GIACOMO
M 26 12 1982 CREMONA CR
MILANO MI F205
28 02 2017
DITTAP0101 / LEOGIA01001

即表格中填写的值。

PDF/A 一致性

该文件确实claims格式为 PDF/A-1a，但检查后很快就会发现这是一个公然的谎言。例如。 Adobe Acrobat 预检说：

这些条目表明该文档实际上甚至没有try实际上要符合 PDF/A-a1 标准，它只是claims so.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)