使用 itextsharp 阅读 PDF,其中 PDF 语言为非英语

2023-11-27

我正在尝试阅读thisPDF 使用 C# 中的 itextsharp 将此 pdf 转换为 word 文件。它还需要维护Word中的表格格式和字体 当我尝试使用英语 pdf 时,它会完美工作,但使用一些印度语言(如印地语、马拉地语)时,它不起作用。

 public string ReadPdfFile(string Filename)
        {

            string strText = string.Empty;
            StringBuilder text = new StringBuilder();
            try
            {
                PdfReader reader = new PdfReader((string)Filename);
                if (File.Exists(Filename))
                {
                    PdfReader pdfReader = new PdfReader(Filename);

                    for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                    {                        ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                        string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                        text.Append(currentText);
                        pdfReader.Close();
                    }
                }
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }
            textBox1.Text = text.ToString();
            return text.ToString(); ;
        }

我检查了您的文件,特别关注您的示例“मतद|र”,在文档页面的最上面一行中将其提取为“मतदरर”。

简而言之:

您的文档本身提供的信息例如:标题行中的字形“मतद|र”代表文本“मतदरर”。您应该向文档来源询问字体信息不会产生误导的文档版本。如果这不可能,您应该使用 OCR。

详细地:

第一页的顶行是通过页面内容流中的以下操作生成的:

/9 280 Tf
(-12"!%$"234%56*5) Tj

第一行选择名为的字体/9大小为 280(页面开头的操作将所有内容缩放 0.05 倍;因此,有效大小为您在文件中观察到的 14 个单位)。

第二行导致打印字形。使用该字体的自定义编码在括号之间引用这些字形。

当程序尝试提取文本时,它必须使用字体中的信息从这些字形引用中推断出实际字符。

字体/9PDF 第一页上的内容是使用以下对象定义的:

242 0 obj<<
    /Type/Font/Name/9/BaseFont 243 0 R/FirstChar 33/LastChar 94
    /Subtype/TrueType/ToUnicode 244 0 R/FontDescriptor 247 0 R/Widths 248 0 R>>
endobj
243 0 obj/CDAC-GISTSurekh-Bold+0
endobj 
247 0 obj<<
    /Type/FontDescriptor/FontFile2 245 0 R/FontBBox 246 0 R/FontName 243 0 R
    /Flags 4/MissingWidth 946/StemV 0/StemH 0/CapHeight 500/XHeight 0
    /Ascent 1050/Descent -400/Leading 0/MaxWidth 1892/AvgWidth 946/ItalicAngle 0>>
endobj 

所以没有/编码元素,但至少有一个对 a 的引用/转Unicode地图。因此,提取文本的程序必须依赖于给定的/转Unicode映射。

引用的流/转Unicode从 (-12"!%$"234%56*5) 中提取文本时,包含以下感兴趣的映射:

<21> <21> <0930>
<22> <22> <0930>
<24> <24> <091c>
<25> <25> <0020>
<2a> <2a> <0031>
<2d> <2d> <092e>
<31> <31> <0924>
<32> <32> <0926>
<33> <33> <0926>
<34> <34> <002c>
<35> <35> <0032>
<36> <36> <0030>

(在这里您已经可以看到多个字符代码映射到相同的 unicode 代码点...)

因此,文本提取必须导致:

- = 0x2d -> 0x092e = म
1 = 0x31 -> 0x0924 = त
2 = 0x32 -> 0x0926 = द
" = 0x22 -> 0x0930 = र    instead of  |
! = 0x21 -> 0x0930 = र
% = 0x25 -> 0x0020 =  
$ = 0x24 -> 0x091c = ज
" = 0x22 -> 0x0930 = र
2 = 0x32 -> 0x0926 = द
3 = 0x33 -> 0x0926 = द
4 = 0x34 -> 0x002c = ,
% = 0x25 -> 0x0020 =  
5 = 0x35 -> 0x0032 = 2
6 = 0x36 -> 0x0030 = 0
* = 0x2a -> 0x0031 = 1
5 = 0x35 -> 0x0032 = 2

因此,从第一个文档页面的标题中提取的文本 iTextSharp(以及 Adob​​e Reader!)正是文档在其字体信息中声称的正确内容。

由于造成这种情况的原因是字体定义中的误导性映射信息,因此整个文档中存在误解也就不足为奇了。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 itextsharp 阅读 PDF,其中 PDF 语言为非英语 的相关文章

随机推荐

  • 如何对无序 std::pair 进行 std::hash

    我希望能够使用std pair作为 unordered container 中的键 我知道我可以通过以下方式做到这一点 template
  • IOS:在 xcode 中为我的应用程序设置默认语言

    我启动了我的 xcode 项目 并进行了以下设置 在 xcode 5 中它添加了这种 基本 语言 但我不明白它是如何工作的 我想将默认语言设置为英语而不是意大利语 例如 如果用户将其设备设置为西班牙语或法语 则它必须看到英语版应用程序 而不
  • 计算 C# 中 XmlNode 的总数

    我试图找到一种方法来递归地从 XmlNode 获取子节点的总数 这就是说我想计算所有的孩子 孙子等 我认为它就像 node SelectNodes
  • 带有域字段的 CORS cookie 仅在 Firefox 中使用 jQuery AJAX 设置

    我无法设置 cookiedomain使用跨站点请求添加归档 我试图通过 jquery ajax 调用 request 来实现这一点 是否可以在除 Firefox 之外的其他浏览器中使用它 一些请求标头 Accept application
  • 从 JSON 字符串创建 Hashmap

    从java中的json字符串创建hashmap 我有 json 字符串 例如 phonetype N95 cat WP 并想转换成标准的Hashmap 我该怎么做 解析 JSONObject 并创建 HashMap public stati
  • Android 按钮背景选择器

    我想使用以下按钮选择器
  • 在 Angular JS 中动态应用 CSS 样式属性

    这应该是一个简单的问题 但我似乎找不到解决方案 我有以下标记 div style width 20px height 20px margin top 10px border solid 1px black background color
  • 如何将按钮添加到settings.bundle?

    我正在开发一个 iPhone 应用程序 默认情况下用户保持登录状态 如果他想注销 他应该打开 设置 并单击 注销 按钮 这将删除他的数据并在下次打开应用程序时要求登录 如何添加这样的按钮 就像 Twitter 设置中一样 正如 CodaFi
  • vb.net 从创建它的线程以外的线程访问

    我正在尝试将文本设置为标签Label caller Text phone number我收到此错误 System InvalidOperationException 跨线程操作无效 从创建它的线程以外的线程访问控制 Label caller
  • 如何在 Spring Security 中启用 POST、PUT 和 DELETE 方法

    我用 Spring Boot 开发了一个应用程序 运行良好 有一个安静的控制器 我尝试向某些页面添加 spring security 其余控制器的端点是 api greetings 我在下面的类中配置了安全设置 Configuration
  • 解析 xml 时出错:与 Facebook SDK 未绑定前缀

    我的项目无法识别 xml 中的 com facebook widget ProfilePictureView 或其他小部件 我导入了 facebook sdk 甚至用它来登录并与 open graph 交互 这一切都有效 我只是想添加一个个
  • 如何用D3添加简单的圆弧

    我想在图表部分添加一个简单的弧线 如圆 vis append circle style stroke gray style fill white attr r 40 attr cx 50 attr cy 50 所提供的D3的例子正在处理数据
  • 如何在for循环中使用setInterval函数

    我正在尝试在给定可变项目列表的情况下运行多个计时器 代码看起来像这样 var list Array for var x in list setInterval function list x 10 console log x gt list
  • 在堆栈跟踪中获取 VB.NET 行号

    我有一个 VB NET 2010 Winforms 应用程序 我想在堆栈跟踪中包含行号 我已阅读以下问题和答案 如何在VB net中运行应用程序时打印行号 其中提到 您始终需要在代码中包含 PDB 文件 其中包含在此类情况下使用的调试信息
  • Git 中的 commit-ish 和 tree-ish 是什么?

    问题 Git 中 commit ish 和 tree ish 的具体例子有哪些 堆栈溢出问题 git 中的 tree ish 是什么意思 交易 特别是树型 但我想了解更多both 背景 文档中的用法 Git 文档多次提到 commit is
  • Microsoft Edge window.open() 不支持宽度高度,并在后台打开

    我使用的是 Windows 10 预览版 Build 10130 并且window open新 Edge 浏览器中的方法的行为不符合规范 如果您使用示例代码https msdn microsoft com en us library ms5
  • 如何设置 Filezilla Pro 来访问我的 s3 存储桶?

    我购买了支持 Amazon S3 的 Filezilla Pro 请问如何设置 Filezilla Pro 访问我的存储桶 谢谢 对上述答案的一个重要补充 我的 S3 用户名和密码是什么 用户名 访问密钥 最好是仅具有访问特定 S3 存储桶
  • iPhone SDK 与静态库链接错误

    我已经构建了自己的静态库 其中包含要在项目中重用的组件 最近需要更新一堆类 具体来说 由于某些类更改了名称 某些方法的签名也发生了更改 现在发生的情况是 该库本身可以正常编译 但是 当添加到应用程序项目时 该项目无法链接 Ld build
  • javascript - 获取函数内异步函数的返回数据

    我遇到问题 因为 chrome api 函数是异步的 我无法获取其返回值 考虑以下代码 我正在使用 AngularJS scope storageGet function param var returnData chrome storag
  • 使用 itextsharp 阅读 PDF,其中 PDF 语言为非英语

    我正在尝试阅读thisPDF 使用 C 中的 itextsharp 将此 pdf 转换为 word 文件 它还需要维护Word中的表格格式和字体 当我尝试使用英语 pdf 时 它会完美工作 但使用一些印度语言 如印地语 马拉地语 时 它不起