使用 itextsharp 阅读 PDF，其中 PDF 语言为非英语

2023-11-27

我正在尝试阅读thisPDF 使用 C# 中的 itextsharp 将此 pdf 转换为 word 文件。它还需要维护Word中的表格格式和字体当我尝试使用英语 pdf 时，它会完美工作，但使用一些印度语言（如印地语、马拉地语）时，它不起作用。

 public string ReadPdfFile(string Filename)
        {

            string strText = string.Empty;
            StringBuilder text = new StringBuilder();
            try
            {
                PdfReader reader = new PdfReader((string)Filename);
                if (File.Exists(Filename))
                {
                    PdfReader pdfReader = new PdfReader(Filename);

                    for (int page = 1; page <= pdfReader.NumberOfPages; page++)
                    {                        ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
                        string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, page, strategy);

                        text.Append(currentText);
                        pdfReader.Close();
                    }
                }
            }
            catch (Exception ex)
            {
                MessageBox.Show(ex.Message);
            }
            textBox1.Text = text.ToString();
            return text.ToString(); ;
        }

我检查了您的文件，特别关注您的示例“मतद|र”，在文档页面的最上面一行中将其提取为“मतदरर”。

简而言之：

您的文档本身提供的信息例如：标题行中的字形“मतद|र”代表文本“मतदरर”。您应该向文档来源询问字体信息不会产生误导的文档版本。如果这不可能，您应该使用 OCR。

详细地：

第一页的顶行是通过页面内容流中的以下操作生成的：

/9 280 Tf
(-12"!%$"234%56*5) Tj

第一行选择名为的字体/9大小为 280（页面开头的操作将所有内容缩放 0.05 倍；因此，有效大小为您在文件中观察到的 14 个单位）。

第二行导致打印字形。使用该字体的自定义编码在括号之间引用这些字形。

当程序尝试提取文本时，它必须使用字体中的信息从这些字形引用中推断出实际字符。

字体/9PDF 第一页上的内容是使用以下对象定义的：

242 0 obj<<
    /Type/Font/Name/9/BaseFont 243 0 R/FirstChar 33/LastChar 94
    /Subtype/TrueType/ToUnicode 244 0 R/FontDescriptor 247 0 R/Widths 248 0 R>>
endobj
243 0 obj/CDAC-GISTSurekh-Bold+0
endobj 
247 0 obj<<
    /Type/FontDescriptor/FontFile2 245 0 R/FontBBox 246 0 R/FontName 243 0 R
    /Flags 4/MissingWidth 946/StemV 0/StemH 0/CapHeight 500/XHeight 0
    /Ascent 1050/Descent -400/Leading 0/MaxWidth 1892/AvgWidth 946/ItalicAngle 0>>
endobj

所以没有/编码元素，但至少有一个对 a 的引用/转Unicode地图。因此，提取文本的程序必须依赖于给定的/转Unicode映射。

引用的流/转Unicode从 (-12"!%$"234%56*5) 中提取文本时，包含以下感兴趣的映射：

<21> <21> <0930>
<22> <22> <0930>
<24> <24> <091c>
<25> <25> <0020>
<2a> <2a> <0031>
<2d> <2d> <092e>
<31> <31> <0924>
<32> <32> <0926>
<33> <33> <0926>
<34> <34> <002c>
<35> <35> <0032>
<36> <36> <0030>

（在这里您已经可以看到多个字符代码映射到相同的 unicode 代码点...）

因此，文本提取必须导致：

- = 0x2d -> 0x092e = म
1 = 0x31 -> 0x0924 = त
2 = 0x32 -> 0x0926 = द
" = 0x22 -> 0x0930 = र    instead of  |
! = 0x21 -> 0x0930 = र
% = 0x25 -> 0x0020 =  
$ = 0x24 -> 0x091c = ज
" = 0x22 -> 0x0930 = र
2 = 0x32 -> 0x0926 = द
3 = 0x33 -> 0x0926 = द
4 = 0x34 -> 0x002c = ,
% = 0x25 -> 0x0020 =  
5 = 0x35 -> 0x0032 = 2
6 = 0x36 -> 0x0030 = 0
* = 0x2a -> 0x0031 = 1
5 = 0x35 -> 0x0032 = 2

因此，从第一个文档页面的标题中提取的文本 iTextSharp（以及 Adobe Reader！）正是文档在其字体信息中声称的正确内容。

由于造成这种情况的原因是字体定义中的误导性映射信息，因此整个文档中存在误解也就不足为奇了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

NET

c40

pdf

msword

itext

使用 itextsharp 阅读 PDF，其中 PDF 语言为非英语的相关文章

将浮点型转换为双精度型

我正在尝试转换Single to Double同时保持原来的价值我找到了以下方法 Single f 5 2F Double d1 f 5 19999980926514 Double d2 Double Parse f ToString 5
.NET 的 C 代码解析器

有谁知道 NET 的 C 解析器库吗我打算将 C 代码解析为某种形式的对象图这样我就可以将其转换为不同的语言 ANTLR 可以做你想做的事它有一个 C 预处理器和 ANSI C 语法 https github com antlr gr
替换字符串中的换行符 C#

如何在 C 中替换字符串中的换行符使用替换为Environment NewLine myString myString Replace System Environment NewLine replacement text add a l
System.Windows.Threading.Dispatcher.Invoke(System.Delegate, System.Object[]) 何时添加？

使用我的应用程序的一些人似乎越来越 System MissingMethodException Method not found System Object System Windows Threading Dispatcher Invok
C＃生成的csv文件通过电子邮件发送嵌入到Lotus Note中电子邮件的底部

我遇到了一个奇怪的问题即使用 NET SmtpClient 通过电子邮件发送的 CSV 附件出现在电子邮件底部而不是 Lotus Note 中的附件我只是不知道如何解决这个问题而且我无法访问客户端计算机这使得调试非常困难我可以采
如何使用 C# 将表格粘贴到 Ms-Word 文档的末尾

我有一个预制的 Word 模板其中有一个表格我想打开它然后在文档末尾添加粘贴另一个表格问题是它不会转到文档的末尾而是将新表格粘贴到原始表格的第一个单元格中任何帮助将不胜感激 previous code copied a ta
如何创建实体集或模型而不在数据库中创建相应的表 - 实体框架

我的 sqlserver 数据库中有一个存储过程它返回多个结果集我正在使用 msdn 中的以下链接从实体框架中的 SP 读取多个结果集 https msdn microsoft com en us library jj691402 v
有没有办法在 C# 中仅通过文件名查找文件？

我们现在使用绝对路径或相对路径在 C 应用程序中查找文件如果文件位于当前工作目录下或路径之一下有没有办法仅通过名称查找文件使用绝对路径不好使用相对路径也不够好因为我们可能通过重命名或移动项目文件夹来更改项目结构如果我们的代码
ASP.NET 3.5 更新至 4.0 -> Sys.WebForms.PageRequestManager 未定义

正如标题所示我最近将包含 UpdatePanels 和类似 AJAX 技术的 ASP NET 3 5 应用程序更新为 ASP NET 4 0 不幸的是 UpdatePanel 不再起作用整页回发使一切都变得糟糕 Web config 文
WPF DataGrid 排序后滚动到顶部

我有一个使用数据网格的 Net 4 0 WPF 应用程序目前按列排序后网格的滚动位置保持在排序前的位置对于此应用程序我需要在任何排序后滚动到网格顶部我尝试过像这样处理排序事件 Private Sub myDataGrid Sor
公共领域还好吗？

在你像我最初那样做出直觉反应之前请阅读整个问题我知道它们让你感觉很脏我知道我们以前都被烧伤过我知道这不是好风格但是公共场所可以吗我正在开发一个相当大规模的工程应用程序该应用程序创建并使用结构的内存模型从高层建筑到桥梁再到棚
如何从纯文本文件中解析文本并使用结果突出显示 PDF 文件

早在 2010 年就有人声称能够做到这一点 http www mobileread com forums showthread php t 103847 http www mobileread com forums showthread
如何在 IIS 中手动配置虚拟目录

我正在尝试让外部 Visual Studio 解决方案在 Visual Studio Professional 2010 的本地副本中工作当我打开该解决方案时我看到一条错误消息指出本地 IIS URL 尚未配置我想创建一个虚拟目录吗
将 KeyDown 事件传递给其他控件

我正在编写一个 C WinForms 应用程序 NET 4 0 我有一个WinFormsControl on a Form 用户开始使用键盘输入内容后另一个Control出现那Control是某种文本输入我想将用户输入发送到该Cont
Rx.NET 中是否有一个Subject 实现，其功能类似于BehaviourSubject，但仅在值发生更改时才发出？

有没有Subject https learn microsoft com en us previous versions dotnet reactive extensions hh229699 v vs 103 Rx NET 中的实现在功能
打印“X”个字符数与“X”字符串长度的所有可能组合（暴力破解）

我正在尝试编写一个单词组合生成器我的意思是打印 X 个字符数与 X 字符串长度的所有可能组合首先我需要说的是我在 StackOverFlow 中看到了一个关于这个问题的问题其中有很多单词生成器的答案来执行此操作在不同的语言上但
即使没有异步，CallContext.LogicalGetData 也会恢复。为什么？

我注意到CallContext LogicalSetData LogicalGetData不按照我期望的方式工作内部设置的值async方法得到恢复即使没有异步或任何类型的线程切换无论如何这是一个简单的例子 using System u
将 Word 转换为 PDF - 禁用“保存”对话框

我有一个用 C 编写的 Word 到 PDF 转换器除了一件事之外它工作得很好有时在某些 Word 文件上后台会出现一条消息保存源文件中的更改 gt 是否取消但我没有对源文件进行任何更改我只想从 Word 文件创建 PDF
为什么 0.5 mod 0.1 在不同的编程语言中结果不同？

我有一个关于模数的问题模运算求一个数除以另一个数的余数我原本期望 0 5 0 1 0 的结果但是当我在 PHP 或 net 中运行它时我得到 0 1 我运行的 php 代码是 var dump fmod 0 5 0 1 在 net中
Visual Studio '17 未在参考管理器中显示程序集

我遇到的问题是我似乎无法弄清楚如何添加对某些解决方案的引用在我从 Visual Studio 17 开始的大多数解决方案中我在解决方案资源管理器中看到引用但例如对于 asp net core web api 我得到依赖项每当解

随机推荐

如何对无序 std::pair 进行 std::hash

我希望能够使用std pair作为 unordered container 中的键我知道我可以通过以下方式做到这一点 template
IOS：在 xcode 中为我的应用程序设置默认语言

我启动了我的 xcode 项目并进行了以下设置在 xcode 5 中它添加了这种基本语言但我不明白它是如何工作的我想将默认语言设置为英语而不是意大利语例如如果用户将其设备设置为西班牙语或法语则它必须看到英语版应用程序而不
计算 C# 中 XmlNode 的总数

我试图找到一种方法来递归地从 XmlNode 获取子节点的总数这就是说我想计算所有的孩子孙子等我认为它就像 node SelectNodes
带有域字段的 CORS cookie 仅在 Firefox 中使用 jQuery AJAX 设置

我无法设置 cookiedomain使用跨站点请求添加归档我试图通过 jquery ajax 调用 request 来实现这一点是否可以在除 Firefox 之外的其他浏览器中使用它一些请求标头 Accept application
从 JSON 字符串创建 Hashmap

从java中的json字符串创建hashmap 我有 json 字符串例如 phonetype N95 cat WP 并想转换成标准的Hashmap 我该怎么做解析 JSONObject 并创建 HashMap public stati
Android 按钮背景选择器

我想使用以下按钮选择器
在 Angular JS 中动态应用 CSS 样式属性

这应该是一个简单的问题但我似乎找不到解决方案我有以下标记 div style width 20px height 20px margin top 10px border solid 1px black background color
如何将按钮添加到settings.bundle？

我正在开发一个 iPhone 应用程序默认情况下用户保持登录状态如果他想注销他应该打开设置并单击注销按钮这将删除他的数据并在下次打开应用程序时要求登录如何添加这样的按钮就像 Twitter 设置中一样正如 CodaFi
vb.net 从创建它的线程以外的线程访问

我正在尝试将文本设置为标签Label caller Text phone number我收到此错误 System InvalidOperationException 跨线程操作无效从创建它的线程以外的线程访问控制 Label caller
如何在 Spring Security 中启用 POST、PUT 和 DELETE 方法

我用 Spring Boot 开发了一个应用程序运行良好有一个安静的控制器我尝试向某些页面添加 spring security 其余控制器的端点是 api greetings 我在下面的类中配置了安全设置 Configuration
解析 xml 时出错：与 Facebook SDK 未绑定前缀

我的项目无法识别 xml 中的 com facebook widget ProfilePictureView 或其他小部件我导入了 facebook sdk 甚至用它来登录并与 open graph 交互这一切都有效我只是想添加一个个
如何用D3添加简单的圆弧

我想在图表部分添加一个简单的弧线如圆 vis append circle style stroke gray style fill white attr r 40 attr cx 50 attr cy 50 所提供的D3的例子正在处理数据
如何在for循环中使用setInterval函数

我正在尝试在给定可变项目列表的情况下运行多个计时器代码看起来像这样 var list Array for var x in list setInterval function list x 10 console log x gt list
在堆栈跟踪中获取 VB.NET 行号

我有一个 VB NET 2010 Winforms 应用程序我想在堆栈跟踪中包含行号我已阅读以下问题和答案如何在VB net中运行应用程序时打印行号其中提到您始终需要在代码中包含 PDB 文件其中包含在此类情况下使用的调试信息
Git 中的 commit-ish 和 tree-ish 是什么？

问题 Git 中 commit ish 和 tree ish 的具体例子有哪些堆栈溢出问题 git 中的 tree ish 是什么意思交易特别是树型但我想了解更多both 背景文档中的用法 Git 文档多次提到 commit is
Microsoft Edge window.open() 不支持宽度高度，并在后台打开

我使用的是 Windows 10 预览版 Build 10130 并且window open新 Edge 浏览器中的方法的行为不符合规范如果您使用示例代码https msdn microsoft com en us library ms5
如何设置 Filezilla Pro 来访问我的 s3 存储桶？

我购买了支持 Amazon S3 的 Filezilla Pro 请问如何设置 Filezilla Pro 访问我的存储桶谢谢对上述答案的一个重要补充我的 S3 用户名和密码是什么用户名访问密钥最好是仅具有访问特定 S3 存储桶
iPhone SDK 与静态库链接错误

我已经构建了自己的静态库其中包含要在项目中重用的组件最近需要更新一堆类具体来说由于某些类更改了名称某些方法的签名也发生了更改现在发生的情况是该库本身可以正常编译但是当添加到应用程序项目时该项目无法链接 Ld build
javascript - 获取函数内异步函数的返回数据

我遇到问题因为 chrome api 函数是异步的我无法获取其返回值考虑以下代码我正在使用 AngularJS scope storageGet function param var returnData chrome storag
使用 itextsharp 阅读 PDF，其中 PDF 语言为非英语

我正在尝试阅读thisPDF 使用 C 中的 itextsharp 将此 pdf 转换为 word 文件它还需要维护Word中的表格格式和字体当我尝试使用英语 pdf 时它会完美工作但使用一些印度语言如印地语马拉地语时它不起

使用 itextsharp 阅读 PDF，其中 PDF 语言为非英语

使用 itextsharp 阅读 PDF，其中 PDF 语言为非英语 的相关文章

随机推荐

热门标签

使用 itextsharp 阅读 PDF，其中 PDF 语言为非英语的相关文章