在 .NET 中读取 PDF 中的文本

2023-11-23

我正在尝试使用 iTextSharp 库将 PDF 中的文本读取为字符串。

iTextSharp.text.pdf.PdfReader pdfReader = new iTextSharp.text.pdf.PdfReader(@"C:\mypdf.pdf");
ITextExtractionStrategy strategy = new SimpleTextExtractionStrategy();
string currentText = PdfTextExtractor.GetTextFromPage(pdfReader, 1, strategy);
text = Encoding.UTF8.GetString(ASCIIEncoding.Convert(Encoding.Default, Encoding.UTF8, Encoding.Default.GetBytes(currentText))); 
pdfReader.Close();
Console.WriteLine(text);

这通常工作正常，但每隔几行就会省略空格，留下类似以下的输出：“thisismyoutputwithoutwhitespace”。正确解析的文本看起来与未正确解析的文本相同；相同的文本始终会被错误地解析，这让我认为这是 PDF 中的内容。

在 PDF 的内容流中，没有“单词”的概念。因此，在 iText(Sharp) 的文本提取实现中，有一些启发式方法来确定如何将字符分组为单词。当两个字符之间的距离大于当前字体中空格宽度的一半时，将插入空格。

最有可能的是，提取的没有空格的文本的单词之间的距离小于“spacewidth / 2”。

In SimpleTextExtractionStrategy.RenderText():

if (spacing > renderInfo.GetSingleSpaceWidth()/2f){
    AppendTextChunk(' ');
}

你可以延长SimpleTextExtractionStrategy并调整RenderText().

In LocationTextExtractionStrategy比较方便。你只需要覆盖IsChunkAtWordBoundary():

protected bool IsChunkAtWordBoundary(TextChunk chunk, TextChunk previousChunk) {
    float dist = chunk.DistanceFromEndOf(previousChunk);
    if(dist < -chunk.CharSpaceWidth || dist > chunk.CharSpaceWidth / 2.0f)
        return true;

     return false;
}

您必须进行一些试验才能获得良好的 PDF 效果。 “spacewidth / 2”在你的情况下显然太大了。但如果将其调整得太小，则会出现误报：单词中将插入空格。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

在 .NET 中读取 PDF 中的文本的相关文章

为 Visual Studio 2013 编译 Tesseract

我正在尝试使用tesseract在 Visual Studio 2013 中我在链接器 gt 输入不是 libtesseract302 static lib 中使用 libtesseract302 lib 一切都正常并且已编译并运行
向 Nhibernate 发出 SQL 查询

如何将此 SQL 查询发送给 Nhibernate SELECT Customer name FROM Company INNER JOIN Customer ON Company CompanyId Customer CompanyId
如何修复此错误“GDI+ 中发生一般错误”？

从默认名称打开图像并以默认名称保存覆盖它我需要从 Image Default jpg 制作图形将其放在 picturebox1 image 上并在 picurebox1 上绘制一些图形它有效这不是我的问题但我无法保存 pictu
在 Unity 进程和另一个 C# 进程之间进行本地 IPC 的最快方法 [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我希望每秒大约 30 次从 C 应用程序向我的 Unity 应用程序传送大量数据由于 Unity 不支持映射内存和管道我考虑了 t
使用 C 语言使用 strftime() 获取缩写时区

我看过this https stackoverflow com questions 34408909 how to get abbreviated timezone and this https stackoverflow com ques
ASP.NET：获取自 1970 年 1 月 1 日以来的毫秒数

我有一个 ASP NET VB NET 日期我试图获取自 1970 年 1 月 1 日以来的毫秒数我尝试在 MSDN 中寻找方法但找不到任何东西有谁知道如何做到这一点从 NET 4 6 开始该方法ToUnixTimeMillis
关于在 Windows 上使用 WiFi Direct Api？

我目前正在开发一个应用程序我需要在其中创建链接阅读无线网络连接在桌面应用程序在 Windows 10 上和平板电脑 Android 但无关紧要之间工作流程按钮 gt 如果需要提升权限 gt 创建类似托管网络的 WiFi 网
如何在 Linq 中获得左外连接？

我的数据库中有两个表如下所示顾客 C ID city 1 Dhaka 2 New york 3 London 个人信息 P ID C ID Field value 1 1 First Name Nasir 2 1 Last Name U
单击 form2 上的按钮触发 form 1 中的方法

我对 Windows 窗体很陌生我想知道是否可以通过单击表单 2 中的按钮来触发表单 1 中的方法我的表格 1 有一个组合框我的 Form 2 有一个保存按钮我想要实现的是当用户单击表单 2 中的保存时我需要检查表单 1
使用 JNI 从 Java 代码中检索 String 值的内存泄漏

我使用 GetStringUTFChars 从使用 JNI 的 java 代码中检索字符串的值并使用 ReleaseStringUTFChars 释放该字符串当代码在 JRE 1 4 上运行时不会出现内存泄漏但如果相同的代码在 JR
如何使用 watin 中的 FileUploadDialogHandler 访问文件上传对话框

我正在使用 IE8 和 watin 并尝试通过我的网页测试上传文件我不能简单地使用 set 方法设置上传文件例如 ie FileUpload Find ById someId Set C Desktop image jpg 因为上传文本
如何在 Blackberry Cascades 中显示具有特定号码的电话板

我正在使用带有 C QT 和 QML 的 Blackberry Cascades 10 Beta 3 SDK 以及 Blackberry 10 Dev Alpha Simulator 和 QNX Momentics IDE 并且我正在尝试实
std::async 与重载函数

可能的重复 std bind 重载解析 https stackoverflow com questions 4159487 stdbind overload resolution 考虑以下 C 示例 class A public int f
gcc 的配置选项如何确定默认枚举大小（短或非短）？

我尝试了一些 gcc 编译器来查看默认枚举大小是否很短至少一个字节强制使用 fshort enums 或无短至少 4 个字节强制使用 fno short enums user host echo Static assert 4 si
Server.MapPath - 给定的物理路径，预期的虚拟路径

我正在使用这行代码 var files Directory GetFiles Server MapPath E ftproot sales 在文件夹中查找文件但是我收到错误消息说给定物理路径但虚拟路径预期的我对在 C 中使用 Sys
如何在按钮单击时模拟按键 - Unity

我对 Unity 中的脚本编写非常陌生我正在尝试创建一个按钮一旦单击它就需要模拟按下 F 键要拾取一个项目这是我当前的代码在编写此代码之前我浏览了所有统一论坛但找不到任何有效的东西 Code using System Colle
有没有办法强制显示工具提示？

我有一个验证字段的方法如果无法验证该字段将被清除并标记为红色我还希望在框上方弹出一个工具提示并向用户显示该值无效的消息有没有办法做到这一点并且可以控制工具提示显示的时间我怎样才能让它自己弹出而不是鼠标悬停时弹出 If the
Xcode 11 PDF 图像资源“保留矢量数据”在 SwiftUI 中不起作用？

我正在尝试在 Xcode 11 中使用 SwiftUI 的应用程序中使用 Single Scale 来使用基于矢量的 PDF 图像但当我放大图像尺寸时图像总是看起来模糊我在 Xcode 11 的 UIKit 中没有遇到任何问题我创建
防止在工厂方法之外实例化对象

假设我有一个带有工厂方法的类 class A public static A newA Some code logging return new A 是否可以使用 a 来阻止此类对象的实例化new 那么工厂方法是创建对象实例的唯一方法吗当
在客户端系统中安装后桌面应用程序无法打开

我目前正在使用 Visual Studio 2017 和 4 6 1 net 框架我为桌面应用程序创建了安装文件安装程序在我的系统中完美安装并运行问题是安装程序在其他计算机上成功安装但应用程序无法打开 edit 在客户端系统中下载了

随机推荐

如何在 GO 的 websocket 中保持连接处于活动状态

I use code google com p go net websocket在服务器中因此客户端可以从服务器获取通知但是客户端连接到服务器后如果客户端和服务器之间没有任何数据传输服务器将返回 EOF 错误websocket J
如何将 Net::HTTP 响应转换为 Ruby 1.9.1 中的某种编码？

我有一个 Sinatra 应用程序 http analyzethis espace technologies com 执行以下操作检索 HTML 页面通过 net http 从response body创建Nokogiri文档提取一些
数组被 array_keys() 和 array_values() 分割后元素顺序是否相同？ [复制]

这个问题在这里已经有答案了我浏览了两者的手册页数组键 and 数组值他们都没有提及是否遵守原始数组的元素顺序他们所承诺的只是返回原始数组中的所有键或值但是我们能绝对确定元素的顺序也与原始数组的顺序完全相同吗不管是什么数组我问这是
Flutter 中提供程序的单元测试

我们已经以 TDD 方法启动了一个关于 Flutter 的新项目我正在使用提供程序进行状态管理在尝试编写小部件测试时我们面临着测试提供程序的问题您能否建议一个示例来编写提供者的单元测试和小部件注入提供者我遇到以下问题 EXCEPT
PrimeFaces 文件下载不起作用

我无法获取 primeFaces
Windows 10 上的 Ansi 颜色有点不起作用

对于 Windows 来说带有颜色的控制台相当新颖且令人兴奋 I wrote some programs that printed using the ansi colour escapes and all was good 然后突然停止
使用 ansible 运行 mkvirtualenv

我正在使用 ansible 配置一台机器我成功地在虚拟机上安装了 virtualenv 和 virtualenvwrapper 但是我似乎无法在虚拟机上创建 virtualenv 我正在尝试使用 name create virtuale
Java Servlet 对 POST 请求返回错误 405（方法不允许）

我的servet对于get请求工作正常但是当我调用POST 使用jquery ajax post 时我收到错误405 不允许的方法这是我的代码 import java io import javax servlet import ja
停止下载nodejs请求中的数据

我们如何停止服务器的剩余响应例如 http get requestOptions function response Log the file size console log File Size response headers con
Android 复选框文本不显示

我试图在我的 Android 活动之一中动态创建一些复选框但它没有渲染文本这是我的简化代码布局 XML
谁能确认这个问题（某些 Android 设备上的文件描述符数量有限）？

我目前正在开发一款很酷的 Android 游戏该游戏即将发布我们的一些测试人员开始抱怨游戏崩溃并出现打开文件太多错误消息我尝试在 AVD 模拟器上模拟此问题但无法重现该错误后来我意识到只有我们的 Galaxy S3 和华硕
在 SQL*Plus 中，如何更改提示以显示连接的用户和数据库？

为了显示例如 USER SID gt 我认为这对一些人可能有帮助所以我也来回答一下修改 ORACLE HOME sqlplus admin glogin sql 脚本添加 set sqlprompt user connect ide
无法导入 cv2 模块（Python 3.6）

总的新人在这里我尝试安装失败cv2python 的模块但它不起作用我正在使用 Python 3 6 64 位我在cmd中输入了以下命令 C Users leahj gt C Users leahj AppData Local Pro
GitHub API - 写入存储库

我查看了所有文档但它没有回答我的问题有没有办法写入存储库上传文件比如创建一个文件夹然后上传 readme md 不需要创建文件夹因为它们仅隐式存在于 git 中这意味着如果您有一个带有路径的文件folder file txt那
编译时如何编写程序？

编写一个小型 C 程序编译时需要另一个程序从输入终端运行时给出第二个的结果程序注意关键是想想 UNIX 假设程序是1 c 然后在编译时 cc o 1 1 c int main printf Hello World n D
Chromecast 设备被列入白名单后，如何在 Chrome 中启动接收器应用程序？

我正在尝试从 Chrome 浏览器启动我的自定义接收器应用程序这样做的第一步似乎是为我感兴趣的活动类型添加接收器侦听器 cast api new cast Api cast api addReceiverListener activity
如何使用 MVC5RC/RTW 与现有数据库进行身份验证

我最初问这个question当 Identity 处于测试阶段时从那时起类和接口发生了很大的变化并且appearsRTW版本在RC版本的基础上又做了一些修改原则上我需要实现以下目标根据我的用户表 tblMembers 验证本地登录
在 Excel VBA 中设置活动工作簿的值

我现在已经以这种方式设置了我的工作簿其中工作簿被硬编码到 Set 命令中我想知道是否有一种方法可以做到这一点以便我可以将其放在流畅的地方因此无论此代码放置在何处在另一个工作簿中代码都会适应新的环境这有道理吗以下是我现在正在
Swig：如何包装 double& （通过引用传递 double）？

我正在使用 SWIG 从 Python 访问 C 代码如何优雅地包装一个函数该函数返回通过引用传递的变量中的值例如 void set double a a 42 我不知道该怎么做在最好的情况下我能够在 Python 中使用带有 P
在 .NET 中读取 PDF 中的文本

我正在尝试使用 iTextSharp 库将 PDF 中的文本读取为字符串 iTextSharp text pdf PdfReader pdfReader new iTextSharp text pdf PdfReader C mypdf p

在 .NET 中读取 PDF 中的文本

在 .NET 中读取 PDF 中的文本 的相关文章

随机推荐

热门标签

在 .NET 中读取 PDF 中的文本的相关文章