通过坐标提取PDF文本

2023-12-27

我想知道 Microsoft .NET 中是否有一些 PDF 库能够通过给出坐标来提取文本。

例如（在伪代码中):

PdfReader reader = new PdfReader();
reader.Load("file.pdf");

// Top, bottom, left, right in pixels or any other unit
string wholeText = reader.GetText(100, 150, 20, 50);

我尝试使用 PDFBox for .NET（在 IKVM 之上工作的 PDFBox）来实现这一点，但没有成功，而且它似乎非常过时且没有文档记录。

也许任何人都有使用 PDFBox、iTextSharp 或任何其他开源库执行此操作的良好示例，他/她可以给我一个提示。

先感谢您。

嗯，谢谢大家的努力。

我在 IKVM 编译之上使用 Apache 的 PDFBox 得到了它，这是最终的代码：

PDDocument doc = PDDocument.load(@"c:\invoice.pdf");

PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.addRegion("testRegion", new java.awt.Rectangle(0, 10, 100, 100));
stripper.extractRegions((PDPage)doc.getDocumentCatalog().getAllPages().get(0));

string text = stripper.getTextForRegion("testRegion");

它就像一个魅力。

不管怎样，谢谢你，我希望我自己的回答能够帮助其他人。如果您需要更多详细信息，请在此处发表评论，我将更新此答案。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

c

pdf

net40

通过坐标提取PDF文本的相关文章

如何检查图像对象与资源中的图像对象是否相同？

所以我试图创建一个简单的程序只需在单击图片框中更改图片即可我目前只使用两张图片所以我的图片框单击事件函数的代码看起来像这样 private void pictureBox1 Click object sender EventArgs
如何验证文件名称在 Windows 中是否有效？

是否有一个 Windows API 函数可以将字符串值传递给该函数该函数将返回一个指示文件名是否有效的值我需要验证文件名是否有效并且我正在寻找一种简单的方法来完成此操作而无需重新发明轮子我正在直接使用 C 但针对的是 Win32
C# 和 Javascript SHA256 哈希的代码示例

我有一个在服务器端运行的 C 算法它对 Base64 编码的字符串进行哈希处理 byte salt Convert FromBase64String serverSalt Step 1 SHA256Managed sha256 new S
ASP.NET Core Serilog 未将属性推送到其自定义列

我有这个设置appsettings json对于我的 Serilog 安装 Serilog MinimumLevel Information Enrich LogUserName Override Microsoft Critical Wr
当我使用“control-c”关闭发送对等方的套接字时，为什么接收对等方的套接字不断接收“”

我是套接字编程的新手我知道使用 control c 关闭套接字是一个坏习惯但是为什么在我使用 control c 关闭发送进程后接收方上的套接字不断接收在 control c 退出进程后发送方的套接字不应该关闭吗谢谢我知道使用
将数组向左或向右旋转一定数量的位置，复杂度为 o(n)

我想编写一个程序根据用户的输入正 gt 负 include
从父类调用子类方法

a doStuff 方法是否可以在不编辑 A 类的情况下打印 B did stuff 如果是这样我该怎么做 class Program static void Main string args A a new A B b new B a
未解决的包含：“cocos2d.h” - Cocos2dx

当我在 Eclipse 中导入 cocos2dx android 项目时我的头文件上收到此警告 Unresolved inclusion cocos2d h 为什么是这样它实际上困扰着我该项目可以正确编译并运行但我希望这种情况消失
linux perf：如何解释和查找热点

我尝试了linux perf https perf wiki kernel org index php Main Page今天很实用但在解释其结果时遇到了困难我习惯了 valgrind 的 callgrind 这当然是与基于采样的 pe
如何在列表框项目之间画一条线

我希望能够用水平线分隔列表框中的每个项目这只是我用于绘制项目的一些代码 private void symptomsList DrawItem object sender System Windows Forms DrawItemEvent
使闭包捕获的变量变得易失性

闭包捕获的变量如何与不同线程交互在下面的示例代码中我想将totalEvents 声明为易失性的但C 不允许这样做是的我知道这是错误的代码这只是一个例子 private void WaitFor10Events volatile
WPF 中的调度程序和异步等待

我正在尝试学习 WPF C 中的异步编程但我陷入了异步编程和使用调度程序的困境它们是不同的还是在相同的场景中使用我愿意简短地回答这个问题以免含糊不清因为我知道我混淆了 WPF 中的概念和函数但还不足以在功能上正确使用它我在这里
Web API - 访问 DbContext 类中的 HttpContext

在我的 C Web API 应用程序中我添加了CreatedDate and CreatedBy所有表中的列现在每当在任何表中添加新记录时我想填充这些列为此目的我已经覆盖SaveChanges and SaveChangesAsy
从路径中获取文件夹名称

我有一些路c server folderName1 another name something another folder 我如何从那里提取最后一个文件夹名称我尝试了几件事但没有成功我只是不想寻找最后的然后就去休息了 Thank
Github Action 在运行可执行文件时卡住

我正在尝试设置运行google tests on a C repository using Github Actions正在运行的Windows Latest 构建过程完成但是当运行测试时它被卡住并且不执行从生成的可执行文件Visual
插入记录后如何从SQL Server获取Identity值

我在数据库中添加一条记录identity价值我想在插入后获取身份值我不想通过存储过程来做到这一点这是我的代码 SQLString INSERT INTO myTable SQLString Cal1 Cal2 Cal3 Cal4 SQ
32 位到 64 位内联汇编移植

我有一段 C 代码在 GNU Linux 环境下用 g 编译它加载一个函数指针它如何执行并不重要使用一些内联汇编将一些参数推送到堆栈上然后调用该函数代码如下 unsigned long stack 1 23 33 43 save
为什么 C# Math.Ceiling 向下舍入？

我今天过得很艰难但有些事情不太对劲在我的 C 代码中我有这样的内容 Math Ceiling decimal this TotalRecordCount this PageSize Where int TotalRecordCount
const、span 和迭代器的问题

我尝试编写一个按索引迭代容器的迭代器 AIt and a const It两者都允许更改容器的内容 AConst it and a const Const it两者都禁止更改容器的内容之后我尝试写一个span
mysql-connector-c++ - “get_driver_instance”不是“sql::mysql”的成员

我是 C 的初学者我认为学习的唯一方法就是接触一些代码我正在尝试构建一个连接到 mysql 数据库的程序我在 Linux 上使用 g 没有想法我运行 make 这是我的错误 hello cpp 38 error get driver

随机推荐

Python、SQLite3：当提交介入时游标返回重复项

此 Python 代码创建一个表向其中插入三行并迭代这些行并在游标完全耗尽之前进行干预提交为什么它返回五行而不是三行如果删除干预提交则返回的行数如预期为 3 或者是否预期提交甚至不触及相关表会使游标无效 Edit 添加了忘记的
jQuery 的 .isWindow 方法？

我试图从 jQuery 的动画函数中了解我能做什么但最终遇到了各种我不理解的内部函数最终落在了 isWindow 上 isWindow 的代码检查对象是否具有该属性setInterval 否则返回 false 当然任何对象都可以具有以
如何仅对一个 .vue 文件禁用 vue/multi-word-component-names eslint 规则？

我正在使用Vue ESLint 插件 https eslint vuejs org 它有一个规则不允许使用单个单词的组件名称 https eslint vuejs org rules multi word component names h
PHP upload_max_filesize

我的 php 文件上传有问题在我的 php ini 中 upload max filesize 设置为 4mb 当我尝试上传大于该文件的文件时我从未像预期的那样收到 UPLOAD ERR INI SIZE 错误但页面再次显示表单但没
适用于 Google BigQuery 标准 SQL 的任何 JDBC 驱动程序

我需要 JDBC 驱动程序将我的应用程序连接到 Google BigQuery 我尝试了 CData JDBC 驱动程序但它不支持所有类型的标准 SQL 查询还有其他完整的选择吗官方BigQuery 的 JDBC 驱动程序 https
即复杂的子域cookie问题

我所有的 cookie 在子域上都工作得很好但如果子域中有那么 cookie 根本不会被读取也根本不会正确以下是我的测试结果它将自我解释 justlife demo com works fine just life demo co
如何通过 Google Tag Manager for Next-Js 设置 Google Analytics？

以前我使用react ga npm 模块在我的下一个js 应用程序中插入谷歌分析就是这样 import ReactGA from react ga export const initGA gt ReactGA initialize UA
当新子项添加到 Firebase 数据库时发送通知

我在我的应用程序中使用 Firebase 数据库当新订单添加到数据库新子添加到数据库时我需要向管理员发送通知我发现了一个名为 Firebase 云消息传递的东西但我不知道如何使用它有什么帮助吗 Firebase Cloud M
使用动态参数查询 Diesel 表

我开始考虑使用 Diesel 来查询数据库我有一个类似于下面结构的表格这只是一个玩具项目旨在帮助我了解 Diesel 的工作原理 derive Queryable Insertable table name posts struct
ServletContextListener 严重：配置类 marktest.Config 的应用程序侦听器时出错

我的 Java servlet 似乎抱怨它找不到包 marktest 中包含的文件我使用 Eclipse Indigo 和 Tomcat7 进行开发这是错误 SEVERE Error configuring application li
选择除一个元素之外的所有主体

我试图选择 jQuery 中除 this 或悬停的元素之外的所有主体元素我试图让身体达到一定的不透明度但这个是为了保持其不透明度这是我的代码 content img mouseenter function this animate
自定义形状旋转问题

我正在尝试围绕其中心旋转自定义形状但无法获得预期的结果我想要的是形状应绕其中心旋转而不移动自身我的解决方案目前正在做的是围绕其中心旋转整个形状每次旋转都会改变其位置我有多个形状所以我创建了一个类来封装形状及其在以下类中的转换
CSS：百分比最小高度元素嵌套在百分比最小高度元素中

我想让 html body 和wrapper 元素的最小高度都为 100 以便覆盖整个查看窗口但我发现我只能使 html 遵守此声明 html body wrapper min height 100 html border 2px red
随机化两个值之间的矩阵元素，同时保持行和列总和固定 (MATLAB)

我遇到了一些技术问题但我觉得使用 MATLAB 强大的工具集应该可以实现我拥有的是一个由 0 和 w 组成的随机 n n 矩阵例如生成的 A w rand n n
动态ul li添加滚动条

我搜索了许多帖子和论坛因为我认为这可能是一个基本的东西但没有找到它所以在这里询问我想做的就是添加滚动条如果高度超过一定限制假设菜单项超过3 我创建了一个jsfiddlehttp jsfiddle net euSWB http j
了解多重继承中的虚表

我有一个实现两个抽象类的类如下所示没有虚拟继承无数据成员 class IFace1 public virtual void fcn int abc 0 class IFace2 public virtual void fcn1 int
属性错误故障排除：“ResultSet”对象没有属性“findAll”

我正在尝试解析http www ted com talks http www ted com talks所有演讲名称的页面使用 BeautifulSoup 这是我所拥有的 import urllib2 from BeautifulSoup
使用 PHP 和 XPath 获取与正则表达式匹配的 href

我有一个包含多个超链接的页面我想要得到的格式如下 div a href 123 text2 a div div a href 345 text1 a a href 678 text2 a div 我想提取三个 href 123 345 和
停止 jQuery Mobile 滑动事件双冒泡

我在 iPad Safari 上安装了 jQuery Mobile 由于某种原因触摸滑动事件会触发两次就在本周人们在过去的一年中报告了同样的问题但我找不到如何在不修改 jQuery Mobile 的情况下修复双重事件的解释我不想这
通过坐标提取PDF文本

我想知道 Microsoft NET 中是否有一些 PDF 库能够通过给出坐标来提取文本例如在伪代码中 PdfReader reader new PdfReader reader Load file pdf Top bottom lef

通过坐标提取PDF文本

通过坐标提取PDF文本 的相关文章

随机推荐

热门标签

通过坐标提取PDF文本的相关文章