PDFBox - 获取单词位置（而不仅仅是字符）

2024-02-11

是否可以使用 PDFBox 获取单词的位置，类似于“processTextPosition”？似乎 processTextPosition 仅在单个字符上调用，将它们合并为单词的代码是 PDFTextStripper（在“规范化”中）方法的一部分，该方法确实返回文本的位置。是否有一种方法/实用程序也可以提取位置？（对于那些想知道动机是什么的人 - 信息实际上是一个表格，我们希望检测空单元格）谢谢

要获取从 pdf 文件中提取的文本中的单词及其 x 和 y 位置，您必须扩展 PdfTextStripper 类并使用自定义类从 pdf 文件中提取文本，例如

public class CustomPDFTextStripper extends PDFTextStripper{

    public CustomPDFTextStripper() throws IOException {

    }

    /**
    * Override the default functionality of PDFTextStripper.
    */

    @Override
    protected void writeString(String text, List<TextPosition> textPositions) throws IOException{
        TextPosition firstProsition = textPositions.get(0);
        writeString(String.format("[%s , %s , %s]", firstProsition.getTextPos().getXPosition(),
                firstProsition.getTextPos().getYPosition(), text));

    }
}

创建此自定义类的对象并提取文本，如下所示

PDFTextStripper pdfStripper = new CustomPDFTextStripper();
String text = pdfStripper.getText(*pdf file wrapped as a PDDocument object*);

生成的文本字符串的格式为 [xposition, yposition, word]，由默认的单词分隔符分隔

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

pdf

Text

extract

PDFBox

PDFBox - 获取单词位置（而不仅仅是字符）的相关文章

展开字符串中的环境变量

是否有一些 java 实用程序可以扩展和 env 字符串中的变量就像 bin MY PATH gt home john bin dev null 谢谢基本上您想要使用环境变量进行字符串插值并扩展主目录我不知道执行后者的简单方法
我在 android 上使用 java 时遇到异常 (java.lang.NoClassDefFoundError)，为什么？

这是我运行的线路 AudioInputStream clip1 AudioSystem getAudioInputStream new File wavFile1 这是我得到的异常来自 LogCat 错误 AndroidRuntime 3
仅使用 onBackPressureLatest() 消耗最新项目

我有一个定期发出物品的生产者和一个有时非常慢的消费者重要的是消费者只使用最近的商品我认为 onBackPressureLatest 是这个问题的完美解决方案于是我写了如下测试代码 PublishProcessor
如何在servlet 3.0的web.xml-less中定义和？

我有现有的 web 应用程序我想将其转换为 servlet 3 0 的 web xml less 我已经设法让它工作但是 web xml 中有 2 个标签我仍然不知道无 web xml 环境中的等效代码
警告：发生了非法反射访问操作（java 中的便携式 opencv）

我想做一个便携的opencv将依赖项添加到 maven 文件的应用程序pom xml 简化的代码是 import org opencv core Mat public class Builder public static void mai
如何在 ListViewer 中选择一个元素

我正在尝试查找并选择一个元素ListViewer 我将字符串与中的每个元素进行比较ListViewer 我可以获得元素的索引但我不知道如何在Listviewer String pattern elementText gettext Str
Google 语音 API 凭据

我正在尝试使用 Google Speech API 但从 Google Cloud 外部进行一些测试在旧的测试版中我能够指定凭据文件但现在我无法在SpeechClient class 如何使用 Google Speech API Ja
纯java adb客户端[关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案 ADB http developer android com tools help adb html分
如何在 Java 中解析这样的 URI

我正在尝试解析以下 URI http translate google com zh CN en 你 http translate google com zh CN 7Cen 7C E4 BD A0 但收到此错误消息 java net UR
您无权访问此服务器上的 /schema/beans/spring-beans-3.1.xsd

我在我的一个应用程序中使用 spring 框架到目前为止一切正常但是今天早上当我尝试运行我的应用程序时它抛出错误因为无法初始化 spring 框架因此我尝试在浏览器中加载 xsd 文件但徒劳无功因为它向我显示了禁止的页面
gradlew：appengineEnhance 失败

我正在使用 Java 创建移动后端Google App Engine with Android Studio 为了启动公开我的 API 的本地服务器我使用gradlew module name appengineRun 然而当我去htt
使用 pandas 删除停用词

我想从数据框的列中删除停用词列内有需要拆分的文本例如我的数据框如下所示 ID Text 1 eat launch with me 2 go outside have fun 我想应用停用词text column所以应该分开我试过这个
Java 中 float 和 double 基元的比较

我发现了Java的一个奇怪的角落我觉得很奇怪 double dd 3 5 float ff 3 5f System out println dd ff 输出正确 double dd 3 2 float ff 3 2f System ou
使用超类创建构建器时，父类无法返回子类的实例[重复]

这个问题在这里已经有答案了如果我使用构建器模式来配置新对象我可能有两个类例如Game and HockeyGame 如下所示当我想创建一个新的HockeyGame 我得到它的构建器并开始调用方法来根据需要配置对象我遇到的问题显示在
如何仅通过一次映射查找来增加给定键的值？

假设我有一张地图 var inventory mutableMapOf apples to 1 oranges to 2 我想将苹果的数量增加一个但这不起作用 inventory apples Error 9 4 Variable exp
如何在java中模拟SHIFT+鼠标按键

我想将鼠标指针移动到特定位置并执行 SHIFT 鼠标右键单击我可以将鼠标移动到某个位置但无法模拟鼠标单击 Robot r new Robot r mouseMove x1 y1 我应该做什么来模拟预期的鼠标点击我认为您只需要一点额外的
如何在“mvn clean install”期间在 SpringBootTest 运行中禁用 ch.qos.logback 自己的 INFO 消息

在与 RasmusFaber 获得最多支持的答案的作者讨论后使用布局时如何防止 logback 在每个日志的开头输出自己的状态 https stackoverflow com q 3257154 2886891 我决定创建一个新问题因为
将 OraclePreparedStatement 与 DBCP 连接结合使用

我正在尝试使用 dbcp 框架为我的 oracle 服务器创建一个连接池我用过这个tutorial http web archive org web 20120615100115 http www freshblurbs com 80 j
如何使用 Jackson 将列表内容序列化为平面 JSON 对象？

给定以下 POJO public class City private String title private List
Java 1.4 有泛型吗？

查看 Java 1 4 中的一些旧代码但我对 Java 不熟悉 Java 1 4 有泛型吗我一直在查看代码没有发现泛型的任何用途但这并不一定意味着它们不受支持不那是 1 5 的介绍即 Java 2 发行版 1 5 really

随机推荐

存储登录的用户详细信息

创建 Web 应用程序时假设您有一个表示单个用户的 User 对象您认为存储用户已登录的最佳方式是什么我考虑过的两种方法是将用户数据库 ID 存储在会话变量中将整个用户对象存储在会话变量中有更好的建议吗使用上述方法有什么问题吗
大型 RSS 阅读器如何工作（netvibes、Google 阅读器...）

我想知道像 Google Reader Logline technorati 这样的 Web 应用程序是如何工作的以及它们遵循哪些技术使用 cron 作业一次性解析数百万个 RSS 提要有一个lot不同的技术最糟糕的技术就是您所描述
jQuery 悬停动画多次触发

我试图找出为什么我的悬停功能表现得很奇怪当您将鼠标悬停在一个 div 上时另一个 div 将变得可见但是当我将光标向下移动到可见的 div 时它会淡出并再次淡入这种情况不应该发生并且应该保持可见直到我的光标离开主容器这是我
CSS问题Ngx-table angular2泳道

我目前在获取 ngx datatable 以获得正确的 CSS 时遇到问题我的 css 文件中有这个来导入正确的 css import swimlane ngx datatable release index css import swi
如何比较 iOS 和 Android 中的加速度计值

我在 iOS 中获取加速度计值如下 if motionManager accelerometerAvailable NSLog Accelerometer avaliable motionManager startAccelerometer
XPath - “not”和“!=”之间的区别

只是一个简单的问题关于以下内容中 xpath 的 not 和之间的区别获取 XML
“scales”选项似乎破坏了 Chart.js 图表

我正在尝试使用 Chart js 在我的 django 项目中包含一些股票数据的折线图我可以用我想要的数据渲染一个简单的图表但是当我尝试格式化 x 轴的日期和时间时图表不再渲染这是该文件的工作版本 client small mark
在 Javascript 中，给定值，从对象字面量中查找名称

我是 JavaScript 新手试图找到一种更简单的方法来查找给定对象文字值的名称 e g var cars Toyata Camry Prius Highlander Honda Accord Civic Pilot Nissan Al
从用户硬盘浏览并选择文件在 IE 中给出未定义

当我使用输入按钮浏览用户计算机上的文件时它适用于 FF IE9 和 Chrome 但是当我将文件传递给 IE9 中的 JS 函数时我得到了未定义的结果而它在 FF 和 Chrome 中工作得很好
枚举的详尽 switch 语句的静态分析[重复]

这个问题在这里已经有答案了考虑以下代码 enum MyEnum A B C int foo MyEnum e switch e case A return 1 case B return 2 case C return 3 error m
MPAndoid 图表具有以下样式

我在我的项目中使用 MPAndroid Chart 我想将 LineChart 的样式设置如下基本上我想要所有 4 个象限和其他样式如渐变颜色等首先通过这样做来填充线条后面的颜色 dataset setDrawFilled true
如何从 STL 容器中获取仅移动类型？

让我们考虑一个std unordered set of std unique ptr
保存文件后自动启动单元测试

借助 Ruby on Rails 当我保存代码文件时我可以使用自动测试来自动运行所有测试此外该框架仅启动受更改影响的测试并通知我测试结果我使用Eclipse进行java开发有类似的情况吗我不想要为我生成测试的东西它只是应该在正
使用 PHP 检索文本区域的值

有人可能知道如何使用 PHP 获取 HTML 文档中特定元素的值吗我现在正在做的是使用file get contents从另一个网站提取 HTML 代码该网站上有一个文本区域
关闭模态并滚动到 div

contact form click function html body animate scrollTop contact section offset top 2000 div class modal fade div class m
在 ImageButton 中动态更改图像

XML
使用 Swift 推断类方法中的泛型类型

泛型方法是否可以根据执行它的类来推断其类型我使用 CoreData NSManagedObject 模型来存储和检索本地数据并设法以一种易于阅读和可用的方式使所有内容通用除了在一个地方如果用户希望查询本地数据库以获取对象列表他将编
在c#中添加或删除新记录后刷新gridview

我的页面上有一个网格我需要刷新 gridview 添加和删除新记录但它不是这是代码将行添加到 GridView private void AddClientToGrid int clientID int Parse ddlClien
<导航> 或 <菜单> (HTML5)

W3Schools com 并且我很确定我记得看到过 W3C org 声明 menu 应用于工具栏菜单和列表表单控制命令那么我的主菜单应该使用哪一个呢 Nav or Menu 有关系吗 nav用于内部链接组 a元素一般来说这意味着链
PDFBox - 获取单词位置（而不仅仅是字符）

是否可以使用 PDFBox 获取单词的位置类似于 processTextPosition 似乎 processTextPosition 仅在单个字符上调用将它们合并为单词的代码是 PDFTextStripper 在规范化中方法的一

PDFBox - 获取单词位置（而不仅仅是字符）

PDFBox - 获取单词位置（而不仅仅是字符） 的相关文章

随机推荐

热门标签

PDFBox - 获取单词位置（而不仅仅是字符）的相关文章