PDFBox - 获取单词位置(而不仅仅是字符)

2024-02-11

是否可以使用 PDFBox 获取单词的位置,类似于“processTextPosition”? 似乎 processTextPosition 仅在单个字符上调用,将它们合并为单词的代码是 PDFTextStripper(在“规范化”中)方法的一部分,该方法确实返回文本的位置。 是否有一种方法/实用程序也可以提取位置? (对于那些想知道动机是什么的人 - 信息实际上是一个表格,我们希望检测空单元格) 谢谢


要获取从 pdf 文件中提取的文本中的单词及其 x 和 y 位置,您必须扩展 PdfTextStripper 类并使用自定义类从 pdf 文件中提取文本,例如

public class CustomPDFTextStripper extends PDFTextStripper{

    public CustomPDFTextStripper() throws IOException {

    }

    /**
    * Override the default functionality of PDFTextStripper.
    */

    @Override
    protected void writeString(String text, List<TextPosition> textPositions) throws IOException{
        TextPosition firstProsition = textPositions.get(0);
        writeString(String.format("[%s , %s , %s]", firstProsition.getTextPos().getXPosition(),
                firstProsition.getTextPos().getYPosition(), text));

    }
}

创建此自定义类的对象并提取文本,如下所示

PDFTextStripper pdfStripper = new CustomPDFTextStripper();
String text = pdfStripper.getText(*pdf file wrapped as a PDDocument object*);

生成的文本字符串的格式为 [xposition, yposition, word],由默认的单词分隔符分隔

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

PDFBox - 获取单词位置(而不仅仅是字符) 的相关文章

随机推荐

  • 存储登录的用户详细信息

    创建 Web 应用程序时 假设您有一个表示单个用户的 User 对象 您认为存储用户已登录的最佳方式是什么 我考虑过的两种方法是 将用户数据库 ID 存储在会话变量中 将整个用户对象存储在会话变量中 有更好的建议吗 使用上述方法有什么问题吗
  • 大型 RSS 阅读器如何工作(netvibes、Google 阅读器...)

    我想知道像 Google Reader Logline technorati 这样的 Web 应用程序是如何工作的 以及它们遵循哪些技术使用 cron 作业一次性解析数百万个 RSS 提要 有一个lot不同的技术 最糟糕 的技术就是您所描述
  • jQuery 悬停动画多次触发

    我试图找出为什么我的悬停功能表现得很奇怪 当您将鼠标悬停在一个 div 上时 另一个 div 将变得可见 但是 当我将光标向下移动到可见的 div 时 它会淡出并再次淡入 这种情况不应该发生 并且应该保持可见 直到我的光标离开主容器 这是我
  • CSS问题Ngx-table angular2泳道

    我目前在获取 ngx datatable 以获得正确的 CSS 时遇到问题 我的 css 文件中有这个来导入正确的 css import swimlane ngx datatable release index css import swi
  • 如何比较 iOS 和 Android 中的加速度计值

    我在 iOS 中获取加速度计值如下 if motionManager accelerometerAvailable NSLog Accelerometer avaliable motionManager startAccelerometer
  • XPath - “not”和“!=”之间的区别

    只是一个简单的问题 关于以下内容中 xpath 的 not 和 之间的区别 获取 XML
  • “scales”选项似乎破坏了 Chart.js 图表

    我正在尝试使用 Chart js 在我的 django 项目中包含一些股票数据的折线图 我可以用我想要的数据渲染一个简单的图表 但是当我尝试格式化 x 轴的日期和时间时 图表不再渲染 这是该文件的工作版本 client small mark
  • 在 Javascript 中,给定值,从对象字面量中查找名称

    我是 JavaScript 新手 试图找到一种更简单的方法来查找给定对象文字值的名称 e g var cars Toyata Camry Prius Highlander Honda Accord Civic Pilot Nissan Al
  • 从用户硬盘浏览并选择文件在 IE 中给出未定义

    当我使用输入按钮浏览用户计算机上的文件时 它适用于 FF IE9 和 Chrome 但是当我将文件传递给 IE9 中的 JS 函数时 我得到了未定义的结果 而它在 FF 和 Chrome 中工作得很好
  • 枚举的详尽 switch 语句的静态分析[重复]

    这个问题在这里已经有答案了 考虑以下代码 enum MyEnum A B C int foo MyEnum e switch e case A return 1 case B return 2 case C return 3 error m
  • MPAndoid 图表具有以下样式

    我在我的项目中使用 MPAndroid Chart 我想将 LineChart 的样式设置如下 基本上我想要所有 4 个象限和其他样式 如渐变颜色等 首先通过这样做来填充线条后面的颜色 dataset setDrawFilled true
  • 如何从 STL 容器中获取仅移动类型?

    让我们考虑一个std unordered set of std unique ptr
  • 保存文件后自动启动单元测试

    借助 Ruby on Rails 当我保存代码文件时 我可以使用自动测试来自动运行所有测试 此外 该框架仅启动受更改影响的测试 并通知我测试结果 我使用Eclipse进行java开发有类似的情况吗 我不想要为我生成测试的东西 它只是应该在正
  • 使用 PHP 检索文本区域的值

    有人可能知道如何使用 PHP 获取 HTML 文档中特定元素的值吗 我现在正在做的是使用file get contents从另一个网站提取 HTML 代码 该网站上有一个文本区域
  • 关闭模态并滚动到 div

    contact form click function html body animate scrollTop contact section offset top 2000 div class modal fade div class m
  • 在 ImageButton 中动态更改图像

    XML
  • 使用 Swift 推断类方法中的泛型类型

    泛型方法是否可以根据执行它的类来推断其类型 我使用 CoreData NSManagedObject 模型来存储和检索本地数据 并设法以一种易于阅读和可用的方式使所有内容通用 除了在一个地方 如果用户希望查询本地数据库以获取对象列表 他将编
  • 在c#中添加或删除新记录后刷新gridview

    我的页面上有一个网格 我需要刷新 gridview 添加和删除新记录 但它不是 这是代码 将行添加到 GridView private void AddClientToGrid int clientID int Parse ddlClien
  • <导航> 或 <菜单> (HTML5)

    W3Schools com 并且我很确定我记得看到过 W3C org 声明 menu 应用于工具栏菜单和列表表单控制命令 那么 我的主菜单应该使用哪一个呢 Nav or Menu 有关系吗 nav用于内部链接组 a元素 一般来说 这意味着链
  • PDFBox - 获取单词位置(而不仅仅是字符)

    是否可以使用 PDFBox 获取单词的位置 类似于 processTextPosition 似乎 processTextPosition 仅在单个字符上调用 将它们合并为单词的代码是 PDFTextStripper 在 规范化 中 方法的一