获取 PDF 中确切的字符串位置

2024-02-22

我尝试读取流并希望获得每个字符串的确切位置（坐标）

    int size = reader.getXrefSize();

    for (int i = 0; i < size; ++i)
    {
        PdfObject pdfObject = reader.getPdfObject(i);
        if ((pdfObject == null) || !pdfObject.isStream())
            continue;

        PdfStream stream = (PdfStream) pdfObject;
        PdfObject obj = stream.get(PdfName.FILTER);

        if ((obj != null) && obj.toString().equals(PdfName.FLATEDECODE.toString()))
        {
            byte[] codedText = PdfReader.getStreamBytesRaw((PRStream) stream);
            byte[] text = PdfReader.FlateDecode(codedText);
            FileOutputStream o = new FileOutputStream(new File("/home..../Text" + i + ".txt"));
            o.write(text);
            o.flush();
            o.close();
        }

    }

我实际上得到了这样的职位

......
BT                  
70.9 800.9 Td /F1 14 Tf <01> Tj 
10.1 0 Td <02> Tj               
9.3 0 Td <03> Tj
3.9 0 Td <01> Tj
10.1 0 Td <0405> Tj
18.7 0 Td <060607> Tj
21 0 Td <08090A07> Tj
24.9 0 Td <05> Tj
10.1 0 Td <0B0C0D> Tj
28.8 0 Td <0E> Tj
3.8 0 Td <0F> Tj
8.6 0 Td <090B1007> Tj
29.5 0 Td <0B11> Tj
16.4 0 Td <12> Tj
7.8 0 Td <1307> Tj
12.4 0 Td <14> Tj
7.8 0 Td <07> Tj
3.9 0 Td <15> Tj
7.8 0 Td <16> Tj
7.8 0 Td <07> Tj
3.9 0 Td <17> Tj
10.8 0 Td <0D> Tj
7.8 0 Td <18> Tj
10.9 0 Td <19> Tj
ET
.....

但我不知道哪个字符串适合哪个位置另一方面，在 Itext 中我可以使用以下命令获取纯文本

PdfReader reader = new PdfReader(new FileInputStream("/home/....xxx.pdf"));
PdfTextExtractor extract = new PdfTextExtractor(reader);

但当然没有任何立场......

那么如何获得每个文本（字符串，字符，...）的确切位置？

正如 plinth 和 David van Driessche 在他们的回答中已经指出的那样，从 PDF 文件中提取文本并非易事。幸运的是，iText 解析器包中的类为您完成了大部分繁重的工作。您已经从该包中找到了至少一个类，PdfTextExtractor,但如果您只对页面的纯文本感兴趣，那么这个类本质上是一个使用 iText 解析器功能的便利实用程序。对于您的情况，您必须更仔细地查看该包中的类。

获取有关使用 iText 进行文本提取主题的信息的起点是第 15.3 节解析 PDF of iText 实际应用 — 第二版 http://itextpdf.com/book/index.php，特别是方法extractText样本的解析HelloWorld.java http://itextpdf.com/examples/iia.php?id=275:

public void extractText(String src, String dest) throws IOException
{
    PrintWriter out = new PrintWriter(new FileOutputStream(dest));
    PdfReader reader = new PdfReader(src);
    RenderListener listener = new MyTextRenderListener(out);
    PdfContentStreamProcessor processor = new PdfContentStreamProcessor(listener);
    PdfDictionary pageDic = reader.getPageN(1);
    PdfDictionary resourcesDic = pageDic.getAsDict(PdfName.RESOURCES);
    processor.processContent(ContentByteUtils.getContentBytesForPage(reader, 1), resourcesDic);
    out.flush();
    out.close();
}

它利用了RenderListener执行MyTextRenderListener.java http://itextpdf.com/examples/iia.php?id=282:

public class MyTextRenderListener implements RenderListener
{
    [...]

    /**
     * @see RenderListener#renderText(TextRenderInfo)
     */
    public void renderText(TextRenderInfo renderInfo) {
        out.print("<");
        out.print(renderInfo.getText());
        out.print(">");
    }
}

虽然这RenderListener实现仅输出文本，文本渲染信息 http://api.itextpdf.com/itext/com/itextpdf/text/pdf/parser/TextRenderInfo.html它检查的对象提供了更多信息：

public LineSegment getBaseline();    // the baseline for the text (i.e. the line that the text 'sits' on)
public LineSegment getAscentLine();  // the ascentline for the text (i.e. the line that represents the topmost extent that a string of the current font could have)
public LineSegment getDescentLine(); // the descentline for the text (i.e. the line that represents the bottom most extent that a string of the current font could have)
public float getRise()             ; // the rise which  represents how far above the nominal baseline the text should be rendered

public String getText();             // the text to render
public int getTextRenderMode();      // the text render mode
public DocumentFont getFont();       // the font
public float getSingleSpaceWidth();  // the width, in user space units, of a single space character in the current font

public List<TextRenderInfo> getCharacterRenderInfos(); // details useful if a listener needs access to the position of each individual glyph in the text render operation

因此，如果您的RenderListener除了检查文本之外getText()还考虑getBaseline()or evengetAscentLine()andgetDescentLine().您拥有可能需要的所有坐标。

PS:有一个代码的包装类ParsingHelloWorld.extractText(), PdfReader内容解析器 http://api.itextpdf.com/itext/com/itextpdf/text/pdf/parser/PdfReaderContentParser.html，它允许您简单地编写以下给定的内容PdfReader reader, anint page,and aRenderListener renderListener:

PdfReaderContentParser parser = new PdfReaderContentParser(reader);
parser.processContent(page, renderListener);

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

pdf

获取 PDF 中确切的字符串位置的相关文章

Java - 如何将特殊字符放入字符串中

Java 似乎有很好的字符串处理能力尽管如此我还是遇到了最简单的问题我需要动态字符串它们在运行时更改因此字符串类型不是一个好的选择因为它们是不可变的所以我使用字符数组设置起来有点痛苦但至少它们是可以修改的我想创建一个字符
JavaFX 图像未在舞台中显示

我尝试了很多次尝试了很多方法但都无法让自己的形象在舞台上如我所愿我认为这可能与java寻找资源的路径有关但我不确定因为我刚刚开始使用视觉库在本例中为JavaFX 这是我的目录结构 MyProject assets img myI
使用 Java 在 WebDriver 中按 Ctrl+F5 刷新浏览器

我已经使用 java 刷新了 WebDriver 中的浏览器代码如下 driver navigate refresh 如何使用 Java 在 WebDriver 中按 Ctrl F5 来做到这一点我认为您可以使用 WebDriver 和
如何比较 Struts 2 中 url 请求参数中的单个字符

我正在读取具有单个字符的 url 参数它将是Y or N 我必须写一个条件来检查它是否Y or N并做相应的事情这是我写的但似乎不起作用总是转到其他地方网址是
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
定期更新 SWT 会导致 GUI 冻结

Problem 当 GUI 字段定期更新时 SWT 会冻结我想要一个基于 SWT 的 GUI 其中文本字段的值会定期递增最初我从单独的线程访问 textField 导致抛出异常线程 Thread 0 org eclipse swt S
容器中的 JVM 计算处理器错误？

最近我又做了一些研究偶然发现了这一点在向 OpenJDK 团队抱怨之前我想看看是否有其他人观察到这一点或者不同意我的结论因此众所周知 JVM 长期以来忽略了应用于 cgroup 的内存限制众所周知现在从 Java 8 更新某
从 @JsonProperty 值获取枚举常量

我有一个标有 JsonProperty 的枚举用于使用 Jackson 进行 JSON 序列化反序列化并且希望获取给定字符串 JsonProperty 的枚举值 public enum TimeBucket JsonProperty
Intellij 中的 Google OR-Tools：UnsatisfiedLinkError

我正在建立一个应该使用 Google OR Tools 的 java 框架下面的代码编译成功但在运行时抛出异常 Exception in thread main java lang UnsatisfiedLinkError com go
如何将 Observable>> 转换为 Observable>

我陷入了如何将以下可观察类型转换转换为我的目标类型的困境我有以下类型的可观察值 Observable
我想在java中使用XQuery进行Xml处理

我想用XQuery用于从 java 中的 Xml 获取数据但我没有得到需要为此添加哪个 Jar 我在谷歌上搜索了很多但没有得到任何有用的例子例如我得到以下链接 https docs oracle com database 121 AD
如何将 arraylist 从 servlet 传递到 javascript？

我通过在属性中设置数组列表并将其转发到 jsp 来从 servlet 传递数组列表 Servlet ArrayList
Hibernate HQL：将对值作为 IN 子句中的参数传递

我面临一个问题如何使用 IN 子句将查询中的成对值的参数传递给 HQL 例如 select id name from ABC where id reg date in x y 并且参数是不同的数据类型string id 和reg date
无法使用文件提供程序从内部存储打开 PDF 以便在 Android 8 和 9 上查看

仅适用于 Android 8 和 9 我这里有一个 PDF 文件管理器 String url file storage emulated 0 Android data com verna poc files Download mypdf p
如何初始化静态地图？

你会如何初始化静态Map在Java中方法一静态初始化方法二实例初始化匿名子类或者还有其他方法吗各自的优点和缺点是什么这是说明这两种方法的示例 import java util HashMap import java util
警告：无法更改每个人的权限：

当运行 Java 快速入门示例时https developers google com drive web quickstart java hl hu https developers google com drive web quicks
失败时石英重试

假设我有一个这样配置的触发器
每次我们调用浏览器时，在 selenium 中使用 driver.manage().window().maximize() 是否好？

We use driver manage window maximize 最大化浏览器我在网上看到一些使用的例子driver manage window maximize 尽管不需要最大化浏览器例如 gmail 登录我还看到使用 se
如何捕获 try-with-resource 语句中 close 方法抛出的异常

我正在读关于try with resourceJava 中的语句可用于指定任意数量的资源 try Resource1 res1 initialize code Resource1 res2 initialize code statement
Java、Spring、Hibernate找不到org.springframework.orm.hibernate3.LocalSessionFactoryBean

我正在尝试制作 spring hibernate ant 项目目前我收到此错误 HTTP Status 500 type Exception report message description The server encountere

随机推荐

UICollectionView 的 iOS 字母滚动

我有一个集合视图显示人物及其姓名的多个图像并且我已经实现了搜索和排序功能但是问题是我也想要按字母顺序排列但是集合视图没有像这样的委托方法UITableView has NSArray sectionIndexTitlesForTa
C++ 编程帮助

您创建一个程序显示用户输入的两个数字之间含的偶数之和例如 2 和 7 12 之和 2 4 6 这就是我到目前为止所拥有的但如果你能让我朝着正确的方向前进那就会有帮助了 Advanced30 cpp displays the su
如何以编程方式从父进程获取子进程的堆栈跟踪？

假设我在程序中派生了一个子进程在某个时候我暂停子进程kill child SIGSTOP 并想要检查堆栈的内容有没有办法以编程方式从父进程获取子进程的堆栈跟踪我知道ptrace是跟踪子进程并检查其内存寄存器的标准方法我也知道ba
使用 C/C++ 创建多线程应用程序的最简单方法是什么？

使用 C C 创建多线程应用程序的最简单方法是什么不幸的是没有简单的方法有几个选项 Linux 上的 pthread Windows 上的 win32 api 线程或 boost thread 库
如何在运行时查找已加载的 d3.js 扩展及其版本？

按照 JavaScript 库的惯例全局根对象由d3 js https d3js org 有一个自我识别属性该属性返回并因此在控制台中调用时输出所用库的版本在这种情况下它是 d3 version Now 从 4 0 版本开始 d
Keras 中的 Seq2Seq 双向编码器解码器

我正在尝试使用 Keras 实现 seq2seq 编码器解码器并在编码器上使用双向 lstm 如下所示 from keras layers import LSTM Bidirectional Input Concatenate from
如何使用 html、svg 创建可点击的三角形网格？

我已经创建了一个三角形网格如下所示 svg margin left 0px margin right 60px padding 0 div div div div
Cocoapods 和 XCode5 集成错误

在新的 XCode5 中构建我的项目时我收到以下警告 Pods App 作为 libPods App a 的隐式依赖项被拒绝因为其架构 i386 不包含所有必需的架构 x86 64 要解决此问题请选择Pods项目在左侧菜单中然后在t
Firebase 通知在 iOS 11 中不起作用

我正在开发一个使用 Firebase 推送通知的应用程序它运行良好直到我在 iOS 11 中尝试使用带有 iOS 11 的 iPhone 时通知不会到达这是我的代码 void application UIApplication a
从 Eclipse 项目创建多个 JAR

我已经开始开发一个项目目前该项目从 Eclipse 项目生成一个整体 JAR 文件基本上有一个 Ant 脚本它会在 Eclipse Java Builder 运行时运行并获取 Eclipse Java Builder 的输出 cl
Spring 的 @DependsOn 不适用于应用程序事件？

我有一个发送应用程序事件的类接收者不能错过这个事件因此发送者依赖于接收者 Service DependsOn receiver class Sender PostConstruct public void init applicatio
一般来说，什么更快，是通过文件进行 grep 还是通过 blob 运行 SQL LIKE %x% 查询？

假设我正在设计一个工具可以将代码片段保存在 PostgreSQL MySQL 数据库或文件系统中我想搜索这些片段使用像Sphinx这样的搜索引擎似乎不太实用因为我们在搜索代码时需要代码的精确文本匹配 grep and ack并且一直
如果更新时属性值为 null，则不应将该属性添加到记录中

假设我有一个像这样的猫鼬模式 var mongoose require mongoose var Schema mongoose Schema var testSchema new Schema name type String requi
如何暂停/延迟我的代码的特定部分

我在一个类中有一个 PaintComponent 方法它生成一个 10 10 的网格我想降低帧速率以便每次函数为网格中的矩形着色时我都可以看到进度 public void paint Graphics g1 super paint
Ruby 中私有方法应该放在哪里？

大多数博客或教程或书籍在任何类模块的底部都有私有方法这是最佳实践吗我发现在必要时使用私有方法更方便例如 public def my method do something minion method end private def
Python 正则表达式中的错误？（re.sub 与 re.MULTILINE）

我注意到 Python 的 Regex 库中有一些奇怪的行为并且我不确定我是否做错了什么如果我使用正则表达式对其运行re sub with re MULTILINE 它似乎只替换了前几次出现的情况如果我关闭它它会替换所有出现的情况r
有没有办法在python nltk中反转stem？

我有一个 NLTK python 中的词干列表并且想要获取创建该词干的可能单词有没有办法在Python中获取词干并获取词干的单词列表据我所知答案是否定的并且根据词干分析器的不同可能很难进行详尽的搜索来恢复词干规则的效果并且无论
Zend_Tool：致命错误：无法重新声明类 Zend_Loader

我能够创建新项目 zf create project ProjectName 但这会创建一个项目而不复制 Zend Framework 库所以我将 ZF 复制到我的项目库中并尝试创建一个控制器 zf create controller a
当切片索引超出范围时如何引发 IndexError？

The Python 文档 https docs python org 2 library exceptions html exceptions IndexError指出切片索引被无声地截断掉在允许范围因此没有IndexErrors切片
获取 PDF 中确切的字符串位置

我尝试读取流并希望获得每个字符串的确切位置坐标 int size reader getXrefSize for int i 0 i lt size i PdfObject pdfObject reader getPdfObject i i

获取 PDF 中确切的字符串位置

获取 PDF 中确切的字符串位置 的相关文章

随机推荐

热门标签

获取 PDF 中确切的字符串位置的相关文章