我目前正在使用 PDF Box 来解析 pdf,并试图弄清楚如何检索有关文本的数据,例如字体(粗体、大小等)和字体的位置。
有什么建议么?
在浏览(很难找到)PDFBox 文档后,我发现这个小宝石 http://pdfbox.apache.org/apidocs/org/apache/pdfbox/examples/util/PrintTextLocations.html.
显然,其中一个示例准确地展示了如何完成您要求的所有操作。基本上,你子类PdfTextStripper
并覆盖processTextPosition
方法。在那里,您查询TextPosition http://pdfbox.apache.org/apidocs/org/apache/pdfbox/util/TextPosition.html获取您需要的任何信息。
为了将来参考,您可以在这里找到 javaDoc:http://pdfbox.apache.org/apidocs/index.html http://pdfbox.apache.org/apidocs/index.html
编辑2018-04-02:原始链接已失效,但示例可以在SVN 仓库在这里 https://svn.apache.org/viewvc/pdfbox/trunk/examples/src/main/java/org/apache/pdfbox/examples/util/DrawPrintTextLocations.java?view=markup.
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)