我想知道 Microsoft .NET 中是否有一些 PDF 库能够通过给出坐标来提取文本。
例如 (在伪代码中):
PdfReader reader = new PdfReader();
reader.Load("file.pdf");
// Top, bottom, left, right in pixels or any other unit
string wholeText = reader.GetText(100, 150, 20, 50);
我尝试使用 PDFBox for .NET(在 IKVM 之上工作的 PDFBox)来实现这一点,但没有成功,而且它似乎非常过时且没有文档记录。
也许任何人都有使用 PDFBox、iTextSharp 或任何其他开源库执行此操作的良好示例,他/她可以给我一个提示。
先感谢您。
嗯,谢谢大家的努力。
我在 IKVM 编译之上使用 Apache 的 PDFBox 得到了它,这是最终的代码:
PDDocument doc = PDDocument.load(@"c:\invoice.pdf");
PDFTextStripperByArea stripper = new PDFTextStripperByArea();
stripper.addRegion("testRegion", new java.awt.Rectangle(0, 10, 100, 100));
stripper.extractRegions((PDPage)doc.getDocumentCatalog().getAllPages().get(0));
string text = stripper.getTextForRegion("testRegion");
它就像一个魅力。
不管怎样,谢谢你,我希望我自己的回答能够帮助其他人。如果您需要更多详细信息,请在此处发表评论,我将更新此答案。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)