我正在寻找一种快速可靠的方法来在 Ruby(在 Linux 和 OSX 上)中读取/解析大型 PDF 文件。
直到现在我发现了相当古老和简单的PDF 工具包 http://pdf-toolkit.rubyforge.org/ (a pdf转文本 http://en.wikipedia.org/wiki/Pdftotext-包装器)和PDF阅读器 http://github.com/yob/pdf-reader/tree/master,它无法读取我的大部分文件。尽管这两个库提供了我正在寻找的功能。
我的问题:我错过了什么吗?是否有更适合(更快、更可靠)的工具来解决我的问题?
你可能会发现Docsplit http://documentcloud.github.com/docsplit/有用:
Docsplit 是一个命令行实用程序和 Ruby 库,用于将文档拆分为各个组成部分:可搜索的 UTF-8 纯文本、任何格式的页面图像或缩略图、PDF、单页和文档元数据(标题、作者、页数) ...)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)