Ruby:读取 PDF 文件

2024-03-11

我正在寻找一种快速可靠的方法来在 Ruby(在 Linux 和 OSX 上)中读取/解析大型 PDF 文件。

直到现在我发现了相当古老和简单的PDF 工具包 http://pdf-toolkit.rubyforge.org/ (a pdf转文本 http://en.wikipedia.org/wiki/Pdftotext-包装器)和PDF阅读器 http://github.com/yob/pdf-reader/tree/master,它无法读取我的大部分文件。尽管这两个库提供了我正在寻找的功能。

我的问题:我错过了什么吗?是否有更适合(更快、更可靠)的工具来解决我的问题?


你可能会发现Docsplit http://documentcloud.github.com/docsplit/有用:

Docsplit 是一个命令行实用程序和 Ruby 库,用于将文档拆分为各个组成部分:可搜索的 UTF-8 纯文本、任何格式的页面图像或缩略图、PDF、单页和文档元数据(标题、作者、页数) ...)

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Ruby:读取 PDF 文件 的相关文章

随机推荐

  • mongodb中_id的长度有限制吗

    背景 我已经正在接管一个应用程序 原始工程师正在离开 该应用程序充当一些相对较慢的后端服务的缓存层 因为它是 RESTful 风格的 URL 所以每个 URL 都是唯一的 应用程序使用MongoDb作为缓存的存储 并使用哈希值作为缓存 虽然
  • .pgpass 用于 Docker 化环境中的 PostgreSQL 复制

    我尝试使用 Docker 和 bash 脚本 我使用 Coreos 设置 PostgreSQL 从属服务器 我还没有找到任何方法来提供有效的 pgpass 我知道我可以创建一个 PGPASSWORD 环境变量 但出于安全原因不想这样做 如此
  • 有人可以向我指出一个使用最新路由系统的 ember.js 项目吗?如果它也使用 ember-data 则奖励积分

    我正在使用 ember js 制作我的第一个项目 到目前为止尚未找到任何使用新路由系统的示例项目 ember 文档中的所有示例都使用旧的路由 另外 如果有人知道的话 我很想看到一个使用 Ember Data 的项目示例 Thanks 您可以
  • 在 C# 中更改选项卡页时,如何将面板设置为始终位于顶部?

    我在 TabController 中有两个选项卡的程序 我还有一个我想始终放在前面的面板 不管我在哪个标签页 我尝试将面板设置为BringToFront 但是当我更改标签页时这似乎不起作用 有什么建议如何解决这个问题吗 如果面板是包含通过
  • 如何在 MySQL 中滞后列?

    考虑下表 SELECT id value FROM table ORDER BY id ASC id value 12 158 15 346 27 334 84 378 85 546 The id列自动递增但包含间隙 这value列是数字
  • CSS 嵌套 Div 具有绝对位置?

    这是一个更为复杂的案例的再现 div style width 200px background color red AS HDSKLAJD KLASJD KLASJ DKLASJDKL JASKLD JKLAS JDKLASD AS HDS
  • 如何在连接到 lein swank 的 ClojureBox (EmacsW32) REPL 中抑制 ^M 字符

    我正在从我的服务器连接到一个 swank 服务器ClojureBox http clojure billhugh com安装 IE lein swank从我的项目目录然后M x slime connect来自 EmacsW32 然而 当我这
  • 如何在方案中调试gimp的script-fu脚本?

    我尝试使用 script fu scheme 为 gimp 制作一些脚本 当然 作为一个初学者 会有很多错误和误解 现在我正在寻找一种调试这些脚本的方法 我找到了 gimp message 但结果没有显示 我不知道是否有可能将调试消息打印到
  • Magento 2:“找不到所请求的商店。请验证商店并重试。”

    每次我从英语商店视图切换到意大利语商店视图 反之亦然 时 它都会将我带到等效的主页 无论我在哪里 并抛出此错误 这是我的设置 Magento 2 3 4 全新安装 自托管 1 个网站 1 个商店 2 个商店浏览次数 对于每个商店视图一个不同
  • 闪亮的自定义输出未渲染

    我正在尝试将 D3 js 的网络可视化绑定到 Shiny 中的自定义输出 由于某种原因 我的渲染函数似乎没有被调用 这是我的代码 绑定 js var forceNetworkOB new Shiny OutputBinding forceN
  • 如何在内部java api或jest api中获取弹性搜索索引的类型名称

    我有一个名为 demo 的索引 它包含不同的类型 我在我的应用程序中使用弹性搜索 java 内部 api 和rest api 玩笑 基本上我想提出这个要求 curl XGET http localhost 9200 demo mapping
  • 如何使用 multer 存储带有文件扩展名的文件?

    设法将我的文件存储在一个文件夹中 但它们存储时没有文件扩展名 有谁知道如何存储带有文件扩展名的文件 我有一个解决方法来添加正确的文件扩展名 如果你使用path节点模块 var multer require multer var path r
  • 连接在远程 IP 上被拒绝,但在本地 IP 上被接受

    正如标题所说 我的服务器在本地计算机上运行 我对其进行了测试和调试 它运行得很好 服务器也是用java编写的 但是当我尝试用我的远程IP 而不是192 168 0 113 我使用146 255 x x 测试它时 服务器没有收到任何东西 而客
  • Kendo UI MVVM 与 TypeScript - 将 ViewModel 制作为“类”

    我正在将一个项目转换为 Typescript 它使用 Kendo UI 的 MVVM 架构 然而 我对类的概念及其与视图模型的关系有一些疑问 我将建立一个班级并扩展kendo data ObservableObject 您可以从中创建视图模
  • wget 无法下载 - 404 错误

    我尝试使用 wget 下载图像 但收到如下错误 2011 10 01 16 45 42 http www icerts com images logo jpg Resolving www icerts com 97 74 86 3 Conn
  • Android 应用程序的蓝牙连接自动断开

    我正在创建一个应用程序 它以编程方式与 Android 应用程序连接 BLE 设备 这是我的连接 断开连接代码 当用户单击 连接 按钮时 new Thread new Runnable Override public void run mC
  • 使用 SMTP 发送电子邮件 codeigniter

    我正在尝试使用 smtp codeigniter 发送电子邮件 我正在使用的代码如下 public function notify marketing config Array protocol gt smtp smtp host gt s
  • C# 中是否有 ShouldSerialize[PropertyName] 的替代方案?

    我最近一直在编写大量代码 其中涉及使用 Json NET 进行序列化 并且由于我序列化的数据的性质 有时并非所有属性都需要序列化 因此 我执行如下操作 public int Foo get set public bool ShouldSer
  • 好的 asp.net (C#) 应用程序? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 对于满足以下条件的优秀开源 asp net C 应用程序有什么建议吗 设计精良且多层次 干净且带注释的
  • Ruby:读取 PDF 文件

    我正在寻找一种快速可靠的方法来在 Ruby 在 Linux 和 OSX 上 中读取 解析大型 PDF 文件 直到现在我发现了相当古老和简单的PDF 工具包 http pdf toolkit rubyforge org a pdf转文本 ht