Ruby：读取 PDF 文件

2024-03-11

我正在寻找一种快速可靠的方法来在 Ruby（在 Linux 和 OSX 上）中读取/解析大型 PDF 文件。

直到现在我发现了相当古老和简单的PDF 工具包 http://pdf-toolkit.rubyforge.org/ (a pdf转文本 http://en.wikipedia.org/wiki/Pdftotext-包装器）和PDF阅读器 http://github.com/yob/pdf-reader/tree/master，它无法读取我的大部分文件。尽管这两个库提供了我正在寻找的功能。

我的问题：我错过了什么吗？是否有更适合（更快、更可靠）的工具来解决我的问题？

你可能会发现Docsplit http://documentcloud.github.com/docsplit/有用：

Docsplit 是一个命令行实用程序和 Ruby 库，用于将文档拆分为各个组成部分：可搜索的 UTF-8 纯文本、任何格式的页面图像或缩略图、PDF、单页和文档元数据（标题、作者、页数） ...)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

rubyonrails

ruby

pdf

pdfparsing

Ruby：读取 PDF 文件的相关文章

REXML - 如何提取单个元素

我正在用 ruby 编写一些验收测试其中涉及断言响应 XML 中值的存在我的 XML 是这样的
在 Rails 3 中渲染 Markdown 文本

我想将 markdown 转换为 html 在我看来我有markdown some text variable 但我得到了错误undefined method markdown I added require BlueCoth 到envir
即使在急切加载之后，belongs_to 关联也会单独加载

我有以下关联 class Picture lt ActiveRecord Base belongs to user end class User lt ActiveRecord Base has many pictures end 在我的
Rails 4 应用程序...在开发环境中，除非刷新页面，否则 javascript 不会触发

所以我的第一个rails4应用程序遇到了一个奇怪的问题除非我重新加载页面否则我的页面javascript不会触发对于我的 asset pipeline JS 和 content for JS 来说都是如此在我的 assets jav
使用 rspec 测试嵌套路由

我正在尝试使用 rspec 测试路由以下给出了预期块返回真值的错误我不确定我错过了什么通过浏览器我可以发布到这个网址并且成功有任何想法吗谢谢 Routes resources forum topics do resources
Ruby require 'file' 不起作用，但 require './file' 可以。为什么？

我有一个充满 ruby 文件的文件夹当我尝试使用位于同一目录中的另一个文件中的一个文件时require file 我得到一个LoadError但是当我使用require file 一切正常有人可以向我解释为什么会发生这种情况吗如果有什
ruby从1.8.7升级到1.9.2（使用Rails 3.1.1）后本地服务器错误

我刚刚安装了rvm并使用rvm将ruby从1 8 7升级到1 9 2 我在我的应用程序上运行了捆绑安装它重新安装了我的 gems 当我在本地运行 Rails 服务器并将浏览器导航到 localhost 3000 时服务器日志中显示以下错
如何向 Rails 应用程序添加自定义字体？

我想在 RoR 应用程序中使用几种字体但它们的格式主要是 ttf 和 otf 等我该如何将这些文件嵌入到我的 Rails 应用程序中也就是说一旦我将它们放入我的资产文件夹中将它们嵌入我的 CSS 和或 LESS 文件中的语法到底
如何为 ApplicationController 中 after_action 过滤器中的所有操作渲染 json？

是否可以在 Rails ApplicationController 中创建一个 after filter 方法该方法在每个操作上运行并呈现为 JSON 我正在构建一个 API 并且希望将控制器中的每个操作的输出呈现为 JSON 客户控制器
如何使用 net/http 验证 ruby 中的 SSL 证书链

我如何验证网站的证书例如https processing ukash com https processing ukash com 在 ruby 中使用 net http https Net HTTP new processing uka
Ruby 中的 DateTime.parse() 是否依赖于语言环境？

我想知道以下示例的输出解析时01 03 它会被解决为Mar 1st or Jan 3rd Ruby 不依赖于语言环境因为红宝石是一个服务器端语言而不是客户端像 JavaScript 一样的语言 Ruby 使用系统时钟yourWeb 应用
如何在 Ruby 2.2 上删除不安全密码来强化 Rails+webrick+https

更新首先我的测试代码没有充分显示 ruby 2 4 看到 SSLCiphers 选项而 ruby 2 2 没有我编辑了下面的示例代码以清楚地表明这一点更新由于我的问题未能得到社区的任何帮助我继续前进两天后找到了解决方案我将
如何从 Ruby 中的特定相对路径加载文件？

我正在制作一颗供内部使用的宝石在其中我从另一个目录加载一些 YAML in
Ruby 是否有一个 Expect 等效 gem？

Ruby 是否有一个 Expect 等效 gem 我尝试在 code google 和 ruby gems org 上搜索但遗憾的是它没有出现 FYI Expect http en wikipedia org wiki Expect是一个
我想要一个默认选择空白值的日期选择框

我用了以下date select助手但没有一个显示默认情况下选择空白值的日期选择框通过以下所有代码我得到了选择框但选择了当前日期我在 Rails 2 3 2 上
Rails/Ruby 合并两个具有相同键、不同值的哈希值

我有两个想要合并的哈希值它们看起来像这样 Hello gt 3 Hi gt 43 Hola gt 43 第二个哈希看起来像 Hello gt 4 Hi gt 2 Bonjour gt 2 我想合并这两个哈希数组使结果看起来像 Hello
Rails 资源单数还是复数？

我有一条搜索路线我想将其设为单数但是当我指定单数路线时它仍然会生成复数控制器路线这是应该的样子吗 resource search Gives me search POST search format action gt create
Heroku Rails 应用程序级别不记录日志

我在 Heroku 上有一个 Rails 应用程序它没有在应用程序级别进行日志记录当前版本红宝石1 9 3 导轨3 1 3 在 config environment development rb 中有以下几行 config logge
无法使用文件提供程序从内部存储打开 PDF 以便在 Android 8 和 9 上查看

仅适用于 Android 8 和 9 我这里有一个 PDF 文件管理器 String url file storage emulated 0 Android data com verna poc files Download mypdf p
Watir Webdriver 加载 Chrome 扩展

我正在尝试使用 Watir 加载 chrome 扩展但遇到了问题我发现这个相关问题能够启动带有 watir webdriver 加载扩展的 chrome https stackoverflow com questions 125867

随机推荐

mongodb中_id的长度有限制吗

背景我已经正在接管一个应用程序原始工程师正在离开该应用程序充当一些相对较慢的后端服务的缓存层因为它是 RESTful 风格的 URL 所以每个 URL 都是唯一的应用程序使用MongoDb作为缓存的存储并使用哈希值作为缓存虽然
.pgpass 用于 Docker 化环境中的 PostgreSQL 复制

我尝试使用 Docker 和 bash 脚本我使用 Coreos 设置 PostgreSQL 从属服务器我还没有找到任何方法来提供有效的 pgpass 我知道我可以创建一个 PGPASSWORD 环境变量但出于安全原因不想这样做如此
有人可以向我指出一个使用最新路由系统的 ember.js 项目吗？如果它也使用 ember-data 则奖励积分

我正在使用 ember js 制作我的第一个项目到目前为止尚未找到任何使用新路由系统的示例项目 ember 文档中的所有示例都使用旧的路由另外如果有人知道的话我很想看到一个使用 Ember Data 的项目示例 Thanks 您可以
在 C# 中更改选项卡页时，如何将面板设置为始终位于顶部？

我在 TabController 中有两个选项卡的程序我还有一个我想始终放在前面的面板不管我在哪个标签页我尝试将面板设置为BringToFront 但是当我更改标签页时这似乎不起作用有什么建议如何解决这个问题吗如果面板是包含通过
如何在 MySQL 中滞后列？

考虑下表 SELECT id value FROM table ORDER BY id ASC id value 12 158 15 346 27 334 84 378 85 546 The id列自动递增但包含间隙这value列是数字
CSS 嵌套 Div 具有绝对位置？

这是一个更为复杂的案例的再现 div style width 200px background color red AS HDSKLAJD KLASJD KLASJ DKLASJDKL JASKLD JKLAS JDKLASD AS HDS
如何在连接到 lein swank 的 ClojureBox (EmacsW32) REPL 中抑制 ^M 字符

我正在从我的服务器连接到一个 swank 服务器ClojureBox http clojure billhugh com安装 IE lein swank从我的项目目录然后M x slime connect来自 EmacsW32 然而当我这
如何在方案中调试gimp的script-fu脚本？

我尝试使用 script fu scheme 为 gimp 制作一些脚本当然作为一个初学者会有很多错误和误解现在我正在寻找一种调试这些脚本的方法我找到了 gimp message 但结果没有显示我不知道是否有可能将调试消息打印到
Magento 2：“找不到所请求的商店。请验证商店并重试。”

每次我从英语商店视图切换到意大利语商店视图反之亦然时它都会将我带到等效的主页无论我在哪里并抛出此错误这是我的设置 Magento 2 3 4 全新安装自托管 1 个网站 1 个商店 2 个商店浏览次数对于每个商店视图一个不同
闪亮的自定义输出未渲染

我正在尝试将 D3 js 的网络可视化绑定到 Shiny 中的自定义输出由于某种原因我的渲染函数似乎没有被调用这是我的代码绑定 js var forceNetworkOB new Shiny OutputBinding forceN
如何在内部java api或jest api中获取弹性搜索索引的类型名称

我有一个名为 demo 的索引它包含不同的类型我在我的应用程序中使用弹性搜索 java 内部 api 和rest api 玩笑基本上我想提出这个要求 curl XGET http localhost 9200 demo mapping
如何使用 multer 存储带有文件扩展名的文件？

设法将我的文件存储在一个文件夹中但它们存储时没有文件扩展名有谁知道如何存储带有文件扩展名的文件我有一个解决方法来添加正确的文件扩展名如果你使用path节点模块 var multer require multer var path r
连接在远程 IP 上被拒绝，但在本地 IP 上被接受

正如标题所说我的服务器在本地计算机上运行我对其进行了测试和调试它运行得很好服务器也是用java编写的但是当我尝试用我的远程IP 而不是192 168 0 113 我使用146 255 x x 测试它时服务器没有收到任何东西而客
Kendo UI MVVM 与 TypeScript - 将 ViewModel 制作为“类”

我正在将一个项目转换为 Typescript 它使用 Kendo UI 的 MVVM 架构然而我对类的概念及其与视图模型的关系有一些疑问我将建立一个班级并扩展kendo data ObservableObject 您可以从中创建视图模
wget 无法下载 - 404 错误

我尝试使用 wget 下载图像但收到如下错误 2011 10 01 16 45 42 http www icerts com images logo jpg Resolving www icerts com 97 74 86 3 Conn
Android 应用程序的蓝牙连接自动断开

我正在创建一个应用程序它以编程方式与 Android 应用程序连接 BLE 设备这是我的连接断开连接代码当用户单击连接按钮时 new Thread new Runnable Override public void run mC
使用 SMTP 发送电子邮件 codeigniter

我正在尝试使用 smtp codeigniter 发送电子邮件我正在使用的代码如下 public function notify marketing config Array protocol gt smtp smtp host gt s
C# 中是否有 ShouldSerialize[PropertyName] 的替代方案？

我最近一直在编写大量代码其中涉及使用 Json NET 进行序列化并且由于我序列化的数据的性质有时并非所有属性都需要序列化因此我执行如下操作 public int Foo get set public bool ShouldSer
好的 asp.net (C#) 应用程序？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案对于满足以下条件的优秀开源 asp net C 应用程序有什么建议吗设计精良且多层次干净且带注释的
Ruby：读取 PDF 文件

我正在寻找一种快速可靠的方法来在 Ruby 在 Linux 和 OSX 上中读取解析大型 PDF 文件直到现在我发现了相当古老和简单的PDF 工具包 http pdf toolkit rubyforge org a pdf转文本 ht

Ruby：读取 PDF 文件

Ruby：读取 PDF 文件 的相关文章

随机推荐

热门标签

Ruby：读取 PDF 文件的相关文章