将 PDF 文件中的数据读取到 R 中

2023-12-25

这还可能吗!?!

我有一堆旧报告需要导入到数据库中。不过,它们都是 pdf 格式。有没有R可以阅读pdf的软件包吗?或者我应该将其留给命令行工具?

这些报告是用 Excel 制作的,然后以 pdf 形式生成,因此它们具有规则的结构,但有许多空白的“单元格”。


所以...即使在相当复杂的桌子上,这也能让我接近。

从以下位置下载 pdf 样本bmi pdf https://www.nhlbi.nih.gov/health/educational/lose_wt/BMI/bmi_tbl.pdf

library(tm)

pdf <- readPDF(PdftotextOptions = "-layout")

dat <- pdf(elem = list(uri='bmi_tbl.pdf'), language='en', id='id1')

dat <- gsub(' +', ',', dat)
out <- read.csv(textConnection(dat), header=FALSE)
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将 PDF 文件中的数据读取到 R 中 的相关文章

  • glm() 模型的交叉验证

    我正在尝试对我之前在 R 中构建的一些 glm 模型进行 10 倍交叉验证 我对cv glm 函数在boot包 尽管我已经阅读了很多帮助文件 当我提供以下公式时 library boot cv glm data glmfit K 10 这里
  • readRDS() 加载额外的包

    什么情况下会出现readRDS R 中的函数尝试加载包 命名空间 我很惊讶地在新的 R 会话中看到以下内容 gt loadedNamespaces 1 base datasets graphics grDevices methods sta
  • Dplyr 多重滞后整齐评估?

    我试图在 dplyr 中使用尽可能少的代码来实现多个滞后 同时坚持整洁的评估 以下标准评估 SE 代码有效 if require dplyr install packages dplyr library dplyr a as tibble
  • 如何在模态窗口中显示pdf? [关闭]

    Closed 这个问题需要多问focused help closed questions 目前不接受答案 我有一个模式窗口 其中包含锚文本 当我单击此链接时 它必须调用其他位置的 pdf 并将其显示在弹出窗口中 我怎样才能做到这一点 请帮忙
  • 如何判断某个软件包是否已经安装?

    当我安装 yaml 包时 如果之前已经安装过 RStudio 则会弹出一条烦人的错误消息 如何判断该软件包是否已安装 以便我可以在代码中决定是否安装该软件包 该消息位于弹出窗口中 内容如下 此安装将更新的一个或多个软件包 当前已加载 在更新
  • r Shiny 中的 fileInput 函数没有响应

    我是 R 和 R闪亮的新手 一直致力于构建一个统计应用程序 该应用程序将允许用户导入文件 然后对数据运行不同的统计程序 直到最近 fileData 函数一直对我来说运行良好 现在每当我尝试上传文件时 都不会打开任何内容 我已尝试了所有我能想
  • 通过 RSelenium 单击按钮

    我正在尝试使用 Rselarium 和 Rvest 来抓取 REI 的评论 吊床 我想点击底部的按钮 x 次 这样我就可以抓取所有评论 我有点失落 这是我到目前为止所拥有的 如果您也知道如何在取景器中预览您正在做的事情 而不是屏幕打印 那就
  • 亚马逊 Linux - 安装 openjdk-debuginfo?

    我试图使用jstack在 ec2 实例上amazon linux 所以我安装了openjdk devel包裹 sudo yum install java 1 7 0 openjdk devel x86 64 但是 jstack 引发了异常j
  • 将固定文档/XPS 打印为 PDF,而不显示文件保存对话框

    我有一个FixedDocument我允许用户在 WPF GUI 中预览 然后打印到纸张上 而不显示任何 Windows 打印对话框 如下所示 private void Print PrintQueueCollection printQueu
  • 使用 --prof 选项创建多个日志文件而不是一个 v8.log 的节点

    我正在尝试使用 prof 选项来分析我的 Node 应用程序 但我发现不是一个单一的 v8 log 文件 而是使用诸如isolate 0x9582b40 v8 log isolate 0xa1cab78 v8 6049 等前缀创建的多个文件
  • 如何在 Shiny 中动态渲染的 textInput 添加样式元素

    你好堆栈溢出 在我最近提出的问题中 我已经解决了一些与动态渲染 UI 元素相关的主要问题 并在一些了不起的人的帮助下动态创建了观察者 参见此处 动态渲染的 UI 如何在第二次运行时删除旧的反应变量 https stackoverflow c
  • 如何为 Android 创建我们自己的 PDF 查看器?

    我想构建一个可在我的 Android 应用程序中使用的 PDF 阅读器 查看器 但我无法使用 Google 文档来阅读我的内容 我无法使用我的设备中已安装的任何 PDF 阅读器 它应该位于我的应用程序内 并且不会通过互联网公开我的安全内容
  • R 中带有边缘箱线图的直方图

    如何使直方图中的 X 轴与边缘箱线图匹配 data lt rnorm 1000 nf lt layout mat matrix c 1 2 2 1 byrow TRUE height c 1 3 layout show nf par mar
  • 如何通过不同的接口路由 TCP/IP 响应?

    我有两台机器 每台机器都有两个有效的网络接口 一个以太网接口eth0和 tun tap 接口gr0 目标是使用接口在机器 A 上启动 TCP 连接gr0但然后让机器 B 的响应 ACK 等 通过以太网接口返回 eth0 因此 机器 A 发出
  • 如何在 R 中查找平衡面板数据(又名,如何查找面板中的哪些条目在给定窗口内完整)

    我有来自 Compustat 的大量数据 我向其中添加了一些手工收集的数据 认真地从一堆旧书中手工收集 但我不想手工收集整个面板 只想随机选择一个子集 为了找到更大的集合 我从中随机选择 我想从 Compustat 的平衡面板开始 我看到p
  • 根据共同值对两个数据帧求和

    我有一个看起来像的数据框 day of week count 1 0 3 2 3 1 3 4 1 4 5 1 5 6 3 另一个喜欢 day of week count 1 0 17 2 1 6 3 2 1 4 3 1 5 4 5 6 5
  • 如何将 mcmc.list 转换为 bugs 对象?

    我正在使用rjagsR 库 功能coda samples产生一个mcmc list 例如 来自example coda samples library rjags data LINE LINE recompile LINE out lt c
  • R:如何更改ggvis闪亮应用程序中特定范围的绘图背景颜色

    I have a simple shiny app like below and you can run it The plots are created by ggvis and user can choose student name
  • Unix 中的访问时间是多少

    我想知道访问时间是多少 我在网上搜索但得到了相同的定义 读 被改变 我知道与touch我们可以改变它 谁能用一个例子来解释一下它是如何改变的 有没有办法在unix中获取创建日期 时间 stat结构 The stat 2 结构跟踪所有文件日期
  • 一次评论多个对象

    假设您有一个变量 a 到 j 的列表 for x in 1 10 assign letters x x 您将如何评论那些最近创建的对象 我尝试过类似的事情 for x in 1 10 comment get letters x lt pas

随机推荐

  • 如何将函数调用添加到列表中?

    我有一个使用以下函数的 Python 代码 def func1 arguments a b c def func2 arguments d e f def func3 arguments g h i 上述每个功能都会在产品上配置 CLI 命
  • 将行转换为列 Shell 脚本

    我有以下格式的数据 APP OWNER hari APP AREA Work Business Area AUS APP ID 124080 我希望将数据转换为以下格式 APP OWNER APP AREA APP ID hari Work
  • Firebase DatabaseException:无法将 java.lang.Long 类型的值转换为 String

    com google firebase database DatabaseException 转换失败 java lang Long 类型的值转换为 String 是我在按照文档尝试将数据检索到对象以供使用时不断收到的错误 这是我的对象模型
  • 没有匹配的函数用于调用构造函数(c ++)[重复]

    这个问题在这里已经有答案了 EDIT 好吧 我又花了几个小时阅读了一些内容 我想我终于更好地理解了 C OOP 至少是基础知识 我决定一次重写整个程序和代码并进行更多测试 我想这次我缩小了错误的范围 命名风暴 h include
  • Plotly:躲避散点图分类轴上的重叠点

    我正在尝试使用绘图来比较回归模型的系数 并使用置信区间的误差线 我使用以下代码来绘制它 使用变量作为分类y散点图中的轴 问题是这些点是重叠的 我想避开它们 就像您设置时在条形图中发生的那样barmode group 如果我有一个数字轴 我可
  • Rails - 有 2 个字段的查找依据?

    我在控制器中有以下内容 def update permission Permission find by user id params user id 但我希望它也能通过另一个参数找到 project id 我怎样才能在 Rails 中做这
  • 如何让我的维吉尼亚密码忽略原始消息中的空格

    我试图制作一个维吉尼亚密码 但我似乎找不到一种方法来实现在输入消息时忽略输入的空格 然后打印最后的功能 例如 我输入起始消息 python 计算 然后我输入密钥为 stack 如果程序忽略原始消息中的空格 我希望得到 isukzg wppa
  • 对象文字属性值简写与“this”不兼容

    在 JavaScript 中可以执行以下操作 var a this this 但使用 ES6 属性简写时 我得到 SyntaxError var b this SyntaxError this is a reserved identifie
  • 关于 MvcContrib TestHelpers 的新手问题

    我刚刚开始使用 MvcContrib 中的 TestHelpers 我想尝试在我的控制器上测试一个操作方法 该方法本身测试 IsAjaxRequest 是否为 true 我使用了 TestHelper 示例中显示的相同代码来设置 TestC
  • snprintf:是否有任何 C 标准提案/计划来更改此函数的描述?

    C语言标准是否有任何提案 或计划 来更改 最后一句 描述snprintf函数使得描述的歧义这是我的答案 https stackoverflow com questions 7706936 is snprintf always null te
  • Google Play 游戏服务错误代码 400

    有一个使用玩游戏服务的应用程序 但由于某种原因它停止工作 看起来有时我可以成功登录 但通常 不能 如果我检查 API 流量 大约有 10 的人得到响应代码 200 其他人得到响应代码 404 得到404的方法 游戏 应用程序 玩过 游戏 事
  • React Native AsyncStorage 返回承诺而不是值

    我知道这是 RN 中一个非常常见的问题 我仍在尝试了解从属性文件加载数据时返回 Promise 的可能优势 而不是仅仅返回值 这使得链接请求非常麻烦 但无论如何 这是我现在拥有的 它是 AsyncStorage RN 实现的包装器 mult
  • Android 应用程序显示状态已发布但无法安装,表示预注册而不是安装

    从文档中可以看出 如果应用程序状态已发布 则应该可以下载 但对我来说 我没有安装选项 而是预先注册 我应该等多久才能显示安装 谢谢 The 预注册帮助页面位于此处 https support google com googleplay an
  • 如何去掉 ASP.NET MVC 路由中的问号?

    我定义了以下路线 theme subtheme contenttype contentdetail Print 当我使用 Url Action PrintLayout Page new contentUrlTitle Model Conte
  • 如何修复 UTF-8 解码错误的字符串?

    我正在使用来自 RESTful API 的数据 它返回字符串和整数值 但是 它似乎返回了一些错误编码 解码的字符串值 可能 预期字符串 crian a 收到的字符串 crian a 这是我的代码 url https analytics us
  • python循环并为列的每个值创建新的数据框

    我想为车站的每个唯一值创建一个新的数据框 我尝试了下面的方法 只给出了 dataframe tai new i 中更新的最后一个站数据 tai station unique has 500 values for i in tai stati
  • 角度2更改位置以固定在滚动上

    我有一个位置固定的左侧边栏 我想要实现的是 当我滚动大约 50 或 60 像素时 左侧边栏的位置应更改为固定 左侧栏 component ts import Component from angular core Component mod
  • 中继现代嵌套分页

    我有一个根查询songs 这是在分页容器中 然后我在歌曲上有一个嵌套属性 称为comments我也想分页 因为我不想一次为每首歌加载 10k 条评论 歌曲容器 js fragment songsContainer on Query song
  • 在 WPF XAML 中,如何连接 2 个常量以便可以使用预定义路径?

    我想用 c 常量替换源路径的路径部分 以便于路径管理 例如我有
  • 将 PDF 文件中的数据读取到 R 中

    这还可能吗 我有一堆旧报告需要导入到数据库中 不过 它们都是 pdf 格式 有没有R可以阅读pdf的软件包吗 或者我应该将其留给命令行工具 这些报告是用 Excel 制作的 然后以 pdf 形式生成 因此它们具有规则的结构 但有许多空白的