高效使用 pdftools 包中的 pdf_data 函数

2023-12-14

最终目标是使用 pdftools 包有效地浏览一千页 pdf 文档，以一致、安全地生成可用的数据框/标题。我尝试使用 tabulizer 包和 pdf_text 函数，但结果不一致。因此，开始通过pdf_data()功能，我比较喜欢。

对于那些不熟悉 pdf_data 函数的人来说，它将 pdf 页面转换为坐标网格，0,0 坐标位于页面的左上角。因此，通过排列 x,y 坐标，然后将文档旋转为宽格式，所有信息都会像在页面上一样显示，只有 NA 表示空白

这是一个使用熟悉的 mtcars 数据集的简单示例。

library(pdftools)
library(tidyverse)
library(janitor)

pdf_file <- "https://github.com/ropensci/tabulizer/raw/master/inst/examples/data.pdf"

mtcars_pdf_df <- pdf_data(pdf_file)[[1]]

mtcars_pdf_df%>%
  arrange(x, y)%>%
  pivot_wider(id_cols = y, names_from = x, values_from = text)%>%
  unite(col = Car_type, `154`:`215`, sep = " ", remove = TRUE,  na.rm = TRUE)%>%
  arrange(y)%>%
  rename("Page Number" = `303`)%>%
  unite(col =  mpg, `253`:`254`, sep = "", remove = TRUE, na.rm = TRUE)%>%
  unite(col = cyl, `283` : `291` , sep = "", remove = TRUE, na.rm = TRUE)%>%
  unite(col = disp, `308` : `313`, sep = "", remove = TRUE, na.rm = TRUE)

最好不要使用十几个联合函数来重命名各个列。我使用了看门人包row_to_names()函数在某一时刻将行 1 转换为列名，效果很好，但也许有人有更好的想法？

中心问题；通过合并多个列或移动列以使 NA 被相邻列填充，从数据集中删除 NA。

我正在努力提高效率。可以使用 purrr 包吗？任何有助于提高这一过程效率的帮助将不胜感激。

我所掌握的唯一信息pdf_data()进入这个的函数来自这里......https://ropensci.org/technotes/2018/12/14/pdftools-20/任何额外的资源也将不胜感激（除了 pdftools 包帮助文档/文献）。

感谢大家！我希望这也能帮助其他人使用pdf_data() too :)

如果您知道 PDF 是一张相当整洁的表格，那么这里有一种方法也许可以推广......

library(pdftools)
library(tidyverse)

pdf_file <- "https://github.com/ropensci/tabulizer/raw/master/inst/examples/data.pdf"

df <- pdf_data(pdf_file)[[1]]

df <- df %>% mutate(x = round(x/3),        #reduce resolution to minimise inconsistent coordinates
                    y = round(y/3)) %>% 
  arrange(y, x) %>%                        #sort in reading order
  mutate(group = cumsum(!lag(space, default = 0))) %>%  #identify text with spaces and paste
  group_by(group) %>% 
  summarise(x = first(x),
            y = first(y),
            text = paste(text, collapse = " ")) %>% 
  group_by(y) %>% 
  mutate(colno = row_number()) %>%         #add column numbers for table data 
  ungroup() %>% 
  select(text, colno, y) %>% 
  pivot_wider(names_from = colno, values_from = text) %>% #pivot into table format
  select(-y) %>% 
  set_names(c("car", .[1,-ncol(.)])) %>%   #shift names from first row
  slice(-1, -nrow(.)) %>%                  #remove names row and page number row
  mutate_at(-1, as.numeric)

df
# A tibble: 32 x 12
   car                 mpg   cyl  disp    hp  drat    wt  qsec    vs    am  gear  carb
   <chr>             <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl> <dbl>
 1 Mazda RX4          21       6  160    110  3.9   2.62  16.5     0     1     4     4
 2 Mazda RX4 Wag      21       6  160    110  3.9   2.88  17.0     0     1     4     4
 3 Datsun 710         22.8     4  108     93  3.85  2.32  18.6     1     1     4     1
 4 Hornet 4 Drive     21.4     6  258    110  3.08  3.22  19.4     1     0     3     1
 5 Hornet Sportabout  18.7     8  360    175  3.15  3.44  17.0     0     0     3     2
 6 Valiant            18.1     6  225    105  2.76  3.46  20.2     1     0     3     1
 7 Duster 360         14.3     8  360    245  3.21  3.57  15.8     0     0     3     4
 8 Merc 240D          24.4     4  147.    62  3.69  3.19  20       1     0     4     2
 9 Merc 230           22.8     4  141.    95  3.92  3.15  22.9     1     0     4     2
10 Merc 280           19.2     6  168.   123  3.92  3.44  18.3     1     0     4     4
# ... with 22 more rows

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

pdftools

高效使用 pdftools 包中的 pdf_data 函数的相关文章

如何在 conda 中静音或抑制 gfortran （或 clang？）后端？

我一直致力于构建一个非常特殊的 conda 环境专为python and R与串扰使用rpy2 我想出的方法可以安装正确的R包如下 install main environment sh now date T echo Start Tim
在 R 中将文本文件拆分为段落文件

我正在尝试将一个巨大的 text 文件拆分为多个 text 文件每个文件仅包含一个段落让我举个例子我需要这样的文字这是第一段这没有任何意义因为这只是一个例子这是第二段和前一段一样毫无意义另存为两个独立的 txt 文件其中
使用 ggplot_build 和 ggplot_gtable 后使用 ggsave 保存图形

我正在通过更改 ggplot build 生成的数据来修改使用 ggplot 构建的图表原因类似于包括 geom boxplot 中填充美学中使用的缺失因子水平的空间 https stackoverflow com questions 1
使用 Rcpp 得出斐波那契数列的意外结果

我刚刚开始使用Rcpp很抱歉如果我错过了一个简单的步骤或类似的东西我已经尝试过这个 sourceCpp library Rcpp sourceCpp code include
为什么安装的“igraph”包在加载后返回“libicui18n.so.58：无法打开共享对象文件”？

我试图使用命令 install packages igraph 在 R 中安装 igraph 包安装后在测试阶段出现以下错误测试是否可以加载已安装的包错误包或命名空间 dyn load file DLLpath DLLpath 中的
geom_密度匹配geom_histogram binwitdh

我想在 ggplot2 中的分布条形图上添加一条线以显示平均分布但遇到了麻烦像这样的 ggplot 调用 ggplot x aes date received geom histogram aes y count binwidth 30
用于更改向量中元素顺序的闪亮小部件

在很多网站上您都有一个拖放界面来更改列表中元素的顺序我正在寻找类似的东西闪亮我希望用户能够拖放列表中的元素通过更改顺序来更改优先级现在我有一个滥用的解决方案selectizeInput 这是可行的但当选择列表变得更大时它很快就
R Shiny - 修复了 Shiny 仪表板中的侧边栏和主标题

我有一个简化的闪亮仪表板请参阅下面的代码我想修复侧边栏和主标题因此在其他帖子的帮助下我编写了一个 CSS 文件来解决该问题 sidebar color FFF position fixed width 220px white sp
在多面图中用 N 注释 x 轴

我正在尝试生成一些按治疗条件和访问次数细分的数字结果的箱线图每个框中的观察次数都放在图下方并且也标记了访问次数这里有一些虚假数据可以用来说明我举了两个我尝试过但不太有效的例子 library ggplot2 library plyr
为 ggplot 定义新的尺度轴变换

我正在尝试创建一个squared使用 y 轴变换scales trans new但遇到错误 MWE data data frame x 1 10 y runif 10 z rnorm 10 10 library ggplot2 ggplot
根据列A：列B范围内的值查找数据框中的相应行[重复]

这个问题在这里已经有答案了我有一个 data frame 和一个向量例如 df data frame id 1 3 start c 1 1000 16000 end c 100 1100 16100 info c a b c vec c
r - 从我的应用程序下载shinyapps代码

我正在尝试从shinyapps io 在另一台电脑上下载我的shiny 应用程序代码我按照这个例子 https support rstudio com hc en us articles 204536588 从 shinyapps io下
r 连接两个列表并对它们的值求和

我有两个列表 x y gt x carlo monte simulation model quantum 31 31 9 6 6 gt y model system temperature quantum simulation proble
如何获得 R 帮助？

R 包可能有哪些可用文档例如我尝试理解sp包裹此外help sp 还有哪些用于搜索帮助和文档的其他功能获取有关您知道其名称的函数的帮助 Use http www inside r org r doc utils Question或者
粘贴两个 data.table 列

dt lt data table L 1 5 A letters 7 11 B letters 12 16 L A B 1 1 g l 2 2 h m 3 3 i n 4 4 j o 5 5 k p 现在我想粘贴列 A 和 B 以获得一个新
plot xts if (on == "years") { 中的错误：缺少 TRUE/FALSE 需要的值

我正在尝试绘制 xts 对象但出现有关年份的错误 xts 对象只有一个数值和一个 POSIXct 索引下面的代码显示了 xts 和尝试绘图时的错误关于需要对 xts 对象做什么才能正确绘制的任何想法 xTest lt as xts 3
如何缩放（标准化）每列内的 ggplot2 stat_bin2d 值（按 X 轴）

我有一个 ggplot stat bin2d 热图 library ggplot2 value lt rep 1 5 1000 df lt as data frame value df group lt rep 1 7 len 5000 d
计算数据帧 R 中字符串的频率

我想计算数据框中某些字符串的频率 strings lt c pi pie piece pin pinned post df lt as data frame strings 然后我想计算字符串的频率 counts lt c pi in pi
dplyr 总结小计

Excel 中数据透视表的一大优点是它们会自动提供小计首先我想知道 dplyr 中是否已经创建了任何可以实现此目的的东西如果没有实现它的最简单方法是什么在下面的示例中我按气缸和化油器的数量显示了平均排量对于每组气缸 4 6 8
删除绘图轴值

我只是想知道是否有一种方法可以消除 r 图中的轴值分别是 x 轴或 y 轴我知道axes false将摆脱整个轴但我只想摆脱编号删除 x 轴或 y 轴上的编号 plot 1 10 xaxt n plot 1 10 yaxt n 如果

随机推荐

Android Studio Gradle 错误 - preDexDebug

我最近向我的 android studio 项目添加了一个新活动现在当我尝试运行它时遇到错误它构建得很好但是当我运行它时出现以下错误 FAILURE Build failed with an exception What went w
NUnit 断言方法错误也在 NUnit.Framework 和 Microsoft.VisualStudio.TestTools.UnitTesting 命名空间中找到

如果我同时使用这两个语句 using Microsoft VisualStudio TestTools UnitTesting using NUnit Framework 我收到一个错误Assert方法有人可以告诉我使用它的最佳方法是什么
为什么这个简单的 c++11 线程示例在使用 clang 3.2 编译时会失败？

我不明白我在这里做错了什么这个非常短的程序 include
我正在尝试使用视频视图中的可共享链接播放谷歌驱动器中的视频，但无法播放此问题的解决方案是什么？

这是我的代码 mVideoView VideoView findViewById R id videoview VideoView videoView findViewById R id videoview videoPath https
通过另一个平面关联数组中的键过滤一个平面关联数组

我有两个数组 arr1 array a gt 10 b gt 20 arr2 array a gt 10 b gt 20 c gt 30 我该如何使用array filter 从中删除元素 arr2不存在于 arr1 就像我的例子中的 c
Eclipse DDMS 模拟器控制中可能存在错误？

我刚刚升级到 Eclipse 3 6 我保存了 Eclipse 3 5 并制作了原始工作区的副本现在当我使用模拟器控制选项卡从 DDMS 角度发送位置时我注意到 GPS 地图应用程序中出现错误该应用程序在 3 5 中运行良好我有一
带标签的 Python Tkinter TTK 分隔符

我正在尝试创建一个自定义小部件其中在标签后面包含分隔符我希望分隔符在标签后面延伸到窗口的每一侧使用网格我尝试自己创建这个但我无法让分隔符粘在边缘上 import tkinter as tk from tkinter import
如何计算 numpy 中一维数组的移动（或滚动，如果你愿意）百分位数/分位数？

在熊猫中我们有pd rolling quantile 在 numpy 中我们有np percentile 但我不知道如何做它的滚动移动版本解释一下我所说的移动滚动百分位数分位数的含义给定数组 1 5 7 2 4 6 9 3 8
为什么 PHP mail() 需要像 sendmail/postfix/etc 这样的邮件程序？用于发送电子邮件？

想要改进这篇文章吗提供此问题的详细答案包括引用和解释为什么你的答案是正确的不够详细的答案可能会被编辑或删除为什么PHPmail 功能需要邮件程序如sendmail postfix 等用于发送电子邮件我问这个问题是因为发送电子邮
Android 带有操作栏的 Activity 屏幕截图

我使用这些行来截取我的活动的屏幕截图 View toppest ViewGroup ctx getWindow getDecorView findViewById android R id content getChildAt 0 topp
使用字符串的upper方法时，为什么upper后面一定要放()呢？

这是使上层工作的代码 a Hello World print a upper 这是我认为正确但不起作用的代码 a Hello World print a upper 如果有帮助的话我正在使用 PyCharm 注我今天才开始学习Python
如何在 Javascript 中从 http 源返回图像

我有一个包含数据的字典列表其中每个字典都有一个键图片和一个作为图像源 http 的值 picture http 以及其他键值集我需要返回一个 html 页面其中包含与词典关联的名称和图像列表我已设法返回名称列表但是当我尝试返
MySQL 中复合唯一键是否有索引？

我有一个UserSkills具有三列的表 id PK userId FK and skillId FK 我想对以下组合强制执行复合唯一约束userId and skillId 为了更快地查找我希望启用复合索引 userId skillId
使用正则表达式以任意顺序匹配多个单词[重复]

这个问题在这里已经有答案了好吧假设我想匹配一个句子中的 3 个单词但我需要以任何顺序匹配它们例如 sentences Array one two three four five six seven eight nine ten te
同一桌子导轨的多个关联

我有两个类 User 和 Bug bug 中有两个外键引用 user id 问题是我在创建记录时如何将 user id 存储在外键列中例如如果用户输入 bug 那么他的 id 存储在buger id 列类错误 belongs to b
C： char* 问题

code c TASK Reverse a string by reversing pointers Function should use return type char and use a char parameter as inpu
清单中的广播接收器注册与活动

我需要一些帮助来了解我的广播接收器何时可以在清单中注册时正常工作而不是必须从正在运行的活动或服务中注册因此例如如果我使用以下意图过滤器注册一个独立接收器则它可以在没有服务活动引用的情况下工作
使用 gekko 进行 Python 优化

我第一次使用 gekko 来对 python 进行优化我对 python 没有太多经验但我知道基础知识运行优化时出现错误代码 13 import Gekko optimization package from gekko import
具有键“XXX”的 ViewData 项的类型为“System.Int32”，但必须为“IEnumerable”类型

我有以下视图模型 public class ProjectVM Display Name Category Required ErrorMessage Please select a category public int Category
高效使用 pdftools 包中的 pdf_data 函数

最终目标是使用 pdftools 包有效地浏览一千页 pdf 文档以一致安全地生成可用的数据框标题我尝试使用 tabulizer 包和 pdf text 函数但结果不一致因此开始通过pdf data 功能我比较喜欢对于那些

高效使用 pdftools 包中的 pdf_data 函数

高效使用 pdftools 包中的 pdf_data 函数 的相关文章

随机推荐

热门标签

高效使用 pdftools 包中的 pdf_data 函数的相关文章