R 中的 Tabulizer 包：如何在特定标题后抓取表格

2024-05-07

如何从 PDF 中抓取一些标题文本前面的表格？我正在尝试 tabulizer 包。这是从特定页面获取表格的示例（波兰语“公共卫生需求地图”）

library(tabulizer)
library(tidyverse)
options(java.parameters = "-Xmx8000m")

location<-"http://www.mpz.mz.gov.pl/wp-content/uploads/sites/4/2019/01/mpz_choroby_ukladu_kostno_miesniowego_woj_dolnoslaskie.pdf"

(out<-extract_tables(location, pages = 8,encoding = "UTF-8", method = "stream", outdir = getwd())[[4]] %>%
as.tibble())

这让我在特定页面得到一张桌子。但我会从网站上抓取大量这样的 pdf 文件：http://www.mpz.mz.gov.pl/mapy-dla-30-grup-chorob-2018/ http://www.mpz.mz.gov.pl/mapy-dla-30-grup-chorob-2018/然后是包含每种疾病的许多链接的子页面，获取波兰每个省的 rvest 链接，我需要在特定标题字符串后抓取表格，例如。

表 1.2.2：结构和结构 wiekowej - Choroby układowe tkanki łącznej"

我需要检测 Tabela(...) Struktura zapadalnosci(...)"，因为表格可能不在同一页面。非常感谢您提前提供任何指示和想法。

编辑：在我提出问题后，到目前为止我成功地找到了表格可能所在的页面，可能非常无效：

library(pdfsearch)

pages <-
  keyword_search(
    location,
    keyword = c(
      'Tabela',
      'Struktura zapadalnosci rejestrowanej'
    ),
    path = TRUE,
    surround_lines = FALSE
  ) %>%
  group_by(page_num) %>%
  mutate(keyword = paste0(keyword, collapse = ";")) %>%
  filter(
    str_detect(keyword, "Tabela") &
      str_detect(keyword, "Struktura zapadalnosci rejestrowanej")
  ) %>%
  pull(page_num) %>%
  unique()

我可以帮助您解决基本问题，但有一个问题（见最后）。我用pdftools代替pdfsearch但在这种情况下它基本上做同样的事情（查找带有表格的页面）。为了节省时间，我一开始只下载一次PDF：

options(java.parameters = "-Xmx8000m")# needs to be set before loading tabulizer
library(tabulizer)
library(tidyverse)

location <- "http://www.mpz.mz.gov.pl/wp-content/uploads/sites/4/2019/01/mpz_choroby_ukladu_kostno_miesniowego_woj_dolnoslaskie.pdf"
download.file(location, "test.pdf", mode = "wb")

现在将 pdf 转换为 data.frame，其中 df 的每一行都在一行中：

raw <- pdftools::pdf_data("test.pdf") 
pages <- lapply(seq_along(raw), function(p) {
  if (nrow(raw[[p]]) > 0) {
    raw[[p]]$page <- p
    raw[[p]]
  }
}) %>% 
  bind_rows() %>% 
  group_by(y, page) %>% 
  summarise(text = paste(text, collapse = " ")) %>% 
  arrange(page, y)

该数据框是可搜索的，我们只保留适合您的关键字的行：

tables <- pages %>% 
  filter(grepl("Tabela .* Struktura zapadalnosci", text))

有 8 行符合关键词。我们只从中提取表格。此外，该函数内lapply循环只保留行数最多的矩阵。如果一页上有两个表格，这可能会出现问题，但通常只使用“最佳猜测”效果很好tabulizer找到表结构。

tables_list <- lapply(tables$page, function(p) {
  cat(p, "\n")
  out <- extract_tables("test.pdf", 
                        pages = p,
                        encoding = "UTF-8", 
                        method = "stream", 
                        output = "matrix")
  out <- as_tibble(out[[which.max(sapply(out, nrow) + sapply(out, ncol))]]) # keep the biggest table
  attr(out, "caption") <- tables$text[tables$page %in% p]
  return(out)
})

物体tables_list现在包含一个列表data.frames，每个转换表：

> tables_list[[1]]
# A tibble: 16 x 8
   V1                  V2    V3    V4    V5    V6    V7    V8   
   <chr>               <chr> <chr> <chr> <chr> <chr> <chr> <chr>
 1 dolnośląskie        77,05 74,65 4,04  10,59 13,37 27,87 44,14
 2 kujawsko-pomorskie  78,12 65,93 4,29  14,96 14,82 27,01 38,92
 3 lubelskie           76,50 56,83 2,67  14,83 17,00 29,00 36,50
 4 lubuskie            79,10 76,23 4,92  12,70 12,70 30,74 38,93
 5 łódzkie             74,37 67,77 6,45  13,84 15,09 30,03 34,59
 6 małopolskie         72,71 55,35 6,99  14,63 12,01 25,87 40,50
 7 mazowieckie         76,31 68,52 5,89  12,11 12,30 27,03 42,67
 8 opolskie            79,55 54,65 4,83  10,04 17,47 26,02 41,64
 9 podkarpackie        75,10 47,32 7,57  14,86 18,29 25,31 33,98
10 podlaskie           74,18 68,00 5,82  10,55 17,09 32,36 34,18
11 pomorskie           76,57 74,96 5,71  12,74 13,76 26,65 41,14
12 śląskie             73,51 81,15 4,89  14,96 14,43 26,64 39,08
13 świętokrzyskie      74,45 56,51 4,91  14,00 14,74 27,27 39,07
14 warmińsko-mazurskie 75,91 63,22 5,62  13,59 18,48 29,53 32,79
15 wielkopolskie       72,66 62,71 3,62  14,37 14,77 29,45 37,79
16 zachodniopomorskie  74,26 73,21 8,44  13,71 11,60 24,89 41,35

我还将每个表格的标题（第一行）作为属性添加到data.frame:

> attr(tables_list[[1]], "caption")
[1] "Tabela 1.2.2: Struktura zapadalnosci rejestrowanej w zależności od płci, miejsca zamieszkania oraz grupy"

将此与 pdf 进行比较：

看起来这效果很好，只是列名消失了。不确定是否有办法保留它们，但这没有包含在您的问题中，所以也许您已经有了解决方案？

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

R 中的 Tabulizer 包：如何在特定标题后抓取表格的相关文章

如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
R中的字典数据结构

在 R 中我有例如 gt foo lt list a 1 b 2 c 3 如果我输入foo I get a 1 1 b 1 2 c 1 3 我怎样才能看透foo仅获取键列表在这种情况下 a b c R 列表可以具有命名元素因此可
将字符串列拆分为多个虚拟变量

作为 R 中 data table 包的相对缺乏经验的用户我一直在尝试将一个文本列处理为大量指示符列虚拟变量每列中的 1 表示特定的子字符串是在字符串列中找到例如我想处理这个 ID String 1 a b 2 b c 3 c 进入
为什么数据帧上的 is.vector 不返回 TRUE？

tl dr R 中的向量到底是什么长版 R 中很多东西都是向量例如数字是长度为 1 的数值向量 is vector 1 1 TRUE 列表也是一个向量 is vector list 1 1 TRUE 好的所以列表是一个向量显然数
Quantmod 的简单功能不再起作用

我明天要交论文我收到了一条关于 quantmod 的非常奇怪的错误消息这是我在过去几周使用这个包时从未遇到过的我无法导入特定于道琼斯指数 DJI 的数据我收到以下错误消息 getSymbols DJI src yahoo from
R 中两个时间戳之间的左连接

我的目标是执行左连接intervals哪里的bike id比赛和created at时间戳在records在之间start and end in the intervals table gt class records 1 data ta
实现 XGboost 自定义目标函数

我正在尝试使用 XGboost 实现自定义目标函数在 R 中但我也使用 python 所以有关 python 的任何反馈也很好我创建了一个返回梯度和粗麻布的函数它工作正常但是当我尝试运行 xgb train 时它不起作用然后我
如何在 Shiny 中提取动态生成的输入值？

我正在创建一个闪亮的应用程序它将根据客户的不同功能为客户生成分数在我闪亮的应用程序中我提供了 checkboxGroupInput 来选择所需的功能根据所选功能应用程序将动态地将 numericInput 添加到 Web ui 以
将列表中的每个元素转换为数据框中的一列

假设我有以下列表 d library combinat d permn c a b c 这看起来如下 1 1 a b c 2 1 a c b 3 1 c a b 4 1 c b a 5 1 b c a 6 1 b a c 是否可以将此列表的
多个动态滤镜更新闪亮

我希望能够让 UI 输入闪亮并根据用户之前的选择进行自我更新因此在下面的示例中预期的行为是用户选择cyl vsor carb那么这将过滤数据集mtcars用于创建绘图即用户根据过滤条件调整绘图并更新其他过滤器中的剩余输入选择
我可以使用哪个 R 函数来查找两条线的交点？

我刚刚研究了 stackoverflow 上所有的在 R 中寻找交集问题它们要么是关于曲线要么是关于分布像这个 https stackoverflow com questions 20519431 finding point of
sapply - 保留列名称

我试图总结数据集中许多不同列变量的平均值标准差等我已经编写了自己的汇总函数以准确返回我需要和正在使用的内容sapply立即将此函数应用于所有变量它工作正常但是返回的数据帧没有列名我似乎甚至无法使用列号引用重命名它们也就是说
在 RcppArmadillo 中将列向量乘以数值标量

我在编译这个简单的程序时遇到一些麻烦c 代码使用Rcpp和RcppArmadillo包裹采用以下简单示例将矩阵的每一列乘以数值标量 code lt arma mat out Rcpp as
在包加载之前如何知道 R 中特定函数属于哪个包？

例如我知道许多流行的功能例如tbl df 我通常不记得它属于哪个包即data table or dplyr 所以我必须始终记住并加载一个包但我做不到 tbl df除非我加载了正确的包在 R 控制台本身加载或安装包之前有没有办法知
data.table 抛出“找不到对象”错误[重复]

这个问题在这里已经有答案了我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时我可以让它工作但当我在调试器中或在包测试中使用它时却无法工作问题是我
使用选定因子水平的值向 ggplot-barchart 添加水平线

在这个情节中 df lt data frame factor as factor c rep A 3 rep B 3 Treatment c rep c A B C 2 values runif 6 0 1 ggplot df aes Tr
当设置 coord_fixed 时，ggplot/shiny 中的鼠标悬停坐标是错误的

我正在使用问题中的答案当您将鼠标悬停在闪亮的 ggplot 上时出现工具提示 https stackoverflow com questions 27965931 tooltip when you mouseover a ggplot o
ggplot：如何限制条形图中的输出，以便仅显示最频繁出现的情况？

我几个小时以来一直在寻找这个简单的东西但没有结果我有一个数据框其中一列为变量国家地区我想要两件事以下绘制最常见的国家地区最常见的位于顶部找到部分解决方案EDIT找到完整的解决方案 gt gt 重点问题是根据频率限制条形图
需要在R中跳过不同数量的行

我正在使用以下代码来处理我的数据但最近我意识到使用skip 27 在数据开始之前跳过存储在我的文件中的信息不是一个好的选择因为每个文件中要跳过的行数不同我的目标是读取存储在多个文件夹中的各种txt文件并非所有文件都有相同的列数列的
case_when 与部分字符串匹配和 contains()

我正在使用一个数据集其中有许多名为 status1 status2 等的列在这些列中它表示某人是否豁免完整注册等不幸的是豁免投入并不一致这是一个示例 library dplyr problem lt tibble perso

随机推荐

即使只有单个项目，也强制 uiscrollview 弹跳滚动

我有一个 UIScrollView 其中包含不同数量的项目子视图当有多个项目时滚动弹跳起作用然而有时滚动视图应该只有一项我想向用户提供他们的滚动被识别的反馈从而产生反弹效果但是 UIScrollView 仅禁用一项滚动答案
为什么是补码？

我正在编写一个教程来教孩子们 9 至 13 岁编程我从计算机本身开始它们与计算机科学没有太大关系更多的是涉及解决计算问题的过程以此为出发点我引导他们认识到机器可以帮助我们解决某些计算问题人们擅长抽象思维和想象力但计算机非常擅
如何使用 URL 将数据从 javascript 发送到 ASP.NET MVC 控制器

我需要一些帮助我使用 ASP NET MVC4 以及 JavaScript 和 Knockout 编写了一个小应用程序但我无法将数据从 javascript 发送到 MVC 控制器反之亦然例如JS部分是这样的 JavaScript
防止 Excel 公式中的单元格数量增加

我在 Excel 中有一个公式需要根据该行中的数字除以一个常数对该列的几行运行当我复制该公式并将其应用于范围中的每个单元格时所有单元格编号都会随行增加包括常量所以 B1 127 C4 IF B4 lt gt B4 B1 如果我复制
@EnableJpaRepositories 正在寻找哪个包？

我正在学习如何构建 JSF 和 Spring 集成的 webapp 我使用java config来配置问题是 EnableJpaRepositories 我应该在这个注解中放入哪个包包中包含实体类吗或者配置类或者我可以将我的根包放
推送通知发送成功，但设备收不到（偶尔）

从昨天开始我一直遇到一些设备无法收到推送通知的问题证书设备令牌似乎是正确的直到昨天该设备才能成功接收推送通知在服务器端没有错误或连接拒绝并且推送通知似乎每次都成功发送但仍然有很多情况下设备无法正确接收推送一些周边信息我
在 PHP 中删除 foreach 之后数组中的空字段

我是 PHP 新手这是我的 mailing php 中的代码当用户提交请求时有 5 7 个可选字段和 20 25 个字段最终未被选择输出列出所有字段和值无论它们是空的还是已被选择我知道我需要使用unset or array fi
在mongodb中编辑子文档N-N关系

我有一个应用程序其中article可以链接到多个平台文章包含平台列表平台也包含文章列表有关更多详细信息请查看我几个月前提出的 stackoverflow 问题 https stackoverflow com a 40377383
对于基于 Play 2.0 的 Java 应用程序，我可以使用 groovy 模板代替 scala 吗？

我是 Play 2 0 新手我很难理解用于创建视图的 scala 模板我可以切换回 groovy 因为它存在于早期版本的 Play 框架中例如播放 1 2 播放 1 2 4 是的有一个可用于 groovy 的模块 https gi
AngularJS'无法读取未定义的'then'属性'

我遇到这个问题当我单击登录按钮时 chrome 控制台会记录以下内容 angular min js 117 TypeError 无法读取未定义的属性 then 在 m scope logIn loginModuleController j
如何在 django ImageField 中验证图像格式

我们的项目使用Python 2 7 PIL 1 1 7和Django 1 5 1 有一个 ImageField 适用于许多图像格式包括 bmp gif ico pnm psd tif 和 pcx 但是要求仅允许 png 或 jpg 图像
我们可以在比赛中重用后卫内部的中间变量吗？

说我有方法foo as def foo i Int Option Int some code 现在我想在一个Seq of Int如下 Seq 1 2 map case int gt foo int collect case Some int
Weblogic：Java 8 迁移后 AppMerge 无法合并您的应用程序

我们正在将 Java EE 应用程序从Java 6 to Java 8 这意味着编译级别和迁移JRE6 上的 Weblogic 11g to JRE8 上的 Weblogic 12c 当我尝试部署项目时出现以下错误 lt 20 7 201
使用 python 解析大型（20GB）文本文件 - 将 2 行读为 1

我正在解析一个 20Gb 文件并将满足特定条件的行输出到另一个文件但是有时 python 会一次读取 2 行并将它们连接起来 inputFileHandle open inputFileName r row 0 for line in i
如何使用 .schema 文件在 sqlite3 中创建 DB 文件

我们的客户向我们提供了一个名为db schema 现在有一个命令可以用来运行这个文件来创建一个 dbsqlite3 中的文件我可以做到这一点而不必输入中提到的所有查询吗db schema file 请帮忙谢谢如果该文件仅包含格式正确的
0、-0 和 +0 之间的差异[重复]

这个问题在这里已经有答案了我一直不明白为什么 0分别对待0 有趣的事实是0等于 0 gt 0 0 true 那么问题来了为什么 0 分别对待 https stackoverflow com a 23368135 1420197 than
根据聚合创建大小均匀的组

可能是一个新手问题但我希望根据数据库总大小将我们的服务器库存分成几个大小均匀的组并且很难弄清楚如何对它们进行分组我认为 NTILE 可能会起作用但我就是无法将注意力集中在平均分配组上我下面的示例只是随机订购服务器我希望结果是大小
在提供给 sklearn 管道中的分类器之前获取所选特征的名称和数量

我在用sel SelectFromModel ExtraTreesClassifier 10 threshold mean 选择我的数据集中最重要的特征然后我想将这些选定的特征提供给我的 keras 分类器但是我的基于 keras 的神
替换 Select 语句中的 NULL 和空字符串

我有一个专栏可以有NULL或空白区域即值我想用有效值替换这两个值例如 UNKNOWN 我发现的各种解决方案建议修改表本身内的值然而在这种情况下这不是一个选项因为数据库用于开发和或修补得非常差的第三方应用程序实际上我认为
R 中的 Tabulizer 包：如何在特定标题后抓取表格

如何从 PDF 中抓取一些标题文本前面的表格我正在尝试 tabulizer 包这是从特定页面获取表格的示例波兰语公共卫生需求地图 library tabulizer library tidyverse options java pa

R 中的 Tabulizer 包：如何在特定标题后抓取表格

R 中的 Tabulizer 包：如何在特定标题后抓取表格 的相关文章

随机推荐

热门标签

R 中的 Tabulizer 包：如何在特定标题后抓取表格的相关文章