使用 R 将数据从 PDF 导入到 HTML

2024-01-16

有没有办法使用 R 将数据从 .pdf 文件导入为 HTML 格式?

我尝试使用以下代码:

library(tm)
filename = "file.pdf"
doc <- readPDF(control = list(text = "-layout"))(elem = list(uri = filename),language = "en",id = "id1")
head(doc)

HTML 中的输出显示为:

## $content
##  [1] "                                    sample data"                                     
##  [2] ""                                                                           
##  [3] "                                  records"                                    
##  [4] ""                                                                           
##  [5] "                               31 July 2017"                                
##  [6] ""                                                                           
##  [7] ""                                                                           
##  [8] "R Markdown setup            
##  [9] ""                                                                           
## [10] ""                                                                           
## [11] "R Markdown"                                                                 
## [12] ""                                                                           
## [13] "This is an R Markdown document. Markdown is a simple formatting syntax for" 
## [14] "authoring HTML, PDF, and MS Word documents. For more details on using R"    
## [15] "Markdown see http://rmarkdown.rstudio.com."                                 
## [16] "When you click the Knit button a document will be generated that includes"  
## [17] "both content as well as the output of any embedded R code chunks within the"
## [18] "document. You can embed an R code chunk like this:"                         
## [19] "{r cars} summary(cars)"                                                     

请帮忙!


我在这里下载了 pdf 文件:https://fie.org/competition/2022/152/results/pools/pdf?lang=en https://fie.org/competition/2022/152/results/pools/pdf?lang=en

使用以下代码,我已经能够将 PDF 文件转换为 html 文件:

library(RDCOMClient)

path_PDF <- "C:\\pdf_with_table.pdf"
path_Html <- "C:\\temp.html"

wordApp <- COMCreate("Word.Application")
wordApp[["Visible"]] <- TRUE
wordApp[["DisplayAlerts"]] <- FALSE

doc <- wordApp[["Documents"]]$Open(normalizePath(path_PDF),
                                   ConfirmConversions = FALSE)

doc$SaveAs2(path_Html, FileFormat = 9) # saves to html

在我看来,直接从 PDF 中提取表格或者将 PDF 转换为 Word 文件并从 Word 文件中提取表格会更直接。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 R 将数据从 PDF 导入到 HTML 的相关文章

随机推荐

  • Google Sheet 与 If 函数的循环依赖问题

    我正在使用ifGoogle 表格 A 列中的函数 ARRAYFORMULA if isblank D3 D A2 A D3 D 但出现循环依赖错误 如果我使用相同的功能而不使用ARRAYFORMULA i e if isblank D3 A
  • 如何禁用导航栏动画?

    我有两个 UITableViewController 这样当我在第一个 UITableViewController 上单击 下一步 时 第二个 UITableViewController 就会被推送到导航堆栈上并像平常一样对过渡进行动画处理
  • Chrome 加载资源“(从磁盘缓存)”速度缓慢

    My site http www front end io http www front end io配置HTTP请求优先从缓存加载资源 所以我的标题将是这样的 cache control max age 315360000 ETag W
  • 在列表视图中搜索,并在 Android 列表视图中突出显示搜索文本颜色

    我有一个listview with arrayadapter 我需要在我的音乐应用程序中实现这个 帮助我 public class Search Class extends Activity EditText searchedit List
  • TypeScript 编译并保留注释

    我希望在生成的 javascript 文件中保留完整的注释 默认情况下编译器会删除它们 有 tsc 参数吗 用例是保留 参考路径的 进行大胆的单元测试 自 2015 年起您可以创建tsconfig json在你的项目中并添加 removeC
  • 有没有办法在运行时访问调试符号?

    这是一些示例代码 可以让您了解我想要的内容 int regular function void int x y z do some stuff my api call return x void my api call void char
  • SQL Server - 是基于 GUID 的 PK,是支持基于租户的水平分区的最佳实践

    我试图找出设计未来需要水平分区的多租户数据库架构时最好的方法是什么 数据库中的一些粗略数字 租户总数约为10 000人 每个租户存储的数据量在 500MB gt 3GB 之间变化 租户数量一开始会很小 几年后会增加到 10 000 个 因此
  • 带有模板类的通用参考

    Example template
  • SQL高效调度生成算法

    The idea 想象一下教育中心有branches Courses该教育中心的信息对所有分支机构都是通用的 Branches CREATE TABLE Branch id int 10 unsigned NOT NULL AUTO INC
  • 升级到 Xcode 6.3 后,在启动时我收到错误:“无法解析 Bonjour 服务。” [关闭]

    Closed 这个问题不符合堆栈溢出指南 help closed questions 目前不接受答案 升级到 Xcode 6 3 后 我现在收到一个带有错误的警报面板 The Bonjour service could not be res
  • HasActivityInjector 无法在 android dagger 2 中解决

    我试图实施有活动注入器在我的 Android 应用程序中 但它显示 HasActivityInjector 无法解析 下面是我在项目中使用的依赖项和插件 apply plugin kotlin kapt and implementation
  • Tomcat:查找目录时不附加尾随“/”

    我在 Tomcat 7 0 22 Java 1 6 MacOS Lion 中部署了 war 存档 战争称为 myapp war 因此 Tomcat 正在服务http localhost myapp http localhost myapp
  • 程序运行时间

    我如何 从程序 我的意思是在我这次要打印 最终返回 之前 找出我的程序运行的时间 提前致谢 edited 非常感谢您的所有回答 但我的程序很短 有没有其他方法可以找出微秒或纳秒的时间 因为使用下面的方法我收到 0 当程序启动时 你会这样做
  • 表单模型绑定 laravel 5.1 多个模型

    我想要 Laracollective 的 Form 包中的多个对象的 Form 模型绑定 如下所示 Form model user vendors array route gt array user update user gt id 我可
  • 为什么主键会自动创建聚集索引

    当我在oracle表中创建主键时 为什么它默认创建 聚集 索引 创建主键时自动创建聚集索引的原因是什么 难道Oracle设计者这样设计Oracle只是他的喜好吗 Oracle 将创建一个索引来管理没有预先存在的索引适用的唯一约束 如果没有索
  • Android - 以编程方式检查开发人员选项?

    我有一个使用意图用相机拍摄照片的应用程序 但最近我遇到了使用 后台进程限制 等开发人员选项的用户遇到的问题 他们关闭了所有后台应用程序 所以除了调用 onPause 和 onResume 之外 我的应用程序也被杀死了 我希望是否有可能检查此
  • SqlServer处于脚本升级模式

    Vista 刚刚完成了众多更新之一 重新启动计算机后 我尝试使用 Sql Server Management Studio 连接到 Sql Server 2008 实例 但收到此错误 连接到 MSSQLSERVER2008 时出错 附加信息
  • 使用 Jabber 发送网络消息

    也问过服务器故障 https serverfault com questions 19586 using jabber to send network messages 我也被建议将其发布在这里 我们需要在其他用户在线提交报告内容时通过网络
  • 如何在 TcxExtLookupComboBox 中使用 TcxCustomDataSource?

    我使用 Devexpress 的 TcxExtLookupComboBox 并尝试实现自定义数据源 我已经像这样设置了自定义数据源 procedure TMainForm FormCreate Sender TObject begin fD
  • 使用 R 将数据从 PDF 导入到 HTML

    有没有办法使用 R 将数据从 pdf 文件导入为 HTML 格式 我尝试使用以下代码 library tm filename file pdf doc lt readPDF control list text layout elem lis