将 HTML 表格转换为 R 数据框

2024-05-07

<TABLE  cellspacing=1 cellpadding=7 rules=all frame=Box border=1>
<thead>
<TR>
 <TD ROWSPAN=2 ALIGN=CENTER VALIGN=CENTER>&nbsp;</TD>
 <TD COLSPAN=6 ALIGN=CENTER>1a. My peers make a positive impact my work environment.</TD>
 <TD ALIGN=CENTER>Number</TD>
</TR>
<TR>
 <TD ALIGN=CENTER>Strongly agree  <br>         </TD>
 <TD ALIGN=CENTER>Generally agree <br>         </TD>
 <TD ALIGN=CENTER>Neither agree nor<br>disagree</TD>
 <TD ALIGN=CENTER>Generally disagree<br>       </TD>
 <TD ALIGN=CENTER>Strongly disagree<br>        </TD>
 <TD ALIGN=CENTER>No basis to judge<br>        </TD>
 <TD ALIGN=CENTER>of Cases</TD>
</TR>
</thead>
<tbody>
<TR>
 <TD ALIGN=LEFT VALIGN=TOP>  Company-Wide                                     </TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        44.1</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        44.9</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         6.6</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.6</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         1.6</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.1</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>   2,014</TD>
</TR>
<TR>
 <TD ALIGN=LEFT VALIGN=TOP> Region 1                                 </TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        45.6</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        45.2</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         5.7</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.1</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         1.4</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.1</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>   1,699</TD>
</TR>
<TR>
 <TD ALIGN=LEFT VALIGN=TOP>Division 1            </TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        52.9</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>        39.7</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         4.1</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.5</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.8</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>0</TD>
 <TD ALIGN=RIGHT VALIGN=BOTTOM>     121</TD>
</TR>
</tbody>
</TABLE>
<hr><A NAME="IDX1">&nbsp;</A>

我有一个 HTML 文件,其中包含几个上述类型的表格。我想将它们转换为一个数据框架,其中当前位于表标题中的每个调查问题将出现在一列中。每个问题的回答百分比以及回答级别都将保留在列中。并非所有问题都有相同数量的答复(即有些问题采用五分制,其他问题采用九分制)。我尝试了 readHTMLTable,然后对该结果执行 do.call rbind,但无法获取感兴趣的数据框,因为列数不相同。我欢迎任何关于如何进行的建议。谢谢!

edit:

library(xml)
library(dplyr)
questions<-readHTMLTable(files[8], trim=T, as.data.frame=T, header=T)
data<-bind_rows(questions)

我想要的数据框中的结果,但由于某些问题比其他问题具有更多的响应级别,因此“案例数”数据不会始终出现在一列中。有没有办法让我在合并之前命名每个表的最后一列?


您可以使用rvest为此的包。但是,可能需要注意带有空格的列名称。我使用了该选项fill=TRUE作为一个快速解决方案,但也许可以用更好的方式来完成。

library(rvest)
my_df <- as.data.frame(read_html(text) %>% html_table(fill=TRUE))
> my_df
#              X1                                                       X2                        X3                 X4                X5                X6       X7     X8
#1                1a. My peers make a positive impact my work environment.                      <NA>               <NA>              <NA>              <NA>     <NA> Number
#2 Strongly agree                                          Generally agree Neither agree nordisagree Generally disagree Strongly disagree No basis to judge of Cases   <NA>
#3   Company-Wide                                                     44.1                      44.9                6.6               2.6               1.6      0.1  2,014
#4       Region 1                                                     45.6                      45.2                5.7               2.1               1.4      0.1  1,699
#5     Division 1                                                     52.9                      39.7                4.1               2.5               0.8        0    121

关于数据,我从OP复制粘贴了html代码并将其分配给变量text with text <- '<TABLE cellspacing=1 cellpadding=7 rules=all frame=...',使用单引号。

之后可以通过相当简单的方式纠正格式的一些细节:

my_df[2,] <- c("",my_df[2,][-length(my_df)])
#> my_df
#            X1                                                       X2              X3                        X4                 X5                X6                X7       X8
#1              1a. My peers make a positive impact my work environment.            <NA>                      <NA>               <NA>              <NA>              <NA>   Number
#2                                                        Strongly agree Generally agree Neither agree nordisagree Generally disagree Strongly disagree No basis to judge of Cases
#3 Company-Wide                                                     44.1            44.9                       6.6                2.6               1.6               0.1    2,014
#4     Region 1                                                     45.6            45.2                       5.7                2.1               1.4               0.1    1,699
#5   Division 1                                                     52.9            39.7                       4.1                2.5               0.8                 0      121

本质上,在这种情况下,第二行的条目应向右移动一个单元格。

data

text <- '<TABLE  cellspacing=1 cellpadding=7 rules=all frame=Box border=1>\n  <thead>\n  <TR>\n  <TD ROWSPAN=2 ALIGN=CENTER VALIGN=CENTER>&nbsp;</TD>\n    <TD COLSPAN=6 ALIGN=CENTER>1a. My peers make a positive impact my work environment.</TD>\n      <TD ALIGN=CENTER>Number</TD>\n        </TR>\n        <TR>\n        <TD ALIGN=CENTER>Strongly agree  <br>         </TD>\n          <TD ALIGN=CENTER>Generally agree <br>         </TD>\n            <TD ALIGN=CENTER>Neither agree nor<br>disagree</TD>\n              <TD ALIGN=CENTER>Generally disagree<br>       </TD>\n                <TD ALIGN=CENTER>Strongly disagree<br>        </TD>\n                  <TD ALIGN=CENTER>No basis to judge<br>        </TD>\n                    <TD ALIGN=CENTER>of Cases</TD>\n                      </TR>\n                      </thead>\n                      <tbody>\n                      <TR>\n                      <TD ALIGN=LEFT VALIGN=TOP>  Company-Wide                                     </TD>\n                        <TD ALIGN=RIGHT VALIGN=BOTTOM>        44.1</TD>\n                          <TD ALIGN=RIGHT VALIGN=BOTTOM>        44.9</TD>\n                            <TD ALIGN=RIGHT VALIGN=BOTTOM>         6.6</TD>\n                              <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.6</TD>\n                                <TD ALIGN=RIGHT VALIGN=BOTTOM>         1.6</TD>\n                                  <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.1</TD>\n                                    <TD ALIGN=RIGHT VALIGN=BOTTOM>   2,014</TD>\n                                      </TR>\n                                      <TR>\n                                      <TD ALIGN=LEFT VALIGN=TOP> Region 1                                 </TD>\n                                        <TD ALIGN=RIGHT VALIGN=BOTTOM>        45.6</TD>\n                                          <TD ALIGN=RIGHT VALIGN=BOTTOM>        45.2</TD>\n                                            <TD ALIGN=RIGHT VALIGN=BOTTOM>         5.7</TD>\n                                              <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.1</TD>\n                                                <TD ALIGN=RIGHT VALIGN=BOTTOM>         1.4</TD>\n                                                  <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.1</TD>\n                                                    <TD ALIGN=RIGHT VALIGN=BOTTOM>   1,699</TD>\n                                                      </TR>\n                                                      <TR>\n                                                      <TD ALIGN=LEFT VALIGN=TOP>Division 1            </TD>\n                                                        <TD ALIGN=RIGHT VALIGN=BOTTOM>        52.9</TD>\n                                                          <TD ALIGN=RIGHT VALIGN=BOTTOM>        39.7</TD>\n                                                            <TD ALIGN=RIGHT VALIGN=BOTTOM>         4.1</TD>\n                                                              <TD ALIGN=RIGHT VALIGN=BOTTOM>         2.5</TD>\n                                                                <TD ALIGN=RIGHT VALIGN=BOTTOM>         0.8</TD>\n                                                                  <TD ALIGN=RIGHT VALIGN=BOTTOM>0</TD>\n                                                                    <TD ALIGN=RIGHT VALIGN=BOTTOM>     121</TD>\n                                                                      </TR>\n                                                                      </tbody>\n                                                                      </TABLE>\n                                                                      <hr><A NAME=\"IDX1\">&nbsp;</A>'
#> class(text)
#[1] "character"
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

将 HTML 表格转换为 R 数据框 的相关文章

  • sapply - 保留列名称

    我试图总结数据集中许多不同列 变量 的平均值 标准差等 我已经编写了自己的汇总函数 以准确返回我需要和正在使用的内容sapply立即将此函数应用于所有变量 它工作正常 但是返回的数据帧没有列名 我似乎甚至无法使用列号引用重命名它们 也就是说
  • 类方法作为 JavaScript 中的事件处理程序?

    JavaScript 中是否有最佳实践或通用方法将类成员作为事件处理程序 考虑以下简单示例
  • 如果一个设置多个html标签的id属性值相同,会发生什么?

    我最近看到一个html页面 我认为几个html标签的id是相同的 然后我意识到id是唯一的 但这提出了一个问题 如果页面实际上使用了多个标签 会发生什么 正如我听说每个 html 标签 如果有的话 的 id 属性必须是唯一的 现在我想知道如
  • 使用 dtypes read_csv 但列中没有值[重复]

    这个问题在这里已经有答案了 我使用以下代码来读取 csv 通过指定每个列的类型 clean pdf type pd read csv table updated csv usecols col names dtype col types 但
  • 如何去掉单词末尾多余的连字符

    我有句话我已经放了 shy 里面 它可以使用连字符 直到我达到足够小的屏幕尺寸 然后它在末尾添加一个额外的连字符 编辑 无法在 jsfiddle 中重现它 因为它似乎对 html 的解释不同 不过我可以展示问题的图片 h3 Flu shy
  • 您可以将现有的 div 复制到模式对话框吗

    我有一个带有多个面板的仪表板来显示不同的信息 我希望能够添加一个按钮来以模式显示面板 我正在使用引导程序 我所能找到的只是已经编写的模态 我想复制作为面板的 div 标签的内容 然后将其显示在模型中 但我不确定如何进行 该面板的 html
  • 为什么网格项目不居中?

    由于某种原因 两个输入范围使网格中的前两项偏离中心 我假设这是因为它们的影子 DOM 样式 事实真的是这样吗 有谁知道为什么范围使项目 A 和 B 偏离中心 这是一个代码笔 https codepen io tOkyO1 pen QOeKL
  • 如何覆盖 bootstrap 表 td 样式?

    我正在使用 Bootstrap 3 3我有一个 HTML 代码如下 div table class table table striped tr td 03 td td 04 td td 05 td td 06 td td 07 td td
  • 在按钮之间添加空间?

    嗨 我这里有一个代码 除了一件事之外 一切都很完美 代码中每个按钮之间没有空格 我尝试过 margin 但不幸的是它是一个无序列表 所以我有点困惑 我将添加或替换什么以在两个按钮之间留出空间 帮助
  • HTML5 支持命名空间吗?

    我们是否可以使用新标签来扩展 HTML5 例如
  • 用于渲染 html 子集的 Django templatetag

    我有一些 html 在本例中是通过 TinyMCE 创建的 我想将其添加到页面中 但是 出于安全原因 我不想只打印用户输入的所有内容 有谁知道模板标签 最好是过滤器 只允许呈现 html 的安全子集 我意识到 Markdown 和其他人就是
  • 在网格中制作一个矩形图例,并标记行和列

    我有一个 ggplot 我将因子映射到填充和 alpha 如下所示 set seed 47 the data lt data frame value rpois 6 lambda 20 cat1 rep c A B each 3 cat2
  • 在包加载之前如何知道 R 中特定函数属于哪个包?

    例如 我知道许多流行的功能 例如tbl df 我通常不记得它属于哪个包 即data table or dplyr 所以我必须始终记住并加载一个包 但我做不到 tbl df除非我加载了正确的包 在 R 控制台本身加载或安装包之前 有没有办法知
  • data.table 抛出“找不到对象”错误[重复]

    这个问题在这里已经有答案了 我有一个数据表 library data table mydt lt data table index 1 10 当我在全局环境中尝试它时 我可以让它工作 但当我在调试器中或在包测试中使用它时却无法工作 问题是我
  • 为什么这个 R ggplot2 代码会显示一个空白的显示设备?

    虽然 SO 通常不用于帮助解决错误 但这个显示了特别简单且特别烦人的行为 如果你是一个ggplot2用户 您可以在 10 秒或更短的时间内重现它 正如这个 GitHub 问题 ggplot gtable 创建空白显示 https githu
  • 要在子集中显示的非数字条目的维恩图

    我有以下数据框 SET1 SET2 SET3 par1 par2 par1 par2 par3 par2 par3 par4 par5 我想制作一个维恩图 其中所有这些 parX 元素都显示在各自的子集中 即作为标签 而不仅仅是重叠元素的数
  • 当设置 coord_fixed 时,ggplot/shiny 中的鼠标悬停坐标是错误的

    我正在使用问题中的答案 当您将鼠标悬停在闪亮的 ggplot 上时出现工具提示 https stackoverflow com questions 27965931 tooltip when you mouseover a ggplot o
  • Android中webview的截图方法

    我在 webview 中的 html5 canvas 上画了一些线 并尝试使用下面的代码截取 webview 的屏幕截图 WebView webView WebView findViewById R id webview webView s
  • 当将遗传算法与 lme4 一起使用时,glmulti 无限期运行

    我在 R 中使用 glmulti 进行模型平均 我的模型中有大约 10 个变量 使得详尽的筛选不切实际 因此我需要使用遗传算法 GA 调用 method g 我需要包含随机效应 因此我使用 glmulti 作为 lme4 的包装器 此处提供
  • case_when 与部分字符串匹配和 contains()

    我正在使用一个数据集 其中有许多名为 status1 status2 等的列 在这些列中 它表示某人是否豁免 完整 注册等 不幸的是 豁免投入并不一致 这是一个示例 library dplyr problem lt tibble perso

随机推荐