使用 XML 包将 html 表抓取到 R 数据帧中

2024-04-11

如何使用 XML 包抓取 html 表？

以维基百科页面为例巴西足球队 http://en.wikipedia.org/wiki/Brazil_national_football_team。我想在 R 中阅读它并获取“巴西与 FIFA 认可球队对阵的所有比赛列表”表作为数据框。我怎样才能做到这一点？

…或更短的尝试：

library(XML)
library(RCurl)
library(rlist)
theurl <- getURL("https://en.wikipedia.org/wiki/Brazil_national_football_team",.opts = list(ssl.verifypeer = FALSE) )
tables <- readHTMLTable(theurl)
tables <- list.clean(tables, fun = is.null, recursive = FALSE)
n.rows <- unlist(lapply(tables, function(t) dim(t)[1]))

所选表格是页面上最长的表格

tables[[which.max(n.rows)]]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

html

r

xml

Parsing

webscraping

使用 XML 包将 html 表抓取到 R 数据帧中的相关文章

需要正则表达式（使用 C#）将所有空白压缩为单个空白

我需要将文档中的多个空格替换为单个空格每次迭代无论它们是空格制表符还是换行符任何类型的空格的任何组合都需要被截断为单个空格假设我们有字符串 Hello t t n t n world 其中 t 和 n 分别代表制表符和换行符那么
将 RDS 文件从网络（即 URL）直接加载到 R 中？

read csv 具有直接从 url 读取的出色能力 readRDS 才不是我想将 RDS 文件从 Internet 移动到我的 R 环境我看到有几种方法 Method 1 此方法会用下载的文件弄乱工作目录 myurl lt https
jupyter 中的 r 图形 - 无法启动 png() 设备

我在 Jupyter 中使用 R 但无法在笔记本本身中绘制图表这是一个可重现的示例 set seed 123 mat as matrix x rnorm 100 y rnorm 100 plot mat 在朱皮特中 Error in pn
R：根据元素长度从向量中删除元素

如何根据字符串的字符数或长度从字符串向量中删除元素 df lt c asdf fweafewwf af aewfawefwef awefWEfawefawef gt df 1 asdf fweafewwf af aewfawefwef aw
获取画布上下文的最后一个点的坐标

我想创建一个arrowTo功能与CanvasRenderingContext2D prototype 为此我需要获取最后一个点的坐标例如 var ctx someCanvas getContext 2d ctx moveTo 10 40
使用画布元素作为文本区域

我正在寻找有关如何使用类似于文本区域的画布元素的直接描述我见过这样的项目Ace http ace ajax org 只是想知道如何像文本区域一样写入该区域只是纯文本没有什么花哨的提前致谢 Ace 曾经是 Mozilla Skywri
聚合日期时间以总结在特定条件下花费的时间

我很困惑我应该如何继续我下面有一些虚拟数据 Date lt as POSIXct c 2018 03 20 11 52 25 2018 03 22 12 01 44 2018 03 20 12 05 25 2018 03 20 12 10
第一次从按钮提交时，只有单击两次后才会打开模态框

我有一个模式弹出窗口可以通过单击按钮打开不幸的是当第一次在浏览器中提交时我只能在单击两次后才能看到弹出窗口但是一旦弹出窗口打开并关闭我就可以在下一次尝试中单击一次来打开模式如果我刷新浏览器也会发生同样的情况这看起来很奇怪任
Webpack 和 Angular HTML 图像加载

我一直对 webpack 和 Angular 感到头疼这可能有一个简单的答案但我无法弄清楚我已经阅读了堆栈溢出中关于这个主题的几乎所有答案但都无济于事我有一个像这样的 html 页面还有其他包含图像的模板 img
ggplot 图例标签内的希腊字母、符号和换行符

我在尝试着有换行符自动或强制对齐文本左对齐或左右对齐有希腊字母和百分号在 gglot 图例标签内我尝试了几种方法但我似乎无法将我读到的所有技巧结合起来我可以通过插入来换行 n进入标签但这似乎不适用于希腊字母不适用于图例
(CSS) 倾斜 img 框架而不扭曲图像

我正在制作一个包含许多倾斜元素的网站如下所示这还不错 CSS 转换可能会扭曲它但是这个怎么样图像没有扭曲只是框架以倾斜的方式裁剪最简单最好的方法是什么 I think this http codepen io antiblan
当表格在 IE 中获得焦点时，表格滚动条会向上跳跃

问题我有一个table有包装的div with overflow y auto 一旦table获得焦点滚动条向上跳我怎样才能防止这种情况发生我经历过这种行为IE9 不在 Chrome 中请注意我已添加tabindex到桌子上以
大型应用的回流/布局性能

我正在使用 GWT 构建一个 HTML 应用程序其性能总体上是正确的有时它会加载 DOM 中的许多对象并且应用程序会变得很慢我使用 Chrome 开发者工具分析器来查看时间花在哪里在 Chrome 下一旦应用程序被编译即没有
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
python dicttoxml 多次使用相同的键

我正在尝试做如下所示的 xml
R data.table 连接不等式条件

我想使用 data table 包根据多个不等式条件对数据进行子集化 data table 手册中的示例展示了如何使用字符变量执行此操作但不显示数字不等式我还了解了如何使用子集函数来执行此操作但我真的很想利用 data table 二
tr 元素周围的边框不显示？

Chrome Firefox 似乎不渲染边框tr 但如果选择器是它会渲染边框table tr td 如何在 tr 上设置边框我的尝试不起作用 table tr border 1px solid black table tbody tr
使用 div 或表格来包含链接列更好吗？

我的页面底部有 3 列链接每列都放入一个 div 中所有三个 div 都包装在页面中央的一个大 div 中这是更适合桌子的东西还是桌子不适合这项工作您还可以使用 ul http www w3schools com tags tag
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt
R闪亮：使用闪亮的JS从数据表中获取信息

我想读出所有列名称以及它们在数据表中显示的顺序由于不同的原因我无法使用 stateSave 等选项我对 JS 没有什么把握但我确信用它可以完成所以我需要你帮助我我尝试过类似的代码片段 datatable data callbac

随机推荐

如何在 C# 中执行 cmd，然后在同一窗口中执行后面的另一个命令？

我想要完成的是一个基本上一键设置活动分区的程序节省了使用 cmd 提示符等的时间和技巧我已经研究了 System Management 名称空间但无法弄清楚如何使用它所以我求助于使用 CMD 我有一个用 C 编写的模块应用程序基本
WebSocket 连接建立时出错：net::ERR_CONNECTION_CLOSED

当我尝试建立一个wss与我的服务器的连接与 wss mydomain 3000 的 WebSocket 连接失败错误连接建立 net ERR CONNECTION CLOSED 我目前有一个 apache2 虚拟主机配置设置来侦听端口
Hyperledger Composer：尚未为此连接指定业务网络

我已经在本地安装了 hyperledger 作曲家但在本地主机上它给出错误错误尝试 ping 时出错错误没有业务网络为此连接指定我也无法添加模型和脚本文件这是终端中显示的错误 error Hyperledger Compos
开放数据库你好世界

我正在尝试了解 openDatabase 并且我想我正在将其插入到 TABLE1 但我无法验证 SELECT FROM TABLE1 是否正常工作
在清单中指定 Android Market RAM

有些人继续在具有 100MB RAM 的手机上下载并安装我们的高清游戏并给我们一个差评有没有办法将应用程序下载限制为仅具有大量内存的智能手机或者限制为新型号 CPU 我的最终解决方案来自 Raghav Sood 的提示经过一番研究后
使用 C# WebClient 伪造表单提交

我需要调用 Web 并从我的 asp net mvc 应用程序中的模型检索结果数据在网络上访问时表单如下所示
需要开发数据库逻辑方面的帮助

这是我的一个小型项目航空公司预订系统让我们称这个航空公司为 FlyMi 我有一个数据库尚未决定使用哪个数据库我的朋友想要使用 MongoDB 无论如何这是我的要求我有一张表其中包含航班详细信息航班号时刻表等我将使用这张表
将 Null 值分配给数据表中的整数列

我有一个数据表其中一个列名称为 CustomerID 数据类型为整数我想动态地将行添加到数据表中为此我创建了一个 DataRow 对象例如 DataTable dt new DataTable DataRow DR dt NewR
Terraform 配置程序无法 winrm 到 Azure 上新建的 Windows VM

我正在尝试使用 Terraform 在 Azure 上配置 Windows VM 并同时引导它我能想到的方法是terraform provisioner 出于测试目的我这样编写了配置程序 provisioner remote exec
Android 中带有房间数据库的多线程

最近我开始在我的 Android 应用程序中使用房间数据库尝试从多个线程访问数据库时遇到一些问题我在所有线程中使用相同的数据库实例据我所知如果所有线程都有相同的数据库实例那么数据库访问是序列化的我读过一个blog https
keras.utils.to_categorical() - 名称 keras 未定义

我正在运行测试脚本喀拉斯网站 https keras io getting started sequential model guide 用于多层感知器 MLP 用于多类 softmax 分类在 jupyter 笔记本中运行时出现错误
扩展的 VSCode 错误日志在哪里？

当我收到扩展错误时我无法知道为什么会发生错误您可能正在寻找 cmd shift p gt 搜索Show Logs gt Extension Host
如何使 HSQL 驱动程序正常工作？

我目前正在学习 Java 中的一些数据库技巧我发现我正在读的这本好书在某些时候它鼓励我尝试与以下类进行手动数据库连接 import java sql DriverManager import java sql Connection i
Serialized接口的DTO实现

Java DTO 模型对象是否必须实现序列化如果是这样为什么如果不是对性能等有何影响 DTO 通常是数据传输对象它不必使用 Java 序列化但如果不使用则需要遵循一些其他约定这不是性能问题就像您使用 Java 序列化一样它
ruby 中的 ||= 是什么？ [复制]

这个问题在这里已经有答案了可能的重复在 Ruby 中是什么意思 https stackoverflow com questions 995593 what does mean in ruby ruby 中的是什么这是一个条件分配如
用原始图像替换蒙版 opencv Python

我正在尝试用原始图像像素替换使用蒙版找到的对象我有一个遮罩在未检测到物体的情况下显示黑色如果检测到物体则显示白色然后我在 where 语句中使用该图像 image np where image2 255 255 255 any ax
Hibernate：CRUD 通用 DAO

我的网络应用程序有很多服务表实体例如payment methods tax codes province codes etc 每次添加一个新实体时我都必须编写一个 DAO 问题是基本上它们都是相同的但唯一的区别是实体类本身我知
Android 平台源代码中的断点

使用 Intelllj idea 我尝试调试 Android 源 API 17 但是当我在平台源中设置断点时它们在运行时会被忽略在调试时查看断点其中有一个十字并显示一条消息在类 android view 的第 15 508 行找不
Spring - applicationContext.xml 无法打开，因为它不存在

我有一个 Spring MVC 应用程序并且与文件 applicationContext xml 结合使用 JUnit 测试时遇到问题在我的 JUnit 测试类中我写道 final ApplicationContext context
使用 XML 包将 html 表抓取到 R 数据帧中

如何使用 XML 包抓取 html 表以维基百科页面为例巴西足球队 http en wikipedia org wiki Brazil national football team 我想在 R 中阅读它并获取巴西与 FIFA 认可球队对

使用 XML 包将 html 表抓取到 R 数据帧中

使用 XML 包将 html 表抓取到 R 数据帧中 的相关文章

随机推荐

热门标签

使用 XML 包将 html 表抓取到 R 数据帧中的相关文章