使用 readHTMLTable 从 https 网页读取表格

2024-05-15

我安装了 R 3.3.1 并使用 RStudio 0.99.903。我正在尝试从以下 URL 将表格读入 R：https://www.fantasypros.com/nfl/rankings/consensus-cheatsheets.php https://www.fantasypros.com/nfl/rankings/consensus-cheatsheets.php

（我很清楚有一个下载按钮，但是，现在这对我来说不是一个选项）

去年我可以使用 readHTMLTable 函数轻松完成此操作。但是，当时该站点从使用 http 更改为 https，这导致“XML 内容似乎不是 XML”错误。

我尝试了这里建议的内容：将 url 表放入 `data.frame` R-XML-RCurl https://stackoverflow.com/questions/25947566/get-url-table-into-a-data-frame-r-xml-rcurl

library(XML)
library(RCurl)
url <- getURL("https://www.fantasypros.com/nfl/rankings/consensus-cheatsheets.php")
df <- readHTMLTable(URL, header = T)

get URL 函数返回一个大字符串，这对我来说基本上没有意义，这意味着 readHTMLTable 无法正常工作（我得到一个列表，其中有几个数据框，但这些对我来说也没有意义。它是西班牙语，观察结果为我不知道它们来自哪里的东西）：

>url
[1] "\r\n<!DOCTYPE html>\n<html lang=\"en\">\n\n<head>\n    <title>2016 QB Fantasy Football Rankings, QB Cheat Sheets, QB Draft / Draft Rankings</title>\n    <meta http-equiv=\"Content-Type\" content=\"text/html; charset=UTF-8\">\n    <meta name=\"description\" content=\"Don&#8217;t trust any 1 fantasy football expert? We combine their rankings into 1 Expert Consensus Ranking. Our 2016 Draft QB rankings are updated daily.\">\n<link rel=\"canonical\" href=\"https://www.fantasypros.com/nfl/rankings/qb-cheatsheets.php\" />\n\n    <meta property=\"fb:pages\" content=\"184352014941166\"/>\n

它持续了相当多的方式。

有人可以给我关于如何让它发挥作用的建议吗？

Thanks.

从URL获取html文件

library("httr")
library("XML")
URL <- "https://www.fantasypros.com/nfl/rankings/consensus-cheatsheets.php"
temp <- tempfile(fileext = ".html")
GET(url = URL, user_agent("Mozilla/5.0"), write_disk(temp))

解析 HTML 文件

doc <- htmlParse(temp)

XPath 查询是通过选择table元素与class = "player-table"和它的孩子tr元素具有class = 'mpb-player-'

xpexpr <- "//table[contains(@class, 'player-table')]/tbody/tr[contains(@class, 'mpb-player-')]"

从 doc 获取 xpath 表达式的节点列表

listofTableNodes <- getNodeSet(doc, xpexpr)
listofTableNodes

使用节点列表的 xmlvalues 创建一个数据框

df <- xmlToDataFrame(listofTableNodes, stringsAsFactors = FALSE)
# alternatively xpathSApply can be used to get the same data frame
# df <- xmlToDataFrame(xpathSApply(doc, xpexpr), stringsAsFactors = FALSE)

删除空列

df <- df[, seq(1, length(df), by = 2)]

添加列名称

xpexpr <- "//table[contains(@class, 'player-table')]/thead/tr/th"
listofTableNodes <- getNodeSet(doc, xpexpr)
listofTableNodes
colnames(df) <- gsub("[\r\n ]*$", '', xmlSApply(listofTableNodes, xmlValue))

head(df)
#   Rank          Player (Team) Pos Bye Best Worst Avg Std Dev ADP vs. ADP
# 1    1     Antonio Brown PIT  WR1   8    1     5 1.3     0.8 1.0     0.0
# 2    2 Odell Beckham Jr. NYG  WR2   8    1     9 3.1     1.6 2.0     0.0
# 3    3       Julio Jones ATL  WR3  11    1     6 3.4     1.1 4.0    +1.0
# 4    4        Todd Gurley LA  RB1   8    1    11 4.5     2.3 3.0    -1.0
# 5    5     David Johnson ARI  RB2   9    1    19 6.1     3.5 6.0    +1.0
# 6    6   Adrian Peterson MIN  RB3   6    1    22 7.6     3.8 5.0    -1.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

使用 readHTMLTable 从 https 网页读取表格的相关文章

Shiny 中的模态对话框：可以调整宽度但不能调整高度

在我的 Shiny 应用程序中我有几个来自闪亮BS 包的模式窗口我可以像这样调整这些模式窗口的宽度 tags head tags style HTML modal lg width 1200px abs 1 background col
反转默认比例梯度ggplot2

我是新手我正在尝试设计热图这是我的代码 ggplot gd aes Qcountry Q6 1 Q6d order TRUE geom tile aes fill prob colour white theme minimal labs
在 for 循环中绘制的多个 ggplot2 绘图的网格

作为一个新的 ggplot2 用户我对可能性的数量感到有点迷失并且很难在网上找到我认为简单问题的简单答案我想在同一张纸上显示 ggplot2 的多个图但知道这些图来自 for 循环以下示例无法编译仅用于说明 for i in c
R - 根据另一个数据框查找每组的重叠日期

我有一个数据框其中包含多个雨量计的降雨测量值如下例所示 gt rnfl ID date value 1 250 2000 03 01 5 37 2 250 2000 03 02 0 00 3 250 2000 03 03 2 94 4
R比例置信区间因子

我正在尝试总结家庭调查的数据因此我的大部分数据都是分类因子数据我想用对某些问题的回答频率图来总结它例如回答某些问题的家庭百分比的条形图误差线显示置信区间我发现了这个很棒的教程我认为它是我祈祷的答案 http www coo
udunits2 R 安装：找不到 udunits2.h

我正在尝试在 R 中安装 udunits2 以满足对ggforce包裹但是安装程序在检查 udunits2 时始终失败我已经尝试过中的说明this https stackoverflow com questions 47059517
R 中 write.table 文件名中的变量

请帮助我解决一个幼稚的问题已经用谷歌搜索并尝试了很多变体但失败了如何使用 R 中 write table 的文件名中的变量保存文件脚本循环遍历 dir 中的文件应用一些函数然后将结果保存到具有相同名称但附加结尾的文件中谢谢
将文本添加到 ggplot 中的轴标签

我从下表中绘制了一个图表 BoatPhs fit se lower upper 1 Before 3 685875 0 3287521 3 038621 4 333130 2 After0 20NTA 3 317189 0 6254079
使用 ggplotly（ggplot2 withplotly）时可以去掉注释中的跟踪标签吗？

使用ggplotly时是否可以删除注释中的跟踪标签例如 library ggplot2 library plotly g lt ggplot iris aes Sepal Width Sepal Length geom point ann
如何判断某个软件包是否已经安装？

当我安装 yaml 包时如果之前已经安装过 RStudio 则会弹出一条烦人的错误消息如何判断该软件包是否已安装以便我可以在代码中决定是否安装该软件包该消息位于弹出窗口中内容如下此安装将更新的一个或多个软件包当前已加载在更新
为什么我在 ddply 中看到“错误：length(rows) == 1 is not TRUE”？

我有一个数据框比如工资单例如 payroll lt read table text AgencyName Rate PayBasis Status NumRate HousingAuthority 26 843 00 Annual Fu
使用 R 中的 tidyverse 重新调整因子和重新排序因子

我想使用这些功能重新调平 and 重新排序在我的数据框中我了解重新调整级别的工作原理但我不明白为什么我在 data frame 中看不到级别的变化例如假设我有鸢尾花数据集 library tidyverse head iris g
使用亚毫秒日期时间从字符->POSIXct->字符准确转换

我的文件中有一个字符日期时间列我加载文件到data table 并执行需要将列转换为的操作POSIXct 然后我需要写POSIXct值返回文件但日期时间不会相同因为打印不正确这个打印格式问题是众所周知的并且已经被讨论过多次我
创建序列组合

我正在尝试解决以下问题考虑 5 个简单序列 0 100 100 0 rep 0 101 rep 50 101 rep 100 101 我需要 3 个数字变量的集合它们的所有组合都具有上述序列由于有 5 个序列和 3 个变量因此可以有
for 循环与 cor.test 在许多类别上

我正在尝试在 R 中编写一个循环它将循环遍历 3 个不同的物种以计算两个连续变量 Redness 和 VarNormAbund 之间的相关性我的循环正在运行但 3 个物种中每一个的输出都是相同的这让我认为循环卡在第一个物种上 co
在 R Shiny 中显示/隐藏整个框元素

我目前正在尝试找到一种方法来隐藏显示 R Shiny 中的整个 box 元素以及里面的所有内容我想创建一个可能的按钮它允许用户展开特定框然后使用相同甚至不同的按钮隐藏它我不想使用条件面板因为我的应用程序非常大并且会产生一些
R：如何更改ggvis闪亮应用程序中特定范围的绘图背景颜色

I have a simple shiny app like below and you can run it The plots are created by ggvis and user can choose student name
绘制带有颜色渐变的geom_segment线？（或者还有另一种方法来强调开始与结束吗？）

我的数据框中有大量行 100 000 的两组纬度和经度变量我正在尝试绘制一个连接这两组坐标的图即从纬度1 经度1 to 纬度2 经度2 使用 geom segment 使用非常低的 alpha 使线条透明因为线条太多我想强调这些线
在 R 中收集多组列[重复]

这个问题在这里已经有答案了我有一个宽数据框需要将其收集或融化成一个高数据框我遇到的问题是我有几组列需要保持关联分组我每个表单提交有 2 个用户每个用户有 3 列数据我想将这 6 列基本上以 3 组的形式堆叠起来以便每个用户都
如何处理包内部的 R 数据？

我正在开发的 R 包需要多个 R 数据对象例如预先计算的模型和参数目前我将包的数据目录中的每个对象放在单独的 RData 文件中使用该包时用户可以使用数据功能将这些对象附加到他们的环境中我想要的行为是在加载包时数据对

随机推荐

如何使用 VBA 将 mm/dd/yyyy 更改为 dd/mm/yyyy

我在使用 VBA 将 mm dd yyyy 转换为 dd mm yyyy 日期格式时遇到问题我有一个这样的表仅供参考该表是从报告工具自动生成的字符串操作或任何 Excel 函数可以提供帮助吗希望知道如何解决这个问题的人可以给我一
除非在后台线程中获取新的引用，否则存在潜在的引用计数问题

我有一个second https stackoverflow com questions 28898966 prefer property accessor or kvc style for accessing core data prop
显示 \r\n 的文本编辑器？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一个可以显示实际回车符和换行符的文本编辑器例如如果我保存这个字符串 This rIs r
如何让python优雅地失败？

我只是想知道如何让 python 在所有可能的错误中以用户定义的方式失败例如我正在编写一个处理大项目列表的程序并且某些项目可能不符合我定义的格式如果 python 检测到错误它目前只会输出一条丑陋的错误消息并停止整个过程但是
有什么方法可以使用 google-image 搜索 API 吗？

我想从我的 net 应用程序中检索谷歌图像的搜索结果有什么出路吗就在这里 Google 图片搜索 API 通过 RESTful 接口提供访问如上所述here http code google com apis ajaxsearch d
应用程序更新时的 iPhone 数据迁移

我正在开发一个 iPhone 应用程序它使用 sqlite 来存储应用程序和用户数据这是该应用程序的第一个版本我想知道我需要做什么来为该应用程序的未来版本做准备这够了吗 1 确保 XCode 项目设置中的应用程序版本正确 2 在sq
AWS Lambda 提前结束（没有任何显式返回或回调）

我在放入 AWS Lambda 中的一些 Node js 代码时遇到了一些问题我需要进行几个异步调用虽然第一个调用的行为符合我的预期但 lambda 函数在第二个调用完成之前终止返回值为 null 这让我认为 lambda 正在执行
Heroku ENOENT：没有这样的文件或目录，stat '/app/build/index.html'

我在 Heroku 中运行一个简单的测试站点时遇到问题由于某种原因当我希望它从 build 提供服务时它试图从 app build 提供内容错误 ENOENT 没有这样的文件或目录 stat app build index html
MIME::Lite - 无法发送邮件 [smtp.gmail.com 不支持 SMTP auth() 命令]

use MIME Lite use warnings use MIME Base64 use Authen SASL use MIME Lite use MIME Base64 use Authen SASL use warnings us
左键单击 jQUEry 上下文菜单

我在用Chris Domigan 的 jQuery 上下文菜单插件 http www trendskitchens co nz jquery contextmenu 应用上下文菜单它是这样工作的 contacts tbody tr con
Visual Studio 2012 命令窗口不支持“xsd”命令吗？

我读到可以直接在 Visual Studio 2010 中运行 xsd 命令我的机器上有 VS 2012 当我运行时 xsd XMLFile xml I get 命令 xsd 无效那么 VS 2012 中是否不支持 xsd 命令还有其
Azure Application Insights 查询 - 如何计算总数的百分比

我正在尝试在输出表中创建一行来计算总项目的百分比 Something like this ITEM COUNT PERCENTAGE item 1 4 80 item 2 1 20 我可以轻松获得包含 ITEM 和 COUNT 行的表格但
如何将分支逻辑持久化到数据库中？

我们正在构建一个供内部使用的调查引擎我想知道如何将问题分支逻辑持久化到数据库中任何机构之前做过这件事或者对数据库模式有什么想法吗如果用户给出答案我们需要根据添加到问题的逻辑跳到下一个问题每个问题可以添加多个逻辑 For eg Qu
有没有办法在插入查询中执行另一个查询？

好的这是我的查询我刚刚添加了 ACCOUNTID 和 accountID 部分这显然不起作用 INSERT INTO Leads LEADID CREATEUSER CREATEDATE FIRSTNAME MODIFYDATE AC
无法使用 Docker 运行 Strapi

我正在尝试 Docker 化我的Strapi应用程序所以首先在项目的根目录中我创建了一个 env文件包含以下内容 HOST 0 0 0 0 PORT 3002 然后里面backend config server js I have mo
Prolog内存问题

我想找到一种方法来分析我在序言中编写的谓词一个巨大的谓词的内存使用情况我目前正在运行它swi http www swi prolog org and yap http www dcc fc up pt vsc Yap document
如何使用 sed 仅删除双空行？

我找到了这个问题和答案 https stackoverflow com questions 4651591 howto use sed to remove only triple empty lines关于如何删除三重空行但是我只需要对
从派生模板类调用函数

我的基类 Element h class Element public Element virtual Element not sure if I need this virtual Element plus const Element v
在 Android 中跨单元测试和仪器测试共享资源

现在谷歌已经添加了实验单元测试支持 http tools android com tech docs unit testing support 如何在单元测试和仪器测试之间共享资源例如假设我有一个TestUtils java我希望在单元
使用 readHTMLTable 从 https 网页读取表格

我安装了 R 3 3 1 并使用 RStudio 0 99 903 我正在尝试从以下 URL 将表格读入 R https www fantasypros com nfl rankings consensus cheatsheets php

使用 readHTMLTable 从 https 网页读取表格

使用 readHTMLTable 从 https 网页读取表格 的相关文章

随机推荐

热门标签

使用 readHTMLTable 从 https 网页读取表格的相关文章