R 在 readHTMLTable 调用维基百科时崩溃

2024-05-06

尝试抓取维基百科页面，类似的事情我之前已经做过很多次了

library(XML)
myURL <- "http://en.wikipedia.org/wiki/List_of_US_Open_MenUs_Singles_champions"
y <- readHTMLTable(myURL,  stringsAsFactors = FALSE)

R 在 RStudio 或标准 GUI 中崩溃

其他对类似问题的评论建议使用 readLines

u=url(myURL)
readLines(u) #  cannot open: HTTP status was '404 Not Found'

该网址实际上已重定向，因此输入最终网址

myURL <- "http://en.wikipedia.org/wiki/List_of_US_Open_Men%27s_Singles_champions"

这次 readLines 确实输出了页面，但使用 XML 函数（包括 htmlParse）仍然会导致崩溃

TIA

我已经找到包裹了httr对于解决任何网络抓取问题来说都是无价的。在这种情况下，您需要添加用户代理配置文件，因为如果您不这样做，维基百科就会阻止内容：

library(httr)
library(XML)
myURL <- "http://en.wikipedia.org/wiki/List_of_US_Open_Men%27s_Singles_champions"
page <- GET(myURL, user_agent("httr"))
x <- readHTMLTable(text_content(page), as.data.frame=TRUE)
head(x[[1]])

产生这个：

  US Open Men's Singles Champions                                                          NA
1                Official website                                                        <NA>
2                        Location                        Queens – New York City United States
3                           Venue                USTA Billie Jean King National Tennis Center
4                  Governing body                                                        USTA
5                         Created 1881 (established)Open Era: 1968\n(44 editions, until 2011)
6                         Surface  Grass (1881–1974)HarTru (1975–1977)DecoTurf (1978–Present)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

webscraping

R 在 readHTMLTable 调用维基百科时崩溃的相关文章

更改 pander 中的默认对齐方式 (pandoc.table)

我目前正在切换到pander对于我的大部分时间knitr markdown格式化因为它提供了如此出色的pandoc支持我不太满意的一件事是默认的居中对齐营销人员可能会喜欢它但对于技术报告来说这是一个可怕的事情使用的最佳选择Hmis
使用 ggplot 构面时增加闪亮的绘图大小

有没有办法增加绘图窗口的大小shiny取决于在一个中使用的面的数量ggplot图也许使用垂直滚动例如使用下面的示例当输入为 A 有三个方面情节看起来不错当选项 B 选择绘图数量会增加但绘图窗口保持相同大小导致绘图太小是否有
使用 RDCOMClient 搜索 Outlook 收件箱

我尝试使用 RDCOMClient 在 Outlook 收件箱中搜索电子邮件中的特定主题然后获取附件我在一封电子邮件上进行了这项工作但由于主题包含日期元素我需要搜索成为一个类似的子句但不太清楚这适合我的下面的查询 outlook
在 igraph 中为社区分配颜色

我在 igraph 中使用 fastgreedy community 检测算法在 R 中生成社区代码返回 12 个社区但是在绘图时很难识别它们因为它返回的图的颜色数量有限我怎样才能用十二种不同的颜色绘制这个图表 l2 lt layo
如何自动启动我的 ec2 实例、运行命令然后将其关闭？

我想每周对 redshift postgres 数据库中的数据运行一次机器学习模型我使用以下命令将 R 脚本设置为休息 apiplumbr然后我将其设置为一项任务来管理pm2 我有它所以任务会在ec2实例启动然后继续运行要让 R 脚本
RStudio 如何确定控制台宽度，为什么它似乎总是出错？

我刚刚发现wid lt options width在 RStudio 中它似乎是我日常控制台使用中令人烦恼的根源或者更确切地说更接近根源我应该先说一下我目前使用的是 R 3 2 2 RStudio 0 99 491 Linux M
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
无法部署 ShinyApp：readTableHeader 在“raw”上发现不完整的最后一行（使用默认值：en_US）

我已经拼命尝试部署我的闪亮应用程序大约一周了但不幸的是我无法停止收到以下消息 Warning message Error detecting locale Error in read table file file header head
不同 R/lme4 版本的单一拟合结果不匹配

我试图将 R 版本 3 5 3 lme4 1 1 18 1 的随机效应估计与 R 版本 4 1 1 lme4 1 1 27 1 相匹配然而当存在奇异拟合时这两个版本之间的随机效应存在微小差异我对奇点警告很满意但令人费解的是不同版本
对 data.table 中的列表列执行操作

假设我有一个data table 例如dt lt data table foo list 1 3 4 6 bar c 2 7 如何使用 dt 框架对 foo 向量列表执行操作操作可能是将 bar 添加到 foo 返回列表 3 5 11 1
融化R中的下半矩阵

如何融化下半三角形加对角矩阵 11 NA NA NA NA 12 22 NA NA NA 13 23 33 NA NA 14 24 34 44 NA 15 25 35 45 55 A lt t matrix c 11 NA NA NA NA
使用字符串中的变量名称访问变量值，R

Intro 一个数据集有大量的age year变量 age 1990 age 1991 etc 我有一个字符串值数组length age years 表示这些变量使得age years 1 回报 age 1990 etc Need 我想搜
从 n,k 维矩阵数组中减去 n,k 维矩阵

如果我有一个数组A A lt array 0 c 4 3 5 for i in 1 5 set seed i A i lt matrix rnorm 12 4 3 如果我有矩阵 B set seed 6 B lt matrix rnorm
为什么数据帧上的 is.vector 不返回 TRUE？

tl dr R 中的向量到底是什么长版 R 中很多东西都是向量例如数字是长度为 1 的数值向量 is vector 1 1 TRUE 列表也是一个向量 is vector list 1 1 TRUE 好的所以列表是一个向量显然数
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
R 可以创建带有可单击条形图的条形图图像以插入网页吗？

我知道如何创建条形图以及如何将其粘贴在网页上例如使用hwriteImage in the 作家包 http www embl de gpau hwriter 我想要的是每个栏都是一个在鼠标悬停时突出显示的区域并且每个栏在单击时都有不
加快网络抓取速度

我正在使用一个非常简单的网络抓取工具抓取 23770 个网页scrapy 我对 scrapy 甚至 python 都很陌生但设法编写了一个可以完成这项工作的蜘蛛然而它确实很慢爬行 23770 个页面大约需要 28 小时我看过scr
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch

随机推荐

asp.net 内联代码 <%# MyboolVal %>

我一定在这里错过了一些愚蠢的东西但我看不到它我的工作在他们的网站上使用内联代码例如
从光栅计算器传输到 R 的条件命令

到目前为止我在ArcGIS的栅格计算器中使用了以下语句 Con Land use rst 20 Export rst 这会计算一个新栅格其中仅包含来自导出的数据其中 Land use 等于 20 这正是我想要的但我想自动化这个R 因
Docker：Nginx 和 php5-fpm docker 不说话

我想进行完全 Docker 化的 Drupal 安装我的第一步是让容器与 Nginx 和 php5 fpm 一起运行两者都基于 Debian 我在 CoreOS alpha 频道使用 Digital Ocean 我的 Dockerfi
如何让Register-ObjectEvent在后台运行？

我有一个使用 PowerShell 的脚本Register ObjectEvent观察文件夹的更改由于 Register ObjectEvent 仅在 PowerShell 会话处于活动状态时才起作用因此我需要保持 PowerShell
C# 中的监视器与互斥体[重复]

这个问题在这里已经有答案了可能的重复 C 中各种线程同步选项之间有什么区别 https stackoverflow com questions 301160 what are the differences between various
CSS 中的垂直线（与
相对）

我知道它不存在但是有纯CSS版本吗想要设置高度并将其设置为 1px 宽如果可能的话带有阴影只是无法理解纯 CSS 的方式来做到这一点需要绝对定位因为我的容器有两个并排的 div 例如 60 40 的分割需要两者之间的垂直规
在 Kivy 应用程序中获取文本输入值

Python Kivy 新手尝试构建一个测试应用程序其中包含输入框确定按钮和单击确定按钮时应更改文本的标签但我得到了 NameError 全局名称 txt1 未定义我究竟做错了什么 import Kivy import kivy i
无法从同一项目的 bin 目录导入模块

我正在构建一个库该库将通过 pip 包含在其他项目中我有以下目录 venv 是 virtualenv project bin run py myproj init py logger py venv 我激活虚拟环境在 bin run
减法进位标志

我正在使用 MASM32 有了这个代码 mov eax 5 sub eax 10 CF 状态标志将被设置但使用我的铅笔和纸我实际上看到 MSB 没有任何进位是的我知道从较少的数字中减去大的数字集CF 但我想知道为什么因为使用这段代
等待多个延迟对象完成并使用解析值

我正在尝试找出一种方法来等待多个延迟对象并在完成后处理它们可能就像开始延迟对象的下一组我被困住了因为以下结果不是预期的结果我期待结果为 allDone resovled values are 1 2 3 实际结果是 allDone
Android EditText 验证后更改焦点并在对话框中显示错误

我有一个带有 3 个 EditText 字段的简单活动用户通行证确认在用户字段中输入内容并且该人在键盘上单击下一步后我在那里有一个 setOnFocusChangeListener 来验证输入如果验证失败将打开一个对话
将 Django South 与多个代码分支结合使用的工作流程

我很好奇其他 Django 开发人员在使用多个代码分支进行开发时如何使用 South 管理数据库迁移让我举一个示例场景举例来说您从主干开始开发您从主干创建分支 A 此时最后一个迁移版本为app 1是0010 然后您为app 1在创
Ajax - 下载前获取文件大小

基本上我想弄清楚是否应该使用 AJAX 下载文件具体取决于文件大小有多大我想这个问题也可以改写为如何仅获取ajax请求的标头 EDIT ultima rat0 https stackoverflow com users 239962
如何使用流对 Map 中的值求和？

我想要与流等效的内容 public static
当用户拖动列表视图项目时检测何时需要滚动

介绍我正在实现列表视图项目的重新排列而不使用 OLE 拖放 PROBLEM 我已经成功解决了大部分任务除了当用户想要将项目放置在当前不可见的位置时向上向下滚动之外问题我可以使用以下消息向上向下滚动列表视图 SendMessag
LegacyUnhandledExceptionPolicy 不允许捕获（并吞下）ThreadAbortException？

我正在使用 NET 1 1 兼容模式来处理未处理的异常问题是当 LegacyUnhandledExceptionPolicy 设置为 1 这就是我想要的时我无法捕获并吞下 ThreadAbortException 示例代码应用程序
Bokeh 相当于 matplotlib 子图

我正在寻找一种方法来创建包含多个子图的绘图例如 fig ax0 ax1 plt subplots nrows 2 sharex True 可以在 matplotlib 中完成然后可以通过以下方式解决ax0 and ax1 有没有办法在
使用未声明的标识符“gl_InstanceID”

大家好我一直在IOS平台上尝试在OpenGLES2 0中进行实例化绘制我的渲染代码 glEnableVertexAttribArray glVertexAttribPointer glDrawElementsInstancedEXT G
如何向 tabularinline 块的每一行添加行号

我有一个 ModelAdmin 类其内联类型为 TabularInline 我希望 TabularInline 的每一行在其左侧显示一个行号随着新记录添加到内联中该数字会增加并且会在编辑表单时显示我更喜欢行号不是内联数据模型的一部
R 在 readHTMLTable 调用维基百科时崩溃

尝试抓取维基百科页面类似的事情我之前已经做过很多次了 library XML myURL lt http en wikipedia org wiki List of US Open MenUs Singles champions y lt

R 在 readHTMLTable 调用维基百科时崩溃

R 在 readHTMLTable 调用维基百科时崩溃 的相关文章

随机推荐

热门标签

R 在 readHTMLTable 调用维基百科时崩溃的相关文章