如何使用循环来抓取 R 中多个网页的网站数据？

2023-11-29

我想应用一个循环来从 R 中的多个网页中抓取数据。我能够抓取一个网页的数据，但是当我尝试对多个页面使用循环时，我收到了一个令人沮丧的错误。我花了几个小时修修补补，但无济于事。任何帮助将不胜感激！！！

这有效：

###########################
# GET COUNTRY DATA
###########################

library("rvest")

site <- paste("http://www.countryreports.org/country/","Norway",".htm", sep="")
site <- html(site)

stats<-
    data.frame(names =site %>% html_nodes(xpath="//*/td[1]") %>% html_text() ,
         facts =site %>% html_nodes(xpath="//*/td[2]") %>% html_text() ,
         stringsAsFactors=FALSE)

stats$country <- "Norway"
stats$names   <- gsub('[\r\n\t]', '', stats$names)
stats$facts   <- gsub('[\r\n\t]', '', stats$facts)
View(stats)

但是，当我尝试在循环中编写此内容时，我收到错误

###########################
# ATTEMPT IN A LOOP
###########################

country<-c("Norway","Sweden","Finland","France","Greece","Italy","Spain")

for(i in country){

site <- paste("http://www.countryreports.org/country/",country,".htm", sep="")
site <- html(site)

stats<-
data.frame(names =site %>% html_nodes(xpath="//*/td[1]") %>% html_text() ,
         facts =site %>% html_nodes(xpath="//*/td[2]") %>% html_text() ,
       stringsAsFactors=FALSE)

stats$country <- country
stats$names   <- gsub('[\r\n\t]', '', stats$names)
stats$facts   <- gsub('[\r\n\t]', '', stats$facts)

stats<-rbind(stats,stats)
stats<-stats[!duplicated(stats),]
}

Error:

Error: length(url) == 1 is not TRUE
In addition: Warning message:
In if (grepl("^http", x)) { :
  the condition has length > 1 and only the first element will be used

最终工作代码：

###########################
# THIS WORKS!!!!
###########################

country<-c("Norway","Sweden","Finland","France","Greece","Italy","Spain")

for(i in country){

site <- paste("http://www.countryreports.org/country/",i,".htm", sep="")
site <- html(site)

stats<-
data.frame(names =site %>% html_nodes(xpath="//*/td[1]") %>% html_text() ,
     facts =site %>% html_nodes(xpath="//*/td[2]") %>% html_text() ,
       stringsAsFactors=FALSE)

stats$nm <- i
stats$names   <- gsub('[\r\n\t]', '', stats$names)
stats$facts   <- gsub('[\r\n\t]', '', stats$facts)
#stats<-stats[!duplicated(stats),]
all<-rbind(all,stats)

}
 View(all)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

loops

rvest

如何使用循环来抓取 R 中多个网页的网站数据？的相关文章

使用从变量中选择的列名称逐行索引数据框

考虑以下数据框 TEST lt structure list Value c NA NA NA NA NA NA NA NA NA NA NA NA Select structure c 2L 1L 3L 2L 2L 1L 1L 2L 1L
事后如何使用保存的.rds h2o模型进行预测？

我使用 mlr 和 h2o 包创建了一个 R 模型如下所示 library h2o rfh20 lrn makeLearner classif h2o randomForest predict type prob 完成模型调整模型启动
如何使用“NA”作为字符串

我有一个 csv 文件其中一列是字符类型该变量的很少有值是 NA 字符串但是当我使用 read csv 读取 R 中的 csv 文件时 NA 字符串存储为 NA 我该如何修复它您可以使用na strings论证中read csv r
在 R 中，如何获得某些向量值的所有可能组合？

背景我有一个需要一些参数的函数我想要获得所有可能的参数组合的函数结果一个简化的例子 f lt function x y return paste x y sep colors c red green blue days c Monda
使用 Rgraphviz 中的 pos 参数来固定节点位置

基于这个问题当弧与另一弧重叠时自动弯曲 https stackoverflow com questions 45721802 automatically curving an arc when it is overlapping with
在 R data.table 中计算时间增量

我有一个篮球运动员数据的数据表其中包括每场比赛和多名球员的比赛日期我想创建一个列来计算自上一场比赛以来的天数我在 R 中使用 data table 包 PLAYERID GAME DATE 1 2989 2014 01 1 2 298
在 R 中使用 apply() 时出现未使用参数错误

当我尝试对日期列使用 apply 条件以返回一组系数时收到错误消息我有一个数据集为简单起见此处进行了修改但可重现 ADataset lt data table Epoch c 2007 11 15 2007 11 16 2007
data.table 相当于 dplyr::filter_at

考虑数据 library data table library magrittr vec1 lt c Iron Copper vec2 lt c Defective Passed Error set seed 123 a1 lt sampl
使用 rvest 进行抓取 - 当标签不存在时，使用 NA 完成抓取

我想解析这个 HTML 并从中获取这个元素 a p标签与class normal encontrado b div with class price 有时 p某些产品中不存在标签如果是这种情况 NA应添加到从该节点收集文本的向量中这个
将 SAS sas7bdat 数据读入 R

R 有哪些选项可以读取本机 SAS 格式的文件 sas7bdat 进入R The NCES 共同核心 https nces ed gov ccd pubschuniv asp例如包含以此格式保存的大量数据文件存储库为了具体起见让我们集
最新的 Windows 10 更新后 R 将无法运行

我已经更新了我的 Windows 但 R 无法运行因此 R studio 也无法运行当我运行 R GUI 时它只是冻结并且没有响应我已允许防火墙豁免铬我正在使用 Windows Insider 计划并且刚刚更新到 Windows
计算网格中物种的出现次数

我有大约500 000点R美国各地候鸟物种的出现数据我试图在这些点上覆盖网格然后计算每个网格中出现的次数统计完计数后我想将它们引用到网格单元 ID 在 R 中我使用了over 函数只获取范围图中的点这是一个形状文件 Read i
R：交换两个变量而不使用第三个变量

我有两个变量即 a lt 1 b lt 2 我想交换他们的价值观是否有任何内置的 R 函数能够执行该操作或者是否有其他优雅的方式而不使用第三个临时变量 Note 如果可能的话适用于字符串或其他数据类型有一个通用的解决方案或技
如果 RCurl::getURL() 执行时间太长，如何停止执行？

有没有办法告诉 R 或 RCurl 包在超过指定时间段时放弃尝试下载网页并转到下一行代码例如 gt library RCurl gt u http photos prnewswire com prnh 20110713 NY34814 b
程序不等待 cin

int x 0 string fullname float salary float payincrease float newsal float monthlysal float retroactive while x lt 3 cout
Javascript 闭包 - 变量范围问题

我正在阅读 Mozilla 开发者网站上有关闭包的内容我注意到在他们的常见错误示例中他们有以下代码 p Helpful notes will appear here p p E mail p
为什么在 R 中绘图时，hovertemplate 无法正确显示某些数据点

mydat2 lt data frame subject c math english chemistry score c 80 50 65 class c A B A count c 50 60 70 library plotly plo
ggplot2 中的颜色和填充参数有什么区别？

ggmap location geom density 2d aes long lat df geom point aes long lat color special alpha 0 5 data df 当我更改填充颜色时我看不出有什么
如何从另一个数组值中过滤数组值并返回新数组？ [复制]

这个问题在这里已经有答案了我有两个数组 all languages and taken languages 第一个包含所有语言例如 200 种或其他语言第二个包含之前选择的语言从 0 到 200 种我需要删除所有已采用的语言 ta
有没有一种明智的方法可以在 R 中执行诸如文档字符串之类的操作？

这不仅仅是一个编码风格问题如果您了解 python 我认为 Ruby 也有类似的东西您可以在函数中拥有文档字符串这样您就可以通过发出 help 命令轻松获取该字符串例如 def something t None Do somethi

随机推荐

Android gradle 3.0.0 - ZLIB 输入流意外结束

将 android studio 更新到 3 0 并切换到gradle plugin 3 0 0我收到此错误 Gradle project refresh failed Error Unexpected end of ZLIB input
张量流中的加权成本函数

我试图将权重引入以下成本函数 cost tf reduce mean tf nn sparse softmax cross entropy with logits logits logits labels y 但不必自己做 softmax
fork()在for循环中执行

int main int argc char argv int i 0 while i lt 2 fork system ps o pid ppid comm stat i return EXIT SUCCESS 谁能告诉我 ps 命令执行
Visual Studio 2012 上的 mySQL 数据源

我一直在阅读有关 mySQL 数据源以及将 mySQL 与实体框架结合使用的能力但如果不使用数据源对话框我无法真正使用 mySQL 生成 EF 如何将 mySQL 数据库添加到此类对话框这是我到目前为止所做的已安装mySQL 连接器
用于传递块的 Ruby 语法 [重复]

这个问题在这里已经有答案了为什么带大括号的语法按预期工作 class SomeClass include Parser Http new agent PASSED This block was passed to Http new end
如何使用mockito verify()验证一个方法被调用两次

我想通过mockito verify验证一个方法是否至少被调用一次我使用了验证它抱怨如下 org mockito exceptions verification TooManyActualInvocations Wanted 1 tim
如何测试 IPC::Run3 的退出状态

我正在尝试测试 Perl 模块 IPC Run3 但难以检查命令是否失败或成功我知道如果 IPC Run3 的参数有问题它会发出退出代码但是如果参数没问题但命令不存在怎么办我如何测试以下示例有一个子程序来调用 Run3 sub r
转换为 PHP REST CURL POST

我们如何将此代码转换为 PHP REST CURL POST POST https apis live net v5 0 me skydrive files access token ACCESS TOKEN Content Type mu
如何在 mac os x 10.7.2 Lion 上安装 PIL

我尝试过谷歌搜索并查找其他人的问题但是我仍然找不到在 mac os x 10 7 2 Lion 上安装 PIL 适用于 python 2 6 或 2 7 的清晰简单的方法如果你使用homebrew 您只需安装 PILbrew ins
gnuplot 条形图上的 Y 值？

我可以让 gnuplot 在其条形上显示数据点的精确 y 值或高度使用带框绘制吗我希望该图易于阅读这样就无需将条形顶部与 y 轴对齐并猜测该值是多少您可以使用标签样式并将其与框样式结合到绘图命令中标签样式需要 3 列数据 x
Oracle 中的 DATEDIFF 函数 [重复]

这个问题在这里已经有答案了我需要使用 Oracle 但 DATEDIFF 函数在 Oracle DB 中不起作用在Oracle中如何编写以下代码我看到一些使用 INTERVAL 或 TRUNC 的示例 SELECT DATEDIFF
如何在张量流中使用预训练模型作为不可训练子网络？

我想训练一个包含子网络的网络我需要在训练期间保持修复基本思想是在预训练网络 inceptionV3 中添加一些层 new layers gt pre trained and fixed sub net inceptionv3 gt ne
根据第二个数组过滤 numpy 数组中的行

我有 2 个 2d numpy 数组 A 和 B 我想删除 A 中出现在 B 中的所有行我尝试过这样的事情 A np isin A B 但 isin 保留 A 的维度我需要每行一个布尔值来过滤它编辑像这样的东西 A np array
Vue 模板或渲染函数尚未定义，我两者都没有使用？

这是我的主要 JavaScript 文件 import Vue from vue new Vue el app 我的 HTML 文件 div div 使用运行时构建的 Vue js 的 Webpack 配置 alias vue vue di
通过计时器在 JDialog 中设置动态 JLabel 文本

我正在尝试制作一个 JDialog 它将在 JLabel 上向用户显示动态消息该消息应该是从 1 到 10 的计数并且应该每秒更改一个数字问题是当我调试它时它在 dia setVisible true 之后立即停止除非我关闭 J
在 R 中提取日期

我在 R 中处理日期方面遇到了很大的困难而在 SPSS 中可以很轻松地做到这一点但我很乐意留在 R 中完成我的项目我的数据框中有一个日期列想要完全删除年份以保留月份和日期这是我的原始数据的峰值 gt head ds date 1
在不改变宽度的情况下减少条之间的间距

我正在创建一个像这样的条形图 gender M F numbers males females bars plt bar gender numbers width 0 1 bottom None align center data None
合并具有公共元素和多个数据点的数组

我正在尝试使用直接的 Javascript 将两个 Javascript 数组合并为一个数组我正在努力准确地完成以下两个问题中所提出的问题然而我的数据有几个点需要合并而不是单个项目并且数组之间有一个完全相同的公共元素以下是其他问
匹配 Swift 中对象的数据类型

Swift 中如何匹配对象的数据类型 Like var xyz Any xyz 1 switch xyz case let x where xyz as AnyObject println x is AnyObject Type case
如何使用循环来抓取 R 中多个网页的网站数据？

我想应用一个循环来从 R 中的多个网页中抓取数据我能够抓取一个网页的数据但是当我尝试对多个页面使用循环时我收到了一个令人沮丧的错误我花了几个小时修修补补但无济于事任何帮助将不胜感激这有效 GET COUNTRY DATA li

如何使用循环来抓取 R 中多个网页的网站数据？

如何使用循环来抓取 R 中多个网页的网站数据？ 的相关文章

随机推荐

热门标签

如何使用循环来抓取 R 中多个网页的网站数据？的相关文章