使用 R 和 rvest 进行网页抓取

2024-05-02

我正在尝试rvest学习使用 R 进行网页抓取。我正在尝试为页面的其他几个部分复制乐高示例并使用selector gadget to id.

我从中提取了示例R Studio 教程 http://blog.rstudio.org/2014/11/24/rvest-easy-web-scraping-with-r/。对于下面的代码，1 和 2 有效，但 3 无效。

library(rvest)
lego_movie <- html("http://www.imdb.com/title/tt1490017/")

# 1 - Get rating
lego_movie %>% 
  html_node("strong span") %>%
  html_text() %>%
  as.numeric()

# 2 - Grab actor names
lego_movie %>%
  html_nodes("#titleCast .itemprop span") %>%
  html_text()

# 3 - Get Meta Score 
lego_movie %>% 
  html_node(".star-box-details a:nth-child(4)") %>%
  html_text() %>%
  as.numeric()

我并没有真正了解所有管道和相关代码，因此可能有一些新的奇特工具可以做到这一点......但鉴于上面的答案让您"83/100"，你可以这样做：

as.numeric(unlist(strsplit("83/100", "/")))[1]
[1] 83

我想管道看起来会是这样的：

lego_movie %>% 
  html_node(".star-box-details a:nth-child(4)") %>%
  html_text(trim=TRUE) %>%
  strsplit(., "/") %>%
  unlist(.) %>%
  as.numeric(.) %>% 
  head(., 1)

[1] 83

或者正如弗兰克所建议的，您可以评估表达式"83/100"类似的东西：

lego_movie %>% 
  html_node(".star-box-details a:nth-child(4)") %>%
  html_text(trim=TRUE) %>%
  parse(text = .) %>%
  eval(.)
[1] 0.83

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

rvest

使用 R 和 rvest 进行网页抓取的相关文章

了解用于处理色边距的scale_fill_continuous_divergingx参数输入

这个问题是我上一个问题的延续here https stackoverflow com questions 58718527 setting midpoint for continuous diverging color scale on a
如何从多边形数据中提取栅格值然后加入到空间数据框中？

我想将多边形数据和栅格数据合并到一个数据框中以便随后在 R 中使用 randomForests 包这涉及首先提取每个多边形的平均栅格值到目前为止我有以下内容 load libraries library raster library
如果条件长度 > 1 并且仅使用第一个元素，为什么我会在 R 中收到此警告

我有下面的源代码这if is na monthData 用于检查是否monthData is NA 如果是则为其分配一个初始值 monthData lt NA if category QUARTER for m in c rep 1 4
删除 R 中具有重复属性的行

我有一个大数据框其中包含以下列 ID time OS IP 该数据帧的每一行对应一个条目在该数据框中对于某些IDs存在多个条目行我想删除这些多行显然同一 ID 的其他属性会有所不同或者换句话说我只想要每个 ID 一个条目行
当测试集中不存在响应变量时，h2o 预测有时会失败

当在不存在响应变量的测试集上进行预测时如果在训练中对因子变量使用一种热编码则 h2o 会以各种不同的方式失败无论是在训练 GLM 时隐式指定还是在其他方法中显式指定时 R 3 4 0 和 h2o 3 12 0 1 中存在此错误我们还
优化 R 中的嵌套 for 循环

我尝试加速下面的代码但没有成功我读到Rfast https cran r project org web packages Rfast Rfast pdf包但我也未能实现该包有没有办法优化R中的以下代码 RI lt function
建模前减少因子水平数量

我有一个 2600 个级别的因子我想在建模之前将其减少到 10 我想我可以通过这样的操作来做到这一点如果一个因素列出的次数少于 x 次则应将其放入名为其他的存储桶中这是一些示例数据 df lt data frame colour
抑制 R 中的错误消息

我正在 R 中运行模拟研究有时我的模拟研究会产生错误消息当我在函数中实现模拟研究时当出现此错误消息时模拟停止我知道抑制错误是不好的做法但此时对我来说除了抑制错误然后继续下一个模拟直到达到我喜欢运行的模拟总数为止没有其他选择
编写健壮的 R 代码：命名空间、屏蔽和使用 `::` 运算符

简洁版本对于那些不想阅读我的案例的人来说这就是本质最小化新包破坏现有代码即编写您编写的代码的机会的推荐方法是什么尽可能坚固充分利用该功能的推荐方法是什么命名空间机制 when a just using贡献的软件包比如在一
R lubridate：当地语言的工作日

如何获取本地语言的工作日和月份 My code library lubridate data lt c 10 02 2015 11 03 2015 data lubri lt dmy data wday data lubri label T
ggplot2 - 添加具有不同中断和标签的辅助 y 轴

是否可以使用 ggplot2 手动向辅助 y 轴添加中断和标签 see bottom right 我希望在右侧 y 轴上有更紧凑的中断代表条形该图将作为基本情况然后我将展示如何更改辅助 y 轴上的分隔符和标签 sapply c pip
warnings() 在函数内不起作用？如何解决这个问题？

op lt options warn 0 although doesn t work for any value of warn assign last warning NULL envir baseenv thisDoesntWork l
在 R 中将时间间隔数据扩展为天数

假设我有如下所示的数据 interval id indiv id role start date end date 1 1 A 2006 05 01 2006 06 16 2 1 B 2006 06 16 2006 10 16 3 1 A
使用 data.table 进行分组并选择最短日期

My Data df1 lt structure list ID c A A A B B C c1 1 6 c2 1 6 myDate c 01 01 2015 02 02 2014 03 01 2014 09 09 2009 10 10
连接多个用户的 R 闪亮会话

最小可重现示例 library shiny ui lt fluidPage actionButton button1 Run 1 actionButton button2 Run 2 server lt function session i
R：根据元素长度从向量中删除元素

如何根据字符串的字符数或长度从字符串向量中删除元素 df lt c asdf fweafewwf af aewfawefwef awefWEfawefawef gt df 1 asdf fweafewwf af aewfawefwef aw
rpart是自动剪枝吗？

Is rpart自动修剪生成的决策树rpart比具有自动修剪功能的 Oracle Data Mining 生成的级别要多得多否但拟合函数的默认值可能会提前停止分割对于早期的某些定义 See rpart control对于您可
使用 readHTMLTable 从 https 网页读取表格

我安装了 R 3 3 1 并使用 RStudio 0 99 903 我正在尝试从以下 URL 将表格读入 R https www fantasypros com nfl rankings consensus cheatsheets php
在函数中使用 quit/q 会导致 RStudio 出现致命错误

更多的是好奇但当你使用时q or quit在 R studio 内的函数内部它会导致致命错误如下所示但 rgui 中的相同函数会导致 R 像往常一样停止并且仅使用q 在 RStudio 中按预期关闭 R 为什么q在函数中导致 RS
使用自定义渐变填充直方图箱

我想在 R 和 ggplot2 中创建一个直方图其中根据连续的 x 值填充箱大多数教程仅通过离散值或密度计数进行着色下列的这个例子 https stackoverflow com questions 40284227 how to

随机推荐

如何从网络客户端获取状态码？

我正在使用WebClient类将一些数据发布到 Web 表单我想获取表单提交的响应状态代码到目前为止我已经找到了如果出现异常如何获取状态代码 Catch wex As WebException If TypeOf wex Respons
如何使用 Angular2 数据表

找不到任何使用教程angular2 data table图书馆在这里 https github com swimlane angular2 data table https github com swimlane angular2 data
传递到 mvn exec:java 时保留参数间距等

我有一个启动 Maven exec java 进程的 shell 脚本 exec mvn exec java Dexec mainClass Dexec args 现在可悲的是如果我跑步 myMagicShellScript arg1 ar
比较字符串结尾的最佳方法是使用 RIGHT、LIKE 还是其他？

我需要将字符串的结尾与存储过程中可能的结尾列表进行比较会被叫很多大概有10 15个候选结局此时仅使用代码的解决方案比创建专用于此的表更好类似的东西 IF ENDSWITH var foo OR ENDSWITH var bar O
Android 支持 React Native 的 LayoutAnimation 吗？

我没有看到文档中的任何内容 https facebook github io react native docs layoutanimation html指的是缺乏对Android的支持我正在使用一个简单的预设动画 LayoutAnima
如何使用 AVFoundation 组合不同方向的视频剪辑

我正在尝试使用 AVFoundation 将多个视频剪辑合并为一个我可以使用下面的代码使用 AVMutableComposition 创建单个视频 AVMutableComposition composition AVMutableCom
SpringBoot @OneToMany 与 Lombok 无限循环

我的项目使用SpringBoot 它具有双向映射 OneToMany Entity Table name T S Getter Setter EqualsAndHashCode NoArgsConstructor AllArgsConstr
Hibernate中通过ID获取对象

我注意到我们的高级开发人员使用以下代码通过 ID 检索实体 Override public Source get Long id Session session getSession if session null session sess
将数组分成两半，数组总和相等或近似相等

Problem 具有数值的数组需要分成两半数组总和大约相等或可能相等数组中元素的数量或顺序并不重要 probabilites array 0 4 0 15 0 1 0 1 0 2 0 2 0 3 1 45 probabilites 0
Stopwatch.ElapsedTicks 线程安全吗？

如果我有一个共享的System Diagnostics Stopwatch实例可以多线程调用shared ElapsedTicks以安全的方式并获得准确的结果以这种方式使用 Stopwatch 的共享实例与使用静态GetTimeStam
Foldl 是否比其严格的表亲 Foldl' 更好？

Haskell 有两个列表左折叠函数 foldl 以及严格版本 foldl 不严格的问题foldl是它建造了一座重击塔 foldl 0 1 5 gt 0 1 2 3 4 5 gt 15 这会浪费内存并且如果列表中的项太多可能会导致堆
如何检查 flutter web 应用程序中的元素。如何在 Flutter Web 应用程序中进行自动化测试

在此输入图像描述 https i stack imgur com SN4rr png 我正在尝试检查元素但它没有响应任何人都可以建议如何在 flutter web 应用程序中进行自动化测试或者建议任何其他测试工具支持 flutter
自动执行将制表符分隔文件中的值乘以 -1 来求反的过程

我一直在 Excel 中手动处理大量文件我已经进行了一些搜索但还没有找到关于如何以自动化方式实现此过程的明确最佳实践我的手动流程如下我有一个 tab 制表符分隔文件每行总共有 8 个列我需要对每行最后 5 列的数值求负我一
使用 ActionBar 选项卡进行导航时菜单会折叠

我已经使用支持库中的 ActionBar 来将我的应用程序构建为选项卡式导航栏我的应用程序中有两个选项卡这两个片段都有菜单并且有一个菜单项我想将其显示为操作栏中的一项操作但由于某种原因显示了溢出图标而不是分配给这些项目的图标
如何确定现在（UTC）是否在 ISO 8601 格式的给定星期几和一天中时间的范围内

我遇到了如何确定是否DateTime UtcNow 例如 2018 01 01T20 00 00Z 属于另一个时区的给定日期和时间范围内没有给出具体日期只是一周中的几天和一天中的时间给定时间采用 ISO 8601 标准格式为了简化这
如何在 div 标签上添加带边框的三角形

我有一个 div 标签我想在它上面添加一个小三角形注意我希望我的 div 标签具有某种颜色的边框以及另一种颜色的 div 主体假设我的 div 背景为白色边框为蓝色请看这个 http fiddle jshell net pau
JPA 2.0 API Maven 工件

我正在使用 JPA 2 0 我的持久性提供程序是 Hibernate 但是我只想包含 javax 中的标准 API 但在中心没有 2 0 工件我目前正在使用 Hibernate JPA 2 0 工件但我想使用更标准的东西这可能吗
mongodb 中的条件更新

我有以下架构需要进行更新详细信息如下不知道该怎么做 UserPromo new Schema sendFBInvite earnedIntros type Number default 0 earningActionCounter t
sbt-proguard 与 play 2.2.3

我们使用 play 2 2 3 开发了一个 Web 应用程序并希望对其进行混淆我正在尝试使用sbt proguard https github com sbt sbt proguard插入我把下面的行PROJECT FOLDER pr
使用 R 和 rvest 进行网页抓取

我正在尝试rvest学习使用 R 进行网页抓取我正在尝试为页面的其他几个部分复制乐高示例并使用selector gadget to id 我从中提取了示例R Studio 教程 http blog rstudio org 2014 11

使用 R 和 rvest 进行网页抓取

使用 R 和 rvest 进行网页抓取 的相关文章

随机推荐

热门标签

使用 R 和 rvest 进行网页抓取的相关文章