R：Rvest - 隐藏了我不想要的文字

2024-01-08

我正在对这个网络进行网络抓取：

http://www.falabella.com.pe/falabella-pe/category/cat40536/Climatizacion?navAction=push

我只需要产品的信息：“品牌”、“产品名称”、“价格”。

我可以得到这一点，而且我也可以从其他用户提供的类似产品的横幅中获取信息。我不需要它。

但是当我转到页面的源代码时，我看不到这些产品。我认为它是通过 javascript 或其他东西拉出来的：

问题1： 在进行网页抓取时如何屏蔽这些信息？这添加了我不需要的产品。但在源码中看不到这部分内容。

问题 2：当提取价格“precio1”时，我将其作为第一个元素："\n\t\t\t\tSubtotal InternetS/. 0"我在代码源中也看不到这一点。怎么才能不刮呢？

library(RSelenium)
library(rvest)
#start RSelenium
checkForServer()
startServer()
remDr <- remoteDriver()
remDr$open()

#navigate to your page
remDr$navigate("http://www.falabella.com.pe/falabella-pe/category/cat40536/Climatizacion?navAction=push")


page_source<-remDr$getPageSource()


Climatizacion_marcas1 <- html(page_source[[1]])%>%
        html_nodes(".marca") %>%
        html_nodes("a") %>%
        html_attr("title")


Climatizacion_producto1 <- html(page_source[[1]])%>%
        html_nodes(".detalle") %>%
        html_nodes("a") %>%
        html_attr("title")


Climatizacion_precio1 <- html(page_source[[1]])%>%
        html_nodes(".precio1") %>%
        html_text()

密切关注你的方法，这样做就可以了：

library(rvest)
u <- "http://www.falabella.com.pe/falabella-pe/category/cat40536/Climatizacion?navAction=push"
doc <- html(u)

Climatizacion_marcas1 <- doc %>% 
  html_nodes(".marca")[[1]] %>%
  html_nodes("a") %>%
  html_attr("title")

Climatizacion_producto1 <- doc %>% 
  html_nodes(".detalle") %>%
  html_nodes("a") %>%
  html_attr("title")

“\n\t\t”等来自html的解析。显然，里面有回车符和制表符。一个简单的解决方案是：

Climatizacion_precio1 <- doc %>% 
  html_node(".precio1") %>%
  html_text() %>% 
  stringr::str_extract_all("[:number:]{1,4}[.][:number:]{1,2}", simplify = TRUE) %>% 
  as.numeric

Climatizacion_precio1
[1] 44.9

事实上，这从字符串中选取数字（因此也删除了“S/.”。如果您希望保留“S/.”，您可以执行以下操作：

Climatizacion_precio1 <- doc %>% 
  html_node(".precio1") %>%
  html_text() %>% 
  gsub('[\r\n\t]', '', .)

Climatizacion_precio1
[1] "S/. 44.90"

EDIT这是另一种方法，使用XML and selectr。这将一次性获取页面上所有项目的信息。

library(XML)

clean_up <- function(x) {
  stringr::str_replace_all(x, "[\r\t\n]", "")
}

product <- selectr::querySelectorAll(doc, ".marca") %>% 
  xmlApply(xmlValue) %>% lapply(clean_up) %>% unlist

details <-   selectr::querySelectorAll(doc, ".detalle a") %>% 
  xmlApply(xmlValue) %>% 
  unlist

price <- selectr::querySelectorAll(doc, ".precio1") %>% 
  xmlApply(xmlValue) %>% lapply(clean_up) %>% unlist

as.data.frame(cbind(product, details, price))
      product                  details      price
1       Imaco  Termoventilador NF15...  S/. 44.90
2       Imaco  Ventilador de 10"  I...     S/. 69
3       Imaco  Ventilador Imaco de ...     S/. 89
4      Taurus  Recirculador TRA-30 ...     S/. 89
5       Imaco  Termoventilador ITC-...    S/. 109
6        Sole Termo Ventilador ElÃ©...     S/. 99
7      Taurus  Ventilador TVP-40 3 ...     S/. 99
8       Imaco  Estufa OFR7AO 1.500 ...    S/. 129
9      Alfano  Ventilador Recircula...    S/. 139
10     Taurus  Ventilador TVC-40RC ...    S/. 139
11      Imaco  Ventilador Pedestal ...    S/. 149
12     Alfano  Ventilador Orbital 1...    S/. 149
13 Electrolux  Ventilador  de Mesa ... S/. 149.90
14     Alfano  Estufa Termoradiador...    S/. 159
15     Alfano  Ventilador Pared 18"...    S/. 169
16      Imaco     Termoradiador OFR9AO    S/. 179

您通常可能想要对结果进行一些初步清理。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

rvest

rselenium

R：Rvest - 隐藏了我不想要的文字的相关文章

如何在 R 地图库中绘制正确的颜色

我正在尝试使用 R 地图库为特定国家绘制特定颜色我可以填写颜色但它们与各自的国家地区没有正确关联我想知道是否有人能知道为什么我的数据框是 filld 有 3 列第一列是国家名称第二列只是一些数字数据第三列是颜色 countr
R：在 Shiny 中，如何修复应用于“反应性”类对象的“xtable”没有适用的方法

我收到此错误 Error in UseMethod xtable no applicable method for xtable applied to an object of class reactive UI R library shi
R：在函数中包含循环？

以下代码可用于创建一个 data frame 其中 Kendall Tau 和 Spearman 相关结果彼此相邻 data mtcars mtcars correlation lt function x y df1 cor data fr
为什么我在 ddply 中看到“错误：length(rows) == 1 is not TRUE”？

我有一个数据框比如工资单例如 payroll lt read table text AgencyName Rate PayBasis Status NumRate HousingAuthority 26 843 00 Annual Fu
如何优化 R 中的 sapply 来计算数据帧上的运行总计

我在 R 中编写了一个函数来按月份计算累积总数但随着数据集变大我的方法的执行时间呈指数增长我是一名 R 程序员新手你能帮我提高效率吗该函数以及我调用该函数的方式 accumulate lt function recordnum d
创建序列组合

我正在尝试解决以下问题考虑 5 个简单序列 0 100 100 0 rep 0 101 rep 50 101 rep 100 101 我需要 3 个数字变量的集合它们的所有组合都具有上述序列由于有 5 个序列和 3 个变量因此可以有
将 csv 文件上传到shinyApps.io

我的应用程序在本地运行良好并且我能够成功地将应用程序部署到shinyapps io 服务器但是当我尝试使用shinyapps URL 在浏览器中加载应用程序时收到以下错误消息错误对象数据不是成立我认为这是因为 data 变量从
替换rmarkdown/knitr/pdf中字幕的自动编号

我正在使用 Rmarkdown 生成 PDF 文档我想在其中手动定义图号下面是一个块的示例 r chunk26 fig cap Fig 5 3 My figure caption plot 1 1 我使用特殊的编号来遵循文档的章节问题
一次评论多个对象

假设您有一个变量 a 到 j 的列表 for x in 1 10 assign letters x x 您将如何评论那些最近创建的对象我尝试过类似的事情 for x in 1 10 comment get letters x lt pas
dplyr：同一公式中全年每日值的总和以及特定每日值的总和

Using df数据框 date lt rep as Date seq as Date 2003 01 01 as Date 2005 12 31 by 1 format Y m d 9 site lt c rep Site 1 3 109
将 R 中的时间数据绘制为各种分辨率（分钟、小时、秒等）

我有一些 CSV 数据例如 Timestamp Count 2009 07 20 16 30 45 10 2009 07 20 16 30 45 15 2009 07 20 16 30 46 8 2009 07 20 16 30 46 6
ggarrange：合并多个图

附图来自以下文章正在使用 ggarrange 合并这些图 http www sthda com english articles 24 ggpubr publication ready plots 81 ggplot2 easy way
R：行数不相等的列绑定

我有两个数据集它们每个都有变量 ID Block 和 RT 反应时间我想合并列绑定这两个集合以便我拥有一个包含变量的数据集 ID 块 RT1 RT2 问题是两个集合中的行数不相等此外 ID 和块号匹配也很重要缺失值应替换为 NA
在 Travis 上使用 devtools 安装 R 包时遇到问题

Travis CI 构建于drakeR包手册 https github com ropenscilabs drake manual 最近开始失败 https travis ci org ropenscilabs drake manual b
在r中拆分数据并将所有拆分文件保存在csv中

我有一个名为 data 的数据集 Model Garage City Honda C Chicago Maruti B Boston Porsche A New York Honda B Chicago Honda C New York 它
ggplot2 - 在绘图顶部添加辅助 y 轴

对于出版物我需要向现有绘图添加第二个 y 轴我遇到了一种方法来做到这一点 https rpubs com kohske dual axis in ggplot2 https rpubs com kohske dual axis in g
将 12 小时字符时间转换为 24 小时

我有一个包含字符格式时间的数据集我试图将其从 12 小时格式转换为 24 小时格式我做了一些搜索但我发现的所有内容似乎都假设字符已经采用 24 小时格式这是我工作时的一个例子 times lt c 9 06 AM 4 42 PM 3
将其他数据集的点添加到ggplot2

关于这个主题已经有很多问题但我找不到能回答我的具体问题的问题我有一个barplot see testplot1 and testplot3如下绘制数据集 bardata如下并希望从另一个数据集向其添加点 pointdata 请参阅简
如何在 R 中解析堆叠多个 JSON 的文件？

我在 R 中有以下堆叠 JSON 对象 example1 json ID 12345 Timestamp 20140101 Usefulness Yes Code event1 A result 1 ID 1A35B Timestamp
R：中断 for 循环

你能确认下一个break是否取消了内部for循环吗 for out in 1 n old id velho lt old table df id out for in in 1 n id novo lt new table df ID in

随机推荐

从路由器弃用的 2.0.0-rc.2 迁移到 [电子邮件受保护]

我早在 6 月份就开始学习 Angular2 当时 angular io 快速入门和英雄之旅教程是基于已弃用的路由器和旧的 main ts 语法现在我们有 ngModules 我在升级这两件事时都遇到问题使用 ngModule a
关于同步与异步 asio 操作需要一些澄清

据我所知同步和异步操作之间的主要区别即write or read vs async write and async read 前一个直到操作完成或出错才返回而后一个则立即返回由于异步操作是由一个io service run 直到受控
如何通过 WordPress 中的 Yoast seo 插件设置主要类别

我使用了 Yoast seo 插件并设置了产品的主要类别但在前面我无法获得主要类别名称 Yoast SEO 插件现在有一个专门的功能 yoast get primary term id 用于获取主要术语的 ID primary term
Web 服务/WCF 服务，返回数据集是否更好？

因此根据我对服务的了解自定义对象似乎是编写服务以返回数据时的最佳选择如果我正在编写一项服务该服务将用于 1 填充数据库或 2 为网站提供信息是否有必要返回数据集数据表而不是返回包含所有这些内容的自定义对象列表信息 thank
Spring批处理块，如果结果集发生变化，读取器如何工作？

我是 Spring Batch 分块的新手我想了解阅读器是如何工作的这是场景实施用户帐户的清除块处理器有一个读取器可以按顺序读取与清除条件匹配的所有用户帐户处理器对于基于某些计算的每个用户帐户它可能会创建一个新的用户帐户并
管理 monoid 迁移

有人可以给我简单介绍一下如何使用 Mongoid 在 Rails 中进行数据库迁移吗我对每个文档的惰性迁移特别感兴趣我的意思是每当您从数据库中读取文档时您都会将其迁移到最新版本并再次保存以前有人做过这样的事情吗我遇到过mongo
Java安全模块KeyGenerator线程安全吗？如果不是那么如何修复它？

我有一个并发加密解密程序其中通过调用以下代码用scala编写 Java版本应该非常相似同时随机生成多个AES128密钥 private def AESKeyGen KeyGenerator val keyGen KeyGenerat
Laravel 5.6 预加载特定列不返回任何内容

我有两节课Product and ProductFormat 关系定义正确我的产品hasMany产品格式 public function formats return this gt hasMany ProductFormat class
Laravel，如何从另一个控制器调用函数

我有一个控制器在名为 UserController 的控制器中具有 getUsers 函数在其中我想调用名为 getCars 的 CarController 控制器的函数我有两个选项是 a 将第二个调用设置为 static 然后我可以
我可以定义只能包含这些值的 MyType 吗？

我有这个问题例如如果我有这些值 AA AB AC BC 我可以定义仅包含这些值的 MyType 吗我想在模式下做 type MyType something var X MyType begin x AA is valid AA is
如何在 Python 中使用自定义消息引发相同的异常？

我有这个try我的代码中的块 try do something that might raise an exception except ValueError as err errmsg My custom error message ra
使用 Zurb Foundation 与 AngularJS 交换

我正在开发一个 AngularJS 项目该项目使用 Zurb Foundation 作为其 CSS 框架我正在尝试弄清楚如何使用基金会的数据交换 http foundation zurb com docs components inte
如何为 AWS S3 存储桶添加 ACL 受让人？

到目前为止我能追踪到的docs https boto3 amazonaws com v1 documentation api latest reference services s3 html bucketacl 您可以获取并放置 S3 存
如何“获取”dijit.layout.tabcontainer 中“单击”选项卡的 ID？

我一直无法为此找到明确定义的解决方案大多数都是不完整的片段这是一个简单的示例请参阅 doSomething 注释
在没有焦点的情况下监视 tkinter 中的按键

我正在使用 tkinter 在 Python 中编写一个小型计时模块在这方面我想全局监控何时按下退出键来停止计时不幸的是 tkinters bind 和 bind all 函数仅在窗口处于焦点时才拾取击键我已经研究了其他几个用于记录
尝试在android中以编程方式模拟滑动

我希望我的应用程序在单击按钮时模拟滑动触摸事件向上向下向左向右然后 TextView 将向下向上滚动我尝试过使用 Motion Event 但是在我分别调度 ACTION DOWN ACTION MOVE 和 ACTION U
下载数据库文件到app目录

我想在使用 DownloadManager 单击按钮时更新应用程序的 sqlite 数据库但它说 java lang IllegalArgumentException 不是文件URI data user 0 com example lau
使用 asyncio 逐行读取文件

我希望在写入多个日志文件时读取它们并使用 asyncio 处理它们的输入该代码必须在 Windows 上运行根据我在 stackoverflow 和网络上的搜索了解到异步文件 I O 在大多数操作系统上都很棘手 select例如将无
使用自定义字体时如何垂直纠正导航栏的 titleView 文本位置？

我们在导航栏中的 titleView 使用自定义字体不知何故苹果总是把这种字体画得太高当您在导航栏中使用自定义字体时如何纠正这种奇怪的偏移 I used setTitleVerticalPositionAdjustment forB
R：Rvest - 隐藏了我不想要的文字

我正在对这个网络进行网络抓取 http www falabella com pe falabella pe category cat40536 Climatizacion navAction push 我只需要产品的信息品牌产品名称价

R：Rvest - 隐藏了我不想要的文字

R：Rvest - 隐藏了我不想要的文字 的相关文章

随机推荐

热门标签

R：Rvest - 隐藏了我不想要的文字的相关文章