在 R 中使用 React JS 抓取网页

2023-12-12

我正在尝试抓取下面的页面：https://metro.zakaz.ua/uk/?promotion=1
此页面包含反应内容。
我可以用代码抓取第一页：

url="https://metro.zakaz.ua/uk/?promotion=1"

read_html(url)%>%
  html_nodes("script")%>%
  .[[8]] %>% 
  html_text()%>%
  fromJSON()%>%
  .$catalog%>%.$items%>%
  data.frame

结果我拥有第一页的所有项目，但我不知道如何抓取其他页面。
如果有帮助，请将此 js 代码移至其他页面：

document.querySelectorAll('.catalog-pagination')[0].children[1].children[0].click()

谢谢你的帮助！

您将需要“RSelenum”来执行无头导航。

检查设置：如何为 R 设置 rselenium？

library(RSelenium)
library(rvest)
library(tidyvers)

url="https://metro.zakaz.ua/uk/?promotion=1"

rD <- rsDriver(port=4444L, browser="chrome")
remDr <- rD[['client']]

remDr$navigate(url)

### adjust items you want to scrape 
    src <- remDr$getPageSource()[[1]]

    pg <- read_html(src)
    tbl <- tibble(
                    product_name = pg %>% html_nodes(".product-card-name") %>% html_text(),
                    product_info = pg %>% html_nodes(".product-card-info") %>% html_text()
                    )

## to handle pagenation (tested with 5 pages) - adjust accordinly
for (i in 2:5) {
    pages <- remDr$findElement(using = 'css selector',str_c(".page:nth-child(",i,")"))

    pages$clickElement()  

    ## wait 5 sec to load
    Sys.sleep(5)

    src <- remDr$getPageSource()[[1]]

        pg <- read_html(src)
        data <- tibble(
                    product_name = pg %>% html_nodes(".product-card-name") %>% html_text(),
                    product_info = pg %>% html_nodes(".product-card-info") %>% html_text()
                    )
        tbl <- tbl %>% bind_rows(data)
}

nrow(tbl)
head(tbl)
tail(tbl)

这是一个快速输出：

Output

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

webscraping

PhantomJS

rvest

rselenium

在 R 中使用 React JS 抓取网页的相关文章

从日期变量创建月末日期

我有一个包含日期变量的大型数据框它反映了该月的第一天有没有一种简单的方法来创建代表该月最后一天的新数据框日期变量以下是一些示例数据 date start month seq as Date 2012 01 01 length 4 by
Selenium 与 scrapy 的动态页面

我正在尝试使用 scrapy 从网页中抓取产品信息我要抓取的网页如下所示从包含 10 个产品的 Product list 页面开始单击下一步按钮将加载接下来的 10 个产品两个页面之间的 URL 不会改变我使用 LinkExt
如何添加链接以从我的 R闪亮应用程序在新窗口中打开 pdf 文件？

我可以使用 a 从我的 Shiny 应用程序添加到外部站点的超链接 a google href http www google com 但如何创建一个链接来打开 pdf 或类似文件看起来应该很简单但我找不到任何例子我的问题与此类似
randomForest 包在删除一个预测类时的奇怪行为

我正在运行一个随机森林模型它产生的结果从统计角度来看对我来说完全没有意义因此我确信有些东西mustrandomForest 包的代码出现错误至少在模型的本次迭代中预测左侧变量是具有 3 种可能结果的政党 ID 民主党独立党共和
R、Rcpp 与 Armadillo 中矩阵 rowSums() 与 colSums() 的效率

背景来自 R 编程我正在扩展到 C C 形式的编译代码Rcpp 作为循环交换以及一般的 C C 效果的实践练习我实现了 R 的等效项rowSums and colSums 矩阵的函数Rcpp 我知道它们以 Rcpp 糖的形式存在并
如何对数字进行四舍五入并使其显示零？

R 中将数字四舍五入到小数点后 2 位的常用代码是 gt a 14 1234 gt round a digits 2 gt a gt 14 12 但是如果该数字的前两位小数位为零则 R 会在显示中抑制零 gt a 14 0034 gt
R 可以创建带有可单击条形图的条形图图像以插入网页吗？

我知道如何创建条形图以及如何将其粘贴在网页上例如使用hwriteImage in the 作家包 http www embl de gpau hwriter 我想要的是每个栏都是一个在鼠标悬停时突出显示的区域并且每个栏在单击时都有不
Quantmod 的简单功能不再起作用

我明天要交论文我收到了一条关于 quantmod 的非常奇怪的错误消息这是我在过去几周使用这个包时从未遇到过的我无法导入特定于道琼斯指数 DJI 的数据我收到以下错误消息 getSymbols DJI src yahoo from
使用officer R导出时如何提高ggplots的分辨率

我想将图表导出到 PPT 并使用Officer 包来实现相同的目的但是图表的默认分辨率较低我想更改它我目前正在使用以下电话 ph with gg p1 type chart res 1200 其中 p1 是 ggplot 对象运行
正态分布平均值的贝叶斯推理玩具 R 代码 [降雪量数据]

我有一些降雪观测 x lt c 98 044 107 696 146 050 102 870 131 318 170 434 84 836 154 686 162 814 101 854 103 378 16 256 我被告知它遵循正态分布
需要在R中按行绑定列表数据

我在 R 中按行绑定列表时遇到问题我的列表数据集是 id 1 data k 1 id k b c 1 1 1 3 data k 2 id k b c 1 2 1 4 id 2 data k 1 id k b c 2 1 1 6 data
如何在 data.table 中分组后使用条件计算行数

我有以下数据框 dat lt read csv s1 s2 v1 v2 a b 10 20 a b 22 NA a b 13 33 c d 3 NA c d 4 5 NA c d 10 20 dat gt A tibble 6 x 4 gt
为什么 sapply 的缩放速度比样本大小的 for 循环慢？

假设我想采用向量 X 2 1 N 并将 e 计算为每个元素的指数是的我认识到最好的方法就是通过向量化 exp X 但这样做的目的是将 for 循环与 sapply 进行比较我通过逐步尝试三种方法一种使用 for 循环两种以不同方
`dplyr::_join` 函数的命名向量“by”参数[重复]

这个问题在这里已经有答案了我正在写一个函数dplyr join两个数据框by不同的列第一个数据帧的列名称动态指定为函数参数我相信我需要使用rlang准引用元编程但未能找到可行的解决方案我很感激任何建议 library dplyr
R ggplot 中的柯尔莫哥洛夫-斯米尔诺夫图

我正在尝试在 r 中绘制 KS 图一切似乎都很顺利除了我只能使用颜色来可视化两个不同的样本而不是线型这一事实我已经尝试过以下方法 sample1 lt SD13009 sample2 lt SD13009PB group lt c r
R Shinydashboard 自定义 CSS 到 valueBox

我一直在尝试将 valueBox 的颜色更改为自定义颜色超出 validColors 中可用的颜色但一直无法这样做我知道有一种方法可以使用标签来包含自定义 CSS 但是我无法将它们放在正确的位置 ui lt dashboardPage
在包加载之前如何知道 R 中特定函数属于哪个包？

例如我知道许多流行的功能例如tbl df 我通常不记得它属于哪个包即data table or dplyr 所以我必须始终记住并加载一个包但我做不到 tbl df除非我加载了正确的包在 R 控制台本身加载或安装包之前有没有办法知
使用选定因子水平的值向 ggplot-barchart 添加水平线

在这个情节中 df lt data frame factor as factor c rep A 3 rep B 3 Treatment c rep c A B C 2 values runif 6 0 1 ggplot df aes Tr
R中IF函数的使用

我正在短跑ifR 中的函数但收到以下警告消息 In if runif 50 0 1 lt 0 69 the condition has length gt 1 and only the first element will be used
当将遗传算法与 lme4 一起使用时，glmulti 无限期运行

我在 R 中使用 glmulti 进行模型平均我的模型中有大约 10 个变量使得详尽的筛选不切实际因此我需要使用遗传算法 GA 调用 method g 我需要包含随机效应因此我使用 glmulti 作为 lme4 的包装器此处提供

随机推荐

带有 Node.js 的 jQuery 插件

我在我的 node js 应用程序中使用 jQuery 和 jsdom 此外我想使用 jQuery 插件例如 jQuery diff 但我找不到如何做到这一点还有出路吗在文档中创建脚本标记以将脚本加载到其中例子 createWin
将 JPA 和 JDBC 操作组合到一个事务中

因此我有一个应用程序其中包含一些遗留的 JDBC 调用我需要使用一些额外的 JPA 操作来更新它们我需要能够将 JDBC 调用和 JPA 调用作为同一数据库事务的一部分进行如果重要的话我正在使用 OpenJPA 2 1 1 和
如何让4个元素绕一圈旋转？

首先我想说我是jquery的初学者我想让这些 div 沿顺时针方向绕一圈移动直径为 500px 我该怎么做呢 div class textBox div div class textBox div div class textBox d
如何将sqlite数据库直接存储在sd卡上

我想在 sdcard 中创建我的 sqlite 数据库而不是默认路径我也想从 sdcard 访问我的所有数据我已经使用过这段代码 private static class OpenHelper extends SQLiteOpenHel
redirect_stderr 不起作用（Python 3.5）

python3 from contextlib import redirect stderr import io f io StringIO with redirect stderr f simulates an error erd 如上所
Angular.bootstrap 抛出错误

我正在尝试将我的网站迁移到 Angular 但速度很慢当前情况是我有一个纯 HTML 登录页面其中有一个用于打开忘记密码弹出窗口的链接我已将忘记密码页面迁移到 Angular 所以我正在做的是当用户单击链接时我通过 getsc
为什么C程序第一次运行时速度慢10倍

我使用排序的 C 程序第一次运行速度比其他时候慢 10 倍它使用整数文件进行排序即使我更改数字程序仍然运行得更快当我重新启动电脑时第一次程序运行速度慢了 10 倍我用time来计算时间即使不再需要操作系统也会将数据保存在 R
自定义表情符号和动画表情符号不起作用 [discord.py-rewrite]

我最近构建了一个简单的命令来测试自定义表情符号和动画表情符号的格式这是命令的内容 bot command async def say ctx text await ctx send lt ono 521148278079881219 gt
在 Sublime Text 中设置我自己的语法

有时我使用 Sublime Text 来编写提醒我总是使用相同的布局来完成此任务如下所示 gt Title gt gt Subtitle gt gt gt Comment gt Title gt gt Where a gt 代表制表符
Google Apps 脚本 - 在独立脚本上使用 Google 的文件选择器

我正在创建一个应用程序要求用户从其云端硬盘中选择一个文件夹我正在努力设置 Picker API 遵循本文档我使用他们的 Hello World 脚本设置了我的项目但在更改 devlopedKey 和 clientID 后我测试代码以
如何在 Perl 6 中将子项放入正则表达式中？

这就是我正在努力做的事情 gt my sub nplus1 n n 1 gt my regex nnplus1 d nplus1 0 gt 123 nnplus1 P6opaque no such attribute pos in type
如何实现/使用log4j？ [关闭]

Closed 这个问题需要多问focused 目前不接受答案我很快将在一个项目中使用 Java 的 log4j 类来创建日志但我认为我对此一无所知或一无所知希望有人能启发我解决这个但微不足道的问题 Log4j 基本上接受您想要输出的任
CSS-3 'target-new' 和 html5 target='_blank' 用于在新选项卡中打开

我正在寻找在新选项卡中打开页面的解决方案然后我找到了 CSS 3 属性新目标它指出如果用户想要在新选项卡中打开新窗口她可以使用以下用户样式表来执行此操作目标新选项卡重要的我有几个问题其内部如何运作为什么我们在html5规
适用于 xamarin android 的 ClearableEdittext

我已访问此链接和堆栈上的许多其他链接但我无法找到 xamarin android 的类似解决方案 https stackoverflow com a 14470930 7462031 我已经实现了框架布局解决方案但我希望在整个应用程序中
Android 上的简单地图应用程序（google api v2）。不起作用。错误

我尝试在 Android 上编写一个简单的地图应用程序但唯一的结果是错误我尝试按照应有的方式对其进行编程但它仍然不起作用主要活动 package com example guidebook import android os Bun
这个说法正确吗？ HTTP GET 方法始终没有消息正文

这个说法正确吗 HTTP GET 方法始终没有消息正文我没有找到 RFC2616 的任何部分明确说明这一点如果这不是真的那么在什么情况下 Http GET 请求会包含消息正文 Neither 休息客户端 nor 休息控制台支持这一点
在 WPF 中保存单击按钮的用户颜色设置

我在保存按钮的某些属性时遇到了一些问题按钮很小并且有多种颜色当我按下一个按钮时一些指定的颜色正在改变我想保存它们以供下次启动我可以保存文本框值但这我不能 Code public MainWindow InitializeCom
使用 Ruby 捕获网络摄像头图像[重复]

这个问题在这里已经有答案了 Ruby 中有没有可以用来捕获网络摄像头图像的库必须在 GNU Linux 上运行这看起来不错http www wedesoft demon co uk hornetseye api files Hornet
测试时如何将模拟对象注入到类中？

我的用户类别如下 public class UserResource Inject UserService userService public boolean createUser User user DbResponse res use
在 R 中使用 React JS 抓取网页

我正在尝试抓取下面的页面 https metro zakaz ua uk promotion 1 此页面包含反应内容我可以用代码抓取第一页 url https metro zakaz ua uk promotion 1 read html

在 R 中使用 React JS 抓取网页

在 R 中使用 React JS 抓取网页 的相关文章

随机推荐

热门标签

在 R 中使用 React JS 抓取网页的相关文章