rvest open.connection(x, "rb") 中出现错误：HTTP 错误 404

2024-01-22

我试图使用 rvest 和 purrr 抓取一个网站以从许多页面中提取数据。但每次我运行代码时都会出现“open.connection(x, "rb") 中的错误：HTTP 错误 404。”出现。

url <- "http://books.toscrape.com/catalogue/page-%d"

map_df(1:10, function(i){ 
  
  page <- read_html(sprintf(url, i))
   cat(".")
  
  booksdf <- data.frame(safely( title <- html_nodes(page, "h3, #title") %>% html_text(),
                       price <- html_nodes(page, ".price_color") %>% html_text() %>% gsub("£", "", .),
                       rating <- html_nodes(page, ".star-rating") %>% html_attrs() %>% str_remove("star-rating") %>%str_replace_all(c("One" = "1", "Two" = "2", "Three" = "3", "Four" = "4", "Five" = "5")) %>%  as.numeric()
                       )
                      
  )
  
  
} 
)

Error in open.connection(x, "rb") : HTTP error 404.

我们可以创建要抓取的 URL，然后使用map_df将数据帧绑定在一起。

library(tidyverse)
library(rvest)

url <- "http://books.toscrape.com/catalogue/page-"
pages <- paste0(url, 1:10, ".html")

map_df(pages, function(i){ 
     page <- read_html(i)
     data.frame(title = html_nodes(page, "h3, #title") %>% html_text(),
                price = html_nodes(page, ".price_color") %>% html_text() %>% 
                        gsub("£", "", .),
                rating = html_nodes(page, ".star-rating") %>% html_attrs() %>% 
                         str_remove("star-rating") %>%
                         str_replace_all(c("One" = "1", "Two" = "2", 
                         "Three" = "3", "Four" = "4", "Five" = "5")) %>%  
                          as.numeric())
})


#                                            title price rating
#1                               A Light in the ... 51.77      3
#2                               Tipping the Velvet 53.74      1
#3                                       Soumission 50.10      1
#4                                    Sharp Objects 47.82      4
#5                     Sapiens: A Brief History ... 54.23      5
#6                                  The Requiem Red 22.65      1
#7                     The Dirty Little Secrets ... 33.34      4
#8                          The Coming Woman: A ... 17.93      3
#.....

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

rvest

rvest open.connection(x, "rb") 中出现错误：HTTP 错误 404 的相关文章

在 R 中使用 spplot 将多个绘图放在一个页面上？

我知道如何在使用简单函数图时绘制两个图 old par lt par mfrow c 1 2 plot faithful main Faithful eruptions plot large islands main Islands yla
R 中的 as.numeric 有什么问题？ [复制]

这个问题在这里已经有答案了 gt X864291X8X74 1 8 0000000000 9 0000000000 10 0000000000 6 0000000000 8 0000000000 10 Levels 0 0000000000
在 R 中按组检查重叠开始和结束时间

我想检查数据的重叠这是数据 ID lt c rep 1 3 rep 3 5 rep 4 4 rep 5 5 Begin lt c 0 2 5 3 7 8 7 25 25 10 15 17 20 1 NA 10 11 13 End lt c
在单个显示器中绘制多个 jpeg 图像

我需要在单个组合显示器或画布中绘制和显示多个 jpeg 图像例如假设我有图像 a b c d jpg 每个图像的大小不同我想将它们绘制在 2x2 网格的一页上能够为每个子图设置标题也很好我一直在彻底寻找解决方案但不知道如何去
删除 R 中具有重复属性的行

我有一个大数据框其中包含以下列 ID time OS IP 该数据帧的每一行对应一个条目在该数据框中对于某些IDs存在多个条目行我想删除这些多行显然同一 ID 的其他属性会有所不同或者换句话说我只想要每个 ID 一个条目行
确定向量中是否存在元素的最有效方法

我有几种算法取决于确定元素是否存在于向量中的效率在我看来这 in 这相当于is element 应该是最有效的因为它只返回一个布尔值在测试了几种方法之后令我惊讶的是这些方法是迄今为止效率最低的以下是我的分析随着向量大小的增加
使用pivot_longer将R中的多列变成一列[重复]

这个问题在这里已经有答案了我有一个dfpopulation看起来像这样未列出所有列和行 Region X1975 X1976 X1977 X2008 National Total 942420 93717 94974 132802 Be
R-在多个图的外缘绘制居中图例

我想在具有多个绘图的设备中的绘图区域之外绘制居中图例 SO 中提出了许多关于更改 R 图中图例位置的问题略有不同例如 1 R 组合图的通用标题和图例 https stackoverflow com questions 8736966 r
在 R Shiny 中，如何使用可排序 js 将其在列表中出现的顺序次数附加到每个列表元素？

下面的可重现代码适用于将元素从一个面板拖动到另一个面板并在拖动到面板中自动使用 HTML CSS 对拖入的每个元素进行排名顺序编号但是我现在尝试附加到每个拖动到列表元素的末尾使用某种形式的paste0 我假设该元素在拖至
编写健壮的 R 代码：命名空间、屏蔽和使用 `::` 运算符

简洁版本对于那些不想阅读我的案例的人来说这就是本质最小化新包破坏现有代码即编写您编写的代码的机会的推荐方法是什么尽可能坚固充分利用该功能的推荐方法是什么命名空间机制 when a just using贡献的软件包比如在一
将天气 iframe 嵌入到 Shiny Dashboard 中

我正在尝试将 Forecast io 的天气预报嵌入到闪亮的仪表板中我最初在使用符号时遇到了麻烦但看到一篇文章提供了如何使用特殊字符格式化 HTML 代码的示例但是当我运行该应用程序时我看到一个简单的未找到即使我知道该链接有
R：编写抛硬币的随机采样程序

假设我们有以下情况有一枚硬币如果它正面朝上那么下一次抛掷正面的概率是 0 6 如果是反面那么下一次抛掷反面的概率也是 0 6 一个班有100名学生每个学生随机抛掷硬币几次 Student n 的最后一次抛硬币不会影响 Studen
如何在 R 中只为直方图的一个标签着色？

我有一个像这样的数据框 CellLines ZEB1 600MPE 2 8186 AU565 2 783 BT20 2 7817 BT474 2 6433 BT483 2 4994 BT549 3 035 CAMA1 2 718 DU447
将 RDS 文件从网络（即 URL）直接加载到 R 中？

read csv 具有直接从 url 读取的出色能力 readRDS 才不是我想将 RDS 文件从 Internet 移动到我的 R 环境我看到有几种方法 Method 1 此方法会用下载的文件弄乱工作目录 myurl lt https
jupyter 中的 r 图形 - 无法启动 png() 设备

我在 Jupyter 中使用 R 但无法在笔记本本身中绘制图表这是一个可重现的示例 set seed 123 mat as matrix x rnorm 100 y rnorm 100 plot mat 在朱皮特中 Error in pn
matplotlib 中的 R 风格数据轴缓冲区

R 绘图自动设置 x 和 y 限制以在数据和轴之间留出一些空间我想知道 matplotlib 是否有办法自动执行相同的操作如果没有是否有一个好的公式或经验法则来说明 R 如何设置其轴限制在 matplotlib 中您可以通过
在函数中使用 quit/q 会导致 RStudio 出现致命错误

更多的是好奇但当你使用时q or quit在 R studio 内的函数内部它会导致致命错误如下所示但 rgui 中的相同函数会导致 R 像往常一样停止并且仅使用q 在 RStudio 中按预期关闭 R 为什么q在函数中导致 RS
从 data.frame 中提取时用 NA 填充缺失的列

我有一个函数它将具有某些列的数据框作为输入 columns a b z 现在我有一个数据框DF只有很少的这些列DF columns f u z 如果列不在其中如何创建一个包含所有值为 NA 的列的数据框DF这与DF在柱子上 f u z
美人鱼图：调整图表周围的空白

我在用 Rstudio 编译的 Rmd 报告中使用了美人鱼图在 HTML PDF 输出中图表上方和下方有大量空白请参见下面的示例 Header Text r library DiagrammeR mermaid graph TD cl
将所有分号替换为空格 pt2

我尝试对 2000 多行关键字的列表运行文本分析但它们的列出方式如下战略管理风格组织所以当我使用 tm 删除标点符号时它就变成了组织的战略管理风格我认为这在某种程度上破坏了我常用术语的分析我尝试过使用 vector lt

随机推荐

WPF - 以编程方式绑定到 DataGridCheckBoxColumn

我正在尝试以编程方式将 IList 绑定到数据网格并且其中一列是布尔值因此我决定使用 DataGridCheckBoxColumn 而不是通常的 DataGridTextColumn 不幸的是这似乎不起作用这是我当前使用的代码 Da
React的setState()，嵌套结构的数据变异，为什么不直接修改state呢？

下面的反应代码是错误的吗 state foo bar true line 1 setState state line 2 state foo bar false line 3 setState state line 4 如果是为什么 Th
音频在 Chrome 中播放，但在 Safari 中不播放

我有一个 Angular 5 应用程序我在其中设置了click用于下载音频文件并播放的按钮的处理程序我正在使用这段代码来执行此操作 onPreviewPressed media Media void const url this htt
RecyclerView 最后一项出现奇怪的动画

我的观点有两种RecyclerView单品两件RelativeLayouts 在某些时候我会翻转两者RelativeLayouts 我正在旋转LayoutA from 0 to 180度同时我旋转LayoutB from 180 to
使用 jQuery 防止 ajax 加载页面上的脚本执行

我正在尝试使用 load 函数加载页面问题是加载时正在执行该页面上的 JavaScript 代码我用这个 itemid load thepage php selector function MY CODE HERE 我怎样才能阻止Jav
将 Office 安装到 Windows 容器 (servercore:ltsc2019) 失败，错误代码 17002

错误信息安装到 Windows 容器服务器核心时 ODT Office 部署工具日志报告错误 C2R 客户端返回失败错误代码错误代码 17002 环境 Behavior in Windows Server 2019 1809 wi
url 中的 Facebook 页面选项卡应用程序名称

我可以在 url 中设置应用程序名称吗就像我可以为页面设置它一样facebook com mypagename myapp 而不是 facebook com mypagename app 123123123 我知道我可以使用 apps f
纯虚方法调用

编辑已解决我现在正在开发一个多线程项目其中有一个基本工作类以及从它继承的不同工作类在运行时工作类变成线程然后根据需要执行工作现在我编写了一个Director 它应该维护一个指向所有worker的指针数组以便它可以从它们检
正在将城市/州从 SQL Server 加载到 Google 地图？

我正在尝试制作一个小型应用程序它需要城市和州以及地址到纬度经度位置的地理编码现在我正在使用 Google Map 的 API ColdFusion 和 SQL Server 基本上城市和州字段都在数据库表中我想获取这些位置并将标记
如何将ArrayBuffer转换为AudioBuffer？

我正在流式传输 arrayBuffer 以转换为audioBuffer 以便能够收听它我正在通过 websocket 事件接收流 retrieveAudioStream this socket on stream buffer gt c
如果我想显示数据库中的数据，是否应该在 BLL 项目类中创建与 DAL 项目中的 poco 类相同的类并将其返回到 UI 项目？

我有一个架构问题我有带有 poco 类数据库中的等效表的 DAL 项目 BLL 项目和 UI 项目 UI项目引用了BLL项目 BLL项目引用了DAL项目我想在 UI 项目中显示数据例如来自数据库中的表 Product 的数据我应
WinError 10061 - 无法建立连接

我正在调试一个简单的程序该程序过去一直有效我已经挑出了发生错误的指令但我无法弄清楚是什么触发了它我已阅读与 WinError 10061 相关的所有问题但没有看到明确的答案 urllib request urlopen http
C++ 中隐藏特定函数的方法

我有一份遗产struct A public B 我想对B隐藏个别功能这可能吗我知道相反的情况也可以使用using BMethod在 A 声明中 cheers 如果您想有选择地对 B 隐藏函数那么首先使用公共继承就没有多大意义使用私有
在用户界面中，“变灰”或隐藏不可用的功能更好吗？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案在我的特定情况下我有一个评论表单只有在用户登录并加入特定主题后才能使用然后他们可以对该主题发表评论在您看来我应该完全隐藏评论表单还
如何管理 WorldDomination 和 Nancy 的身份验证？

我正在尝试让社交身份验证在 asp net 托管中工作Nancy http www nuget org packages Nancy 网络应用程序使用Nancy 的 WorldDomination SimpleAuthentication
OpenSSL.NET 将 Ruby 示例移植到 C#（来自 RailsCasts 143 paypal-security）

我正在遵循RailsCasts 剧集 http railscasts com episodes 143 paypal security关于 PayPal 安全性我尝试将此代码移植到 C 并使用OpenSSL NET http openss
如何在我的网站上启用 iOS 5 Safari 阅读器？

iOS 5 中 Mobile Safari 的阅读器功能如何工作如何在我的网站上启用它我如何告诉它我页面上的哪些内容是一篇文章来触发这个功能这里发布的很多答案都包含虚假信息以下是一些更正澄清 The
私有 Docker 注册表和高可用性

我们目前正在一台托管我们所有图像的服务器上运行一个私有注册表如果服务器崩溃我们基本上会丢失所有图像我们希望找到一种方法来实现图像的高可用性我认为一个简单的解决方案是每台服务器都有一个注册表实例负载均衡器会将流量重定向循环到可用
引用传递阻碍了 gcc 消除尾部调用

See BlendingTable create and BlendingTable print 两者都有相同形式的尾递归但是 whilecreate将被优化为循环 print不会并导致堆栈溢出向下查看修复程序这是我从一位 gcc 开
rvest open.connection(x, "rb") 中出现错误：HTTP 错误 404

我试图使用 rvest 和 purrr 抓取一个网站以从许多页面中提取数据但每次我运行代码时都会出现 open connection x rb 中的错误 HTTP 错误 404 出现 url lt http books toscrape

rvest open.connection(x, "rb") 中出现错误：HTTP 错误 404

rvest open.connection(x, "rb") 中出现错误：HTTP 错误 404 的相关文章

随机推荐

热门标签