R 和带有循环的网页抓取

2024-02-05

我正在抓取一个网站urls http://example.com/post/X，在哪里X是从1:5000开始的数字我可以使用刮擦rvest使用此代码：

website <- html("http://www.example.com/post/1")

Name <- website%>% 
  html_node("body > div > div.row-fluid > div > div.DrFullDetails > div.MainDetails > div.Description > h1") %>%
  html_text()

Speciality <- website %>% 
  html_node("body > div > div.row-fluid > div > div.DrFullDetails > div.MainDetails > div.Description > p.JobTitle") %>%
  html_text()

我需要代码从网站抓取所有页面，并将抓取的数据放入表中，每个页面都放在一个新行中。请帮忙

我会将您用于抓取单个页面的代码包装在lapply，然后使用rbindlist来自data.table包以合并每个页面的信息。

如果没有实际的例子，这很难测试，但可以尝试这样的事情：

library(rvest)
library(data.table)

scrapeDomain <- function(baseURL="http://www.domain.com/post", index=1:10) {

  scrape1 <- lapply(index, function(n) {

    website <- paste(baseURL, n, sep="/") %>%
      html()

    name <- website %>% 
      html_node("body > div > div.row-fluid > div > div.DrFullDetails > div.MainDetails > div.Description > h1") %>%
      html_text()

    speciality <- website %>% 
      html_node("body > div > div.row-fluid > div > div.DrFullDetails > div.MainDetails > div.Description > p.JobTitle") %>%
      html_text()

    data.table(website=website, name=name, specialty=specialty)

  } )

  rbindlist(scrape1)

}

scrapeDomain()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

r

webscraping

rvest

R 和带有循环的网页抓取的相关文章

在 R 中绘制决策树（插入符）

我已经训练了一个数据集rf方法例如 ctrl lt trainControl method LGOCV repeats 3 savePred TRUE verboseIter TRUE preProcOptions list thresh
如何禁用“保存工作区图像？” R 中的提示？

当我退出交互式 R shell 时它每次都会显示一个烦人的提示 gt gt Save workspace image y n c n 我总是对此回答不因为如果我想保存我的工作我就会这么做before试图退出如何去掉这个提示呢 No
在 R 中根据时间序列数据制作 3D 曲面

我有一个大型数据集我想从中制作 3D 表面我希望 x 轴为日期 y 轴为时间 24 小时 z 轴高度为我的值我是 R 初学者所以越简单越好 http www quantmod com examples chartSeries3d
R：从本地 tar.gz 安装 R 软件包时找不到“make”

R 包ConvCalendar不再位于 Cran 存储库中请参阅here https cran r project org web packages ConvCalendar index html 然而因为我在之前的项目中大量使用了这个
r - 根据第一个向量重新排序第二个向量

寻找解决方案来执行以下操作有两个向量 a lt c 2 1 3 4 7 6 5 9 8 10 b lt c 3 2 1 6 5 4 7 8 9 10 我想创建第三个向量它给出向量的顺序b需要重新排序使其顺序与a 在这种情况下我想得到
成对散点图；一对多[重复]

这个问题在这里已经有答案了有没有一种简洁的方法来创建pairs仅将一个变量与许多其他变量进行比较的图换句话说我可以只绘制标准的一行或一列吗 pairs不使用循环的散点图矩阵融化你的数据然后使用带有facet的ggplot libr
根据用户输入将 n 个反应式单选按钮添加到闪亮的应用程序

我正在尝试创建一个闪亮的应用程序用户可以在其中从数据框中选择变量以便对数据进行子集化输出最终将是包含用户子集的数据表我需要根据用户为子集选择的变量数量创建 n 个输入框理想情况下输入框将是动态单选按钮用于子集因子我还没有开
如何绘制对数似然函数图

我想绘制 pi 和 pi 之间的对数似然函数对数似然函数 llh lt function teta x sum log 1 cos x teta 2 pi x c 3 91 4 85 2 28 4 06 3 70 4 04 5 46 3
如何很好地注释 ggplot2（手册）

Using ggplot2我通常使用geom text和类似的东西position jitter注释我的情节然而对于一个漂亮的情节我经常发现手动注释是值得的像下面这样 data2 lt structure list type str
无法使用Python请求会话模块登录网站

我刚刚开始进行网络抓取对于我的第一个项目我尝试使用 requests Session 登录 artofproblemsolving com 并访问另一个用户的帐户这是我的代码 import requests LOGIN URL htt
magrittr 管道中的 WOE

如何将下面的证据代码权重放入 magrittr 管道中 df gt 我尝试过的一切似乎都不起作用 df library Information library magrittr df a c aa bb cc aa aa aa bb cc
提取模型摘要并将其存储为新列

我是新来的purrr范例并正在努力解决它根据一些来源我已经设法嵌套一个数据框在嵌套数据上运行线性模型从每个 lm 中提取一些系数并为每个 lm 生成摘要我想做的最后一件事是从摘要中提取 r squared 我原以为这将是我想要实
拆分并保存在新的 data.frames 中

我有一个大 data frame 144 列我想将其分成每组 3 列子文件或子 data frame 然后将子 data frame 保存在单独的文件中换句话说 file1 将包含从 1 到 3 的列 file2 将包含从 6 到 9
是否有 R 函数可以将这些数据从长形重塑为宽形？

数据现在看起来如何 Coach ID Student score 1 A 8 1 B 3 2 A 5 2 B 4 2 C 7 看起来像这样 Coach ID Student score student 2 score 2 student 3
如何在 R 中更新和重新编译 nlme 源代码

我正在尝试更新 nlme 包以便我可以在 gls 命令中使用大圆距离进行相关性我正在尝试使用指定的更改来编辑源代码here http r 789695 n4 nabble com nlme spatial autocorrelation
列值的切换功能

我有一个缩写变量名称错误地分散在整个列表中请参阅下面的示例结构 ID lt c SPW SM DLS SJ joe schmoe CEJ teddy roos GVF MJC LH sally fields Full names sho
将 dplyr 中的starts_with与部分列名称的向量一起使用

我想使用 dplyr 选择与字符串向量匹配的某些列 one lt seq 1 10 two lt rnorm 10 three lt runif 10 1 2 four lt 10 1 df lt data frame one two th
使用 data() 的 R 包命名空间问题 -- 找不到数据集

我在尝试在我自己的包中导入包即 robfilter 时遇到了问题我尝试使用它的方法之一 adore filter 在这一行失败 data critvals 出现错误未找到数据集 critvals 如果我通过 require robfi
删除ggplot2 geom_bar中没有数据的日期列[重复]

这个问题在这里已经有答案了我想隐藏 ggplot2 中没有数据的列这是使用 nycflights13 库的可重现示例 library nycflights13 library dplyr library ggplot2 small da
将从数据透视表包生成的数据透视表转换为数据帧

我正在尝试制作一个数据透视表pivottabler包裹我想将数据透视表对象转换为数据框以便我可以将其转换为数据表带有 DT 并在 Shiny 应用程序中渲染它以便可以下载 library pivottabler pt qpvt mt

随机推荐

使用 C# 配置 Wifi 设置

如何使用 C 紧凑框架为 Win Mobile 应用程序配置 Wifi 设置所以交易是配置网络隐藏APP的SSID 使用 TKIP 进行 WPA 身份验证强制用户和密码不会提示最终用户进行身份验证看看智能设备框架 http w
Android Studio 3 中的“将项目与 gradle 文件同步”按钮在哪里？

This button disappeared from a new 3 1 version of AS Toolbar Before it showed as 现在不见了 EDIT 他们喜欢继续使用工具栏从 Android Studio
Alertmanager，不同的警报规则有不同的间隔

我正在使用alertmanager来获取prometheus指标的警报我对不同的指标有不同的警报规则是否可以为每个警报规则设置不同的时间间隔例如对于metric1 我有rule1 我需要每天检查此规则间隔对于 metric2 我有规
EAV 数据库架构

我有一个包含超过 100K 条记录的数据库很多类别和很多项目每个类别具有不同的属性一切都存储在 EAV 中如果我尝试打破这个方案并为任何类别创建一个唯一的表我必须避免什么吗是的我知道我可能会有很多表并且需要更改它们如果我想
Genymotion 错误：在 Yosemite 上“无法加载 VirtualBox 引擎”。已安装 VirtualBox

我有一台配备 OS X Yosemite 的 Macbook Pro 13 英寸内存 8 GB 显卡 Intel Iris Graphics 6100 1536 MB 我正在尝试将 Genymotion 设置为 Android 模拟器我
将一列 int64 (YYYYMMDDHHMMSS) 转换为不带分隔符的 datetime64

这是我的 pandas 数据框中的数据我想转换dateTime列成日期时间64这样我就可以检查是否重复fileName存在然后找到最新的文件dateTime 正如你所看到的这里的日期时间格式是YYYYMMDDDHHMMSS没有分隔符 f
jQuery 创建整个 DOM 结构

TOP TABLE var divTop div className dynamicTableTop html p options name p appendTo obj Create div var divAO div className
Chrome 扩展程序——我的源代码可供用户使用吗？

我即将向 Chrome 网上商店发布我的第一个 Chrome 扩展他们希望将代码压缩并上传一旦通过批准如果我理解正确的话它将作为 crx 文件提供给用户但这些 crx 文件是带有 crx 扩展名的简单 zip 文件对吧如果这样
在传递给 google.setOnLoadCallback() 的函数中使用参数；

我正在尝试使用 Google Visualization API 来显示从 MySQL 服务器收集的数据我想使用 PHP 获取数据然后将其传递到 javascript 函数调用中以创建图表当我这样做时我在将参数传递给传递给 goog
如何使用 Core Graphics 和 CALayer 绘制更精确的线条

您好我很难让这个 UI 元素看起来像我想要的那样看截图 http www study en0de com good not so good jpg 请注意右侧的图像与左侧的图像恰好是 safari 的屏幕截图相比线条宽度和暗度看
点击 Google Contacts API 时出现“连接被同行重置”错误

我正在尝试使用 Google Contacts API 将 Google Contacts 拉入 Rails 应用程序我已完成 Oauth2 握手现在使用我的访问令牌请求受保护的资源这是代码 uri URI https www goo
为什么我们需要错误类？

We have Throwable类是其基类Error类对于无法恢复的错误和Exception类对于可恢复的 errors So 1 gt we can throw一个实现的对象error类虽然实现没有意义Error类因为我们有Ex
如何在流星中的 DOM 准备好后执行辅助函数

我有一个清单 li 如下所示使用 Meteor startup 用 find 填充然后我得到这些的所有数据属性 li li 使用 data 并将其放入一个对象中并尝试 return console log 它以便我可以查看它是否有效
使用MPMusicPlayerController，设置musicPlayer.currentPlaybackTime进行seek但需要秒才能生效

我有一个 UISlider 充当洗涤器当拖动拇指时我执行以下操作 void seekTo double playbackTime mPlayer currentPlaybackTime playbackTime 效果很好音乐寻求前进
无法捕获托管代码中的本机异常

我有一个混合的 NET 和本机代码控制台应用程序由于 Visual C 运行时库致命错误应用程序进程被终止即使我使用以下内容托管代码也不会捕获本机异常尝试捕获块 AppDomain UnHandledExption 标记Runt
C++ 中的内存栅栏/屏障：boost 或其他库有它们吗？

这些天我正在阅读有关内存栅栏和屏障的内容作为同步多线程代码和避免代码重新排序的一种方法我通常在 Linux 操作系统下使用 C 进行开发并且使用boost大量的库但我找不到任何与之相关的类你知道boost中是否存在栅栏的内存屏障或
Heroku on Rails - DATABASE_URL 无效

编辑一般建议是使用CEDAR stack 对于 RoR Gems Heroku 和 Git 来说还很陌生以下教程 http ruby railstutorial org book ruby on rails tutorial http
通过 FontAwesome 进行星级评定的 CSS

我已经通过不同的方法尝试了 CSS 星级评定的一些变体并且尝试通过 FontAwesome 而不是使用精灵来实现以下内容我希望能够理想地包含半星但这就是下面的示例失败的地方这是我到目前为止所尝试过的我无法让半部分星在这里正常工作
使用 EPSG:25832 投影在 Leaflet 中垂直对齐 TMS 图块

我使用 Leaflet 和 Proj4Leaflet 来处理 25832 中的图块该应用程序相当简单我尝试将 EPSG 25832 中的图块叠加到全比例底图上我已从瓷砖地图元信息中复制了各个分辨率和来源我面临的问题是地图未对齐一旦
R 和带有循环的网页抓取

我正在抓取一个网站urls http example com post X 在哪里X是从1 5000开始的数字我可以使用刮擦rvest使用此代码 website lt html http www example com post 1 Nam

R 和带有循环的网页抓取

R 和带有循环的网页抓取 的相关文章

随机推荐

热门标签

R 和带有循环的网页抓取的相关文章