R：使用 rvest 包而不是 XML 包从 URL 获取链接

2024-01-02

我使用 XML 包来获取链接this url http://www.bvl.com.pe/includes/empresas_todas.dat.

# Parse HTML URL
v1WebParse <- htmlParse(v1URL)
# Read links and and get the quotes of the companies from the href
t1Links <- data.frame(xpathSApply(v1WebParse, '//a', xmlGetAttr, 'href'))

虽然这种方法非常有效，但我用过rvest并且解析网络的速度似乎比XML。我试过html_nodes and html_attrs但我无法让它发挥作用。

尽管我有评论，但您可以通过以下方式做到这一点rvest。请注意，我们需要在页面中读取htmlParse首先，因为该网站的内容类型设置为text/plain对于那个文件和那个扔rvest陷入眩晕。

library(rvest)
library(XML)

pg <- htmlParse("http://www.bvl.com.pe/includes/empresas_todas.dat")
pg %>% html_nodes("a") %>% html_attr("href")

##   [1] "/inf_corporativa71050_JAIME1CP1A.html" "/inf_corporativa10400_INTEGRC1.html"  
##   [3] "/inf_corporativa66100_ACESEGC1.html"   "/inf_corporativa71300_ADCOMEC1.html"  
## ...
## [273] "/inf_corporativa64801_VOLCAAC1.html"   "/inf_corporativa58501_YURABC11.html"  
## [275] "/inf_corporativa98959_ZNC.html"

这进一步说明了rvest's XML封装基础。

UPDATE

rvest::read_html()现在可以直接处理这个问题：

pg <- read_html("http://www.bvl.com.pe/includes/empresas_todas.dat")

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

r

webscraping

rvest

R：使用 rvest 包而不是 XML 包从 URL 获取链接的相关文章

排序因素与水平

有人能解释一下 R 中 ordered 参数的用途吗 R says ordered逻辑标志来确定级别是否应被视为有序按给定的顺序所以如果我有一个名为名称的因素并设置ordered TRUE names lt factor c fred
XML-RPC 和 SOAP 有什么区别？

我从来没有真正理解为什么 Web 服务实施者会选择其中之一 XML RPC 通常出现在较旧的系统中吗任何有助于理解这一点的帮助将不胜感激差异 SOAP 更强大并且更受软件工具供应商 MSFT NET Java 企业版等的青睐 SOA
如何在 Spring 属性中进行算术运算？
当有很多列时，使用 readr::read_csv() 导入数据时覆盖列类型

我正在尝试使用 R 中的 readr read csv 读取 csv 文件我导入的 csv 文件大约有 150 列我只包含示例的前几列我希望将第二列从默认类型我执行 read csv 时为日期覆盖为字符或其他日期格式 GIS Jo
从 R 中的方差分析 (glm) 中提取残余偏差

我在 R 中安装了一个 glm 模型并采用了方差分析表我需要提取残余偏差列但它会产生错误以下是代码创建数据 counts lt c 18 17 15 20 10 20 25 13 12 outcome lt gl 3 1 9 t
ubuntu中R的igraph包的安装

我使用以下命令在 ubuntu 中安装 R 的 igraph 包 install packages igraph 但我收到一条错误消息警告无法访问存储库的索引 http ftp iitm ac in cran src contrib h
如何使用 R 将每个文件的数据添加为附加行，从而将不同的 .csv 文件合并为一个完整的文件？

我有几个不同的文件夹它们都包含一个 csv 文件所有这些 csv 文件都有一个单独的列其中包含实验的一种条件的数据我想以将每个文件的数据添加为新列的方式合并这些 csv 文件目前它看起来像这样 C1 csv 102 106 15
融化R中的下半矩阵

如何融化下半三角形加对角矩阵 11 NA NA NA NA 12 22 NA NA NA 13 23 33 NA NA 14 24 34 44 NA 15 25 35 45 55 A lt t matrix c 11 NA NA NA NA
使用 dpi 与 dp 缩放图像之间的差异

我拥有所有由九个补丁位图组成的 dpi 可绘制目录 xxhdpi 和 xxxhdpi 是否必要可绘制目录中的可绘制资源文件可检索所有缩放的位图并且我使用可绘制资源文件现在我的问题是我还根据大小小正常等创建了缩放布局目录其
一段 R 代码会影响 foreach 输出中的随机数吗？

我使用运行模拟foreach and doParallel并与随机数名为random在代码中简而言之我模拟一个足球联赛随机生成所有比赛的获胜者以及相应的结果在dt base没有比赛进行在dt ex1 and dt ex24场比赛
Selenium 与 scrapy 的动态页面

我正在尝试使用 scrapy 从网页中抓取产品信息我要抓取的网页如下所示从包含 10 个产品的 Product list 页面开始单击下一步按钮将加载接下来的 10 个产品两个页面之间的 URL 不会改变我使用 LinkExt
如何添加链接以从我的 R闪亮应用程序在新窗口中打开 pdf 文件？

我可以使用 a 从我的 Shiny 应用程序添加到外部站点的超链接 a google href http www google com 但如何创建一个链接来打开 pdf 或类似文件看起来应该很简单但我找不到任何例子我的问题与此类似
将 Xml 反序列化为对象时出错 - xmlns='' 不是预期的

我在尝试反序列化某些 XML 时遇到了真正的麻烦希望有人可以提供一些帮助我读过很多类似的帖子但我无法解决这个问题我正在尝试反序列化 XML
尝试使用 JRI 将 R 与我的 Java 应用程序集成，但出现错误。谁能解释一下原因和解决办法吗？

我需要将 Java 与 R 集成来运行一些数学命令并使用 R 的功能进行绘图以下部分代码给出了错误 public static void main String args HelloRWorld r new HelloRWorld r h
列出 R 数据文件的内容而不加载

我有时用print load myDataFile RData 当我加载数据文件时列出它的内容有没有办法列出内容而不加载数据文件中包含的对象我认为如果不加载对象就无法做到这一点解决方案可能是使用包装器将 R 对象保存到save 该函数
使用officer R导出时如何提高ggplots的分辨率

我想将图表导出到 PPT 并使用Officer 包来实现相同的目的但是图表的默认分辨率较低我想更改它我目前正在使用以下电话 ph with gg p1 type chart res 1200 其中 p1 是 ggplot 对象运行
xsd 类型的 JAXB（取消）编组：xsd:base64Binary 和 xsd:hexBinary

JAXB 映射两者xsd base64Binary and xsd hexBinary类型为byte 鉴于我有一个模式一个 DOM 元素来表示这些类型例如
需要在R中按行绑定列表数据

我在 R 中按行绑定列表时遇到问题我的列表数据集是 id 1 data k 1 id k b c 1 1 1 3 data k 2 id k b c 1 2 1 4 id 2 data k 1 id k b c 2 1 1 6 data
如何在 Shiny 中提取动态生成的输入值？

我正在创建一个闪亮的应用程序它将根据客户的不同功能为客户生成分数在我闪亮的应用程序中我提供了 checkboxGroupInput 来选择所需的功能根据所选功能应用程序将动态地将 numericInput 添加到 Web ui 以
如何按用户定义（例如非字母顺序）对数据框进行排序[重复]

这个问题在这里已经有答案了给定一个数据框dna gt dna chrom start chr2 39482 chr1 203918 chr1 198282 chrX 7839028 chr17 3874 以下代码重新排序dna by ch

随机推荐

R 脚本和库预加载？

我创建了一个 R 脚本它需要首先加载一些库问题是脚本需要 1 6 秒才能完成计算使用 Linux 命令 time 多次测量而加载库只需要 0 7 秒该脚本运行频率很高因此库加载的延迟几乎占了实际工作量的80 有什么方法可以预加载
为什么 Spring 报告工厂方法 arg 不明确？

我正在尝试创建这个 bean
“docker images ls”有什么作用？

我查阅了文档以了解命令之间的区别docker image 管理图像和docker images 列出图像所以第二个选项似乎是一个捷径docker image ls其中还列出了图像我注意到的是跑步时docker image ls or
跨 Node.js 和 nginx 的身份验证

由于我的大部分内容都是静态的我计划让 nginx 来处理静态文件的服务但静态内容也是私有的不同的用户有不同的内容应用程序本身是用node js express js编写的我想知道我应该如何处理身份验证授权有没有什么任何 ng
在 Amazon EC2 中，如何将 EBS 卷复制到另一个用户？

我已经使用我的亚马逊凭证创建了一个亚马逊 EBS 卷我的客户向我提供了他的客户凭证以便我为他创建一台 EC2 机器并附上我创建的磁盘我该怎么做如果重要的话我正在使用网络控制台让我补充一点当我在客户的帐户中创建卷并将快照 ID 设
找不到“Google/Analytics.h”文件 - XCode 7

我在将 Google Analytics SDK 集成到我的 iOS 项目中时遇到很多麻烦我正在使用 XCode 7 并针对 iOS 7 使用 Swift 2 0 不过我可以让示例正常工作尽管没有转换为 Swift 2 0 我尝试过通过
如何使用 MATLAB 自动填充任意图像？

这是基于此答案的进一步问题如何在 MATLAB 中实现鱼眼镜头效果桶形变换 https stackoverflow com questions 2589851 how can i implement this visual effect
Android - 警报有时在很长一段时间后不会触发

我的应用程序有一个大问题已经好几天了如果我的英语事先不是那么地道我深表歉意我实现了一个 AlarmManager 让我的应用程序的用户可以选择在当前或第二天的任何时间启动特定服务所以例如用户可能选择将我的服务时间设置为明天上午 08
如何在 Rails 中使用 Resque 指定用于所有作业的默认队列？

我希望所有排队调用都默认到某个队列除非另有指定这样它是 DRY 并且更易于维护为了指定一个队列文档说要在类中定义一个变量 queue X 所以我尝试执行以下操作但没有成功有什么想法吗 class ResqueJob class
deno 捆绑失败。类型“ReadableStream”上不存在属性“getIterator”

使用捆绑包运行 deno 失败并出现以下错误 error TS2339 ERROR Property getIterator does not exist on type ReadableStream
将 matplotlib 子图保存到图像文件

我对matplotlib我一瘸一拐地走着也就是说我还没有找到这个问题的明显答案我有一个散点图我想按组着色它看起来像通过循环绘制 https stackoverflow com questions 21654635 scatter
Hibernate 使用一级或二级缓存加载所有实体

我们有一个完整的实体表需要在休眠会话期间加载而我知道加载所有实体的唯一方法是通过 HQL 查询 public
打破嵌套循环

有人可以告诉我当我有嵌套循环时如何打破主循环吗例子 Main loop for int y 0 y lt 100 y 10 Sub loop for int x 0 x lt 100 x 10 if x 60 Break the main
使用CloudFlare、Heroku、RoR时如何设置真实IP地址？

我最近刚刚开始使用 CloudFlare 但仍然存在获取 CloudFlare 的代理 IP 地址而不是访问者地址的挥之不去的问题 CloudFlare 有很多解决方案 https support cloudflare com hc en
SQL 自定义 Order By 子句

一个简单的问题我有一个查询返回 2 列描述和金额在描述中我们有 3 个结果黄金拥有青铜无土地和白银已识别提供我希望结果按以下顺序显示金银铜按升序或降序排序无法实现此目的有没有办法自定义 Order by
在 Angular 中使用 AngularJS 服务

我正在寻找 Angular 项目中包含 AngularJS 服务这是我的 main ts import platformBrowserDynamic from angular platform browser dynamic import
auth.User.groups：（fields.E304）“User.groups”的反向访问器与“UserManage.groups”的反向访问器冲突

在我的 Django 项目中我有一个user manage app 我创建了一个名为UserManage in my user manage应用程序的model py from django db import models from d
返回 Bash 脚本中的正则表达式匹配项，而不是替换它

我只想匹配 Bash 脚本中的一些文本我尝试过使用 sed 但我似乎无法让它只输出匹配项而不是用某些东西替换它 echo E TestT100String sed s 0 9 dontReplace g 哪个会输出TestTdontRep
我如何知道 PDF 页面是彩色还是黑白？

给定一组 PDF 文件其中一些页面是彩色的其余页面是黑白的是否有任何程序可以找出给定页面中哪些页面是彩色的哪些页面是黑白的例如这在打印论文时很有用并且只需花费额外的费用来打印彩页对于考虑双面打印并将适当的黑白页面发送到彩色打
R：使用 rvest 包而不是 XML 包从 URL 获取链接

我使用 XML 包来获取链接this url http www bvl com pe includes empresas todas dat Parse HTML URL v1WebParse lt htmlParse v1URL Read

R：使用 rvest 包而不是 XML 包从 URL 获取链接

R：使用 rvest 包而不是 XML 包从 URL 获取链接 的相关文章

随机推荐

热门标签

R：使用 rvest 包而不是 XML 包从 URL 获取链接的相关文章