我正在尝试通过阅读 XPath 代码来抓取网站。
当我进入开发人员部分时,我看到这些行:
<span class="js-bestRate-show" data-crid="11232895" data-id="928723" data-abc="0602524361510" data-referecenceta="44205406" data-catalog="1">
我想抓取 data-abc 的所有值。
假设网站上的每个元素都是一部电影,所以我想抓取页面上每部电影的所有 data-abc 元素。
我想使用 Rvest 包和 R 来实现这一点。
以下是两种不同的尝试,但均无效...
website %>% html_nodes("js-bestRate-show") %>% html_text()
website %>%
html_nodes(xpath = "js-bestRate-show") %>%
html_nodes(xpath = "//div") %>%
html_nodes(xpath = "//span") %>%
html_nodes(xpath = "//data-abc")
有人知道 html_nodes 和 Rvest 是如何工作的吗?
该节点是span
与类js-bestRate-show
。其他一切都是属性。所以你想要这样的东西:
library(rvest)
h <- '<span class="js-bestRate-show" data-crid="11232895" data-id="928723" data-abc="0602524361510" data-referecenceta="44205406" data-catalog="1">'
h %>%
read_html() %>%
html_nodes("span.js-bestRate-show") %>%
html_attr("data-abc")
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)