假设我有 Google 搜索结果页面的完整 HTML。有谁知道任何现有的代码(Ruby?)来抓取/解析Google搜索结果的第一页?理想情况下,它可以处理可能出现在任何地方的购物结果和视频结果部分。
如果没有,那么基于 Ruby 的最佳屏幕抓取工具是什么?
澄清一下:我知道以编程方式/API 方式获取 Google 搜索结果很困难/不可能,并且简单地卷曲结果页面有很多问题。 stackoverflow 上对这两点都达成了共识。我的问题有所不同。
这应该是很简单的事情,看看“使用 ScrAPY 进行屏幕抓取” Ryan Bates 的屏幕截图。您仍然可以不抓取库,只需坚持诸如此类的事情即可Nokogiri.
来自 诺科吉里文档:
require 'nokogiri'
require 'open-uri'
# Get a Nokogiri::HTML:Document for the page we’re interested in...
doc = Nokogiri::HTML(open('http://www.google.com/search?q=tenderlove'))
# Do funky things with it using Nokogiri::XML::Node methods...
####
# Search for nodes by css
doc.css('h3.r a.l').each do |link|
puts link.content
end
####
# Search for nodes by xpath
doc.xpath('//h3/a[@class="l"]').each do |link|
puts link.content
end
####
# Or mix and match.
doc.search('h3.r a.l', '//h3/a[@class="l"]').each do |link|
puts link.content
end
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)