我在用着Nokogiri http://nokogiri.org/(Ruby Xpath 库)用于 grep 网页上的内容。然后我发现一些网页有问题,比如Ajax网页,这意味着当我查看源代码时,我不会看到确切的内容,比如<table>
, etc.
如何获取实际内容的 HTML 代码?
如果您想要网页的原始源代码,请不要使用 Nokogiri。只需直接以字符串形式获取网页,然后不要将其提供给 Nokogiri。例如:
require 'open-uri'
html = open('http://phrogz.net').read
puts html.length #=> 8461
puts html #=> ...raw source of the page...
另一方面,如果您想要页面的后 JavaScript 修改内容(例如执行 JavaScript 代码以获取新内容并更改页面的 AJAX 库),则不能使用 Nokogiri。您需要使用 Ruby 来控制 Web 浏览器(例如阅读 Selenium 或 Watir)。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)