使用 Nokogiri 解析大型 HTML 文件

2024-03-20

我正在尝试解析与 Nokogiri,但不幸的是我无法从页面获取所有项目。

我的简单测试代码是:

require 'open-uri'
require 'nokogiri'

html = Nokogiri::HTML open('http://www.pro-medic.ru/index.php?ht=246&perpage=all')
p html.css('ul.products-grid-compact li .goods_container').count

它仅返回 83 个项目,但实际数量约为 186 个。

我认为问题可能出在open,但该函数似乎正确读取了 HTML 页面。

有人遇到过同样的问题吗?


该文件似乎超出了 Nokogiri 的解析器限制。您可以通过添加以下内容来放宽限制HUGE http://www.rubydoc.info/github/sparklemotion/nokogiri/Nokogiri/XML/ParseOptions#HUGE-constant flag:

require 'open-uri'
require 'nokogiri'

url = 'http://www.pro-medic.ru/index.php?ht=246&perpage=all'
html = Nokogiri::HTML(open(url)) do |config|
  config.options |= Nokogiri::XML::ParseOptions::HUGE
end
html.css('ul.products-grid-compact li .goods_container').count
#=> 186

注意|=是按位或赋值运算符,不要将其与逻辑运算符混淆||=

根据解析选项 http://www.nokogiri.org/tutorials/parsing_an_html_xml_document.html#parse_options,您还可以通过设置此标志config.huge

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Nokogiri 解析大型 HTML 文件 的相关文章

随机推荐