使用 Nokogiri 解析大型 HTML 文件

2024-03-20

我正在尝试解析与 Nokogiri，但不幸的是我无法从页面获取所有项目。

我的简单测试代码是：

require 'open-uri'
require 'nokogiri'

html = Nokogiri::HTML open('http://www.pro-medic.ru/index.php?ht=246&perpage=all')
p html.css('ul.products-grid-compact li .goods_container').count

它仅返回 83 个项目，但实际数量约为 186 个。

我认为问题可能出在open，但该函数似乎正确读取了 HTML 页面。

有人遇到过同样的问题吗？

该文件似乎超出了 Nokogiri 的解析器限制。您可以通过添加以下内容来放宽限制HUGE http://www.rubydoc.info/github/sparklemotion/nokogiri/Nokogiri/XML/ParseOptions#HUGE-constant flag:

require 'open-uri'
require 'nokogiri'

url = 'http://www.pro-medic.ru/index.php?ht=246&perpage=all'
html = Nokogiri::HTML(open(url)) do |config|
  config.options |= Nokogiri::XML::ParseOptions::HUGE
end
html.css('ul.products-grid-compact li .goods_container').count
#=> 186

注意|=是按位或赋值运算符，不要将其与逻辑运算符混淆||=

根据解析选项 http://www.nokogiri.org/tutorials/parsing_an_html_xml_document.html#parse_options，您还可以通过设置此标志config.huge

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ruby

nokogiri

使用 Nokogiri 解析大型 HTML 文件的相关文章

如何从 ruby 中的字符串名称创建类实例？

我有一个类的名称我想创建该类的一个实例以便我可以循环该类的架构中存在的每个 Rails 属性我该怎么做呢我的名称是我想要检查的类的字符串我想我需要实例化一个类实例以便我可以循环遍历它的属性并打印它们在 Rails 中你可以这
如何从 Ruby 程序发送邮件？

我想从 Ruby 应用程序发送电子邮件核心语言中是否有调用来执行此操作或者是否有我应该使用的库最好的方法是什么如果你不想使用行动邮递员 http wiki rubyonrails org rails pages ActionMail
拆分字符串以仅获取前 5 个字符

我想去那个地点 var log src ap kernelmodule 10 001 100 但看起来我的代码必须处理 ap kernelmodule 10 002 100 ap kernelmodule 10 003 101 等我想使用
Nokogiri 保持 HTML 实体不变

我希望 Nokogiri 保持 HTML 实体不变但它似乎正在将实体转换为实际的符号例如 Nokogiri HTML fragment p reg p to s 结果是 p p 似乎没有什么可以将原始 HTML 返回给我 inner h
没有要加载的文件 - ffi_c (LoadError)

这个问题困扰了我几天每当我使用 bring to front 方法时 require rubygems require watir browser Watir Browser new browser bring to front 我收到此
Ruby require 'file' 不起作用，但 require './file' 可以。为什么？

我有一个充满 ruby 文件的文件夹当我尝试使用位于同一目录中的另一个文件中的一个文件时require file 我得到一个LoadError但是当我使用require file 一切正常有人可以向我解释为什么会发生这种情况吗如果有什
在 Ruby 中创建一个空文件：相当于“touch”？

创建一个的最佳方式是什么emptyRuby 中的文件类似于 Unix 命令的东西 touch https en wikipedia org wiki Touch 28Unix 29 touch file txt FileUtils tou
如何在 Linux 中编写文本模式 GUI？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案当我编写脚本程序时我经常想弹出一个简单的文本 gui 来提示输入我该怎么做例如来自 Shel
红宝石接球和效率

catch在 Ruby 中意味着跳出深度嵌套的代码在 Java 中例如用Java也可以达到同样的效果try catch用于处理异常但它被认为是糟糕的解决方案而且效率非常低在 Ruby 中我们有处理异常的方法begin raise
我可以将 MAMP (MySQL) 或 XAMPP (MySQL) 与 Ruby on Rails 3 一起使用吗？

我可以将 MAMP MySQL 或 XAMPP MySQL 与 Ruby on Rails 3 一起使用吗我从 MYSQL com 安装了 MySQL 但遇到了很多麻烦所以我喜欢使用 MAMP XAMPP Mysql 有人这样做吗另外
如何使用 net/http 验证 ruby 中的 SSL 证书链

我如何验证网站的证书例如https processing ukash com https processing ukash com 在 ruby 中使用 net http https Net HTTP new processing uka
在 Sinatra 中运行后台进程

我有 Sinatra Rails 应用程序和一个启动一些漫长过程的操作通常我会为后台作业排队但这种情况太简单了后台进程很少启动所以队列是一个开销那么如何在没有队列的情况下运行后台进程呢 get build logs project
Ruby 中的 url_encode

I read 的文档url encode http rdoc info stdlib erb 1 9 3 ERB Util 3Aurl encode 是否有一个表可以准确地告诉我哪个字符被编码为什么使用url encode ERB s u
ruby 认为我正在引用顶级常量，即使我指定了完整的命名空间

在我的应用程序中我有 class User include User Foo end User Foo定义在 app models user foo rb 中现在我正在使用一个定义自己的库Foo班级我收到此错误警告 User Foo
ruby on Rails：音频/mp3 内容标题下载

如何在 ruby rails 中设置下载标题在 php 中我为 mp3 下载设置标头如下所示 header Content Transfer Encoding binary header Content type audio mp3
在 Rails 中本地化嵌套虚拟属性

怎么可能本地化嵌套虚拟属性在 Rails 中该模型 class User lt ActiveRecord Base attr accessor company information This is used in callbacks e
如何通过 Ruby 中的代理获取带有用户代理和超时的 URL？

如果我需要通过某些方式获取 URL 我该如何获取 URLproxy 它必须有一个timeout最大 n 秒和一个用户代理 require nokogiri require net http require rexml document d
Ruby：如何在不创建新实例的情况下检查实例方法的参数？

在 Ruby 1 9 2 中您可以使用 method symbol 检查任何方法的参数如何在不创建新车的情况下检查 Car initialize 方法 class Car def initialize fuel type passeng
通过 ruby 进程共享变量

我正在编写一个 gem 其中我必须分叉两个进程来启动两个 webrick 服务器我想通过基类的类方法启动该服务器因为应该只运行这两个服务器而不是多个服务器在运行时我想调用这两台服务器上的一些方法来更改变量我的问题是我无法通过基
将对象转换为哈希，然后将其保存到用户的列

找不到任何接近我想做的事情我想将一个对象存储到用户的列中该列采用数组的形式 postgres def change add column users interest string array true default end 我有另一

随机推荐

如何释放使用 mmap 分配的内存？

我已经使用分配代码mmap 但由于分段错误而无法释放它我已经做好了mprotect PROT WRITE使其可写但我仍然无法释放它我的代码 1 include
如何在 PHP 中将多个作为数组发布？

这样在 PHP 中我可以将它们处理为 foreach POST checkboxname as i gt value 做这样的事情
如何在本机反应中使用双击？

如何在本机反应中使用双击我希望如果用户双击图像而不是 setliked 状态触发器那么我该如何在 rn 中做到这一点就像 Instagram 帖子一样他们在 rn 中是否有任何预构建包可以让我这样做我正在使用 rn 0 70 5
在 MATLAB 中从数组中选择元素

我知道在 MATLAB 中在一维情况下您可以选择具有索引的元素例如a 1 5 3 返回 a 的第 1 个第 5 个和第 3 个元素我有一个二维数组并且想根据我拥有的一组元组选择单个元素所以我可能想要得到a 1 3 a 1 4
我无法在 Windows 上安装 pyaudio？如何解决“错误：需要 Microsoft Visual C++ 14.0”？ [复制]

这个问题在这里已经有答案了我有一台 Windows 10 电脑我想安装 pyaudio 以将其与我的聊天机器人一起使用由 chatterbot 提供支持我尝试了两种不同的方法来安装 pyaudio 第一种方法是在命令提示符下执行此操
Eclipse RCP：ClassNotFoundException 或如何使其他包加载我的类

详细信息我正在尝试使用 Jalapeno 框架将我的 RCP 应用程序与 Cache 数据库连接起来建立连接后我尝试从表中获取所有数据就像墨西哥胡椒手册中一样 if objManager null return DBClass co
二叉搜索树的定义中是否允许重复键？

我正在尝试找到二叉搜索树的定义并且我一直在到处寻找不同的定义有人说对于任何给定的子树左子键小于或等于根有人说对于任何给定的子树右子键大于或等于根我以前的大学数据结构书上说每个元素都有一个键并且没有两个元素具有相同的键 bst
Terraform - 我应该使用 user_data 还是 Provisioner 来引导资源？

看来我可以使用user data使用模板文件或远程执行 provisioner使用内联命令进行引导那么哪一个被认为更惯用呢你应该使用user data The 用户数据 http docs aws amazon com AWSEC2
如何使用 RSAEncryption 创建带有 SHA1 摘要的 PKCS7/CMS？

我创建了一个pkcs7块可以自己验证但是结果和我使用OpenSSL的伙伴不一样我创建的p7块无法被我的伙伴验证我们仔细检查代码只找到c 中找不到对应项的代码 OPENSSL signInfo gt digest enc alg g
ASP.Net 使用什么 URL 重写器？ [关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
为什么 android:fullBackupOnly 默认值是 false？

In https developer android com guide topics manifest application element https developer android com guide topics manife
如何避免链接多个 AsyncTask 调用？

我必须对 Web 服务进行多次调用但每个步骤都使用上一步中的值因此现在我有一个巨大的 AsyncTasks 链每个 AsyncTask 都在上一步的 AsyncTask 的 onPostExecute 中执行这非常非常难看而且很难
Perl DBIx::Class 可以覆盖从数据库检索列的方式吗？

直到今天我才使用过 DBIx Class 所以我对它完全陌生我不确定这是否可能但基本上我的 SQLite 数据库中有一个表其中有一个时间戳列时间戳列的默认值为 CURRENT TIMESTAMP SQLite 将其存储在 GMT 时
总是收到“消息”：“未经身份验证。” - Laravel 护照

我一整天都找到了很多教程我的设置与所有基本教程完全相同目前我可以访问http localhost oauth token成功地将令牌返回给我之后我使用 ARC Advanced Rest Client 来进行调用我自己的 api
如何在SQL中获取2个表中不匹配的行？

我有两个 SQL Server 表 CHANNELS SUBSCRIBERS 我想从中获取行CHANNELS不存在于SUBSCRIBERS在某种条件下我尝试过INNER和OUTER LEFT JOIN但这对我不起作用他们都给了我相同的答
将一组字符串转换为 byte[] 数组

我正在尝试将一组字符串转换为 byte 数组首先我执行以下操作将字节数组转换为字符串 public String convertByte byte msg String str for int i 0 i lt msg length i
如何在iPhone中获取DNS服务器IP

我尝试通过以下方式获取 etc resolv conf 打开 etc resolv conf 0644 但它返回 1并且errno是2这意味着没有这样的文件我能做些什么您无法访问应用程序沙箱之外的文件
反应本机错误 RCTJSONStringify() 遇到以下错误：JSON 写入中的类型无效 (NSURL)

我正在尝试使用反应本机fbsdk在我的反应本机应用程序中直到昨天为止都运行良好但是今天它给出了一个奇怪的错误RCTJSONStringify 遇到以下错误 JSON 写入 NSURL 中的类型无效 RN v0 42 0 这是我的代码
从 dll 内的函数返回时堆损坏

我有一个具有如下原型的函数 void function std string str 这个函数在另一个加载和使用该 dll 的程序的主函数中被调用 function some string value here 从该函数返回时我收到堆损坏
使用 Nokogiri 解析大型 HTML 文件

我正在尝试解析与 Nokogiri 但不幸的是我无法从页面获取所有项目我的简单测试代码是 require open uri require nokogiri html Nokogiri HTML open http www pro med

使用 Nokogiri 解析大型 HTML 文件

使用 Nokogiri 解析大型 HTML 文件 的相关文章

随机推荐

热门标签

使用 Nokogiri 解析大型 HTML 文件的相关文章