如何在 Nokogiri 中收集节点的几个元素中的第一个

2024-01-29

我的数据看起来像：

<release> 
 <artists>
  <artist>
   <name>Johnny Mnemonic</name>
  </artist>
  <artist>
    <name>Constantine</name>
  </artist>
 <artists>
</release>
<release>
 <artists>
  <artist>
   <name>Speed</name>
  </artist>
  <artist>
    <name>The Matrix</name>
  </artist>
 <artists>
 </release>
 ...and so on.

对于每个版本，我只想要第一个版本的数据<artist>标签。我尝试了以下代码，但它从艺术家那里提取了所有文本：

page = Nokogiri::XML(open("37.xml"))

page.xpath("//artists[1]").each do |el|

File.open("#{LOCAL_DIR}/37.txt", 'a'){|f| f.write(el)}

Nokogiri 支持两种主要类型的搜索，search and at. search返回一个 NodeSet，您应该将其视为一个数组。at返回一个节点。两者都可以采用 CSS 或 XPath 表达式。我更喜欢 CSS，因为它们更具可读性，但有时您无法轻松地使用其中一种来达到您想要的效果，因此请尝试另一种。

对于您的问题，重要的是使用指定要从中提取文本的节点text。如果您的结果太宽泛，除了您想要的标签内的文本之外，您还会从标签之间获取文本。为了避免深入到您要阅读的内容的最直接节点：

require 'nokogiri'

doc = Nokogiri::XML(<<EOT)
<release> 
<artists>
  <artist>
  <name>Johnny Mnemonic</name>
  </artist>
  <artist>
    <name>Constantine</name>
  </artist>
<artists>
<release>
EOT

因为这些寻找name具体来说，所需的文本很容易获得，没有垃圾：

doc.at('name').text                # => "Johnny Mnemonic"
doc.at('artist name').text         # => "Johnny Mnemonic"
doc.at('artists artist name').text # => "Johnny Mnemonic"

这些是较宽松的搜索，因此会返回更多垃圾：

doc.at('artist').text  # => "\n   Johnny Mnemonic\n  "
doc.at('artists').text # => "\n  \n   Johnny Mnemonic\n  \n  \n    Constantine\n  \n \n\n"

Using search返回多个节点：

doc.search('name').map(&:text)

[
    [0] "Johnny Mnemonic",
    [1] "Constantine"
]

doc.search('artist').map(&:text)

[
    [0] "\n   Johnny Mnemonic\n  ",
    [1] "\n    Constantine\n  "
]

之间唯一真正的区别search and at就是它at就好像search(...).first.

See "抓取时如何避免连接节点中的所有文本 https://stackoverflow.com/questions/43594656/how-to-avoid-joining-all-text-from-nodes-when-scraping" also.

为了方便起见，Nokogiri 有一些额外的别名：at_css and css, and at_xpath and xpath.

以下是替代方法，使用 CSS 和 XPath 访问器来获取从 Pry 中剪辑的名称：

[5] (pry) main: 0> # using CSS with Ruby
[6] (pry) main: 0> artists = doc.search('release').map{ |release| release.at('artist').text.strip }
[
    [0] "Johnny Mnemonic",
    [1] "Speed"
]
[7] (pry) main: 0> # using CSS with less Ruby
[8] (pry) main: 0> artists = doc.search('release artists artist:nth-child(1) name').map{ |n| n.text }
[
    [0] "Johnny Mnemonic",
    [1] "Speed"
]
[9] (pry) main: 0>
[10] (pry) main: 0> # using XPath
[11] (pry) main: 0> artists = doc.search('release/artists/artist[1]/name').map{ |t| t.content }
[
    [0] "Johnny Mnemonic",
    [1] "Speed"
]
[12] (pry) main: 0> # using more XPath
[13] (pry) main: 0> artists = doc.search('release/artists/artist[1]/name/text()').map{ |t| t.content }
[
    [0] "Johnny Mnemonic",
    [1] "Speed"
]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何在 Nokogiri 中收集节点的几个元素中的第一个的相关文章

如何从销售订单打印 POS 收据？

我需要打印具有相同产品数量等的销售订单的 POS 收据在销售订单中我创建了一个按钮打印 POS 收据使用此按钮我想触发一个方法打印出带有销售订单行的收据因此我需要找到创建 POS 收据并将销售订单行值传递给它的方法那么 P
更新清单 XML 后强制 Excel 刷新命令功能区（对于 Office 加载项）

我正在使用 office js 和位于共享驱动器上的 XML 清单来侧载 Office 加载项加载加载项后这会添加一个新的功能区其中包含一些自定义命令图标然而编辑manifest XML文件后假设我从功能区注释掉命令图标我还没
XML 到 IEnumerable

有没有办法获取给定的 XML 文件并将其转换最好使用 C 泛型为 T 的具体可枚举列表其中 T 是我的具体类例如我可能有一个 XML 文件例如
XPath 匹配空格分隔的属性值？

我有一个 XML
无法在关联模型的 Active Admin 索引属性中显示（belongs_to/has_many） - Rails 3.2

我正在构建一个每日交易 Rails 应用程序来学习 RoR 在过去的几个小时里我遇到了一个问题我无法在活动管理中获取其他关联模型的模型属性让我向您展示问题的具体情况我有两个模型品牌即交易的品牌和交易一笔交易属于一个品牌但一
如何使用 Ruby 验证 Webhook？（在轨道中）

我正在学习如何验证Paddle https paddle com docs reference verifying webhooks 使用 Ruby 进行 webhook 他们的示例提供了如何使用 PHP Python 和 JavaScri
Ubuntu 上 sqlite3-ruby 安装错误

我在 sqlite3 ruby 安装过程中遇到以下错误 Building native extensions This could take a while ERROR Error installing sqlite3 ruby ERROR
RVM 和 OpenSSL 的问题

尝试为同事设置一台新 MacBook 进展不顺利首先我安装 OpenSSL Heathers MacBook Pro heather rvm pkg install openssl Fetching openssl 1 0 1c tar
为什么 Android Studio 在应用设计中总是显示 ActionBar，即使在禁用时也是如此？

我在新的 Android Studio 1 4 中有一个应用程序尽管如此这个问题在 1 3 2 中也存在并且由于扩展功能我决定使用工具栏而不是操作栏我已经相应地设置了 xml 和 java 来隐藏 ActionBar 并且在编译时
如何仅将数字形式的字符串哈希值转换为整数

我有从几个不同的 XML 数据库转储导入的哈希行如下所示但具有不同的键 Id gt 1 Name gt Cat Description gt Feline Count gt 123 我尝试使用 to i但它将非数字字符串转换为0 Fel
Android - 超链接不可点击

我的应用程序中有一些链接一个用于网站一个用于电话号码一个用于电子邮件电子邮件和电话链接均有效且可点击但由于某种原因网站超链接仍然无法点击有什么想法吗代码如下
在 Back 上按遍历最后两个选项卡在 BottomNavigationView 中无法正常工作？

单击后退按钮后导航到上一个打开的选项卡您只需遍历最后打开的两个选项卡即可退出应用程序如何实现我只想遍历我打开的所有选项卡然后应用程序应该退出这是布局
视频无法使用 Paperclip Gem - Rails 中的 ffmpeg 上传

我可以上传图像但是当我尝试上传视频时它会显示为黑屏并且播放按钮不起作用我不确定我哪里错了我需要视频播放器才能实现此功能吗这可能是一个简单的解决方案但是我是 Rails 新手任何帮助是极大的赞赏谢谢邮政模型 class
OpenXML：添加新段落时插入了lastRenderedPageBreak

我使用 OpenXML 添加一个新段落如下所示 var pSpacerAfterSectorTitle insertNodeSectorsArea AppendChild GetNewParagraph Arial 12 true fal
从返回的 XQuery 中删除重复项

我的 XQuery 是 declare namespace xsd http www w3 org 2001 XMLSchema for schema in xsd schema for nodes in schema attr in no
Ruby 试图掌握一种新的表示法。 (inject(:) 与 select(and:even?)；为什么有 &？）

所以我刚刚了解到而不是写这样的东西 1 2 3 4 5 inject x y x y gt 15 我可以写 1 2 3 4 5 inject gt 15 我还了解到而不是写 1 2 3 4 5 select x x even gt 2
Rails 删除方法不起作用

好吧我在 Ruby on Rails 中的删除方法上遇到了这样的问题我想我尝试了我读过的所有内容但它不起作用也许你可以帮助解决这个问题当我单击链接时它会重定向到患者 1 confirm Are you sure 3F meth
用 ruby 中的数组内容替换字符串？

String Test string Test array link1 link2 如何替换这样的字符串输出应该是String link1 string link2 字符串 gsub 可以返回一个枚举器所以这很简单 string gsu
MacOS 每秒唤醒次数错误

构建 Rails 应用程序 ruby 2 4 0p0 Rails 5 1 4 并使用我的 Macbook Air MacOS High Sierra 10 13 2 进行本地测试我不断遇到此问题过去 241 秒内有 45001 次唤醒
如何运行使用 Rails 模型的 Ruby 任务？

我有一个带有一些基本模型的 Rails 应用程序该网站显示从其他来源检索到的数据因此我需要编写一个 Ruby 脚本来在数据库中创建新实例我知道我可以使用测试挂钩来做到这一点但我不确定这在这里是否有意义我不确定这个任务应该是什么样

随机推荐

安装后无法使用指南针

我似乎无法在 Vagrant 上使用指南针这个 Vagrant 文件 https github com Ilyes512 Vaprobash blob compass Vagrantfile 请在此处查看 bash 脚本的其余部分已删除存
设置 Git GUI 差异窗口的 UTF-8 显示

我不记得我是如何让 Git GUI 正确显示 UTF 8 编码差异的而且我在搜索引擎中找不到该指南现在我需要在新的工作场所这样做你能写下说明吗操作系统 Windows 7 Global setting for all you rep
如何在 Chrome 扩展中实现日志记录功能

我正在开发一个扩展并且需要日志记录不是基于控制台的日志记录而是传统意义上的日志文件扩展程序监视某些事件并将它们记录到文件系统首先我尝试了文件系统 API 调用一般来说这似乎是正确的 API 但问题是我需要向我的扩展的用户提供
iOS8中UIImagePickerController隐藏状态栏问题

我做了这个 void navigationController UINavigationController navigationController willShowViewController UIViewController view
StreamBuilder 中具有初始值的 TextField

我们正在创建一个用户的编辑数据页面因此文本字段已经填充了用户数据用户可以更改并保存它问题是当我开始在文本字段中输入字符时光标会丢失每个字符都会丢失我输入从设备键盘光标转到第一个字符如果我使用初始值删除控制器它工作正常但
Ionic 3项目和插件人行横道错误

我有一个 Ionic 3 项目当我运行 ionic cordova run android prod 时我看到这个错误 ANDROID HOME C Users asus AppData Local Android sdk JAVA
电子邮件集成

我想知道是否有人可以帮助我在某些网络应用程序中应用程序会发送电子邮件例如发布新消息时然后您无需登录应用程序来发布回复只需回复电子邮件即可它会自动使用您的回复更新网络应用程序我的问题是这是如何完成的以及它叫什么 Thanks
.NET Core 2.0 中的 HttpWebRequest 抛出 302 Found 异常

我们正在将应用程序从 net Framework 升级到 net core 2 0 在其中我们使用一个HttpWebRequest联系网站AllowAutoRedirect设置为假当代码执行时request GetResponse 该网
如何在 Linux x86 NASM 中打印字符？

我正在尝试使用打印单个字符或数字NASM 针对 x86 GNU Linux 架构这是我正在使用的代码 section text global start start Linux printing preparation mov eax 4
使用 sos.dll 调试 .net 应用程序时，为什么局部变量和参数在堆栈帧上不显示任何数据？

我的 net 4 asp net 应用程序正在处理请求但请求超时因此我获取转储并尝试在线调试实时应用程序修订版仅分析转储文件而不附加到应用程序的实时进程我发现一个线程消耗请求花费1分5秒我浏览该线程的堆栈我想尝试找出参数和局
无法使用 Python 填充 WPF DataGrid

我在使用 Python NET 将数据绑定到 WPF DataGrid 时遇到问题代码如下所示我尝试了三种不同的方法来绑定数据每种方法都失败并且错误消息作为注释包含在下面的代码中如果我不尝试添加数据则 datagarid 会正确
从 HDFS 中 Unpickle 文件

我目前正在使用 Python 3 并且想从 HDFS 加载 pickle 文件 from pywebhdfs webhdfs import PyWebHdfsClient import pickle hdfs PyWebHdfsClient
Makefile.am：如何在configure.ac中使用curl-config和xml2-config？

我想在configure ac 中给定现有Makefile 如下设置包含和lib 路径但我不知道如何在configure ac中使用 shell XYZ config libs 命令有人可以帮忙吗谢谢 Acquire configu
更新到 MacOS Catalina 后无法使用 PHPIZE

这就是生活新的 MacO 升级新问题就像发生在莫哈韦沙漠一样更新到 MacOS Mojave 后无法使用 PHPIZE https stackoverflow com questions 52592548 unable to use
从 Spring 初始化中删除 JNDI

我正在 maven tomcat 插件中加载 Spring 应用程序我没有使用Spring引导加载时我收到无法加载 JNDI 属性的调试日志例如 localhost startStop 1 DEBUG org springframe
WWW 与非 WWW——最佳实践是什么？我需要为我的新 SSL 证书选择一个 [已关闭]

Closed 这个问题是无关 help closed questions 目前不接受答案我的网站应该是 www 地址还是非 www 地址这是一个非常基本的问题我想看看人们认为这里的最佳实践是什么我必须选择的原因是我需要为其中之一购买
没有为此事件记录任何 HTTP 请求

我在 VB NET 应用程序中使用最新的 Twilio NET SDK 5 0 2 我正在通过 REST 客户端发起一条消息该消息使用消息服务发送在消息服务中我有 http dev leadtraxsolutions com Servi
如何使用事件处理 Rails 应用程序中的时区

我有一个用于乐队的 Rails 应用程序乐队可以导入在不同时区进行的表演将这些事件存储在 UTC 中似乎需要做大量工作我必须弄清楚创建的任何节目的时区然后在向用户显示时转换回节目的本地时区有没有一个简单的插件可以根据地理位置获取
嵌套迭代列表，然后最终删除

我正在尝试迭代一个列表同时已经循环它嵌套循环考虑下面的代码 ArrayList
如何在 Nokogiri 中收集节点的几个元素中的第一个

我的数据看起来像

如何在 Nokogiri 中收集节点的几个元素中的第一个

如何在 Nokogiri 中收集节点的几个元素中的第一个 的相关文章

随机推荐

热门标签

如何在 Nokogiri 中收集节点的几个元素中的第一个的相关文章