从标签中提取 HTML5 数据属性

2024-05-24

我想从标签中提取所有 HTML5 数据属性，就像这个 jQuery 插件 http://www.orangesoda.net/jquery.dataset.html.

例如，给定：

<span data-age="50" data-location="London" class="highlight">Joe Bloggs</span>

我想得到一个像这样的哈希值：

{ 'data-age' => '50', 'data-location' => 'London' }

我最初希望使用通配符作为我的 CSS 选择器的一部分，例如

Nokogiri(html).css('span[@data-*]').size

但似乎不支持。

选项 1：获取所有数据元素

如果您需要的只是列出页面的所有数据元素，那么这里有一行：

Hash[doc.xpath("//span/@*[starts-with(name(), 'data-')]").map{|e| [e.name,e.value]}]

Output:

{"data-age"=>"50", "data-location"=>"London"}

选项 2：按标签对结果进行分组

如果您想按标签对结果进行分组（也许您需要对每个标签进行额外的处理），您可以执行以下操作：

tags = []
datasets = "@*[starts-with(name(), 'data-')]"

#If you want any element, replace "span" with "*"
doc.xpath("//span[#{datasets}]").each do |tag|
    tags << Hash[tag.xpath(datasets).map{|a| [a.name,a.value]}]
end

Then tags是一个包含键值哈希对的数组，按标签分组。

选项 3：类似于 jQuery 数据集插件的行为

如果您更喜欢类似插件的方法，下面将为您提供dataset每个 Nokogiri 节点上的方法。

module Nokogiri
  module XML
    class Node
      def dataset
        Hash[self.xpath("@*[starts-with(name(), 'data-')]").map{|a| [a.name,a.value]}]
      end
    end
  end
end

然后您可以找到单个元素的数据集：

doc.at_css("span").dataset

或者获取一组元素的数据集：

doc.css("span").map(&:dataset)

Example:

以下是该人的行为dataset方法同上。给定 HTML 中的以下几行：

<span data-age="50" data-location="London" class="highlight">Joe Bloggs</span>
<span data-age="40" data-location="Oxford" class="highlight">Jim Foggs</span>

输出将是：

[
 {"data-location"=>"London", "data-age"=>"50"},
 {"data-location"=>"Oxford", "data-age"=>"40"}
]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

ruby

xml

html

nokogiri

从标签中提取 HTML5 数据属性的相关文章

如何在 jQuery.ui.autocomplete 中的自动完成弹出窗口下方添加所有搜索的链接？

我有使用 jQuery UI 自动完成插件的搜索建议自动完成功能 http jqueryui com autocomplete http jqueryui com autocomplete 但是如何添加结果弹出项目的底部其行为类似于 Qu
如何获取 XML 文档的innerHTML（AJAX）？

AJAX 查询后返回一个 XML 文件我能够解析该文件但是当涉及到获取元素的 innerHTML 或在本例中为 innerXML 时问题就出现了如果 XML 元素比方说内容仅包含我可以执行的操作 content chil
转换为 PDF 后，Flex 布局中的 HTML 表格变得重叠

尝试使用将 html 文件转换为 pdfweasyprint 但由于bug https github com Kozea WeasyPrint issues 1805 in weasyprint 我不能使用flex布局因为它与第一行中的两
关闭 Bootstrap 模式 onclick

我使用 Bootstrap 模式让用户在将商品添加到购物车之前选择产品选项我之前在这种情况下使用过它们没有任何问题但这个没有按预期关闭当用户单击添加到购物车按钮时会发生一些事情我认为问题就在那里首先一些脚本检查某些字段是
如何将上传的二进制文件 (ASCII-8BIT) 嵌入 XML (UTF-8) 中？

我有一个通过常规上传的文件form for 这给了我一个ActionDispatch Http UploadedFile我可以调用的 params 哈希中的对象 read来获取内容我现在需要将该文件嵌入到 XML 文档中我现在使用常规
可编辑的 Div 插入位置

我有一个可编辑的 div 我正在使用一个按钮将图像插入到该 div 中现在我只是在做 document getElementById elementid innerHTML 为了将图像添加到 div 的末尾我想输入插入符号所在的图像
标题的固定高度和更改宽度（HTML 表格）

我需要确保表格标题的高度是固定的并且宽度是根据标题单元格内容进行调整的标题文本最多显示两行我们如何使用样式来做到这一点另外我想确保表行的宽度与标题行的宽度相同即标题行决定宽度注目前交易部门负责人别名是按行排列的它需要分
给定 url，如何加载图像，然后将其转换为 Javascript 中的 tf.tensor 数据？

我是前端和 javascript 新手现在我正在编写一个基于 CNN 的 Web 应用程序要从给定的 url 加载图像然后将图像输入 CNN 我尝试编写以下代码 async function getImage var img new
html 音频标签，持续时间总是无穷大

我一直在研究使用 html 音频标签来播放一些音频文件音频播放正常但音频标签的持续时间属性始终返回无穷大我尝试了接受的答案this https stackoverflow com questions 16849023 html5 au
XPATH / XSLT：选择父节点的属性与另一个节点的属性匹配的节点

我正在尝试使用 XPath 和 XSLT 对以下 XML 进行转换
使用 XPath 获取内部有链接的段落文本

我正在使用 XPath 解析 HTML 页面并希望获取某些特定段落的完整文本包括链接文本例如我有以下段落 p class main content This is sample paragraph with a href http g
在本地托管 W3 XML 架构文件

我在一家公司工作我们有自己的 XML 语言有自己的一组模式来验证W3 架构 https www w3 org 2009 01 xml xsd 出于业务原因我需要在内部托管这些文件而不是依赖于网络托管版本我对 XML 模式缺乏经验
为什么Disabled = true对于html有效？

我注意到我们的代码中有一个disabled ture 我是锚标签的源代码我想知道为什么它在 IE 中有效我也在互联网上进行了搜索通过网络搜索它也被用于很多源代码中我一直在搜索if ture 拼写错误的true也可以被IE使用有人
使用过渡添加子项时 div 的平滑增长

尽管使用了以下代码但其行为并不符合我的预期transition所以可能有些事情我不明白理想情况下单击该按钮会将一个子项添加到id2div 并制作id1分区增长smoothly因此 function id1 button click g
如何使用 lxml 解析包含前缀但没有名称空间声明的 XML？

我有一堆使用前缀但没有相应名称空间声明的 XML 文件像这样的东西
如何使用 jQuery 将各种元素包装在 div 标签中？

我有一个 html 结构如下所示 h5 Title h5 p Content p ul li Item li li Item li ul p Content p h5 Title h5 p Content p ul li Item li
等待动态加载脚本

在我的页面正文中我需要插入以下代码作为 AJAX 调用的结果 p Loading jQuery p p Using jQuery p 我不能使用 load 由于文档已经加载因此该事件不会触发这安全吗如果没有我如何确保在执行自定义生
如何使链接悬停时的背景图像模糊？

当您用鼠标光标悬停链接时我想让我的背景图像模糊 5 像素有什么简单的方法可以实现这一点吗我有点纠结于类和 id 在这里 pic background url http www metalinjection net wp content
透明、无边框文本输入

如何删除周围的边框
HTML标题属性样式[重复]

这个问题在这里已经有答案了如何在不使用 javascript 或 CSS 的情况下更改以下标记中标题属性的样式因为我将 HTML 插入到原本无法编辑的文档中的特定位置 span title This is information Thi

随机推荐

敏捷与迭代和增量开发之间的区别[关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案敏捷开发与迭代增量开发有什么区别敏捷是否被视为迭代和增量一些信息表明敏捷是最新的迭代和增量我需要对此做出明确的澄清迭代你不可能一次性完
在非 WordPress php 页面之外显示 WordPress 帖子

我需要在非 WordPress php 页面中显示 WordPress 博客文章我已经尝试过以下代码
计算连续有多少次和的结果为正（或负）

第一部分我有一个包含财务数据的数据框 33023 行这里是指向数据 https mab to Ssy3TelRs https mab to Ssy3TelRs df open 是标题的价格 df close 是收盘价我一直想看看标题
为什么我的 Dockerfile CMD 不起作用？

所以在我的 Dockerfile 的末尾我有这样的内容 WORKDIR home CMD django admin startproject whattt CMD bin bash 当我创建映像然后运行容器时一切都按预期运行没有错误 D
按值或 ID 选择更多复选框

我有这段代码我想在其中创建一个切换按钮来选择 2 个或更多复选框例如意大利和德国我正在尝试这段代码但我无法让它工作 document on click checkbox button function e var checks i
递归树遍历 - 如何跟踪递归级别？

我基本上试图从表示树结构的多维数组构建 html ul li 嵌套列表下面的代码工作正常但我想改进它我需要一种方法来跟踪递归级别以便我可以将不同的类应用于不同的级别向生成的输出添加缩进等 function buildTree tr
Android Studio 使用的默认 Android SDK 路径是什么？

使用Android Studio下载Android SDK时默认下载路径是什么我有兴趣了解 Linux Mac 和 Windows 的路径在网上搜索了一下好像是这样的 Linux Android Sdk Mac Library An
C++ 中的转换错误

有人可以帮我解决这个错误吗我是 C 新手看来错误就发生在一堆宏中我能做什么来解决它或者我怎样才能追踪到它的源头我真的不明白这个错误这是否意味着编译器尝试转换该方法void ReadCPUparameter to a LRESUL
调用函数值[重复]

这个问题在这里已经有答案了可能的重复函数提前触发 https stackoverflow com questions 12201816 function triggering early 我已经编写了这段代码但是当我调用函数 test
将自动复制位图转换为 Pillow 图像

我正在使用 Autopy 和 Pillow 用 Python 开发屏幕抓取工具是否可以将位图对象转换为 Pillow 图像对象我当前的解决方案是将位图对象保存为图像文件然后使用路径创建 Pillow 图像对象这种方法是really由
如何使用 numpy 在二维数组上执行最大/平均池化

给定一个 2D M x N 矩阵和一个 2D 内核 K x L 我如何返回一个矩阵该矩阵是使用图像上给定内核进行最大或平均池化的结果如果可能的话我想使用 numpy 注意 M N K L 可以是偶数也可以是奇数并且它们不需要彼此完全整
C中静态变量的初始化[重复]

这个问题在这里已经有答案了可能的重复 C中静态变量的初始化 https stackoverflow com questions 13251083 the initialization of static variable in c 我知道
带有预填充 .sqlite 的核心数据 (Swift3)

目前我正在对现有 iOS9 应用程序进行 Swift3 iOS10 更新该应用程序存储了欧洲各地约 10 000 个电动汽车充电点到目前为止我总是为应用程序提供预填充的数据库 xcappdata 包中的 sqlite sqlite
如何获取存储过程中的表列表？

数据库中有很多表和sp 我找到特定 sp 存储过程中使用的表名称 sp depends sp name 没有给出想要的结果我也用过INFORMATION SCHEMA TABLES INFORMATION SCHEMA ROUTINES
Spring MVC 将上下文路径附加到表单操作

在 Spring 3 1 下运行相同的代码很好刚刚升级到3 2 现在出现以下问题
在 iOS 上使用 MDCBottomNavigationBar 切换视图控制器

我正在尝试创建一个使用 Material Design 库的底部导航功能的 iOS 应用程序我可以获得带有底部导航栏的视图控制器来编译和显示但我无法添加其他视图控制器并在单击不同选项卡时在它们之间切换我将所有内容简化为两个文件一个是
如何存储和计算版本控制历史记录？

考虑这个简单的 python 代码它演示了一个非常简单的字典版本控制设计 def build current history current for action key value in history assert action in
在AWS EC2上挂载NVME磁盘

所以我在每个节点上使用 NVME 磁盘创建了 i3 large 这是我的过程 lsblk gt nvme0n1 检查 nvme 是否尚未安装 sudo mkfs ext4 E nodiscard dev nvme0n1 sudo mount
如何在dc.js中过滤dataTable而不影响其他维度

因此有一段时间我一直在努力解决如何在 dc js 中过滤数据表而不影响其他维度这似乎违反直觉因为它违背了 crossfilter dc js 背后的数据过滤器的最佳表现但我将解释为什么这是相关的假设我有一个人名年龄和性别的数据
从标签中提取 HTML5 数据属性

我想从标签中提取所有 HTML5 数据属性就像这个 jQuery 插件 http www orangesoda net jquery dataset html 例如给定 span class highlight Joe Bloggs s