XPath - 提取两个节点之间的文本

2024-02-26

我的 XPath 查询遇到问题。我必须解析一个 div，它被划分为未知数量的“部分”。其中每一个都由 h5 和部分名称分隔。可能的部分标题列表是已知的，并且每个标题只能出现一次。此外，每个部分可以包含一些 br 标签。所以，假设我想提取“SecondHeader”下的文本。

HTML

<div class="some-class">
 <h5>FirstHeader</h5>
  text1
 <h5>SecondHeader</h5>
  text2a<br>
  text2b
 <h5>ThirdHeader</h5>
  text3a<br>
  text3b<br>
  text3c<br>
 <h5>FourthHeader</h5>
  text4
</div>

预期结果（第二部分）

['text2a', 'text2b']

Query #1

//text()[following-sibling::h5/text()='ThirdHeader']

结果#1

['text1', 'text2a', 'text2b']

这显然有点太多了，所以我决定将结果限制为所选标题和之前标题之间的内容。

Query #2

//text()[following-sibling::h5/text()='ThirdHeader' and preceding-sibling::h5/text()='SecondHeader']

结果#2

['text2a', 'text2b']

取得的成果符合预期。但是，这不能使用 - 我不知道 SecondHeader/ThirdHeader 是否会存在于解析的页面中。在查询中只需要使用一个章节标题。

Query #3

//text()[following-sibling::h5/text()='ThirdHeader' and not[preceding-sibling::h5/text()='ThirdHeader']]

结果#3

[]

你能告诉我我做错了什么吗？我已经在谷歌浏览器中测试过了。

If all h5元素和文本节点是兄弟节点，您需要按部分分组，一个可能的选项是简单地按计数选择文本节点h5之前的。

使用示例lxml（Python）

>>> import lxml.html
>>> s = '''
... <div class="some-class">
...  <h5>FirstHeader</h5>
...   text1
...  <h5>SecondHeader</h5>
...   text2a<br>
...   text2b
...  <h5>ThirdHeader</h5>
...   text3a<br>
...   text3b<br>
...   text3c<br>
...  <h5>FourthHeader</h5>
...   text4
... </div>'''
>>> doc = lxml.html.fromstring(s)
>>> doc.xpath("//text()[count(preceding-sibling::h5)=$count]", count=1)
['\n  text1\n ']
>>> doc.xpath("//text()[count(preceding-sibling::h5)=$count]", count=2)
['\n  text2a', '\n  text2b\n ']
>>> doc.xpath("//text()[count(preceding-sibling::h5)=$count]", count=3)
['\n  text3a', '\n  text3b', '\n  text3c', '\n ']
>>> doc.xpath("//text()[count(preceding-sibling::h5)=$count]", count=4)
['\n  text4\n']
>>>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xpath

XPath - 提取两个节点之间的文本的相关文章

如何使用 XPath 2.0 识别数字序列中的重复值？

我有一个 XPath 表达式它为我提供了一系列值如下所示 1 2 2 3 4 5 5 6 7 这很容易转换为一系列唯一值1 2 3 4 5 6 7 using distinct values 但是我想要提取的是重复值列表 2 5 我想
如何为 PMD Xpath 规则设置嵌套条件

我的规则要求我仅将它们应用于名称中不包含 get 的方法换句话说我的规则只需要应用于类中的非 getter 方法我知道要掌握所有非 getter 方法我可以使用 MethodDeclarator not contains Image
在 SQL Server 2008 中使用 XPath/XQuery 将一个属性与另一个属性匹配

考虑 XML 和 SQL declare xml xml
根据 Web.config Transform 中的子节点值选择节点

我的 Web 配置中有以下 XML 我想使用 web config 转换选择要删除的属性但我想根据其中一个子元素的值选择要删除的元素我的 web config 是这样的
使用 ImportXml 在 Google Sheets 中抓取图像

我正在使用 Google Sheets 尝试从房地产网站上抓取图像以将其显示在单元格中以及房产详细信息旁边我已经能够使用一个简单的示例证明这是可能的但是当我尝试制定 xpath 查询来抓取我需要的特定图像时我不断收到错误作为一个工
xmlstarlet：通过位置号选择元素

我有这个 XML 文件
如何点击 Google Trends 中的“加载更多”按钮并通过 Selenium 和 Python 打印所有标题

这次我想单击一个按钮来加载更多实时搜索这是网站的链接该按钮位于页面末尾代码如下 div class feed load more button Load more div 由于涉及到一些 AngularJS 我不知道该怎么做有什么提
Excel - 使用 FILTERXML 从字符串中提取子字符串

Background 最近我一直在尝试更熟悉将分隔字符串更改为 XML 以使用 Excel 进行解析的概念FILTERXML https support microsoft com en us office filterxml funct
XPath 节点到字符串

如何选择以下节点的字符串内容 span class url word b class test b span span class url word b class test2 b more words span 我尝试过一些事情 span
如何从 .Net 中的许多 HTML 文件中读取 xpath 值？

我的一个文件夹中有大约 5000 个 html 文件我需要循环遍历它们打开使用 xpath 获取 10 个值关闭并存储在 SQL Server 数据库中使用 Net 读取 xpath 值的最简单方法是什么 xpath 应该相当稳定
获取没有特定祖先 xml xpath 的节点

我想要 xpath 它获取没有祖先的节点它是特定节点的第一个后代假设我们有这样的 xml 文档 a b This node b a
如何选择使用默认命名空间的节点？

XML 文件的结构大致如下 a b b a
XSLT，查找最后一个子节点是否是特定元素

看下面两个例子
我的 Perl 脚本中的 findnodes 语句有什么问题？

我有一个简单的 xml 文件如下所示
XSLT；将转义文本解析为节点集并提取子元素

我一整天都在与这个问题作斗争几乎束手无策我有一个 XML 文件其中数据的某些部分存储为转义文本但它们本身是格式良好的 XML 我想将此文本节点中的整个层次结构转换为节点集并提取其中的数据我能想到的变量和函数的组合都不起作用我期望
Scrapy 未通过请求回调从项目中的已抓取链接返回附加信息

基本上下面的代码会抓取表格的前 5 项其中一个字段是另一个 href 单击该 href 会提供更多信息我想收集这些信息并将其添加到原始项目中所以parse应该将半填充的项目传递给parse next page然后刮掉下一位并返回完成
如何使用scrapy Selector获取节点的innerHTML？

假设有一些 html 片段例如 a text in a b text in b b a
如何区分从 Saxon XPathSelector 返回的属性节点和元素节点

给定 XML
如何找到Selenium WebDriver的XPath？ [复制]

这个问题在这里已经有答案了我想知道是否可以获取Web元素的XPATH test driver find elements by css selector div menu listes ul menu menu horizontal me
如何使用 xpath 检查某个对象在网页中是否可见？

我正在 R 中使用 RSelenium 包来进行网络抓取有时加载网页后需要检查某个对象在网页中是否可见例如 library RSelenium open a browser RSelenium startServer remDr lt

随机推荐

删除 Meshlab 或 vcglib 中的自相交

如何使用 Meshlab 应用程序或 vcglib 消除网格的自相交这超出了范围但 CGAL 中有一些函数这仍然是实验性的没有记录但您可以使用该功能remove self intersections https github co
不包含适合入口点的静态“main”方法

我今天开始将代码组织到单独的 cs 文件中为了允许与 UI 一起使用的方法继续这样做我将在相同的命名空间和公共部分类名下创建 cs 代码以便这些方法可以可互操作我的标头在四个文件中看起来像这样包括调用的主核心文件 public s
内存警告但活动字节较小

在我的应用程序中在重复某些操作选择图片处理多次后我收到级别 1 的内存警告然后收到级别 2 的内存警告然后崩溃泄漏工具没有显示任何泄漏我还关注 Instruments 中的分配工具我的实时字节大约为 4 MB 总共分配了
sqldf：从数据帧创建表错误：“没有这样的表”。并创建了两张表而不是一张

我最近升级了 R RSQLite 和 sqldf 以下版本通常情况下 sqldf create table foo as select from bar db test db 应该在附加的 sqlite 数据库中创建一个名为 foo 的表
在 Reactjs 中迭代数组

const cal days Sun Mon Tue Wed Thu Fri Sat const cal months Jan Feb March April May June July August Sept Oct Nov Dec co
组合 Group-Object 和 ForEach-Object？

我正在开发一个名为Merge Xsd可以合并相似的 XML 模式它需要一个路径列表加载模式合并它们并生成一个XMLDocument作为输出特定文件名的所有模式都被认为是相似的所以我正在做的就是获取特定目录结构中的所有子项根据
使用useEffect获取数据时避免使用旧数据

我的问题是当自定义挂钩使用useEffect with useState 例如为了获取数据在依赖项更改之后但在 useEffect 被触发之前自定义挂钩会返回过时的数据来自状态您能建议一种正确惯用的方法来解决这个问题吗我正在
针对具有大量聚合的大型集群的 ElasticSearch 设置

背景和当前状态我们正在将集群从 Cassandra 迁移到完整的 ElasticSearch 集群我们平均索引文档为每秒约 250 300 个文档在 ElasticSearch 1 2 0 中它代表每天约 8Go generic i
Android 如何避免内存不足错误

我有很多图像大约有 500 张分布在 20 个左右的片段中这些图像都非常小并且加载得很好但是我给用户提供了 3 种不同类型的图像的选择现在如果用户更改图像我收到 OOM 错误所以我认为这是我处理图像的方式我认为我需要先回收旧图
基于另一个字段更改 SSRS 中值字符串中特定值文本颜色的表达式

我的 SSRS 报告中有一个字段其中包含一串用逗号分隔的数字来自 SQL 中的合并选择它看起来像 12 91 160 171 223 如果该值也在报告的另一个字段中我只想更改该字段中一个特定值例如 160 的文本颜色我已经有了这
使用 BigDecimal 计算小数点后的最大位数

小数点后最多可以有多少位BigDecimalJava 中的值它几乎是无限的如果将比例设置为整数的最大值则可以存储大约 20 亿位小数点后的数字但如果尝试这样做可能会耗尽内存如果您需要存储如此多的数字以至于限制成为问题那么您
如何将UIImage插入到UITextView中

我正在开发一个可编辑的笔记本类型项目它随时由一些文本和图像组成在UITextView如果我们将图像添加为子视图则帧是固定的但我有editable选项所以我必须将图像另存为NSString格式为UITextView 但它应该在 ui
AutoMapper 4.2 和 Ninject 3.2

我正在更新我的一个项目以使用 AutoMapper 4 2 并且遇到了重大更改当我seem为了解决上述更改我并不完全相信我已经以最合适的方式做到了这一点在旧代码中我有一个NinjectConfiguration 和AutoMappe
Android 2.1 WebView 中的 SIGSEGV

在 Android 2 1 中使用 WebView 时我间歇性地收到 SIGSEGV SIGSEGV 位于 system lib libwebcore so 内此 WebView 实现是否存在已知问题我可以解决该问题以避免 SEGV
由于零而始终将滑块求和到 100% 失败的算法

这是应该是一个函数它确保多个滑块值的总和always总计为globalTotal 用户可以手动更改滑块值changer value然后当将此函数应用于other滑块它可以确定它们的新或endVal 它需要startVal需要更改的滑
初学者使用 Linqpad 运行非常基本的 linq to sql 查询的步骤

尝试使用 Linq 学习LinqPad http www linqpad net 并对如何开始感到沮丧假设我想编写一个 C 表达式和一个 C 语句其中 SQL Server 中有一个名为 Products 的表并且我想提取价格大于 5
使用 lucene/java 标记名称

我有我公司所有员工的姓名超过 5000 名我想编写一个引擎它可以在在线文章博客维基帮助文档中即时查找名称并用用户电子邮件的 mailto 标签标记它们截至目前我计划从文章中删除所有停用词然后在 lucene 索引中搜索
手动修改 DOM 的 innerHTML 会停止 ReactJS 监听器

我正在学习 ReactJS 和 Node Express 生态系统对我来说是早期我有一个基本的 ReactJS 文件包括组件定义和渲染调用它本身按预期工作为了快速轻松地进行调试昨天我在客户端代码中进行了以下更改 Added H
在运行时将设计时面板添加到 TabPage

我希望在设计时有一个带有控件的面板但我想在运行时将此面板添加到 TabControl 的所需 tabPage 中我写了这样的东西没有用面板没有显示在选项卡页中请帮我 panel2 Parent tabGuy TabPages 0
XPath - 提取两个节点之间的文本

我的 XPath 查询遇到问题我必须解析一个 div 它被划分为未知数量的部分其中每一个都由 h5 和部分名称分隔可能的部分标题列表是已知的并且每个标题只能出现一次此外每个部分可以包含一些 br 标签所以假设我想提取 Se

XPath - 提取两个节点之间的文本

XPath - 提取两个节点之间的文本 的相关文章

随机推荐

热门标签

XPath - 提取两个节点之间的文本的相关文章