XPath 直到下一个标签

2024-05-03

与之前在这里问过的其他人类似的问题，但由于我不知道如何应用这些建议，所以我需要一些帮助。

我想找到一个 html 文档的节点，其结构如下（摘录，可能有所不同）：

<h2>My title 1</h2>
<h3>Sub-heading</h3>
<p>...<span><a href='#'>...</a></span></p>
<div>...</div>
<h2>My title 2</h2>
<p>No sub-heading here :O</p>
<h3>But here</h3>
<p>No link</p>
<h2>And so on...</h2>
<p>...</p>

我想要完成的是找到从一个 h2 到下一个 h2 之前的最后一项的所有节点，包括 h2 本身。就像在我的例子中一样，我想检索像这样的“块”：

Block 1:

<h2>My title 1</h2>
<h3>Sub-heading</h3>
<p>...<span><a href='#'>...</a></span></p>
<div>...</div>

Block 2:

<h2>My title 2</h2>
<p>No sub-heading here :O</p>
<h3>But here</h3>
<p>No link</p>

Block 3:

<h2>And so on...</h2>
<p>...</p>

除了 h2 之外，我没有任何其他目标（没有 id、没有我可以知道的文本内容、没有确定的内容等）。

您可以使用DOMXpath http://php.net/manual/en/class.domxpath.php and query http://php.net/manual/en/domxpath.query.php method.

首先从body中找到所有h2元素（不是嵌套的h2元素）

然后开始一个foreach循环查找每个 h2。然后将 h2 添加到数组中$set因为你想保存它。然后循环兄弟姐妹并将它们添加到数组中$set直到您找到的下一个 h2。

Add $set to $sets array.

例如：

$html = <<<HTML
<h2>My title 1</h2>
<h3>Sub-heading</h3>
<p>...<span><a href='#'>...</a></span></p>
<div>...</div>
<h2>My title 2</h2>
<p>No sub-heading here :O</p>
<h3>But here</h3>
<p>No link</p>
<h2>And so on...</h2>
<p>...</p>
<div><h2>This is nested</h2></div>
HTML;

$doc = new DOMDocument();
$doc->loadHTML($html);
$xpath = new DOMXpath($doc);
$domNodeList = $xpath->query('/html/body/h2');

$sets = array();

foreach($domNodeList as $element) {
    // Save the h2
    $set = array($element);

    // Loop the siblings unit the next h2
    while ($element = $element->nextSibling) {
        if ($element->nodeName === "h2") {
            break;
        }
        // if Node is a DOMElement
        if ($element->nodeType === 1) {
            $set[] = $element;
        }
    }

    $sets[] = $set;
}

$sets 现在将包含 3 个数组，其中将包含您添加的 DOMElements。

$sets 的 var_dump 演示 https://3v4l.org/sX0Rr

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

php

xpath

domdocument

XPath 直到下一个标签的相关文章

PHP 中的encodeURI() ？

PHP 中是否有一些不编码的encodeURI 函数我现在用这个 function encodeURI url http php net manual en function rawurlencode php https develope
通过身份验证保护 CodeIgniter 2 应用程序的正确方法是什么？

I have Ion Auth http benedmunds com ion auth 正确安装并在我的服务器上运行我也有默认的代码点火器2 新闻教程在同一个 CI 安装中工作我只是在玩并对使用身份验证系统封闭或保护整个应用程
为什么这评估为 true

为什么这评估结果为真
如何将变量插入 PHP 数组？

我在网上查了一些答案但都不是很准确我希望能够做到这一点 id result id info array id Example echo info 0 这有可能吗您需要的是不推荐 info array id Example varia
防止 Propel 插入空字符串

当未设置列时如何防止 Propel ORM 插入空字符串 CREATE TABLE user uid INTEGER PRIMARY KEY AUTO INCREMENT email VARCHAR 255 NOT NULL UNIQUE
尝试使用 php 发送 POST 请求，无论我做什么，我都会收到“HTTP ERROR 500”

为了发出 HTTP 请求有人建议我尝试使用 PHP 并给了我一段代码 url https example com dashboard api data array to gt PHONE NUMBER from gt SENDER ID
php中的条件格式化html表与时间戳比较

echo table style width 100 tr echo td Order td echo td Destination td echo td Location td echo td Status td echo td Time
媒体的 Google Cloud Storage 签名网址

我已经建立了一个视频网站为用户提供 m3u8 和关联的 ts 文件我不希望媒体文件免费可用所以我所做的是当用户在网站上时在 mysql 中使用他们的 IP 和令牌创建一个会话当他们请求特定媒体子域 mp4 domain com
CodeIgniter 控制器 - JSON - AJAX

我正在尝试通过 AJAX 使用 CodeIgniter 发送表单构建并尝试使用 JSON 获取响应但是我只在打开开发人员选项卡时看到响应我什至不确定这是否实际上是响应因为它显示了两个 json 数据它所显示的只是加载旋转器然后
通过 URL 指定控制器类与为每个控制器编写一个脚本相比，有何优缺点？

今年夏天我安装了两个不同的 PHP 系统每个都使用两种不同的方法方法 1 每个任务一个 PHP 文件该方法需要一个PHP为每个主要任务创建文件例如我的上传脚本可以通过http www domain com upload php O
如何使用 selenium 和 Mocha 获取 xPath() 选择的锚标记的文本

我已经成功选择了 a 标签我想显示锚标记的文本但无法这样做我正在使用 selenium mocha javascript 和 phantomJS 这是我的脚本详细 var assert require assert var test
如何在多次尝试后延迟登录尝试 (PHP)

我正在开发一个用 PHP 构建的相当大的网站该网站可能会有很多用户我正在寻找一种方法来保护登录屏幕免受自动尝试的影响我已经在注册表中添加了验证码检查但还想进一步强化网站据我所知 StackOverflow 上也有类似的问题而且我
在 Yii 的标准中如何获得计数 (*)

我正在尝试构建一个具有以下内容的查询group by属性我正在尝试得到id和count它一直告诉我count is invalid列名我怎样才能得到count来自group by询问工作有别名伊伊 1 1 11 其他不及格 crit
Facebook PHP SDK - 如何获取访问令牌？

我正在尝试从我的应用程序在用户的 Facebook 墙上发帖用户授予应用程序在他的墙上发布的权限并且我在数据库中有用户ID 我需要自动发送帖子而无需用户再次登录我的代码是 try require once dirname FILE
如何将 Smarty 3 包含到 Laravel 4 中？

我是 Laravel 的新手所以仍在习惯这些概念但是我有大约 10 年的使用 Smarty 的经验所以我希望利用这一点除了事实上 Blade 似乎缺乏太多我发现有用且在 Smarty 中开箱即用的功能但无论如何除了这个问题的要点之
如何通过ssh检查ubuntu服务器上是否存在php和apache

如何通过ssh检查Ubuntu服务器上apache是否安装了php和mysql 另外如果安装的话在哪个目录如果安装了其他软件包例如 lighttpd 那么它在哪里确定程序是否已安装的另一种方法是使用which命令它将显示您正在搜索
phpActiveRecord 日期时间格式不正确

当尝试使用 phpActiveRecord 在表中创建记录时出现以下错误 Invalid datetime format 1292 Incorrect datetime value 2013 06 20 11 59 08 PDT for
PHP递归遍历对象树[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何清除 APC 缓存而不使 Apache 崩溃？

如果 APC 存储大量条目清除它们会导致 httpd 崩溃如果 apc clear cache user 花费的时间超过 phps max execution time 调用 apc clear cache 的脚本将在之前被 php
如何使用 php 将 *.xlsb 转换为数组或 *.csv

我正在尝试转换 xlsb文件到php array or csv文件或至少 xls 我尝试使用PHPExcel 但看起来它无法识别该文件中的内容我注意到你可以重命名 xlsb文件到 zip文件然后使用命令行解压缩unzip zip 之

随机推荐

Rails 3.1 与 Asset Pipeline，link_to ：确认消息显示两次？

好的所以我已经看到了这个问题 https stackoverflow com questions 4475449 link to confirm displays popup twice关于这个问题是由 jQuery 或 Prototyp
桌面 Delphi 应用程序是否可以通过 Windows 8 认证（使用 Windows 应用程序认证套件）？

显然 Delphi 任何版本不支持安全异常处理程序 https forums embarcadero com thread jspa messageID 473469 Visual Studio 中的 SAFESEH 开关在 Windo
如何使“new[]”默认初始化原始类型数组？

我时不时需要打电话new 对于内置类型通常char 结果是一个具有未初始化值的数组我必须使用memset or std fill 来初始化元素我该如何制作new 默认初始化元素 int p new int 10 应该做然而作为迈克
在自己的定义中使用变量？

无限流 val ones Stream Int Stream cons 1 ones 一个值怎么可能在它自己的声明中使用呢看起来这应该会产生编译器错误但它确实有效它并不总是递归定义这实际上有效并产生 1 val a Int a 1
Web.config 身份验证错误

我使用的是SQLServer2005和VS2008 我在 web config 中的连接字符串是 add name library connectionString Data source KMT Initial Catalog Libra
RxJS Angular2 在 Observable.forkjoin 中处理 404

我目前正在链接一堆 http 请求但是在订阅之前我无法处理 404 错误 My code 在模板中 service getData subscribe data gt this items data err gt console log
通过 https 安全登录后，Weblogic 应用程序切换回 http

我已在 Weblogic 9 2 MP3 上成功配置 SSL 我能够使用 https 安全地登录应用程序并继续使用 https 协议处理应用程序当用户访问提供以下 URL 的应用程序时情况就是如此 https servername 7
一种父子关系级联软删除的方法

我有一个简单的架构其中使用软删除这就是它的设计方式并且无法更改有两个表参与该架构 Company id is deleted and Employee id company id is deleted where company id
从文件导入变量创建变量的副本

If I from file import variable and the varable在模块文件中更改 variables 值未更新如果我 import file 变量file variable已更新有没有一种方法可以有选择地从模
如何从命令行运行 spock 测试？

我已经检查过这个链接 https gist github com ysb33r 5825457 https gist github com ysb33r 5825457 似乎可以这样运行 groovyc groovy java cp gra
所有AJAX请求完成时的JQuery调用函数

我的问题是问题的变体here https stackoverflow com questions 970967 jquery ajax call function when all requests are complete 然而有两点不
MPAndroidChart BarChart xValues 问题

我注意到有一个问题BarChart of MPAndroidChart并需要修复首先是我的代码 this barChart BarChart view findViewById R id bar fragment bar chart th
AutoCAD 插件开发示例

我对开发 AutoCAD 插件感兴趣并试图了解几种不同类型的 AutoCAD 插件文件之间的关系随 AutoCAD 插件一起提供的托管 DLL ARX 文件 https fileinfo com extension arx附带 Auto
如何在 SQLite 中插入换行符（“\n”）？

在尝试插入类似以下内容时 Hello nWorld SQLite 抛出类似以下的错误消息无法识别的令牌 Hello 还有一些其他错误即使我将上面的字符串转换为 Hello nWorld or Hello n World 这些转义字符序
退格事件麻烦

我在第 1 页有一个事件侦听器 window addEventListener keydown 这给我带来了问题即第 1 页对话框中的另一个事件侦听器 keydown 与窗口事件侦听器发生冲突有两个事件监听器对话框事件监听器页面事件
使用畸变从图像平面计算相机矢量

我正在尝试使用相机模型来重建可以使用某些相机及其外部内部参数拍摄的图像这一点我没有任何问题现在我想添加扭曲正如它们中所描述的那样OpenCV https docs opencv org 4 x dc dbb tutorial p
React TypeScript - 将动态泛型类型传递到forwardRef组件中

我的问题的核心 const FinalComponent
机器和管道（或其他类似的库）之间的概念区别是什么？

我想学习这个概念以便我能够理解和使用诸如machines http hackage haskell org package machines 我试着跟随R nar Bjarnason 关于机器的演讲 https dl dropbox co
授予对视图的 SELECT 权限，但不授予对基础对象的 SELECT 权限

我经常读到视图的目的之一是安全性允许某些用户访问基础表而其他用户仅访问派生视图考虑到这一点我设计了几个向外部用户提供受限数据集的视图一切都很好但在实践中这是行不通的我授予后SELECT对视图的权限除非我授予否则用户无法访
XPath 直到下一个标签

与之前在这里问过的其他人类似的问题但由于我不知道如何应用这些建议所以我需要一些帮助我想找到一个 html 文档的节点其结构如下摘录可能有所不同 h2 My title 1 h2 h3 Sub heading h3 p span

XPath 直到下一个标签

XPath 直到下一个标签 的相关文章

随机推荐

热门标签

XPath 直到下一个标签的相关文章