如何提取html注释和节点包含的所有html？

2024-04-06

我正在创建一个小型网络应用程序来帮助我管理和分析网站内容，而 cURL 是我最喜欢的新玩具。我已经弄清楚如何提取有关各种元素的信息，如何查找具有特定类的所有元素等，但我遇到了两个问题（见下文）。我希望有一些漂亮的 xpath 答案，但如果我必须诉诸正则表达式，我想那也可以。虽然我不太擅长正则表达式，所以如果你认为这是可行的方法，我会很感激的例子......

相当标准的起点：

$ch = curl_init();
    curl_setopt($ch, CURLOPT_USERAGENT, $userAgent);
    curl_setopt($ch, CURLOPT_URL,$target_url);
    curl_setopt($ch, CURLOPT_FAILONERROR, true);
    curl_setopt($ch, CURLOPT_FOLLOWLOCATION, true);
    curl_setopt($ch, CURLOPT_AUTOREFERER, true);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER,true);
    curl_setopt($ch, CURLOPT_TIMEOUT, 10);

    $html = curl_exec($ch);
    if (!$html) {
        $info .= "<br />cURL error number:" .curl_errno($ch);
        $info .= "<br />cURL error:" . curl_error($ch);
        return $info;
    }

    $dom = new DOMDocument();
    @$dom->loadHTML($html);

    $xpath = new DOMXPath($dom);

以及信息的提取，例如：

// iframes
    $iframes = $xpath->evaluate("/html/body//iframe");
    $info .= '<h3>iframes ('.$iframes->length.'):</h3>';
    for ($i = 0; $i < $iframes->length; $i++) {
        // get iframe attributes
        $iframe = $iframes->item($i);
        $framesrc = $iframe->getAttribute("src");
        $framewidth = $iframe->getAttribute("width");
        $frameheight = $iframe->getAttribute("height");
        $framealt = $iframe->getAttribute("alt");
        $frameclass = $iframe->getAttribute("class");
        $info .= $framesrc.'&nbsp;('.$framewidth.'x'.$frameheight.'; class="'.$frameclass.'")'.'<br />';
    }

疑问/问题：

如何提取HTML注释？

我不知道如何识别评论——它们被认为是节点，还是完全是其他东西？
如何获取div的全部内容，包括子节点？因此，如果 div 包含一个图像和几个 href，它会找到这些内容并将其作为 HTML 块全部返回给我。

注释节点应该很容易在 XPath 中找到comment()测试，类似于text() test:

$comments = $xpath->query('//comment()'); // or another path, as you prefer

它们是标准节点：这是手动输入DOMComment class http://www.php.net/manual/en/class.domcomment.php.

对于你的另一个问题，这有点棘手。最简单的方法是使用saveXML() http://www.php.net/manual/en/domdocument.savexml.php及其可选的$node争论：

$html = $dom->saveXML($el);  // $el should be the element you want to get 
                             // the HTML for

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何提取html注释和节点包含的所有html？的相关文章

Laravel 4.2 Composer 安装错误：“无法扫描类”

我想通过 Composer 在新的 Laravel 4 2 安装上安装一些软件包但是我遇到了例外这是我的作曲家文件 name laravel laravel description The Laravel Framework keyw
无法访问 WordPress 中声明的全局变量

我有以下代码 g value something print g value function get value global g value print g value print get value 当我在独立的 PHP 脚本中运行它
如何缩短 PHP if 语句？

我有一个 if 语句我需要将单个字符串与许多不同的选项进行比较我在下面发布的代码非常清楚地表明了我的意思我知道有两种方法可以做到这一点但另一种甚至更长那么是否有任何函数可以以更短的方式实现类似的功能我的要求可能看起来很愚蠢但
Facebook Graph API - 如何用新行发布到墙上？

我正在使用 Facebook Graph API 但遇到一个问题我找不到任何方法如何使用一些 HTML 代码发布到墙上or新线路怎么办呢这是我的代码
在 PHP 中的请求之间存储对象而不进行序列化

我正在用 PHP 编写一个有状态的 Web 应用程序其中状态可能包含大量对象目前我将所有这些对象保存在 SESSION 中并在请求结束时将它们序列化这有点痛苦因为序列化整个会话需要几秒钟而反序列化则需要更多时间我想尝试 AP
在 PHP 中比较字符串的方式与 MySQL 相同

我将 varchar 存储在 utf8 MySQL 表中并使用 utf8 general ci 排序规则我在 varchar 上有一个唯一索引我想在 PHP 中进行字符串比较这相当于 MySQL 对索引所做的操作一个具体的例子是我
PSR-2 编码标准：为什么仅包含 PHP 的文件中没有 PHP 结束标记？ [复制]

这个问题在这里已经有答案了我刚刚听说PSR 2编码标准 http www php fig org psr psr 2 在对此问题的评论中是否有任何理由在方法和成员变量名称之前使用 public 关键字 https stackoverfl
SMTP：无法连接套接字：无法找到套接字传输“ssl”

我一直在尝试在 WAMP 上使用 Pear 发送电子邮件通过 GMail 花了几个小时将其全部设置并找出我遇到的所有错误后我以为我已经很接近了直到我开始收到此错误 Failed to connect to ssl smtp gmail
正则表达式 - 剥离非数字并删除分（如果有）

我目前正在开发一个 PHP 项目需要一些正则表达式的帮助我希望能够获取用户输入的货币值并删除所有非数字和小数位分 Ex 2 000 00 到 2000 2 000 00 美元到 2000 2abc000 到 2000 2 000 到
从 XML 获取 viewCount [重复]

这个问题在这里已经有答案了我目前正在使用YouTube API https developers google com youtube 来自 Google 我正在尝试获取 viewCount 数组我已经尝试过这个但一点运气都没有 He
在数据转换之前应用验证

我想将从提交的用户数据中获得的文本字段转换为 Symfony2 中的对象我使用 DataTransformer 来做到这一点当我使用 NotEmpty 或 NotNull 等内置验证器或任何以标准方式内置的自定义验证器时 Symfony
将 RequestBody json 转换为对象 - Spring Boot

我是 java 开发的初学者但之前有 PHP 和 Python 等编程语言的经验对于如何进行 Spring Boot 的开发几乎没有什么困惑我正在开发一个rest API 它有以下请求 key value key1 value1 pl
PHP 中消息队列和工作系统的有效架构？

我正在尝试了解我想要在 PHP 应用程序中实现的消息队列模型和作业我的目标是卸载需要发送到多个第三方 API 的消息数据因此访问它们不会减慢客户端的速度所以将数据发送到消息队列是理想的我考虑过仅使用 Gearman 来保存 MQ
未捕获的 SoapFault 异常：[Client] 函数不是此服务的有效方法

当我尝试使用一些数据访问 wsdl 中的函数使用 php 中的肥皂客户端时出现以下错误 Uncaught SoapFault exception Client Function function nameis not a valid
Elasticquent(ElasticSearch) Laravel 限制

您好我尝试使用 elasticSearch 查询获取所有结果但如果 limit 值为 null 则仅返回 10 个结果 videos Video searchByQuery match gt field gt request gt fi
如何在 PHP 中制作简短的随机唯一密钥，例如 YouTube 视频 ID？ [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案有没有办法创建像 YouTube 视频网址中使用的唯一密钥例如 https www youtube com watch v nWCh
将屏幕宽度获取到 javascript 变量中并通过 ajax 将其发送到 php 页面以避免页面加载

这是JS检测我的页面命名上的屏幕分辨率index html并将其发送到 php 以便可以使用以下方式检索值 GET 这是我的PHP文件命名的内容process php
正则表达式提取大括号之间的文本

我正在尝试提取 PHP 中花括号之间的文本例如欢迎 user first name 使用 site 版本 1 5 您的用户名是 user username 您目前的声誉是 user reputation name 我用过在某些情况下
使用 file_get_contents 在 php 中进行屏幕缩放

嗨我对屏幕抓取很陌生我正在尝试从酒店预订网站上抓取评论以显示在我的网站上我已经走到这一步了但有点卡住了有人可以帮忙吗 use 文档 http php net manual en class domdocument ph
如何将 JSON 文本转换为 PHP 关联数组

我将以下 JSON 对象存储在文本文件 data txt 中 player black time 0 from 2c to 3d 我使用 php 阅读问题有没有简单的方法可以转换 data到 PHP 关联数组我尝试过使用json de

随机推荐

mrjob组合器不工作python

简单的映射组合reduce程序映射column 1与值column 3并追加在相同键和附加的每个映射器输出中减少相同密钥的输出后 input 1 and input 2两个文件都包含 a 1 2 3 a 4 5 6 Code is f
Scipy.sparse.csr_matrix：如何获取前十个值和索引？

我有一个大csr matrix我对前十个值及其每行的索引感兴趣但我没有找到一个合适的方法来操纵矩阵这是我当前的解决方案主要思想是逐行处理它们 row csr matrix getrow row number toarray 0 rav
MediaSessionCompat：面向 S+（版本 31 及更高版本）要求在创建 PendingIntent 时指定 FLAG_IMMUTABLE 或 FLAG_MUTABLE 之一

我正在尝试将我的应用程序更新到 Android SDK 31 但我遇到了 MediaSessionCompat 问题我有一个扩展 MediaBrowserServiceCompat 的 MediaService 并在该服务的 onCrea
如何在不使用 Visual Studio 的情况下编译并运行 C# 程序？ [复制]

这个问题在这里已经有答案了我对 C 很陌生我刚刚使用 Visual Studio 运行了 C Hello World 程序我可以在不使用 Visual Studio 的情况下运行或编译 C 程序吗如果可以的话我应该使用哪个编译器 T
在django中迁移模型时如何解决SQLdecode错误？

我是 django 新手我已经创建了一个项目和应用程序我想将我的项目连接到 mongodb 当我进入python manage py migrate命令我收到下面提到的错误我已经删除了数据库并清除了 django migration
如何使用 Wicket 密码保护页面？

我想用密码保护 Wicket 中的网页以便用户只有在登录后才能访问它我还希望该页面显示登录页面然后在登录用户尝试访问的原始页面后这是如何用检票口完成的我已经创建了一个登录页面并扩展了会话类框架提供的方式是提供一个授权策略 htt
是否可以将泛型类型限制为仅允许已知属性？

如果向函数提供的对象具有太多属性则会出现错误 type Options str a b function foo a Options return a str const resultA foo str a extraOption err
迭代包括空行在内的行

给定一个带有一些空行的多行字符串我如何在Lua中迭代行包括空行 local s foo nbar n njim for line in magiclines s do print line and blank or line end gt
Spark：创建嵌套架构

伴随着火花 import spark implicits val data Seq 1 value11 value12 2 value21 value22 3 value31 value32 val df data toDF id v1 d
使用 cURL 访问 API 可以正常工作，但使用 Fetch API 则不行 [重复]

这个问题在这里已经有答案了我知道这个问题已经得到解决lotSO 上的次数但所有答案大多都是向服务器添加某个标头在这种情况下 API Shopify 工作得非常好并且可以通过curl轻松访问我已经使用 Axios 库和 Fetch
如何动态刷新 .NET 数据绑定转发器控件

我有一个 NET repeater控制即data bound到一个列表作为中继器的一部分Item Collection 我有一个删除按钮可以有效地删除当前的列表元素这有效在代码隐藏中我可以成功地从datasource of the
在React中，如何防止组件的CSS导入应用于整个应用程序？

我在用着Facebook 的 create react 应用 https github com facebookincubator create react app对于我的应用程序在我的 Login js 容器中我像这样导入 CSS i
使用 jquery 动态添加画布

我已将所有代码包含在这个小提琴中 http jsfiddle net RymyY http jsfiddle net RymyY 我的问题涉及左侧的添加形状按钮我希望每次单击第二个添加按钮时都能够添加一个新画布但我无法让它工作类似
OpenOffice pyno“全选”

有谁知道如何使用 OO uno 桥接 api 在 Calc 工作表中选择全部或者找到最大使用的行数和列数也可以我想要做的是将格式应用于电子表格中的所有单元格原因是我将工作表保存为 csv 因此除非格式提供足够的小数位否则数字不会
将 Expression> 通用拆箱为 Expression>

正如标题中提到的我有一个表达式其中结果类型存储在object 这可以是all我的域类有没有办法得到具体的表达方式拆箱如果我正确理解你的问题你可能正在寻找的是表达式转换 http msdn microsoft com en
Vue Native 始终执行 App.js 而不是 .vue

我做了vue native安装的第一个过程我正在遵循入门 Hello world教程 https vue native io getting started html https vue native io getting starte
根据文件的第二列对数据进行排序

我有一个 2 列的文件n行数第 1 列包含names和第2列age 我想根据以下内容按升序对该文件的内容进行排序age 在第二列结果应该显示name最年轻的人以及name然后是第二年轻的人等等关于单行 shell 或 bash 脚本的
如何从 C++ 中加载和调用 VBScript 函数？

我们的客户要求在我们的产品中发生特定操作时调用 VBScript 函数我一直在尝试研究 Windows 脚本技术但很难找到我真正需要的东西希望你们中的一些人能够提供帮助我们的产品是原生 C Windows 产品客户将指定一个 VB
将 sinon 模拟与 nodeunit 一起使用

我正在学习使用 sinon 与nodeunit https github com caolan nodeunit 专门做嘲笑这推荐方法 http sinonjs org nodeunit 是使用正节点单元 https github com
如何提取html注释和节点包含的所有html？

我正在创建一个小型网络应用程序来帮助我管理和分析网站内容而 cURL 是我最喜欢的新玩具我已经弄清楚如何提取有关各种元素的信息如何查找具有特定类的所有元素等但我遇到了两个问题见下文我希望有一些漂亮的 xpath 答案但如果我必

如何提取html注释和节点包含的所有html？

如何提取html注释和节点包含的所有html？ 的相关文章

随机推荐

热门标签

如何提取html注释和节点包含的所有html？的相关文章