使用 DOMXPath 保留
标签内的换行符？

2024-01-10

我目前正在使用 PHP 和DOMXPath获取所有的内容网页的元素：

<?php
...    
$doc = new DOMDocument();
$doc->loadHTML($html);

$xpath = new DOMXPath($doc);
$paragraphs = $xpath->evaluate("/html/body//p");

foreach ($paragraphs as $paragraph){
echo $paragraph->textContent . "<br />";
}

我的问题是产生的字符串textContent不尊重 其中存在的标签元素。相反，它删除了换行符并将通常位于不同行上的单词推到一起。例如：

示例 HTML：

<p>
Some happy talk goes here talking about our great product.<br />
We would love for you to buy it!
</p>

<p>
Random information and what not<br />
Isn't that cool?
</p>

上面 PHP 的当前输出：

Some happy talk about our great product.We would love for you to buy it!

Random information and what notIsn't that cool?

我努力了$paragraphs = $doc->getElementsByTagName("p");以及它给了我同样的东西。

有没有办法让 DOMXPath/DOMDocument 保留换行符？我需要能够分隔段落中的每个单词，而当前的输出不允许这样做。

如果有替代方法来检索其中的字符串元素同时保留  or '\n'那也太好了。

EDIT

经过进一步调查，有问题的 HTML 实际上是一个锚点列表，由 标签但没有实际的换行符：

<p class="home_page_list"><a href="/home/personal-banking/checking/Category-Page-Classic-Checking/classic-checking.html">Classic Checking</a><br> <a href="/home/personal-banking/checking/Category-Page-Interest-Checking/interest-checking.html">Interest Checking</a><br> <a href="/home/personal-banking/checking/Category-Page-Interest-Checking/interest-premium-checking.html">Premium Checking</a><br> <a href="/home/personal-banking/Savings-Category-Page/Basic-Savings-Category-Page/basic-savings.html">Savings Plans</a><br> <a href="/home/personal-banking/Savings-Category-Page/Money-Market-Accounts-Category-Page/money-market-accounts.html">Money Market Accounts</a><br> <a href="/home/personal-banking/Savings-Category-Page/Certificates-of-Deposit-Category-Page/fixed-rate-CD.html">CDs</a><br> <a href="/home/personal-banking/Savings-Category-Page/Individual-Retirement-Account-Category-Page/individual-retirement-account.html">IRAs</a></p>

事实证明，这与给定的原始 HTML 可以正常工作。

更新：已解决

在@ircmaxell的回答以及@netcoder和@Gordon留下的评论的帮助下，这个问题已经解决了，它不是很优雅，但现在就可以了。

Example:

foreach ($paragraphs as $paragraph){
    $p_text = new DOMDocument();
    $p_text->loadHTML(str_ireplace(array("<br>", "<br />"), "\r\n", DOMinnerHTML($paragraph)));
    //Do whatever, in this case get all of the words in an array.
    $words = explode(" ", str_ireplace(array(",", ".", "&", ":", "-", "\r\n"), " ", $p_text->textContent));
print_r($words);
}

这利用了DOMinnerHTML https://stackoverflow.com/questions/2087103/innerhtml-in-phps-domdocument（按照@netcoder的建议）替换实例 与“\r\n”（如@ircmaxell建议），然后可以对其进行评估textContent.

显然还有一些改进的空间，但它解决了我当前的问题。

感谢大家的帮助，

Ben

好吧，我要做的就是用文字换行符替换换行符：

$doc = new DOMDocument();
$doc->loadHTML($html);

$brs = $doc->getElementsByTagName('br');
foreach ($brs as $node) {
    $node->parentNode->replaceChild($doc->createTextNode("\r\n"), $node);
}


$xpath = new DOMXPath($doc);
$paragraphs = $xpath->evaluate("/html/body//p");

foreach ($paragraphs as $paragraph){
    echo $paragraph->textContent . "<br />";
}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

php

html

DOM

xpath

使用 DOMXPath 保留
标签内的换行符？的相关文章

自动调整Google网站嵌入代码的高度（html）

我正在使用 Google 协作平台嵌入 HTML 代码将代码粘贴到从网络嵌入窗口中输出的长度是可变的我希望有一种方法可以动态调整父级的高度iframeGoogle 协作平台用于托管我的 HTML 我知道我可以使用 Google 协
使用 pkg:sjPlot 函数创建一个生成部分斜体单元格的数据框

我正在尝试创建一个简单的数据表其中 Coral taxon 列中的属名称为斜体而 spp 列中的属名称为斜体属名后面的部分不大写我尝试使用 expression 函数对 Coral taxon 的每一行进行编码但没有成功 sum
有没有办法禁用网站上表单的自动填写？ [复制]

这个问题在这里已经有答案了我最近才学会使用创建网站HTML and PHP 我创建了一个网站其中有一个测验要求人们随机翻译单词用户将他们的答案输入到表格中网站评估答案是否正确现在当一个问题在一个会话中被问两次时就会出现自动填
Laravel 5.2 带有可变参数的命名路由用法

我有这样的路线 Open New Subscription page Route get account subscriptions create menu uses gt Subscriptions SubscriptionControl
GWT - 如何组织项目以拥有多个网页以及它们之间的导航

我是 GET 的新手顺便说一句它给我留下了深刻的印象并且发现它对于像我这样熟悉 C NET 桌面技术并愿意编写 Web 应用程序的人来说非常有吸引力我根据 GWT Eclipse 向导生成的示例启动了自己的项目该项目生成带有面板的
PHP7构造函数类名

我有一个 Laravel 4 2 应用程序它可以与 PHP5 一起使用没有任何问题由于我安装了一个运行 PHP7 的新 vagrant box 一旦我运行一个模型其中函数名称与类名称关系函数相同就会出现错误如下所示
如何编写在正文中包含锚标记的 Zend Framework URL？

使用 Zend Framework 中设置的标准 MVC 我希望能够显示始终具有锚点的页面现在我只是在 phtml 文件中添加一个带有 anchor 的无意义参数
如何在 HTML / Javascript 页面中插入 PHP 下拉列表

好吧这是我的第二篇文章请接受我是一个完全的新手愿意学习花了很多时间在各个网站上寻找答案而且我几乎已经到达了我需要到达的地方至少在这一点上我有一个网页其中有许多 javascript 函数这些函数一起使用 google 地图
通过JS Laravel访问存储目录

有没有办法访问storage目录该目录已经链接到publicJS 中的目录我正在尝试制作一个上传图片的表单验证脚本 if request gt hasFile photos marker gt photos request gt ph
ToggleClass 动画 jQuery？

我的网站上有一个部分当用户单击时我希望它展开我正在使用 jQuerytoggleClass为了这 expandable function e e preventDefault this closest article toggleCla
将数组拆分为特定数量的块

我知道array chunk 允许将数组拆分为多个块但块的数量根据元素的数量而变化我需要的是始终将数组拆分为特定数量的数组例如 4 个数组以下代码将数组分为 3 个块两个块各有 2 个元素 1 个块有 1 个元素我想要的是将数组
如何检测元素内容何时发生变化

我正在寻找一种方法来监视元素内动态填充无页面重新加载内容以便我可以将类添加到另一个元素到目前为止我有这个 HTML div class message container div class messages error span
Jquery 在 DIV 中进行多重加载

这是我的代码 right load textes html nicolas right load textes html antoine 问题是内容divantoine覆盖了右边div nicolas加载的内容div div right l
php 表单提交 - Q2

我对这个虚拟问题感到抱歉这是我的简单 PHP 表单其中包含两个 SQL 表和 ADD 提交按钮我希望将人员从 Test1 转移到 Test2 很多事情都很好只有提交按钮不起作用因此 Test2 表没有反馈 Revised 现在提
PHP文件上传

如果我想在文件名转到服务器的永久位置而不是临时位置之前更改文件名我该如何执行此操作代码如下
检查文件权限

我怎样才能检查file permissions 无需通过运行操作系统特定命令passthru or exec Use 文件权限 http php net fileperms功能 clearstatcache echo substr spri
在 HTML5 iOS 7 / iOS 8 中显示十进制键盘

经过几个小时的搜索后我只是有一个简单的问题是否有可能在网络浏览器输入字段中显示小数键盘 input type number 只显示数字但我需要在左下角使用逗号或点我尝试过任何事情 pattern step等等但没有显示十进制键盘
PHP 和 NLP：嵌套括号（解析器输出）到数组？

想要将带有嵌套括号的文本转换为嵌套数组以下是 NLP 解析器的输出示例 TOP S NP PRP I VP VBP love NP NP DT a JJ big NN bed PP IN of NP NNS roses 原文我喜欢一大床
强制输入数字小数位

我想强制
文件修改时间检查的成本

对于Linux下包含少量字节的文件我只需要处理自上次处理以来发生更改的时间我通过调用 PHP 检查文件是否被更改clearstatcache filemtime 定期由于整个文件总是很小因此删除对 filemtime 的调用并通过将

随机推荐

如何更改导航栏标题中链接和导航丸中链接的文本颜色（在闪亮的应用程序中）？

这是我的闪亮应用程序的编辑版本 library shiny library bslib ui lt tagList fluidPage titlePanel tags head tags style HTML navbar default
Grails，使用 withTransaction 插入大量数据会导致 OutOfMemoryError

我正在使用 Grails 1 1 beta2 我需要将大量数据导入到我的 Grails 应用程序中如果我重复实例化一个 grails 域类然后保存它性能会慢得令人无法接受以从电话簿导入人员为例 for each person in l
将变量传递给 jenkins 管道中的 powershell 脚本块

有没有办法在 powershell 脚本中使用 groovy 变量我的示例脚本如下 node stage Invoke Installation def stdoutpowershell def serverName env fqdn w
Vuex 模块中的 Nuxtjs Axios CORS 错误

我正在使用 Nuxtjs 和内置 Vuex 模块以及 Nuxtjs 的官方 axios 我试图从本地服务器获取数据但它总是抛出 CORS 错误因此我对 Github 的公共端点进行了 API 调用但没有成功仅在控制台中收到 COR
为什么通过 Putty 的 SSH 命令与通过 PHP 的 phpseclib 的 SSH 命令的工作方式不同？

我正在编写一个脚本来自动从我的 Windows 开发 PC 部署到共享托管服务器根据我是通过 Putty 还是 PHP 执行命令我会得到不同的结果两者都在我的电脑上运行在 putty 中当我通过 SSH 登录服务器时我可以运行如
PHP 数组...空括号的含义是什么？

我遇到了一些示例代码如下所示 form submit annotate admin settings submit 为什么 submit 后面有一个空的括号里面什么都没有这意味着什么谁能给我举个例子吗通常根据我的理解这可能是错
双递归定义列表的双无限列表

Context 我问的是修补递归定义的列表 https stackoverflow com q 53988970 12274另一天我现在尝试通过在 2D 列表列表的列表上操作来将其提升一个级别我将使用帕斯卡三角形作为示例例如这个美
如何在字符串中找到匹配的大括号对？

假设我有一个字符串付费 8个工作时间公司规则现在我想检查这个完整的字符串是否用括号括起来基本上我想检查字符串是否是这样的付费 8个工作时间公司规则如果它已经用括号括起来那么我将保留它原样否则我会将括号应用于完整的字符串以
如何从多行文本框中获取换行？

在我的 windows forms C 应用程序中我有一个 WordWrap true 的多行文本框将 Text 属性设置为长字符串后我需要获取通过换行生成的所有行它与 Lines 属性不同因为我的文本不包含换行符我已经找到了使
在启用自动筛选器且数据位于“要复制的行”的情况下，将一行复制并添加到工作表的末尾

更新替代解决方案不幸的是我的问题没有答案我需要继续该项目我查看了之前编写的一些代码并决定使用它我发现的解决方案不如用户 djbrett 建议的解决方案优雅但它有效我添加了一行额外的行宏可以从中继续计数有兴趣的可以看下面的代
如何记录基于函数的视图参数？

我正在使用 Django 1 11 和 Django REST Framework 3 7 开发 REST API 我安装了Django REST 招摇 https github com marcgibbons django rest sw
Clojure 实现可以快速启动吗？

time java jar clojure 1 4 0 jar e println Hello world Hello world real 0m4 586s time python clojure py c py print Hello
错误：tensorboard 2.0.2 要求 setuptools>=41.0.0，但您将拥有不兼容的 setuptools 40.6.2

安装的时候出现这个错误这会引起问题吗错误 tensorboard 2 0 2 要求 setuptools gt 41 0 0 但您将拥有不兼容的 setuptools 40 6 2 我刚刚做了一个pip install setuptoo
持久图形 WinForms

我有一个 WinForms 应用程序我必须在控件之间画一些线这些行需要持久存在所以我覆盖了表单OnPaint event 问题是重新绘制的线条不是很平滑我正在创建图形如下 Graphics g g this CreateGraph
警告来源未知：“找不到虚拟表的链接器符号...”

几天以来我在调试时收到一条警告消息我找不到它来自哪里我已经在谷歌搜索并发现类似的东西因为我有一个静态变量但取出来并不能改变什么这是main method int main int argc char argv if argc 2
如何列出连接字符串列表的所有可能方法

我想列出连接字符串列表的所有可能方法例如 Input strings hat bag cab Output concatenated hatbag hatcab hatbagcab hatcabbag baghat bagcab bagh
使用 JS 切换/显示一个定义的 DIV

我有一把小提琴给你 http jsfiddle net vSs4f http jsfiddle net vSs4f 我想展示div sub menu只需点击一下a haschildren 如果身体加载div sub menu应该关闭如果我
将 VS2010 类图导出到 Visio

我正在使用 VS2010 创建类图有什么方法可以导入 VS2010 生成的类图以导入到 MS Visio 中吗右键单击 Visual Studio 中的类图然后选择将图导出为图像 Choose 增强型图元文件格式 emf Visio
Spring Integration 中的 REST 端点使消息通道成为多线程

我有一个非常简单的 Spring Boot 应用程序它提供了几个静态端点这应该驱动将 sftp 文件上传到 sftp 服务器我的要求是如果有多个文件则文件应该排队我希望通过 sftp spring 集成工作流程的默认行为来实现这
使用 DOMXPath 保留
标签内的换行符？

我目前正在使用 PHP 和DOMXPath获取所有的内容 p 网页的元素 p

使用 DOMXPath 保留 标签内的换行符？

使用 DOMXPath 保留 标签内的换行符？ 的相关文章

随机推荐

热门标签

使用 DOMXPath 保留
标签内的换行符？

使用 DOMXPath 保留
标签内的换行符？的相关文章