在 PHP 中从 HTML 中提取所有文本和 img 标签。 [复制]

2024-04-24

可能的重复：
使用 PHP 解析 HTML 的最佳方法 https://stackoverflow.com/questions/3577641/best-methods-to-parse-html-with-php

对于一个项目，我需要获取一个 HTML 页面并从中提取所有文本和 img 标签，并保持它们在网页中出现的顺序。

例如，如果网页是：

<p>Hi</p>
<a href ="test.com" alt="a link"> text link</a>
<img src="test.png" />
<a href ="test.com"><img src="test2.png" /></a>

我想用这种格式检索该信息：

text - Hi
Link1 - <a href ="test.com">text link</a>  notice without alt or other tag
Img1 - test.png  
Link2 - <a href ="test.com"><img src="test2.png" /></a>  again no tag

有没有办法在 PHP 中做到这一点？

有没有办法在 php 中做到这一点？

是的，您可以先剥离所有您不感兴趣的标签，然后使用DOMDocument http://php.net/DOMDocument删除所有不需要的属性。最后需要重新运行strip_tags http://php.net/strip_tags删除添加的标签DomDocument:

$allowed_tags = '<a><img>';
$allowed_attributes = array('href', 'src');

$html = strip_tags($html, $allowed_tags);
$dom = new DOMDocument();

$dom->loadHTML($html);

foreach($dom->getElementsByTagName('*') as $node)
{
    foreach($node->attributes as $attribute)
    {
        if (in_array($attribute->name, $allowed_attributes)) continue;
        $node->removeAttributeNode($attribute);
    }
}

$html = $dom->saveHTML($dom->getElementsByTagname('body')->item(0));
$html = strip_tags($html, $allowed_tags);

Demo http://codepad.viper-7.com/1Ro4z1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

php

html

Parsing

在 PHP 中从 HTML 中提取所有文本和 img 标签。 [复制] 的相关文章

这是依赖注入吗？这是一种不好的做法吗？

我有一个小框架我是这样编码的我不确定这是否称为依赖注入我不知道它是否像设计模式我也不知道并且想知道是否通过 this因为 param 是一种不好的做法看看这个不是一个有效的示例只是将这些代码写入浏览器中以供解释 This is
使用过渡+不透明度更改+溢出隐藏时出现问题

如果您看到我共享的代码示例您可以看到覆盖层超出了框的范围我将问题追溯到transition属性我想删除div之外的内容溢出没有按预期工作删除transition有效但如果可能的话我想保留它任何帮助表示赞赏代码笔链接 http
通过 PHP 连接到 socket.io(nodejs)

我需要通过 php 连接到 websocket 发送数据并立即断开连接无需等待套接字的响应我用了大象io http elephant io 但更新库后不起作用请告诉我如何通过 PHP 连接到 websocket 我也遇到了这个问题学
使用 Mock 对 Laravel 5 Mail 进行单元测试

有没有办法在 Laravel 5 中测试 Mail 尝试了我在互联网上看到的唯一合法的模拟示例但它似乎只适用于 Laravel 4 下面的当前代码 mock Mockery mock Swift Mailer this gt app ma
为什么我的 PHP 脚本无法对其创建的文件进行 chmod？

我有一个 php 创建一个需要可执行的文件它是一个需要由系统运行的批处理文件由于某种原因即使该文件归 apache 所有并且 php 作为 apache 运行并且创建了该文件该脚本还是在 chmod 行处终止我需要进行哪些不同配
HTML代码可以像CSS文件一样附加到HTML页面吗？

HTML 代码可以像 CSS 文件一样附加到 HTML 页面吗这样如果所有页面中都复制了部分 HTML 代码我可以将其放在一个文件中然后轻松修改它谢谢 Ahmed 是的可以使用框架但不推荐 Example 此代码将允许您重用
优化数据可视化 Web 应用程序的性能

我正在重写 3 年前编写的数据可视化网络工具从那时起浏览器的 JavaScript 引擎变得更快所以我正在考虑将部分工作从服务器转移到客户端在页面上数据在表格和地图或图表中可视化它使用相同的数据但以不同的方式因此准备显示
使用画布元素作为文本区域

我正在寻找有关如何使用类似于文本区域的画布元素的直接描述我见过这样的项目Ace http ace ajax org 只是想知道如何像文本区域一样写入该区域只是纯文本没有什么花哨的提前致谢 Ace 曾经是 Mozilla Skywri
在 HTML5 中使用 JS 创建内联 SVG

我正在使用本地 HTML5 文件它有在顶部我在里面放了这样的东西
AFNetworking 上传图片

我看过一些例子但我认为我的问题可能出在 PHP 中我正在尝试使用 AFNetworking 将图像从 iPhone 上传到服务器这是我的 obj c 代码 IBAction uploadButtonClicked id sender
(CSS) 倾斜 img 框架而不扭曲图像

我正在制作一个包含许多倾斜元素的网站如下所示这还不错 CSS 转换可能会扭曲它但是这个怎么样图像没有扭曲只是框架以倾斜的方式裁剪最简单最好的方法是什么 I think this http codepen io antiblan
退出 PHP 脚本后终止或停止 MySQL 查询

我在工作中运行一个统计服务器由于运行的查询量很大该服务器有时会变得非常慢我们的营销团队使用它作为主要统计工具团队中的某些人有时会在脚本结束之前退出脚本通过关闭浏览器或选项卡同时 SQL 查询继续执行当有人关闭或离开 PHP 脚
Oracle Blob 在 PHP 页面中作为 img src

我有一个网站当前使用文件服务器上的图像这些图像显示在页面上用户可以根据需要拖放每个图像这是使用 jQuery 完成的图像包含在列表中每张图片都非常标准 img src network path image png height 8
C++ php 和静态库

我创建了一个library a 其中包含 cpp 和 h 文件其中包含很多类嵌套类和方法我想在 php 示例中包含这个静态库并尝试使用它我想提一下我是 php 新手我已经在 test cpp 文件中测试了我的 libray a
将二进制数据从 C# 上传到 PHP

我想将文件从 Windows C 应用程序上传到运行 PHP 的 Web 服务器我知道 WebClient UploadFile 方法但我希望能够分块上传文件以便我可以监控进度并能够暂停恢复因此我正在读取文件的一部分并使用 We
shell_exec 的输出被截断为 100 个字符

当在 shell 中运行以下命令时 curl F file filename http 192 168 0 1 产生以下输出 Accuracy 0 0 1 classification Accuracy 0 0 1 classificati
清理 html 字符串中的所有脚本

HTML5 剪贴板很棒但我正在寻找一种使其安全的方法用户正在将文本 html 粘贴到我的网页中这允许他们粘贴图像表格等我正在寻找一种方法在将粘贴的内容添加到页面之前删除所有脚本我需要删除
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
阻止通过 GET 传递“提交”按钮值？

我正在尝试通过 GET 传递表单信息这很重要这样人们就可以将表单选择中过滤后的数据发送给其他人问题是使用下面的代码它不仅传递过滤器信息还传递提交表单值如下所示 index php month filter Feb year f
使用 div 或表格来包含链接列更好吗？

我的页面底部有 3 列链接每列都放入一个 div 中所有三个 div 都包装在页面中央的一个大 div 中这是更适合桌子的东西还是桌子不适合这项工作您还可以使用 ul http www w3schools com tags tag

随机推荐

ASP MVC Less 文件给出：调用目标已引发异常

我有一个简单的 asp net mvc 4 站点使用较少的文件当我在本地电脑上运行它时它工作正常但是当我将其发布到服务器时我收到以下错误 During the output text content of processed as
更改 iframe 上的鼠标光标

我想将鼠标光标从手动状态取消为默认状态其中出现白色箭头我有一个简单的 iframe 但我认为 iframe 内有一个链接导致光标更改为指针手我该如何更改该行为这不起作用 iframe cursor default 如果您可以访问
R 防止饼图中重叠

我的数据是这样的 VariantClass PASS ONTARGET Silent 50 30 Missense 47 00 Nonsense 0 74 Startloss 0 26 Stoploss 0 74 Frameshift in
如何在 Python 中使用 LXML 捕获 XML 文件的所有元素名称？

我能够使用 lxml 来完成我想做的大部分事情尽管浏览令人困惑的示例和教程很困难简而言之我能够读取外部 xml 文件并通过 lxml 将其导入正确的树状格式为了证明这一点如果我输入 print etree tostring myX
Mongoose 连接两个集合并仅从连接的集合中获取特定字段

我在加入猫鼬中的两个集合时遇到问题我有两个集合即学生和考试学生模型 fullname type String required true email type String required true 考试模式 test type
我应该如何在 HTML 中表达 15/16 之类的分数？

我知道有 1 2 1 4 和 3 4 的 HTML 实体但是还有其他实体吗比如 1 3 还是 1 8 有没有一种好方法来编码任意分数 how about 15 16
data.table 按引用赋值`:=` 的标准形式和函数形式的不同结果

标准中的 data tabel 通过引用赋值与函数形式之间似乎存在细微差别标准形式将 RHS 强制为向量而函数形式则不然一个细节但我认为没有记录 library data table dt lt data table a c a
将 int 转换为字节数组时的 C++ 字节顺序

鉴于我的平台是小端字节序我假设四字节整数值 1 将表示为0x00 0x00 0x00 0x01当表示为字节数组时这样有人可以向我解释为什么以下断言失败 int val 1 auto bytes reinterpret cast
如何将android中捕获的图像保存到php？

我们已经在 android 和 php 上尝试过这个代码请看下面的代码 Android Scn setOnClickListener new OnClickListener Override public void onClick Vie
带有对数刻度的更好的刻度和刻度标签

我正在尝试获得更好看的双对数图除了一个小问题之外我几乎得到了我想要的我的示例偏离标准设置的原因是 x 值限制在不到十年的范围内并且我想使用十进制而不是科学记数法请允许我用一个例子来说明 import matplotlib pyp
页面上的多个 ShareThis 实现

我有一个包含不同定价计划的页面我希望每个计划列都有自己的 ShareThis 信息以下是仅适用于电子邮件的标记我也有 Facebook 和 Twitter span class st email span span class st
如何用java读取/写入ID3v2标签？

我希望能够从 mp3 文件中读取 ID3v2 标签我找到了多个框架可以让我获得基本标签但我希望能够让这些人list https picard musicbrainz org docs mappings 我不关心与 IDv1 的向后兼容
计算两次之间有多少分钟

我的应用程序中有一个 datagridview 它保存开始和结束时间我想计算这两个时间之间的分钟数到目前为止我已经得到 var varFinish tsTable Rows intCellRow Finish Time TimeSpan
不支持 Html 目标属性

我刚刚在 w3Schools 上查看了 target 发现任何主要浏览器都不再支持它简单的谷歌搜索没有揭示出这个原因我应该避免同时使用目标吗 target属性is所有浏览器都支持它已从 HTML4 Strict 和 XHTML 1 S
将图像转换为 Base64 字符串的应用程序在有头模式和无头模式下运行时会在浏览器控制台上显示不同的结果。有谁知道为什么？

我正在使用 Playwright 为 Node js 应用程序编写自动化测试该应用程序有一个测试网页其中有一个按钮允许手动选择图像然后该图像将被处理并转换为 Base64 字符串该字符串将记录在浏览器的控制台上以进行验证我正在编
函数中 var 加 10 后变为 NaN

var post 10 function load more str var xmlhttp new XMLHttpRequest xmlhttp onreadystatechange function if xmlhttp readySt
用于 HTTP 压缩的 GZip 或 Deflate

哪种压缩方法更好我听说过很多关于 GZip 被更广泛使用的说法但 Deflate 更快在某些情况下是否有公认的标准来使用哪个标准以及为什么 UPDATE 根据链接问题的最新更新应该使用 GZip 看http www vervest
PHP Curl 缓慢

由于某种原因我的卷曲调用非常慢这是我使用的代码 postData test ch curl init curl setopt ch CURLOPT URL url curl setopt ch CURLOPT POST true cur
为什么 Rails 中需要 attr_accessor？

我偶尔会在模型代码中看到属性访问器读取器编写器如果我希望能够从视图控制器代码更新属性这些是必要的吗我是一个初学者所以我真正谈论的是基本应用程序 attr accessor是 Ruby 的核心功能用于通过 getter 和 s
在 PHP 中从 HTML 中提取所有文本和 img 标签。 [复制]

这个问题在这里已经有答案了可能的重复使用 PHP 解析 HTML 的最佳方法 https stackoverflow com questions 3577641 best methods to parse html with php 对

在 PHP 中从 HTML 中提取所有文本和 img 标签。 [复制]

在 PHP 中从 HTML 中提取所有文本和 img 标签。 [复制] 的相关文章

随机推荐

热门标签