在 PHP 中从 HTML 中提取所有文本和 img 标签。 [复制]

2024-04-24

可能的重复:
使用 PHP 解析 HTML 的最佳方法 https://stackoverflow.com/questions/3577641/best-methods-to-parse-html-with-php

对于一个项目,我需要获取一个 HTML 页面并从中提取所有文本和 img 标签,并保持它们在网页中出现的顺序。

例如,如果网页是:

<p>Hi</p>
<a href ="test.com" alt="a link"> text link</a>
<img src="test.png" />
<a href ="test.com"><img src="test2.png" /></a>

我想用这种格式检索该信息:

text - Hi
Link1 - <a href ="test.com">text link</a>  notice without alt or other tag
Img1 - test.png  
Link2 - <a href ="test.com"><img src="test2.png" /></a>  again no tag

有没有办法在 PHP 中做到这一点?


有没有办法在 php 中做到这一点?

是的,您可以先剥离所有您不感兴趣的标签,然后使用DOMDocument http://php.net/DOMDocument删除所有不需要的属性。最后需要重新运行strip_tags http://php.net/strip_tags删除添加的标签DomDocument:

$allowed_tags = '<a><img>';
$allowed_attributes = array('href', 'src');

$html = strip_tags($html, $allowed_tags);
$dom = new DOMDocument();

$dom->loadHTML($html);

foreach($dom->getElementsByTagName('*') as $node)
{
    foreach($node->attributes as $attribute)
    {
        if (in_array($attribute->name, $allowed_attributes)) continue;
        $node->removeAttributeNode($attribute);
    }
}

$html = $dom->saveHTML($dom->getElementsByTagname('body')->item(0));
$html = strip_tags($html, $allowed_tags);

Demo http://codepad.viper-7.com/1Ro4z1

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

在 PHP 中从 HTML 中提取所有文本和 img 标签。 [复制] 的相关文章

  • 这是依赖注入吗?这是一种不好的做法吗?

    我有一个小框架 我是这样编码的 我不确定这是否称为依赖注入 我不知道它是否像设计模式 我也不知道并且想知道是否通过 this因为 param 是一种不好的做法 看看这个 不是一个有效的示例 只是将这些代码写入浏览器中以供解释 This is
  • 使用过渡+不透明度更改+溢出隐藏时出现问题

    如果您看到我共享的代码示例 您可以看到覆盖层超出了框的范围 我将问题追溯到transition属性 我想删除div之外的内容 溢出没有按预期工作 删除transition有效 但如果可能的话我想保留它 任何帮助表示赞赏 代码笔链接 http
  • 通过 PHP 连接到 socket.io(nodejs)

    我需要通过 php 连接到 websocket 发送数据并立即断开连接 无需等待套接字的响应 我用了大象io http elephant io 但更新库后不起作用 请告诉我如何通过 PHP 连接到 websocket 我也遇到了这个问题 学
  • 使用 Mock 对 Laravel 5 Mail 进行单元测试

    有没有办法在 Laravel 5 中测试 Mail 尝试了我在互联网上看到的唯一合法的模拟示例 但它似乎只适用于 Laravel 4 下面的当前代码 mock Mockery mock Swift Mailer this gt app ma
  • 为什么我的 PHP 脚本无法对其创建的文件进行 chmod?

    我有一个 php 创建一个需要可执行的文件 它是一个需要由系统运行的批处理文件 由于某种原因 即使该文件归 apache 所有并且 php 作为 apache 运行 并且创建了该文件 该脚本还是在 chmod 行处终止 我需要进行哪些不同配
  • HTML代码可以像CSS文件一样附加到HTML页面吗?

    HTML 代码可以像 CSS 文件一样附加到 HTML 页面吗 这样 如果所有页面中都复制了部分 HTML 代码 我可以将其放在一个文件中 然后轻松修改它 谢谢 Ahmed 是的 可以 使用框架 但不推荐 Example 此代码将允许您重用
  • 优化数据可视化 Web 应用程序的性能

    我正在重写 3 年前编写的数据可视化网络工具 从那时起 浏览器的 JavaScript 引擎变得更快 所以我正在考虑将部分工作从服务器转移到客户端 在页面上 数据在表格和地图 或图表 中可视化 它使用相同的数据 但以不同的方式 因此准备显示
  • 使用画布元素作为文本区域

    我正在寻找有关如何使用类似于文本区域的画布元素的直接描述 我见过这样的项目Ace http ace ajax org 只是想知道如何像文本区域一样写入该区域 只是纯文本 没有什么花哨的 提前致谢 Ace 曾经是 Mozilla Skywri
  • 在 HTML5 中使用 JS 创建内联 SVG

    我正在使用本地 HTML5 文件 它有在顶部 我在里面放了这样的东西
  • AFNetworking 上传图片

    我看过一些例子 但我认为我的问题可能出在 PHP 中 我正在尝试使用 AFNetworking 将图像从 iPhone 上传到服务器 这是我的 obj c 代码 IBAction uploadButtonClicked id sender
  • (CSS) 倾斜 img 框架而不扭曲图像

    我正在制作一个包含许多倾斜元素的网站 如下所示 这还不错 CSS 转换可能会扭曲它 但是这个怎么样 图像没有扭曲 只是框架以倾斜的方式裁剪 最简单 最好的方法是什么 I think this http codepen io antiblan
  • 退出 PHP 脚本后终止或停止 MySQL 查询

    我在工作中运行一个统计服务器 由于运行的查询量很大 该服务器有时会变得非常慢 我们的营销团队使用它作为主要统计工具 团队中的某些人有时会在脚本结束之前退出脚本 通过关闭浏览器或选项卡 同时 SQL 查询继续执行 当有人关闭或离开 PHP 脚
  • Oracle Blob 在 PHP 页面中作为 img src

    我有一个网站当前使用文件服务器上的图像 这些图像显示在页面上 用户可以根据需要拖放每个图像 这是使用 jQuery 完成的 图像包含在列表中 每张图片都非常标准 img src network path image png height 8
  • C++ php 和静态库

    我创建了一个library a 其中包含 cpp 和 h 文件 其中包含很多类 嵌套类和方法 我想在 php 示例中包含这个静态库并尝试使用它 我想提一下 我是 php 新手 我已经在 test cpp 文件中测试了我的 libray a
  • 将二进制数据从 C# 上传到 PHP

    我想将文件从 Windows C 应用程序上传到运行 PHP 的 Web 服务器 我知道 WebClient UploadFile 方法 但我希望能够分块上传文件 以便我可以监控进度并能够暂停 恢复 因此 我正在读取文件的一部分并使用 We
  • shell_exec 的输出被截断为 100 个字符

    当在 shell 中运行以下命令时 curl F file filename http 192 168 0 1 产生以下输出 Accuracy 0 0 1 classification Accuracy 0 0 1 classificati
  • 清理 html 字符串中的所有脚本

    HTML5 剪贴板很棒 但我正在寻找一种使其安全的方法 用户正在将文本 html 粘贴到我的网页中 这允许他们粘贴图像 表格等 我正在寻找一种方法 在将粘贴的内容添加到页面之前删除所有脚本 我需要删除
  • 在Python中连续解析文件

    我正在编写一个脚本 该脚本使用 HTTP 流量行解析文件 并取出域 目前仅将它们打印到屏幕上 我正在使用 httpry 将流量连续写入文件 这是我用来删除域名的脚本 usr bin python import re input open r
  • 阻止通过 GET 传递“提交”按钮值?

    我正在尝试通过 GET 传递表单信息 这很重要 这样人们就可以将表单选择中过滤后的数据发送给其他人 问题是 使用下面的代码 它不仅传递过滤器信息 还传递提交表单值 如下所示 index php month filter Feb year f
  • 使用 div 或表格来包含链接列更好吗?

    我的页面底部有 3 列链接 每列都放入一个 div 中 所有三个 div 都包装在页面中央的一个大 div 中 这是更适合桌子的东西还是桌子不适合这项工作 您还可以使用 ul http www w3schools com tags tag

随机推荐

  • ASP MVC Less 文件给出: 调用目标已引发异常

    我有一个简单的 asp net mvc 4 站点 使用较少的文件 当我在本地电脑上运行它时 它工作正常 但是当我将其发布到服务器时 我收到以下错误 During the output text content of processed as
  • 更改 iframe 上的鼠标光标

    我想将鼠标光标从手动状态取消为默认状态 其中出现白色箭头 我有一个简单的 iframe 但我认为 iframe 内有一个链接导致光标更改为指针 手 我该如何更改该行为 这不起作用 iframe cursor default 如果您可以访问
  • R 防止饼图中重叠

    我的数据是这样的 VariantClass PASS ONTARGET Silent 50 30 Missense 47 00 Nonsense 0 74 Startloss 0 26 Stoploss 0 74 Frameshift in
  • 如何在 Python 中使用 LXML 捕获 XML 文件的所有元素名称?

    我能够使用 lxml 来完成我想做的大部分事情 尽管浏览令人困惑的示例和教程很困难 简而言之 我能够读取外部 xml 文件并通过 lxml 将其导入正确的树状格式 为了证明这一点 如果我输入 print etree tostring myX
  • Mongoose 连接两个集合并仅从连接的集合中获取特定字段

    我在加入猫鼬中的两个集合时遇到问题 我有两个集合 即 学生和考试 学生模型 fullname type String required true email type String required true 考试模式 test type
  • 我应该如何在 HTML 中表达 15/16 之类的分数?

    我知道有 1 2 1 4 和 3 4 的 HTML 实体 但是还有其他实体吗 比如 1 3 还是 1 8 有没有一种好方法来编码任意分数 how about 15 16
  • data.table 按引用赋值`:=` 的标准形式和函数形式的不同结果

    标准中的 data tabel 通过引用 赋值与函数形式之间似乎存在细微差别 标准形式将 RHS 强制为向量 而函数形式则不然 一个细节 但我认为没有记录 library data table dt lt data table a c a
  • 将 int 转换为字节数组时的 C++ 字节顺序

    鉴于我的平台是小端字节序 我假设四字节整数值 1 将表示为0x00 0x00 0x00 0x01当表示为字节数组时 这样 有人可以向我解释为什么以下断言失败 int val 1 auto bytes reinterpret cast
  • 如何将android中捕获的图像保存到php?

    我们已经在 android 和 php 上尝试过这个代码 请看下面的代码 Android Scn setOnClickListener new OnClickListener Override public void onClick Vie
  • 带有对数刻度的更好的刻度和刻度标签

    我正在尝试获得更好看的双对数图 除了一个小问题之外 我几乎得到了我想要的 我的示例偏离标准设置的原因是 x 值限制在不到十年的范围内 并且我想使用十进制 而不是科学记数法 请允许我用一个例子来说明 import matplotlib pyp
  • 页面上的多个 ShareThis 实现

    我有一个包含不同定价计划的页面 我希望每个计划列都有自己的 ShareThis 信息 以下是仅适用于电子邮件的标记 我也有 Facebook 和 Twitter span class st email span span class st
  • 如何用java读取/写入ID3v2标签?

    我希望能够从 mp3 文件中读取 ID3v2 标签 我找到了多个框架 可以让我获得基本标签 但我希望能够让这些人list https picard musicbrainz org docs mappings 我不关心与 IDv1 的向后兼容
  • 计算两次之间有多少分钟

    我的应用程序中有一个 datagridview 它保存开始和结束时间 我想计算这两个时间之间的分钟数 到目前为止我已经得到 var varFinish tsTable Rows intCellRow Finish Time TimeSpan
  • 不支持 Html 目标属性

    我刚刚在 w3Schools 上查看了 target 发现任何主要浏览器都不再支持它 简单的谷歌搜索没有揭示出这个原因 我应该避免同时使用目标吗 target属性is所有浏览器都支持 它已从 HTML4 Strict 和 XHTML 1 S
  • 将图像转换为 Base64 字符串的应用程序在有头模式和无头模式下运行时会在浏览器控制台上显示不同的结果。有谁知道为什么?

    我正在使用 Playwright 为 Node js 应用程序编写自动化测试 该应用程序有一个测试网页 其中有一个按钮 允许手动选择图像 然后该图像将被处理并转换为 Base64 字符串 该字符串将记录在浏览器的控制台上以进行验证 我正在编
  • 函数中 var 加 10 后变为 NaN

    var post 10 function load more str var xmlhttp new XMLHttpRequest xmlhttp onreadystatechange function if xmlhttp readySt
  • 用于 HTTP 压缩的 GZip 或 Deflate

    哪种压缩方法更好 我听说过很多关于 GZip 被更广泛使用的说法 但 Deflate 更快 在某些情况下 是否有公认的标准来使用哪个标准以及为什么 UPDATE 根据链接问题的最新更新 应该使用 GZip 看http www vervest
  • PHP Curl 缓慢

    由于某种原因 我的卷曲调用非常慢 这是我使用的代码 postData test ch curl init curl setopt ch CURLOPT URL url curl setopt ch CURLOPT POST true cur
  • 为什么 Rails 中需要 attr_accessor?

    我偶尔会在模型代码中看到属性访问器 读取器 编写器 如果我希望能够从视图 控制器代码更新属性 这些是必要的吗 我是一个初学者 所以我真正谈论的是基本应用程序 attr accessor是 Ruby 的核心功能 用于通过 getter 和 s
  • 在 PHP 中从 HTML 中提取所有文本和 img 标签。 [复制]

    这个问题在这里已经有答案了 可能的重复 使用 PHP 解析 HTML 的最佳方法 https stackoverflow com questions 3577641 best methods to parse html with php 对