使用 RegEx 可靠地解析 HTML 元素 [重复]

2024-01-16

可能的重复：
使用 PHP 解析 HTML 的最佳方法 https://stackoverflow.com/questions/3577641/best-methods-to-parse-html-with-php

我正在尝试使用正则表达式解析网页，但在使其以可靠的方式工作时遇到了一些麻烦。

假设我想解析创建 div 元素的代码，并且我想提取之间的所有内容<div> and </div>。现在，这段代码could只是<div></div>，但它也很可能是这样的：

<div class="thisIsMyDivClass"><p>This text is inside the div</p></div>

如何确保无论初始 div 标签和相应的最后一个 div 标签的大于/小于符号之间有多少个字符，我都会始终only获取中间的内容them？如果我指定后面的字符数<可以是从一到一万的任何东西，我将始终提取>一万个字符之后，因此（很可能，除非中间有很多代码或文本）检索一堆我不需要的代码。

这是我到目前为止的代码（由于上述原因不可靠）：

/<.{1,10000}>/

正则表达式描述了所谓的正则语言 - 或类型 3乔姆斯基层次结构 http://en.wikipedia.org/wiki/Chomsky_hierarchy。另一方面HTML 是一种上下文无关的语言 https://stackoverflow.com/questions/5175840/is-html-a-context-free-language这是乔姆斯基层次结构中的类型 2。所以：一般来说，没有办法用正则表达式可靠地解析 HTML。请改用 HTML 解析器。对于 PHP，您可以在这个问题中找到一些建议：如何在 PHP 中解析和处理 HTML/XML？ https://stackoverflow.com/questions/3577641/best-methods-to-parse-html-with-php

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 RegEx 可靠地解析 HTML 元素 [重复] 的相关文章

PHP：如何获取
中的名称值

有没有办法获取form标签中name属性的值我正在使用 PHP 但在中没有看到它 POST 有没有办法获取form标签中name属性的值我正在使用 PHP 但在 POST 中没有看到它不表单的名称属性永远不会设置为作为 POST
php_zip 在 php 5.3.5 中不存在

我正在使用 PHPExcel 要求之一是我需要启用 php zip 如果您需要 PHPExcel 来处理 xlsx 或 ods 文件您将需要邮政编码扩展名我正在使用 PHP v5 3 5 并在我的php ini文件中我有以下几行 e
PHP shell_exec 使用 ssh 运行 shell 脚本

我有一个 shell 脚本使用 ssh 和密钥连接到另一台机器因此它不需要用户名和密码当我从命令行运行这个脚本时它工作正常但是当我从 php shell exec 运行这个脚本时它不起作用如果我与 PHP 建立 ssh 连接并
递归替换多维数组中特定键每次出现的值

我有一个数组其数组深度可能会有所不同例如 array one gt array array something gt value array something2 gt value2 another gt anothervalue tw
\r 和 \n 在 PHP（和其他语言）中意味着什么？

这些叫什么 r n 有解释它们的教程吗它们分别是回车和换行通常在 Windows 上您需要将两者一起表示行终止符 r n 而在大多数全部 Unix 系统上 n 就足够了 See the 维基百科换行条目 http en wik
PHP preg_match_all 100 MB 文件

我读到 preg match all 不是为解析大文件而设计的但我需要这样做我增加了 pcre backtrack limit 1000000000 pcre recursion limit 1000000000 我的 PHP memo
自动安排并执行 PHP 脚本

我编写了一个 PHP 脚本它生成一个包含数据库中所有表的 SQL 文件我想要做的是每天或每 n 天执行这个脚本我读过有关 cron 作业的内容但我使用的是 Windows 如何在服务器上自动执行脚本您需要添加计划任务来调用 URL
有效地查找正则表达式的所有重叠匹配项

这是后续与 java 正则表达式匹配的所有重叠子字符串 https stackoverflow com q 11303309 244526 有没有办法让这段代码更快 public static void allMatches String
定义我自己的 BASE_PATH 与 set_include_path？

我了解了函数set include path 一直以来我在config php文件中定义了一个常量 define BASE PATH var www mywebsite public html 在所有后续的 php 文件中我会像这样包含
document.registerElement - 为什么我们需要指定“prototype”和“extends”？

考虑我想扩展本地button元素并创建我自己的super button元素据我所知它必须遵循以下模式 var SuperButton document registerElement super button prototype Ob
Woocommerce 预订中每人和每件商品的动态结账自定义字段

对于预订网站我正在尝试创建一个功能可以根据人数添加与会者列表感谢 LoicTheAztec 我已经获得了单次预订的代码那部分工作正常我还需要相同的功能来进行多次预订我怎样才能实现这个目标这是代码 Add a new check
PHP根据给定索引的匹配值合并数组[重复]

这个问题在这里已经有答案了我有两个这样的数组 Array1 Array 0 gt Array ID gt 101 Code gt 1075 Date gt 2012 03 03 17 13 12 433 1 gt Array ID gt
C# 正则表达式模式从给定字符串中提取 url - 不是完整的 html url，而是裸链接

我需要一个正则表达式来执行以下操作 Extract all strings which starts with http Extract all strings which starts with www 所以我需要提取这2个例如下面有
如何像在浏览器中一样检索准确的 HTML

我正在使用 Python 脚本来呈现网页并检索其 HTML 它适用于大多数页面但对于其中一些页面检索到的 HTML 不完整我不太明白为什么这是我用来废弃此页面的脚本由于某种原因每个产品的链接不在 HTML 中 Link http
从 python 中的缩进文本文件创建树/深度嵌套字典

基本上我想迭代一个文件并将每行的内容放入一个深层嵌套的字典中其结构由每行开头的空格数量定义本质上目标是采取这样的事情 a b c d e 并将其变成这样的东西 a b c d e Or this apple colours red
如何使用 php 创建谷歌双因素身份验证？

我想在我的 PHP 项目中使用 Google 2FA 用户登录时需要输入6位2fa代码您可以画出一些关于该朝哪个方向走的提示吗步骤 1 创建长度为 16 个字符的唯一密码 PHPGangsta 为 Google Authenticato
PHP Soap Server：使用字符串（xml 字符串）而不是 WSDL 文件（指向它的 url）实例化

Soap Server的PHP页面我见过 http www php net manual en soapserver soapserver php http www php net manual en soapserver soapser
Mysqli 准备好的语句从数组动态构建 INSERT 查询

我正在尝试用 PHP 而不是 OOP 开发我的函数以创建 CRUD 目标是对任何表使用相同的函数但我已经陷入了第一个表中不知道该怎么做我现在拥有的 function to avoid injections function vali
是否需要使用fetch_object或fetch_array？

我最近发现我可以打印数据库中的结果而不使用mysqli fetch object功能例如假设我们有一个简单的 sql select 语句可以使用如下所示的语句来执行 conn mysqli connect localhost root
使用命令行将 MediaWiki 维基文本格式转换为 HTML

我倾向于编写大量文档因此 MediaWiki 格式对我来说很容易理解而且比编写传统 HTML 节省了我很多时间然而我也写了一篇博客发现一直从键盘切换到鼠标来输入正确的 HTML 标签会增加很多时间我希望能够使用 Mediawik

随机推荐

Android从不接收UDP数据包

下面的代码会导致超时它在非 Android Java 上运行良好怎么了 Override public static void run System out println Local Machine IP addrStr toStri
保留商品上的元数据，并在结帐完成时检索

我试图在将某个项目添加到购物车时对其设置元数据在每个页面重新加载时保留它并在结账成功时检索元数据以传递到单独的 API 下面的代码是成功的因为它在页面重新加载后回显元数据因此我认为这是成功的 add action woocommer
无法复制文件，即使在 C# 中授予了 FileIOPermission

我正在尝试FileIOPermission在 Windows 7 中的 NET 3 5 中我是 Windows XP 用户并且因为我是管理员而被授予此权限我写了下面的代码测试一下是否可以写入C Program Files Outlo
标签中的最大字符数（表名、列等）

希望这个问题之前没有被问过有谁知道域名的字符数限制吗例如如果我这样写 CREATE DOMAIN d complement activite etablissement AS character varying 它将创建一个名为的域
更改 MongoDB 中现有用户的密码

我有一个生产环境我的 mongoDB 已启动并正在运行 DBA 要求我们更改用于身份验证的密码执行此操作的一种方法是使用新密码再次运行 addUser 命令如中所述更改密码 http learnmongo com posts quic
如何将自定义序列化器与 Jackson 一起使用？

我有两个 Java 类我想使用 Jackson 将它们序列化为 JSON public class User public final int id public final String name public User int id
使用声明性服务的 OSGi+Pax-Web 中的 GWT 问题

我正在迁移在 OSGi Equinox 和 Pax web 上运行的现有 GWT 应用程序以使用声明式服务而不是编程式服务跟踪器我在 Equinox 中使用 Pax Web PAX WEB War 扩展器可以毫无问题地加载基于 WAR
是否可以使用网络代理（例如 fiddler ）将网址重定向到另一个网址

我正在尝试解析另一个服务器中的 WSDL 文件但该文件在整个文档中都有硬编码的 localhost 当我获取它时显然程序抱怨连接被拒绝因为我的机器上没有运行任何东西我的问题是是否可以使用网络代理例如 fiddler 将这些 l
转到 JavaScript forEach 循环中的“下一个”迭代[重复]

这个问题在这里已经有答案了如何进入 JavaScript 的下一个迭代Array forEach loop 例如 var myArr 1 2 3 4 myArr forEach function elem if elem 3 Go to
调整 Axes3D 标签位置

我在 matplotlib 中的轴标签与刻度标签重叠时遇到问题我尝试通过应用转换或调用 set y 来手动重新定位标签但无济于事这是重现该问题的片段 import matplotlib matplotlib use TKAGG i
如何让C语言成为上下文无关的？

我知道C不是上下文无关语言一个著名的例子是 int foo typedef int foo foo x 在这种情况下词法分析器不知道是否foo第三行是一个标识符或者typedef 我的问题是这是唯一的原因吗 C a 上下文相关语言
ReportViewer 2010 无法计算表达式

我的项目是ASP Net WebForms 4 0框架使用ReportViewer 10 使用Local处理模式渲染本地RDLC报表我的问题是我的报告中的许多表达式都没有计算例如我在报告的页脚中有一个文本框其中包含简单的表达式 G
如何从列表理解中获取多个列表作为单独的结果？

假设我有这样的代码 def f x return 2 x x x x range 3 xlist ylist f value for value in x 我怎样才能巧妙地得到这样的结果 xlist 0 2 4 ylist 0 1 4 注意
如何使用 ant 将 jar 文件包含到 Ear 文件的 lib 文件夹中？

我有以下文件夹结构 project ear lib folder ProjectEJBClient jar META INF folder projectEJB jar My build xml包含以下行来创建 EAR 包
如何使用 Knockout 3.0 取消对可观察数组的更改？

我的数组发生了变化我正在使用 Sanderson 最新的数组订阅方法来捕获添加删除更改在此订阅中我打算捆绑并通过网络发送我的请求如果请求因任何原因失败我希望能够取消对集合的任何可能的更改我已经验证该订阅在更改传播之前就已生效
Silverlight DependencyProperty.SetCurrentValue 等效项

我正在寻找相当于 NET 4 的 SL4设置当前值 http msdn microsoft com en us library system windows dependencyobject setcurrentvalue aspxAPI
WiX - 在两个不同位置安装相同的文件

在我的安装程序中我有两个可选功能它们是同一软件版本 5 和 6 的插件他们将相同的文件相同的名称相同的二进制内容安装到应用程序的 plugins 文件夹中但我有以下错误 C Users FooBar Documents pro
如何将环境变量从 docker-compose 传递到 NodeJS 项目中？

我有一个 NodeJS 应用程序我想要调整其大小该应用程序由两部分组成服务器部分运行一个从数据库获取数据的 API 它在端口 3000 上运行客户端部分它从服务器部分调用 API 端点它运行在端口 8080 上这样我的客户
有没有办法为嵌套函数生成 pydoc？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在寻找一种为嵌套函数生成文档本例中为 pydoc 的方法这可以用 pydoc 实现吗用其他工
使用 RegEx 可靠地解析 HTML 元素 [重复]

这个问题在这里已经有答案了可能的重复使用 PHP 解析 HTML 的最佳方法 https stackoverflow com questions 3577641 best methods to parse html with php 我

使用 RegEx 可靠地解析 HTML 元素 [重复]

使用 RegEx 可靠地解析 HTML 元素 [重复] 的相关文章

随机推荐

热门标签