您能否提供一些示例来说明为什么使用正则表达式解析 XML 和 HTML 很困难？ [关闭]

2023-12-14

我看到人们犯的一个错误over and 再次正在尝试使用正则表达式解析 XML 或 HTML。以下是解析 XML 和 HTML 困难的一些原因：

人们希望将文件视为行序列，但这是有效的：

<tag
attr="5"
/>

人们希望将

<img src="imgtag.gif" alt="<img>" />

人们通常希望将起始标签与结束标签相匹配，但 XML 和 HTML 允许标签包含自身（传统正则表达式根本无法处理）：

<span id="outer"><span id="inner">foo</span></span>

人们经常希望与文档的内容进行匹配（例如著名的“查找给定页面上的所有电话号码”问题），但数据可能会被标记（即使在查看时看起来很正常）：

<span class="phonenum">(<span class="area code">703</span>)
<span class="prefix">348</span>-<span class="linenum">3020</span></span>

评论可能包含格式不正确或不完整的标签：

<a href="foo">foo</a>
<!-- FIXME:
    <a href="
-->
<a href="bar">bar</a>

您还知道哪些其他问题？

这里有一些有趣的有效 XML 供您参考：

<!DOCTYPE x [ <!ENTITY y "a]>b"> ]>
<x>
    <a b="&y;>" />
    <![CDATA[[a>b <a>b <a]]>
    <?x <a> <!-- <b> ?> c --> d
</x>

这个小小的快乐是有效的 HTML：

<!DOCTYPE html PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "http://www.w3.org/TR/html4/loose.dtd" [
    <!ENTITY % e "href='hello'">
    <!ENTITY e "<a %e;>">
]>
    <title>x</TITLE>
</head>
    <p id  =  a:b center>
    <span / hello </span>
    &amp<br left>
    <!---- >t<!---> < -->
    &e link </a>
</body>

更不用说所有特定于浏览器的无效构造解析。

祝你好运，让正则表达式与之对抗！

编辑（Jörg W Mittag）：这是另一个格式良好、有效的 HTML 4.01 的好片段：

<!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01//EN"
  "http://www.w3.org/TR/html4/strict.dtd"> 
<HTML/
  <HEAD/
    <TITLE/>/
    <P/>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

html

xml

regex

您能否提供一些示例来说明为什么使用正则表达式解析 XML 和 HTML 很困难？ [关闭] 的相关文章

可以设置选择元素的样式，以便在下拉列表“关闭”时显示所选选项的样式吗？

鉴于这个简单的 html
在 C++ 中使用 regex_iterator 的确切方法是什么？

我一直在寻找一种好方法来计算字符串中特定类型的子字符串的数量比如说我想计算字符串 smstyuismsms 中 sms 的出现次数我在论坛中找到了答案有人建议使用 regex iterator 但是当我尝试如下时 string i
与容器内的大量元素（DOM、javascript）快速交互

因此我在容器 div 内有大量的 div 4000 5000 每个包含跨度锚点图像等基本上我将它们的显示设置为无或根据条件阻止这确实需要一些时间在我更快地寻找东西时我遇到了这个页面https developers google
没有宽度/高度的 SVG 以自然尺寸渲染

我有这个 SVG 但没有width or height属性我有以下 HTML div class block img src https s3 eu vAmfIxVv kiwi svg div 使用以下CSS block display
哪些浏览器支持 HTML5 WebSocket API？

这个问题的答案是社区努力 help privileges edit community wiki 编辑现有答案以改进这篇文章目前不接受新的答案或互动我将开发一个在浏览器中运行的即时消息应用程序哪些浏览器支持WebSocket API
从 CSS 调用 javascript 函数

我想知道是否有可能以任何方式 button width somePX height somePX button hover onmouseup func button 或类似的东西我想这会有点酷吗而不是为每个按钮编写 onmouseup
使用 Javascript 增加 div 中的数字

我对 Javascript 很陌生所以我认为这是一个愚蠢的错误 function upvote var score parseInt document getElementById voteScore innerHTML score sc
如何使用溢出滚动设置 tbody 高度

我在设置 tbody 高度宽度溢出滚动时遇到问题 h3 Table B h3 table style border 1px solid red width 300px display block thead tr td Name td td
我无法自动播放 vimeo 视频（移动设备）

我试图autoplay包含在的视频iframe在移动设备上该应用程序运行良好但用户必须单击 iFrame 内的按钮才能播放视频我已经尝试使用 autoplay 1 中的参数iframe但它在移动设备上不起作用在桌面上也很好你能帮助
避免 Django 中表单输入元素 ID 重复

当一页上的两个表单具有相同名称的字段时 Django 将生成无效的 HTML
“mat-card” 不是 Angular 7 中的已知元素

我看到了很多关于此的问题但似乎与我遇到的问题不同我刚刚创建了我的第二个角度项目我下面有一个新组件src app employees我试图在employees component html 中使用我收到的错误是 Uncaught Er
powershell xml排序节点和替换子节点

我正在尝试使用 powershell 和 xml 做一些非常简单的事情但没有遇到任何麻烦基本上我试图采用以下 xml 并按名称对机器元素进行排序然后将它们放回到 XML 中以便我可以保存回文件中如果输出 new 对象排序似乎有效
打开一个新的浏览器窗口/iframe 并在 TEXTAREA 中从 HTML 创建新文档？

我正在尝试使用 HTML5 的新离线功能编写一个 Web 应用程序在此应用程序中我希望能够编辑一些 HTML 完整文档而不是片段
使用 jquery UI 调整大小的分屏 div

我心中有一个设计涉及 html 中的拆分面板视图类似于 winforms 拆分面板我一直在尝试jQuery UI 可调整大小 http jqueryui com demos resizable我喜欢这个功能我只是似乎无法协调两者的大
为什么“ab(cd|c)*d”完全匹配“abcdcdd”，但“ab(c|cd)*d”不匹配？尽管他们彼此相似

我尝试了这个正则表达式 ab cd c d in the regex101 and RegExr网站与此文本匹配完全地 abcdcdd 现在我们交换一下 cd and c 在正则表达式中 ab c cd d 当我在网站中尝试这个正则表达式
XML 模式不区分大小写的简单类型字符串枚举

我的 XML 架构 xsd 文件中需要不区分大小写的字符串枚举类型我可以通过执行以下操作来不区分大小写
匹配贪婪、非贪婪和介于两者之间的所有其他[重复]

这个问题在这里已经有答案了给定一个像这样的字符串 foo bar baz quux 把它想象成unixy系统上文件的路径我如何如果可能的话制定一个正则表达式为我提供所有可能包含文件的路径quux 换句话说在针对给定字符串运行正则
批量修改XML文件

好的所以我不太熟悉使用 For F 如果文件是静态的并且有一组可以跳过然后从中提取数据的行我可以修改它我目前正在尝试修改 XML 文件该文件将具有不同数量的行但始终具有以下内容
使用 NSXMLParser 在 Swift 中解析分层 XML

我确实在以我实际可以使用的形式获取分层 XML 值时遇到问题因此我们将不胜感激我对 Swift 和 IOS 开发还很陌生所以说实话我并不完全理解解析器但我希望在这之后我能理解下面是我尝试解析的示例 XML 它来自肥皂网络服务连接
将 SVG 元素放置在图像上

是否可以拥有以下元素并设置它们的样式以便 SVG 对象出现在图像上即像图像的一部分目前它们显示在其下方的新行中我知道我可以将图像设置为父 div 的背景图像但不幸的是我还需要能够在父级内旋转它所以我认为这不是一个选项 div s

随机推荐

在 Numba 优化的 Python 中将类对象作为函数参数传递

我想将一个类对象传递给一个函数我可以让它工作但我想知道是否有一种类型可以分配它我有一个最小的例子来说明我正在尝试做的事情 spec a float64 b float64 jitclass spec class SOMETHING
subprocess.Popen - 没有这样的文件或目录[重复]

这个问题在这里已经有答案了 Code import subprocess process subprocess Popen echo 5 Error Traceback most recent call last File test py
权限拒绝：无法附加文件，文件需要导出提供程序，或 grantUriPermission()，API 29

我一直在尝试从外部存储共享一张图像但它在 API 29 中不起作用错误消息是权限拒绝文件需要导出提供程序或 grantUriPermission 当我谷歌它时这似乎是旧版本的问题我不知道为什么 29 API 会出现这个问题我已
如何将 SharePoint 2013 Web 部件直接嵌入到 aspx 布局页面中作为该布局的默认 Web 部件

我正在使用 SharePoint 2013 并且有一个自定义母版页和几个 aspx 布局页面所有要部署的页面都被复制到站点设置中的母版页和页面布局部分这些 aspx 页面包含 Web 部件区域但如何在 Web 部件区域内的 a
输入文本字符数限制

我希望我的文本框只允许数字并且也有字符限制目前我的数字正在工作现在我在弄清楚如何限制字符方面遇到问题这是我所拥有的 JS app directive numbersonly function return restrict A l
有没有办法为 gnuplot 中的最后一个条目添加标签？

我想使用 gnuplot 进行实时绘图数据附加到我用于绘图的文件中并使用 replot 进行实时绘图我还想为绘制的最新条目添加标签从而了解最新的值是多少有没有办法做到这一点如果你在unixoid系统上你可以使用tail从文件中
对 sas 数据集进行分区以进行批处理的最快方法是什么？

我有一个大型 sas 数据集 1 5m obs 250 个变量我需要将其拆分为几个大小相等的较小 sas 数据集以进行批处理每个数据集需要包含所有变量但仅包含一部分观测值最快的方法是什么您可以执行以下操作 macro splitd
Google Play 游戏服务 + BaseGameUtils 添加到 Gradle 项目 = 包不存在

我已经阅读了有关此主题的许多答案但无法解决我的问题这里是我有一个 gradle 项目它是一个游戏在那个游戏中我想添加谷歌游戏服务就像我成功地使用 type a number 这不是一个 gradle 项目一样但我收到以下错误
执行模块和状态模块最大的区别是什么

最近我正在向它的文档学习 salt 但是我对执行模块和状态模块很困惑为什么有两种类型的模块为什么他们不能统一如果我们只有一种类型的模块可以在命令行和 sls 文件中使用不是更简单更好吗简而言之执行模块执行任务状态模块
在.net应用程序中拦截DateTime.Now

我们有一个使用当前日期使用 Datetime Now 来计算特定值的应用程序我们还需要能够根据不同的日期在服务器上运行这些计算不幸的是这两个明显的选择并不可行 a 虽然我们有应用程序的代码但由于政治因素以及其他环境也使用该服务的事
延迟（）在每个（）循环内没有按预期工作（jQuery）

我有一系列元素想要按顺序切换进出视图我正在使用一个
解析正则表达式 - （不够）

我用书籍创建了一个小型数据库并尝试使用 C 中的正则表达式获取书籍的标题作者和年份但发生了错误数据库看起来像这样 Eragon Christopher Paolini 2005 The Fellowship of the Ring
如何在保留当前工作目录并维护传递给脚本的所有参数的同时提升 Powershell？

function Test IsAdministrator Identity System Security Principal WindowsIdentity GetCurrent Principal New Object System
无法将 target.value 传递给状态钩子返回未定义 - React.js React

单击时我想将名称属性传递给状态挂钩但它返回未定义 const fav setFav useState useEffect gt dispatch fetchProfileAction user dispatch fetchReposAc
Mongo 在双重嵌套数组内更新

我有一个 mongo 集合看起来像这样 db users find pretty id ObjectId 57c3d5b3d364e624b4470dfb fullname tim username tim email email pro
在 Windows 中使用 rinside 和 qt

我开始在 C 中使用 rinside 和 rcpp 我只想从零开始所以我的 QT 项目除了创建 RInside 实例之外什么都没有但我有一个无法解决的问题我的项目中只有一个对话框我的项目文件 QT core gui TARGET r
在 Ionic 中创建并显示 pdf

我在用PDFMAKE创建一个base64编码的pdf 我尝试通过将编码的base64提供给iframe src来用Iframe显示它它可以在 PC 上运行但不能在移动设备 android 和 ios 上运行所以最后我偶然发现Angu
ST4中过滤掉空字符串

考虑以下示例 lt foo bar separator gt 这给出了结果 foo bar 但是我需要 foo bar 在 ST4 中使用分隔符进行格式化之前有什么方法可以过滤掉空字符串值吗在实际代码中值来自另一个模板该模板具有
Spring 和 Thymeleaf：从 th:each 表将对象发送到控制器

我正在使用以下方法制作经验数据表th each属性与百里香叶我的目标是在每一行都有一个提交按钮单击该按钮时会将一个体验对象发送到我的控制器该对象与我单击提交按钮的行相对应我不知道出了什么问题并且似乎无法在网上找到任何可以帮助解决此
您能否提供一些示例来说明为什么使用正则表达式解析 XML 和 HTML 很困难？ [关闭]

Closed 这个问题需要多问focused 目前不接受答案我看到人们犯的一个错误over and 再次正在尝试使用正则表达式解析 XML 或 HTML 以下是解析 XML 和 HTML 困难的一些原因人们希望将文件视为行序列但这是有

您能否提供一些示例来说明为什么使用正则表达式解析 XML 和 HTML 很困难？ [关闭]

您能否提供一些示例来说明为什么使用正则表达式解析 XML 和 HTML 很困难？ [关闭] 的相关文章

随机推荐

热门标签