Bash - HTML 内容的正则表达式

2024-03-03

我正在学习 Bash 脚本，并且需要一些帮助来理解正则表达式。

我有一个基本上是网页 html 的变量（使用 wget 导出）：

currentURL = "https://www.example.com"
currentPage=$(wget -q -O - $currentURL)

我想获取此页面中所有链接照片的 ID。我只需要帮助弄清楚正则表达式应该是什么。

我从这个开始 https://unix.stackexchange.com/a/167656，但我需要修改正则表达式：

测试字符串（这就是currentURL包含，可以有零到多个这样的实例）：

<a href="./download/file.php?id=123456&mode=view"><img src="./download/file.php?id=123456&t=1"></a>

当前正则表达式：

.\/download\/file.php\?id=[0-9]{6}\&mode=view

这是我创建的正则表达式 https://regex101.com/r/yE3tO8/105，但它似乎在 bash 中不起作用。

最好的解决方案是拥有每个文件的 ID。在这种情况下，只需123456。但如果我们能从获得/download/file.php?id=123456，这将是一个好的开始。

不要使用正则表达式解析 XML/HTML，而应使用正确的 XML/HTML 解析器。

theory :

根据编译理论，HTML 无法使用基于的正则表达式进行解析有限状态机 http://en.wikipedia.org/wiki/Finite-state_machine。由于 HTML 的层次结构，您需要使用下推自动机 http://en.wikipedia.org/wiki/Pushdown_automaton并操纵LALR http://en.wikipedia.org/wiki/LR_parser使用类似工具的语法YACC http://en.wikipedia.org/wiki/Yacc.

realLife©®™ 日常工具shell /questions/tagged/shell :

您可以使用以下其中一项：

xmllint http://xmlsoft.org/xmllint.html通常默认安装 libxml2、xpath1

xmlstarlet http://xmlstar.sourceforge.net/docs.php可以编辑、选择、转换...默认不安装，xpath1

xpath https://metacpan.org/pod/XML::XPath通过 perl 的模块 XML::XPath, xpath1 安装

xidel http://videlibri.sourceforge.net/xidel.html xpath3

撒克逊林特 https://github.com/sputnick-dev/saxon-lint我自己的项目，@Michael Kay 的 Saxon-HE Java 库 xpath3 的包装

或者您可以使用高级语言和适当的库，我认为：

python /questions/tagged/python's lxml http://lxml.de/ (from lxml import etree)

perl /questions/tagged/perl's XML::LibXML https://metacpan.org/pod/distribution/XML-LibXML/LibXML.pod, XML::XPath https://metacpan.org/pod/XML::XPath, XML::Twig::XPath https://metacpan.org/pod/XML::Twig, HTML::TreeBuilder::XPath https://metacpan.org/pod/HTML::TreeBuilder::XPath

php /questions/tagged/php's DOMXpath https://sputnick.fr/scripts/parsing-HTML-with-DOMXpath.php.html

Check: 将正则表达式与 HTML 标签一起使用 https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags

使用示例xidel /questions/tagged/xidel:

xidel -s "$currentURL" -e '//a/extract(@href,"id=(\d+)",1)'

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

regex

bash