Bash - HTML 内容的正则表达式

2024-03-03

我正在学习 Bash 脚本,并且需要一些帮助来理解正则表达式。

我有一个基本上是网页 html 的变量(使用 wget 导出):

currentURL = "https://www.example.com"
currentPage=$(wget -q -O - $currentURL)

我想获取此页面中所有链接照片的 ID。我只需要帮助弄清楚正则表达式应该是什么。

我从这个开始 https://unix.stackexchange.com/a/167656,但我需要修改正则表达式:

测试字符串(这就是currentURL包含,可以有零到多个这样的实例):

<a href="./download/file.php?id=123456&mode=view"><img src="./download/file.php?id=123456&t=1"></a>

当前正则表达式:

.\/download\/file.php\?id=[0-9]{6}\&mode=view

这是我创建的正则表达式 https://regex101.com/r/yE3tO8/105,但它似乎在 bash 中不起作用。

最好的解决方案是拥有每个文件的 ID。在这种情况下,只需123456。但如果我们能从获得/download/file.php?id=123456,这将是一个好的开始。


不要使用正则表达式解析 XML/HTML,而应使用正确的 XML/HTML 解析器。

theory :

根据编译理论,HTML 无法使用基于的正则表达式进行解析有限状态机 http://en.wikipedia.org/wiki/Finite-state_machine。由于 HTML 的层次结构,您需要使用下推自动机 http://en.wikipedia.org/wiki/Pushdown_automaton并操纵LALR http://en.wikipedia.org/wiki/LR_parser使用类似工具的语法YACC http://en.wikipedia.org/wiki/Yacc.

realLife©®™ 日常工具shell /questions/tagged/shell :

您可以使用以下其中一项:

xmllint http://xmlsoft.org/xmllint.html通常默认安装 libxml2、xpath1

xmlstarlet http://xmlstar.sourceforge.net/docs.php可以编辑、选择、转换...默认不安装,xpath1

xpath https://metacpan.org/pod/XML::XPath通过 perl 的模块 XML::XPath, xpath1 安装

xidel http://videlibri.sourceforge.net/xidel.html xpath3

撒克逊林特 https://github.com/sputnick-dev/saxon-lint我自己的项目,@Michael Kay 的 Saxon-HE Java 库 xpath3 的包装

或者您可以使用高级语言和适当的库,我认为:

python /questions/tagged/python's lxml http://lxml.de/ (from lxml import etree)

perl /questions/tagged/perl's XML::LibXML https://metacpan.org/pod/distribution/XML-LibXML/LibXML.pod, XML::XPath https://metacpan.org/pod/XML::XPath, XML::Twig::XPath https://metacpan.org/pod/XML::Twig, HTML::TreeBuilder::XPath https://metacpan.org/pod/HTML::TreeBuilder::XPath

php /questions/tagged/php's DOMXpath https://sputnick.fr/scripts/parsing-HTML-with-DOMXpath.php.html


Check: 将正则表达式与 HTML 标签一起使用 https://stackoverflow.com/questions/1732348/regex-match-open-tags-except-xhtml-self-contained-tags


使用示例xidel /questions/tagged/xidel:

xidel -s "$currentURL" -e '//a/extract(@href,"id=(\d+)",1)'
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Bash - HTML 内容的正则表达式 的相关文章

  • 将相对符号链接转换为绝对符号链接

    如何在 bash 中递归地将相对符号链接转换为绝对符号链接 ln sf readlink f link link
  • Word通配符搜索的正则表达式查找包含至少3个连续数字的括号

    在以下示例中 airspeed AS user 104A 104B device 101 vehicles 105A C 搜索应该找到 104A 104B 101 and 105A C 但不是 AS 我尝试使用 0 9 0 9 0 9 但这
  • 匹配模式后添加行[重复]

    这个问题在这里已经有答案了 我有一个文件说test具有以下值 Linux Solaris Fedora Ubuntu AIX HPUX 如何在匹配 AIX 的行后面添加一行系统主机名 如果我做 echo hostname gt gt tes
  • 与区域指示符字符类匹配的 python 正则表达式

    我在 Mac 上使用 python 2 7 10 表情符号中的标志由一对表示区域指示符号 https en wikipedia org wiki Regional Indicator Symbol 我想编写一个 python 正则表达式来在
  • 创建正则表达式匹配数组

    在Java中 我试图将所有正则表达式匹配返回到一个数组 但似乎您只能检查模式是否匹配某些内容 布尔值 如何使用正则表达式匹配来形成与给定字符串中的正则表达式匹配的所有字符串的数组 4城堡的回答 https stackoverflow com
  • 使用 find 命令搜索直到第一个匹配项

    我只需要搜索可以在任何地方的特定目录有没有办法运行此命令直到第一个匹配 谢谢 我现在使用 find noleaf name experiment type d wc l 正如鲁道夫 米尔鲍尔 Rudolf M hlbauer 所提到的 qu
  • 如何在 Linux shell 中将十六进制转换为 ASCII 字符?

    假设我有一个字符串5a 这是 ASCII 字母的十六进制表示Z 我需要找到一个 Linux shell 命令 它将接受一个十六进制字符串并输出该十六进制字符串代表的 ASCII 字符 所以如果我这样做 echo 5a command im
  • 为什么 re.findall 在查找字符串中的三元组项时不具体。 Python

    所以我有四行代码 seq ATGGAAGTTGGATGAAAGTGGAGGTAAAGAGAAGACGTTTGA OR 0 re findall r ATG 9 TAA TAG TGA seq 首先让我解释一下我正在尝试做什么 如果这令人困惑
  • 如何在shell中输出返回码?

    我正在尝试通过调用自定义 shell 脚本sh bin sh c myscript sh gt log txt 2 gt 1 echo 该命令的输出是创建的后台进程的 PID 我想指导 bin sh保存返回码myscript sh到某个文件
  • 在 bash 脚本中提取 XML 值 [重复]

    这个问题在这里已经有答案了 我正在尝试从 xml 文档中提取一个值 该文档已作为变量读入我的脚本中 原始变量 data is
  • 正则表达式库基准

    我最近一直想知道正则表达式实现的性能 并且很难想出很多有用的信息 它很容易对浏览器 javascript 正则表达式性能进行基准测试 网上有很多工具 Chrome 和 Opera 中的 javascript 正则表达式实现几乎摧毁了所有其他
  • 如何使用正则表达式将字符串分成相同字符的组?

    我有一个这样的字符串 var string AAAAAAABBBCCCCCCDD 并喜欢将字符串分割成这种格式的数组 same characters gt same group 使用正则表达式 Array AAAAAAA BBB CCCCC
  • 为什么我可以直接从 bash 执行 JAR?

    我是一个长期从事 Java 工作的人 并且知道运行带有主类的 JAR 的方法MANIFEST MFJar 中的文件很简单 java jar theJar jar 我用它来启动 Fabric3 服务器 包含在bin server jar在其标
  • 使用 su 和 Expect 脚本登录用户时遇到问题

    我正在为一个班级制作一个网站 您可以使用用户名和密码登录 然后它会将您带到一个显示您在班级中的成绩的页面 该网站正在运行bash脚本 https github com jduga002 rapache 并将托管在用户已有用户名和密码登录的计
  • 使用正则表达式模式查找 -name 并使用 cp 替换文件名

    目前我正在使用该命令cron复制 data从源到目标路径 find source path name data exec cp target path 源码结构为 source path category1 001 data source
  • Java:正则表达式排除空值

    在问题中here https stackoverflow com questions 51359056 java regexp for a separated group of digits 我得到了正则表达式来匹配 1 到 99 之间的一
  • [A-z0-9]+ 正则表达式匹配方括号[重复]

    这个问题在这里已经有答案了 我正在努力解决以下正则表达式 A z0 9 如果针对此字符串进行测试 a919238 a asd 它返回a919238 包括方括号 我尝试输入我在 regex101 上的测试用例 https www regex1
  • JS用正则表达式替换数字

    我有元素的标识符 如下所示 form book 1 2 3 我想要的是用其他值替换该标识符中的第二个数字 我将函数 match 与以下正则表达式一起使用 var regexp d d d 但它返回我包含的数组 1 2 3 2 因此 当我尝试
  • 从字符串中获取数字

    我有一个字符串 例如 lorem 110 ipusm 我想获取 110 我已经尝试过这个 preg match all 0 9 string ret 但这正在返回 Array 0 gt 1 1 gt 1 2 gt 0 我想要这样的东西 Ar
  • 如何在 javascript 正则表达式中匹配平衡分隔符?

    我原以为这个问题是不可能的 据我所知 Javascript 的正则表达式既没有递归插值 也没有漂亮的 NET 平衡组功能 但问题就在那里 如问题 12 所示正则表达式 alf nu http regex alf nu 匹配平衡对 lt an

随机推荐

  • Bootstrap 折叠力 全部展开

    我有很多不同的部分 它们有自己的折叠元素 我已经实现了 jquery 来展开和折叠它们 jQuery collapse each function index this collapse toggle HTML 片段 ul class na
  • 使用 phantomjs/casperjs 测试 DOM 元素

    我有一个基于 AJAX 的 javascript 应用程序 我想对其进行接口测试 例如 我想编写一个测试来加载我的网站 从给定的 URL 并检查是否存在一些 DOM 元素 给定的 id 和给定的类 问题是当我在浏览器中输入 URL 时 我的
  • JFreeChart 在 Y 轴上将整数值显示为浮点数

    我在用着JFreeChart创建时间序列图表 但当我将整数值作为 Y 轴传递时 它会将它们显示为浮点数 问题是什么 我正在创建这样的图表 this TodaySeriesGoldPrice new TimeSeries Price Minu
  • 无法拉取 b/c“您有未暂存的更改”,但状态显示没有更改

    我正在与一位开发人员合作 他遇到了一个我以前从未遇到过的奇怪问题 他正在开发一个存储库 需要先从其他人那里获取最新的更改 然后才能推送 他所有的改变都被承诺了 git pull Cannot pull with rebase You hav
  • 从 Fiddler 嗅探 Android 应用程序的 HTTPS 流量失败,Fiddler 中仅显示“隧道到”条目

    我正在尝试从已 root 的 Android 设备 4 4 4 捕获 HTTPS 流量 以分析应用程序的未记录协议 我已将 Fiddler 设置为代理并启用了 HTTPS 嗅探 我已在我的设备上安装了 Fiddler 生成的根证书 我已在
  • Outlook Mapi 访问共享联系人

    我想通过 Mapi 从 Outlook 导入联系人 第一步使用标准接触是没有问题的 MAPIFolder contactObjects outlookObj Session GetDefaultFolder OlDefaultFolders
  • :首次安装或使用软件包时运行代码

    我正忙着为一位对 R 知之甚少的客户编写一个包 考虑到他们的复杂数据结构 我需要在 R 中建立一个 数据库 其中包含从他们从另一家公司获得的一组电子表格中获得的大量信息 由于他们无法在计算机上安装 SQL 等 ICT 有一些电源控制问题 我
  • ffmpeg、libav 和 avconv 之间有什么区别和相似之处?

    当我跑步时ffmpeg在 Ubuntu 上 它显示 ffmpeg ffmpeg version v0 8 Copyright c 2000 2011 the Libav developers built on Feb 28 2012 13
  • 如何使 Windows 10 枢轴/选项卡标题全宽屏幕

    如何使枢轴 选项卡标题使每个单独的选项卡具有相同的宽度并拉伸枢轴标题的整个宽度而不延伸出屏幕 特别是对于移动设备 我还没有找到如何做到这一点的例子 这就是我想要实现的目标 如何使枢轴 选项卡标题使每个单独的选项卡具有相同的宽度并拉伸整个宽度
  • 用于将结构类型映射到枚举的 C++ 模板?

    我有类似的东西 struct A struct B struct C class MyEnum public enum Value a b c template
  • 如何通过环境变量设置 Java 的最小和最大堆大小?

    如何通过环境变量设置 Java 的最小和最大堆大小 我知道可以在启动java时设置堆大小 但我想通过我的服务器上的环境变量来调整它 您不能直接使用环境变量来做到这一点 您需要使用传递给 java 命令的一组 非标准 选项 运行 java X
  • 如何在没有扩展程序的情况下在 Chrome 中测量像素?

    由于工作中的安全限制 我不被允许安装 Chrome 扩展程序 Chrome 在开发者工具中内置了一个标尺 但我不知道如何像标尺允许的那样定义起点和终点 是否有无需安装 Chrome 扩展程序即可测量像素的工具或技术 您可以创建自己的标尺功能
  • 如何设置仅显示月份和年份的日期选择器的日期

    我正在尝试显示一个仅显示月份 年份菜单的日期选择器 就像这个 Q 中那样jquery 日期选择器仅显示月份年份 https stackoverflow com questions 2208480 jquery date picker to
  • 来自多个数据库的 Hibernate 实体

    我们的数据模型分为两个数据库上的模式 除了一些在两者之间桥接的单键关系之外 这些模式是单独使用的 没有跨两个数据库的写入事务 类似这个问题使用 Hibernate 连接不同数据库中的 2 个表 https stackoverflow com
  • 为什么覆盖会改变列名

    我使用的是 rev 监听器的默认实现 正如预期的那样 我的 REVINFO 表中的列是 revtstmp 和 rev 然而 当我覆盖默认值时 我所做的只是 MyRevisionEntity extends DefaultRevisionEn
  • 是否有在多个事件侦听器上执行逻辑的设计模式

    我有在多个不同事件的步骤上执行的逻辑 例如 在 mousedown 上完成一些逻辑 这会更改 mousemove 使用的某些共享状态 这也会更改最终 mouseup 使用的某些共享状态 例如它可能看起来像这样 function handle
  • 检测用户何时将数据输入 edittext 立即显示答案[关闭]

    很难说出这里问的是什么 这个问题是含糊的 模糊的 不完整的 过于宽泛的或修辞性的 无法以目前的形式得到合理的回答 如需帮助澄清此问题以便重新打开 访问帮助中心 help reopen questions 如何检测一个字符是否被输入到 Edi
  • 使用 array_diff 比较两个数组

    我有以下代码 并尝试将两个数组与 array diff 进行比较 但我一直没有得到任何结果 我不确定这是否重要 但数组中有很多字段 我真的只想比较 1 个字段 这可能吗 我缺少什么
  • 如何在点击后隐藏横幅并使用本地存储保存?

    我是 Java 脚本新手 在用户单击 Cookie 横幅上的 接受 后 我不知道如何保存信息 本地存储 一旦他单击 接受 Cookie 横幅就会消失 我想保存因此 当他进入下一页或重新加载页面时 他不会再次收到 Cookie Banner
  • Bash - HTML 内容的正则表达式

    我正在学习 Bash 脚本 并且需要一些帮助来理解正则表达式 我有一个基本上是网页 html 的变量 使用 wget 导出 currentURL https www example com currentPage wget q O curr