Python Regex - 查找html标签之间的字符串[重复]

2024-03-29

我正在尝试提取 Html 标签之间的字符串。我可以看到以前在堆栈溢出上也有人问过类似的问题,但我对 python 完全陌生,而且我很挣扎。

所以如果我有

<b>Bold Stuff</b>

我想要一个正则表达式让我

Bold Stuff

但到目前为止我所有的解决方案都给我留下了类似的东西

>Bold Stuff<

我真的很感激任何帮助。

I had

>.*?<

我看到了一个关于堆栈溢出的问题和建议的解决方案

>([^<>]*)<

但这些都不适合我。请有人解释一下如何编写一个正则表达式,表示“找到字符 x 和 y 之间的字符串,不包括 x 和 y”。

谢谢你的帮助


>>> a = '<b>Bold Stuff</b>'
>>> 
>>> import re
>>> re.findall(r'>(.+?)<', a)
['Bold Stuff']
>>> re.findall(r'>(.*?)<', a)[0] # non-greedy mode
'Bold Stuff'
>>> re.findall(r'>(.+?)<', a)[0] # or this, also is non-greedy mode
'Bold Stuff'
>>> re.findall(r'>(.*)<', a)[0] # greedy mode
'Bold Stuff'
>>> 

此时,贪婪模式和非贪婪模式都可以工作。

您正在使用第一种非贪婪模式。以下是关于非贪婪模式和贪婪模式的示例:

>>> a = '<b>Bold <br> Stuff</b>'
>>> re.findall(r'>(.*?)<', a)[0]
'Bold '
>>> re.findall(r'>(.*)<', a)[0]
'Bold <br> Stuff'
>>> 

这是关于什么是(...) https://docs.python.org/2/library/re.html#regular-expression-syntax:

(...)

匹配括号内的任何正则表达式,并指示组的开始和结束;

执行匹配后可以检索组的内容,并且可以稍后在字符串中使用 \number 特殊序列进行匹配,如下所述。

匹配文字( or ), use \( or \),或将它们包含在字符类中:[(] [)].

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Python Regex - 查找html标签之间的字符串[重复] 的相关文章

  • Django 1.7 makemigrations 将表重命名为 None

    我必须将一些模型从一个应用程序移动到另一个应用程序 并且我按照此答案中的说明进行操作https stackoverflow com a 26472482 188614 https stackoverflow com a 26472482 1
  • 获取数据框列表并按变量分组,然后使用该变量作为字典的键

    我对 python 编程比较陌生 我有一个 pandas 数据框列表 其中都有 年份 列 我试图按该列进行分组并转换为字典 其中字典键是变量 年份 值是该年的数据帧列表 这在Python中可能吗 我试过这个 grouped dict lis
  • Python:在 Plotly 中的图形上方创建注释空间

    我想在图中创建额外的注释空间 请参阅附图中的绿色区域 目前 y 轴定义了绘图的高度 我可以将绘图推到超出 y max 限制 在某个点 在图像中标记为红色 之后隐藏 y 轴吗 我尝试避免轴到达 评论部分 绿色 谢谢你 在此输入图像描述 htt
  • jQuery 中的按钮点击

    我是 jQuery 新手 我想使用按钮单击事件来引发警报框 这是我的代码 但它似乎不起作用
  • 滚动到 HTML 网站中的顶部 JavaScript

    我正在尝试在我的网站中实现滚动到顶部功能 www arrow tvseries com 网站上可以看到 按钮 但它无法正常工作 因为单击时它不会滚动到页面顶部 更重要的是 我希望 滚动到顶部按钮 在向下滚动 例如一半页面 时可见 这是 Ja
  • Tkinter 嵌套主循环

    我正在写一个视频播放器tkinter python 所以基本上我有一个可以播放视频的 GUI 现在 我想实现一个停止按钮 这意味着我将有一个mainloop 对于 GUI 还有另一个嵌套mainloop 播放 停止视频并返回 GUI 启动窗
  • 从 split 切换到 preg_split 时 php preg_split 错误

    在从 split 更改为 preg split 以获得 php 5 3 兼容性后 我从 php 收到此警告 PHP Warning preg split Delimiter must not be alphanumeric or backs
  • 正则表达式,获取两个关键字之间的整个字符串

    我正在做一些输出解析 我需要从两个单词之间抓取一大块文本 例如 如果我正在解析文本 Hi this is an example 我希望能够指定我的两个单词是 Hi 和 example 然后我将取回字符串 this is an 我知道正则表达
  • 可以用html渲染图像吗?

    我可以控制从文本文件获取 html 并在网页中呈现该 html 的页面 现在它必须在某处添加图像并引用该图像 src 我想知道我们是否可以与其他 html 代码一起渲染图像 这可能吗 是的 你需要一个数据 URI 方案 http en wi
  • 如何检查 Google 地图是否已完全加载?

    我正在将 Google 地图嵌入到我的网站中 加载 Google 地图后 我需要启动一些 JavaScript 进程 有没有办法自动检测 Google 地图何时完全加载 包括图块下载等 A tilesloaded 存在应该完全完成此任务的方
  • Python在虚拟环境中找不到包

    我正在尝试为项目设置环境 但 python 无法找到我使用 pip 安装的模块 我做了以下事情 mkdir helloTwitter cd helloTwitter virtualenv myenv Installing setuptool
  • jquery ajax - 返回 json 或纯 html 更好

    当时间从ajax返回时 我应该返回 json 编码 并使用 jquery parseJSON 并使用 document createElement 并将数据附加到刚刚创建的元素内 或者最好以 html 文本形式返回 example div
  • 如何在plotly dash应用程序中编写数学符号?

    我想在绘图破折号应用程序中绘制数学符号 例如 我尝试过这个 import dash import dash html components as html app dash Dash name app layout html Div chi
  • 如何像 urllib 这样的模拟/存根 python 模块

    我需要测试一个需要使用 urllib urlopen 它也使用 urllib urlencode 查询外部服务器上的页面的函数 服务器可能宕机 页面可能发生变化 我不能依赖它进行测试 控制 urllib urlopen 返回内容的最佳方法是
  • 将表格行换行到下一行

    table tr td testtesttesttest td td testtesttesttest td tr table 我想如果表格不适合屏幕 那么表格的第二个单元格将被转移到另一行 不是单元格中的文本 而是整个单元格 将单元格更改
  • 在R中使用grepl完成单词匹配

    考虑以下示例 gt testLines lt c I don t want to match this This is what I want to match gt grepl is testLines gt 1 TRUE TRUE 不过
  • SQLAlchemy - 如何从 ResultProxy 访问列名并写入 CSV 标题

    我正在尝试使用 SQLAlchemy 建立与 PostgreSQL 数据库的连接 执行 SQL 查询并将文件的输出打印到 Linux 中的文件中 from sqlalchemy import create engine import yam
  • AttributeError:“HTTPResponse”对象没有属性“split”

    我试图从谷歌财经获取一些信息 但我收到此错误 AttributeError HTTPResponse 对象没有属性 split 这是我的Python代码 import urllib request import urllib from bs
  • REQ/REP 模式中的 ZeroMQ FiniteStateMachineException

    我有两个简单的组件 它们应该使用 REQ REP ZeroMQ 模式相互通信 服务器 REP Socket 是使用 pyzmq 在 Python 中实现的 import zmq def launch server print Launchi
  • 删除 JavaScript 中的不间断空格

    我无法从字符串中删除空格 首先我要转换div to text 删除标签 有效 然后我尝试删除 nbsp 字符串的一部分 但它不起作用 知道我做错了什么 newStr myDiv text newStr newStr replace nbsp

随机推荐

  • 如何更改 JTextArea 中的文本颜色?

    我需要知道如何做到这一点 比方说 我有一个代码JTextArea像这样 LOAD R1 1 DEC R1 STORE M R1 ADD R4 R1 8 我想改变颜色LOAD DEC STORE and ADD涂成蓝色R1 R4涂成绿色M变为
  • 在 VBA 中将日期转换为文本

    我有一个数据集 其中包含文本值 例如 2016 年 3 月 现在我编写了以下代码来在我的报告表中复制此内容 DataFin Range E9 E9 DateSerial Year Date Month Date 0 DataFin Rang
  • Jackson JSON、不可变类和接口

    我正在使用 Jackson 的示例 并且在反序列化与不可变的类和接口一起使用时遇到了一些麻烦 下面是我的代码 package com art starter jackson starter import java io IOExceptio
  • 为什么在 Resharper/MSTest 下调试时引用的 dll 被锁定?

    我对汇编中的方法进行了集成测试A 集会A参考汇编B通过项目参考 我在 Resharper 6 1 单元测试场景中的 Visual Studio 2010 调试器下运行它们 测试引擎是微软原生的MSTest 我得到了臭名昭著的 该进程无法访问
  • 如何捕获 TimeConstrained 产生的中断?

    数学有CheckAbort允许捕获和处理用户生成的和编程的函数Aborts 但它不允许捕获由以下函数生成的中断TimeConstrained and MemoryConstrained TimeConstrained CheckAbort
  • M2Crypto:验证 DSA 签名

    我在使用 Python M2Crypto 验证 DSA 签名时遇到问题 签名是在 Java 中使用标准 java security Signature 类以及 Sun 的加密提供程序和 SHA1withDSA 算法指定生成的 这是一些 sh
  • 使用 SqlCommand 返回值

    我正在尝试获取 SQL 2008 服务器上存储过程的结果集和返回值 当我在sql management studio中运行proc时 我得到结果集和返回值 但是 当我尝试获取 C 4 0 中的值时 参数的值为 null 这是我的 C 代码
  • 通过 Grails 域标准在活动光标中出现 Mongo CursorNotFound 异常

    我正在使用 Grails 2 4 4 mongo 插件 3 0 2 MongoDB 2 4 10 使用远程数据库连接 grails mongo host 11 12 13 14 A remote server IP port 27017 d
  • 如何实现Flood-fill算法?

    我正在开发一个 Paint 应用程序 其中我正在实现类似于 MS Paint 应用程序的 BucketFill 功能 我使用一些 FloodFill 算法对其进行了编码 但填充颜色过程花费了太多时间 我不太确定其背后的原因可能是由于缓存内存
  • 标签文本中的 RGB 颜色效果,tkinter python

    您好 我只是在尝试一些代码 我正在尝试更改标签内文本的颜色 如物理键盘中的 rgb 颜色效果 使用以下代码我确实改变了颜色 但我正在尝试实现的目的是改变文本每个字母的颜色 但我不知道该怎么做 下面是我写的代码 import tkinter
  • 如何使用 WiX 将交互式用户添加到本地化 Windows 中的目录?

    如何添加瑞典语交互式用户 NT INSTANS INTERAKTIV 或英文交互用户 NT AUTHORITY INTERACTIVE 或任何其他本地化用户组write程序文件夹 ACL 的权限 这个问题实际上是 我如何使用安全对象 我无法
  • 在 AWS RDS 实例之间移动数据

    我需要在两个不同的 rds 实例上的相同 mysql 数据库之间移动数百万行 我想到的方法是这样的 use data pipeline to export data from the first instance to amazon s3
  • 在 R 中对非常大的数据集(180 万行 x 270 列)进行建模

    我正在研究一个视窗8操作系统带有8 GB 内存 我有一个数据框180 万行 x 270 列我必须对其执行glm logit 任何其他分类 我尝试使用 ff 和 bigglm 包来处理数据 但我仍然面临错误的问题 Error cannot a
  • 检查我的页面是否嵌入 iframe 中

    我想测试我的页面 php 是否嵌入到 iframe 中 以便实现不同的行为 知道如何测试这个 如果有帮助的话我也在使用 jQuery 添加 我特别感兴趣是否有一种方法可以在服务器上而不是在客户端使用 Javascript 来测试它 你可以使
  • “尚未应用待处理的组合物”例外是什么意思以及如何避免?

    我有一个正在运行的应用程序 但有时 由于我未知的原因 应用程序崩溃并显示以下消息 java lang IllegalStateException 尚未应用挂起的组合 我无法在任何地方找到有关此异常发生的信息 而且我也不明白如何避免它 编辑
  • Android - 从HashMap中获取值

    我尝试在 Android 中搜索 HashMap 但出现问题 考虑这个例子 HashMap
  • 将 Android GoogleSignIn 与 GmailScopes.GMAIL_SEND (gmail api) 结合使用

    我想使用 GoogleSignIn 并使用 android 内部电子邮件地址 gmail 发送电子邮件 GoogleSignInOptions gso new GoogleSignInOptions Builder GoogleSignIn
  • 更改搜索栏中的键盘颜色和外观

    当用户点击搜索文本字段时 我想将键盘的颜色更改为黑色 我试图通过以下方式实现它UITextField textField UITextField appearance textField setKeyboardAppearance UIKe
  • jenkins中访问文件参数

    我正在从事多配置工作 回归 L1 在 Jenkins 中 其任务是运行 2 种测试 测试1和测试2 在多配置作业中 它会触发执行器作业 回归执行器 运行所选测试的脚本 这回归 L1作业被限制运行矩阵服务工作节点 而矩阵作业将在从节点中运行自
  • Python Regex - 查找html标签之间的字符串[重复]

    这个问题在这里已经有答案了 我正在尝试提取 Html 标签之间的字符串 我可以看到以前在堆栈溢出上也有人问过类似的问题 但我对 python 完全陌生 而且我很挣扎 所以如果我有 b Bold Stuff b 我想要一个正则表达式让我 Bo