使用 BeautifulSoup 查找包含特定文本的 HTML 标签

2023-12-03

我正在尝试获取 HTML 文档中包含以下文本模式的元素：#\S{11}

<h2> this is cool #12345678901 </h2>

因此，前面的内容将通过使用以下方式进行匹配：

soup('h2',text=re.compile(r' #\S{11}'))

结果会是这样的：

[u'blahblah #223409823523', u'thisisinteresting #293845023984']

我能够获得所有匹配的文本（参见上面的行）。但我希望文本的父元素匹配，因此我可以将其用作遍历文档树的起点。在这种情况下，我希望返回所有 h2 元素，而不是文本匹配。

Ideas?

from BeautifulSoup import BeautifulSoup
import re

html_text = """
<h2>this is cool #12345678901</h2>
<h2>this is nothing</h2>
<h1>foo #126666678901</h1>
<h2>this is interesting #126666678901</h2>
<h2>this is blah #124445678901</h2>
"""

soup = BeautifulSoup(html_text)


for elem in soup(text=re.compile(r' #\S{11}')):
    print elem.parent

Prints:

<h2>this is cool #12345678901</h2>
<h2>this is interesting #126666678901</h2>
<h2>this is blah #124445678901</h2>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

beautifulsoup

htmlcontentextraction

使用 BeautifulSoup 查找包含特定文本的 HTML 标签的相关文章

从正在运行的 python 脚本检测优化标志是否为 -O 或 -OO

有时我想生成一个子进程其优化标志与启动父进程时使用的优化标志相同我可以使用类似的东西 optimize not debug 但这样我就可以匹配两者 O and OO flags 是否有一些 python 内部状态包含该信息经过一番深
on_delete=models.PROTECT 和 on_delete=models.CASCADE 在 Django 模型上有什么作用？

我对 Django 很熟悉但最近注意到有一个on delete models CASCADE and on delete models PROTECT模型的选项 on delete models CASCADE and on delete
如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
正则表达式 - 从行首和行尾修剪空格[关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions Link
优化 Keras 以使用所有可用的 CPU 资源

好吧我真的不知道我在说什么所以请耐心听我说我正在使用 Theano 后端运行 Keras 以在 MNIST 图像上运行基本的神经网络目前只是一个教程过去我一直使用我的旧 HP 笔记本电脑因为我有 Windows 和 Ubunt
Pandas重置索引未生效[重复]

这个问题在这里已经有答案了我不确定我在哪里误入歧途但我似乎无法重置数据帧上的索引当我跑步时test head 我得到以下输出正如您所看到的数据帧是一个切片因此索引超出范围我想做的是重置该数据帧的索引所以我跑test rese
如何通过双击在浏览器中打开 ipynb 文件

以前我安装了 Canopy 当时我只需双击 ipynb 文件并在浏览器中打开它们即可但是后来我需要Anaconda 一旦我安装了它这个功能就没有了现在我只希望能够简单地双击 ipynb 文件然后该文件就会在 Firefox 中
htaccess 301 重定向 - 删除查询字符串 (QSA)

我一直在努力处理一些 htaccess 重定向我只是花了一些时间在堆栈上阅读和搜索但无法获得适合我的场景的答案我正在将旧客户端网站的 301 重定向到新客户端旧页面有参数查询我想从网址中删除它 menu php idCategor
spacy 如何使用词嵌入进行命名实体识别 (NER)？

我正在尝试使用以下方法训练 NER 模型spaCy识别位置人名和组织我试图理解如何spaCy识别文本中的实体但我无法找到答案从这个问题 https github com explosion spaCy issues 491在 Gi
如何在Python和Selenium中通过标签名称或id获取元素[重复]

这个问题在这里已经有答案了我正在尝试使用 Python 和 Selenium 获取输入但它向我显示错误我该如何解决这个错误 inputElement send keys getStock getStocklFunc 0 Error i
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
在 MacO 和 Linux 上安装 win32com [重复]

这个问题在这里已经有答案了我的问题很简单我可以安装吗win32com蟒蛇API pywin32特别是在非 Windows 操作系统上我一直在Mac上尝试多个版本pip install pywin32 都失败了下面是一个例子如果你
Airflow Python 单元测试？

我想为我们的 DAG 添加一些单元测试但找不到任何单元测试有 DAG 单元测试框架吗有一个端到端的测试框架存在但我猜它已经死了 https issues apache org jira browse AIRFLOW 79 https
查找给定节点的最高权重边

我在 NetworkX 中有一个有向图边缘的权重从 0 到 1 表示它们发生的概率网络连通性非常高所以我想修剪每个节点的边缘只保留最高概率的节点我不确定如何迭代每个节点并仅保留最高权重in edges在图中有没有一个networ
如何构建印度尼西亚电话号码正则表达式

这些是一些印度尼西亚的电话号码 08xxxxxxxxx 至少包含 11 个字符长度 08xxxxxxxxxxx 始终以 08 开头我发现这个很有用 Regex regex new Regex 08 0 9 0 9 0 9 0 9 0 9
TypeError：无法使用抽象方法实例化抽象类 <...>

这是我的代码 from abc import ABC from abc import abstractmethod class Mamifiero ABC docstring for Mamifiero def init self self
在 Python 模块中使用 InstaLoader

我正在尝试使用 Instaloader 下载与主题标签相关的照片以进行图像分析我在GitHub存储库中找到了一个全面的方法如何在终端中执行它但是我需要将脚本集成到Python笔记本中这是脚本 instaloader no vide
来自 django 教程 was_published_recently.admin_order_field = 'pub_date'

From Django 教程 https www jetbrains com help pycharm 2017 1 creating and running your first django project html d28041e21

随机推荐

从位置读取文件

FileStream infile new FileStream C Users John Desktop ProjectNew nov txt FileMode Open FileAccess Read int position x Le
对 AtomicReference 持有的对象执行 equals 和 hashcode 的正确方法

AtomicReference不适用于Objects equals and Objects hash AtomicReference
TensorFlow Custom Estimator 预测投掷值误差

注意这个问题有一个附带的记录的Colab笔记本有时 TensorFlow 的文档还有很多不足之处一些针对较低级别 api 的旧文档似乎已被删除而大多数较新的文档都指向使用较高级别的 api 例如 TensorFlow 的子集ker
为什么插入到复制数据帧的新列也会添加到原始数据帧？ [复制]

这个问题在这里已经有答案了您能否告诉我为什么要开设新专栏c添加到原始数据框即df old df old pd DataFrame a 1 2 b 3 4 df new df old df new c 5 6 print Old prin
如何按类别、值和选中对复选框进行排序

我有一个div subfilterNamesContainer 其中包含复选框列表我正在尝试编写一个函数将复选框分为 3 个部分复选框与class default 应该位于按值排序的顶部无论是否选中然后我需要列出不是的复选框cla
如何从 appsettings.json 获取值

public class Bar public static readonly string Foo ConfigurationManager AppSettings Foo 在 NET Framework 4 x 中我可以使用Confi
如何使用 C++11 枚举类作为标志

假设我有一堂课 enum class Flags char FLAG 1 1 FLAG 2 2 FLAG 3 4 FLAG 4 8 现在我可以有一个具有类型标志的变量并分配一个值吗7例如我可以这样做吗 Flags f Flags FLAG
AJAX 呼叫在 Phonegap 中无法工作，但工作正常

我正在使用开放天气地图 api web 服务进行 ajax 调用以便使用纬度和经度获取当前天气问题是相同的调用在我的正常 php 文件夹中工作但在我的 phongap 应用程序中不起作用我的ajax调用如下图 ajax type G
Hibernate 限制中“等于 id”限制的大小写敏感

我尝试做一个区分大小写的等于username与 Hibernate 3 6 9 一起使用但似乎限制不区分大小写例如 AdMin 或 admin 都有效但只有 admin 应该正确否则 size 应该返回 0 我会尽量避免使用like
使类可编码

我有一个协议即 Codable 和一个类即 Codable public protocol SourceListItem AnyObject Codable var name String get set var children So
如何将事件侦听器添加到 HTML5 视频海报图像加载事件

是否可以我想将一个事件侦听器附加到 HTML5 视频元素上的海报图像以便在加载并显示海报图像后运行代码我正在尝试找出一种方法来做到这一点但我需要帮助像这样 var poster video prop poster if poste
将现有 EC2 实例导出到 CloudFormation json/yaml

Problem 我有一个EC2实例正在运行我对实例做了一些修改安装了 docker 设置证书目录等现在我想创建相同的实例但使用基础设施作为代码主体我没有记住我所做的所有添加并手动创建模板而是尝试找到一种方法将当前的 EC2 实
检查数据库是否存在并在 SQLite IOS 中删除数据库

我目前正在使用phonegap 来创建ios 应用程序在熟悉 sql javascript 交互的同时我似乎已经创建了同名数据库文件的 10 个版本我目前正在使用以下创建代码来自phonegap wiki var mydb fals
Promise 回调按什么顺序触发？

假设以下语句已按此顺序执行 promiseA then function console log A1 promiseB then function console log B promiseA then function console
获取BehaviorSubject的值

我正在尝试获取BehaviorSubject 的值返回值但我如何利用它们在 return true false 语句中使用它们 BehaviorSubject isScalar false observers Array 0 close
在 php 中运行多个查询

我对 PHP 和 HTML 真的很陌生按提交按钮后我尝试使用 Users MySQL 表中已有的数据填充字段这有效我还想将通过 SELECT 获得的相同数据插入到另一个名为 scan 的 SQL 表中
为什么 HTML 中标签没有关闭？

出于好奇为什么 img gt 标签未关闭于HTML img src smiley gif alt Smiley face height 42 width 42 我还注意到 img gt 标签明确地封闭在XHTML img src smil
如何正确解析算术表达式中的数字，区分正数和负数？

我在数据结构类中有一个作业其中我必须编写一个计算器用 4 个基本运算和括号来求解算术表达式输入是通过 stdin 缓冲区完成的输出也是如此一开始很简单老师给我们提供了算法如何将表达式从中缀转换为后缀以及如何对其求值唯一的目标
如何在 J.T.Sage DateBox 中禁用已选择的下一个日期框的日期

我的应用程序使用 jt sage DateBox 我想禁用已选择的下一个日期框字段的日期选择器例如我的 Date1 就像 2014 年 8 月 13 日我的其他日期框字段需要在 2014 年 8 月 13 日之后选择注意取决于之前的
使用 BeautifulSoup 查找包含特定文本的 HTML 标签

我正在尝试获取 HTML 文档中包含以下文本模式的元素 S 11 h2 this is cool 12345678901 h2 因此前面的内容将通过使用以下方式进行匹配 soup h2 text re compile r S 11 结果会

使用 BeautifulSoup 查找包含特定文本的 HTML 标签

使用 BeautifulSoup 查找包含特定文本的 HTML 标签 的相关文章

随机推荐

热门标签

使用 BeautifulSoup 查找包含特定文本的 HTML 标签的相关文章