BeautifulSoup 在按复合类名搜索时返回空列表

2024-03-28

使用正则表达式按复合类名搜索时，BeautifulSoup 返回空列表。

Example:

import re
from bs4 import BeautifulSoup

bs = 
    """
    <a class="name-single name692" href="www.example.com"">Example Text</a>
    """

bsObj = BeautifulSoup(bs)

# this returns the class
found_elements = bsObj.find_all("a", class_= re.compile("^(name-single.*)$"))

# this returns an empty list
found_elements = bsObj.find_all("a", class_= re.compile("^(name-single name\d*)$"))

我需要非常精确的班级选择。有任何想法吗？

不幸的是，当您尝试对包含多个类的类属性值进行正则表达式匹配时，BeautifulSoup会将正则表达式分别应用于每个类。以下是有关该问题的相关主题：

Beautiful Soup 的 Python 正则表达式 https://stackoverflow.com/questions/13794532/python-regular-expression-for-beautiful-soup
多个 CSS 类搜索不方便 https://bugs.launchpad.net/beautifulsoup/+bug/1157869

这都是因为class是一个非常特殊的多值属性 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#searching-by-css-class每次解析 HTML 时，其中之一BeautifulSoup的树构建器（取决于解析器的选择）在内部将类字符串值拆分为类列表（引用自HTMLTreeBuilder的文档字符串）：

# The HTML standard defines these attributes as containing a
# space-separated list of values, not a single value. That is,
# class="foo bar" means that the 'class' attribute has two values,
# 'foo' and 'bar', not the single value 'foo bar'.  When we
# encounter one of these attributes, we will parse its value into
# a list of values if possible. Upon output, the list will be
# converted back into a string.

有多种解决方法，但这是一种黑客式的解决方法 - 我们要问BeautifulSoup不处理class通过制作我们简单的自定义树构建器作为多值属性：

import re

from bs4 import BeautifulSoup
from bs4.builder._htmlparser import HTMLParserTreeBuilder


class MyBuilder(HTMLParserTreeBuilder):
    def __init__(self):
        super(MyBuilder, self).__init__()

        # BeautifulSoup, please don't treat "class" specially
        self.cdata_list_attributes["*"].remove("class")


bs = """<a class="name-single name692" href="www.example.com"">Example Text</a>"""
bsObj = BeautifulSoup(bs, "html.parser", builder=MyBuilder())
found_elements = bsObj.find_all("a", class_=re.compile(r"^name\-single name\d+$"))

print(found_elements)

在这种情况下，正则表达式将应用于class属性值作为一个整体。

或者，您可以使用以下命令解析 HTMLxml启用的功能（如果适用）：

soup = BeautifulSoup(data, "xml")

您还可以使用CSS 选择器 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors并将所有元素与name-single类和以“name”开头的类：

soup.select("a.name-single,a[class^=name]")

然后，您可以根据需要手动应用正则表达式：

pattern = re.compile(r"^name-single name\d+$")
for elm in bsObj.select("a.name-single,a[class^=name]"):
    match = pattern.match(" ".join(elm["class"]))
    if match:
        print(elm)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

python27

beautifulsoup

htmlparsing

BeautifulSoup 在按复合类名搜索时返回空列表的相关文章

对打开文件的脚本进行单元测试

我编写了一个脚本它打开一个文件读取内容并进行一些操作和计算并将它们存储在集合和字典中我该如何为这样的事情编写单元测试我的问题具体是我会测试文件是否打开文件很大这是unix字典文件我如何对计算进行单元测试我真的必须手动计算
如何从网站中提取冠状病毒病例？

我正在尝试从网站中提取冠状病毒 https www trackcorona live https www trackcorona live 但我得到了一个错误这是我的代码 response requests get https www t
C# 正则表达式模式从给定字符串中提取 url - 不是完整的 html url，而是裸链接

我需要一个正则表达式来执行以下操作 Extract all strings which starts with http Extract all strings which starts with www 所以我需要提取这2个例如下面有
如何在 openpyxl 中设置或更改表格的默认高度

我想通过openpyxl更改表格高度并且我希望首先默认一个更大的高度值然后我可以设置自动换行以使我的表格更漂亮但我不知道如何更改默认高度唯一的到目前为止我知道更改表格高度的方法是设置 row dimension idx heigh
基于 True/False 值的 Python 优雅赋值

我想根据三个布尔值中的值设置一个变量最直接的方法是 if 语句后跟一系列 elif if a and b and c name first elif a and b and not c name second elif a and not
使用 Python 抓取维基百科数据

我正在尝试从以下内容中检索 3 列 NFL 球队球员姓名大学球队维基百科页面 http en wikipedia org wiki 2008 NFL draft 我是 python 新手一直在尝试使用 beautifulsoup 来
在python中调用subprocess.Popen时“系统找不到指定的文件”

我正在尝试使用svnmerge py合并一些文件它在底层使用 python 当我使用它时我收到一个错误系统找不到指定的文件工作中的同事正在运行相同版本的svnmerge py 以及 python 2 5 2 特别是 r252 609
使用 Python 解析 XML，解析外部 ENTITY 引用

在我的 S1000D xml 中它指定了一个带有对公共 URL 的引用的 DOCTYPE 该 URL 包含对包含所有有效字符实体的许多其他文件的引用我使用 xml etree ElementTree 和 lxml 尝试解析它并得到解析错
使用reduce方法的斐波那契数列

于是我看到有人用reduce方法来计算斐波那契数列这是他的想法 1 0 1 1 2 1 3 2 5 3 对应于 1 1 2 3 5 8 13 21 代码如下所示 def fib reduce n initial 1 0 dummy ra
我有一个 Employee 类，我想返回“姓名”列表

我有一个 Employee 类我想返回姓名列表雇员 py class Employee object def init self id name members None self id id self name name self
如何解码 dtype=numpy.string_ 的 numpy 数组？

我需要使用 Python 3 解码按以下方式编码的字符串 gt gt gt s numpy asarray numpy string hello nworld gt gt gt s array b hello nworld dtype S1
AWS Lambda python API 调用方法不返回 JSON - 不可序列化？

我有一个 Lambda 函数它是对 API 的基本 Python GET 调用它在本地运行良好但是当我上传到 Lambda 以及请求库时它不会从 API 调用返回 JSON 响应我只是希望它将整个 JSON 对象返回给调用者我
从 python 中的缩进文本文件创建树/深度嵌套字典

基本上我想迭代一个文件并将每行的内容放入一个深层嵌套的字典中其结构由每行开头的空格数量定义本质上目标是采取这样的事情 a b c d e 并将其变成这样的东西 a b c d e Or this apple colours red
将参数传递给 __enter__

刚刚学习 with 语句尤其是这篇文章 http effbot org zone python with statement htm 问题是我可以传递一个参数给 enter 我有这样的代码 class clippy runner def
使用 pandas 绘制带有误差线的条形图

我正在尝试从 DataFrame 生成条形图如下所示 Pre Post Measure1 0 4 1 9 这些值是我从其他地方计算出来的中值我还有它们的方差和标准差以及标准误差我想将结果绘制为具有适当误差线的条形图但指定多个误差值
如何表示类的实例与将其作为输入的类之间的关系？

我有一堂课叫House 这个类的实例是house class House def init self height length self height height self length length def housePlan hou
SpaCy 中的自定义句子边界检测

我正在尝试在 spaCy 中编写一个自定义句子分段器它将整个文档作为单个句子返回我编写了一个自定义管道组件它使用以下代码来执行此操作here https github com explosion spaCy issues 1850 但
scrapy python 请求未定义

我在这里找到了答案 code for site in sites Link site xpath a href extract CompleteLink urlparse urljoin response url Link yield Re
如何使用 FastAPI 在 HTMX 前端中使用 HX-Redirect？

我试图在登录后在前端重定向我像这样从我的 htmx 前端发出请求
将数组从 .npy 文件读入 Fortran 90

我使用 Python 以二维数组例如 X 的形式生成一些初始数据然后使用 Fortran 对它们进行一些计算最初当数组大小约为 10 000 x 10 000 时 np savetxt 在速度方面表现良好但是一旦我开始增加数组的维

随机推荐

Ajax 删除链接注销current_user

标题几乎解释了这一点我遇到了一种奇怪的情况允许用户使用 Ajax 删除通知的视图会导致 current user 被注销我什至不知道从哪里开始调试这个这是控制器 class NotificationsController lt Ap
如何从 JPA 标准中的时间戳列中按日期查找？

我想按日期查找记录在实体和数据库表中数据类型是时间戳我用的是Oracle数据库 Entity public class Request implements Serializable Id private String id Vers
寻找有关 Jeff 幻灯片中介绍的“Group varint 编码/解码”的更多详细信息

我注意到 Jeff 的幻灯片构建大规模信息检索系统的挑战也可以在这里下载 http research google com people jeff WSDM09 keynote pdf http research google com
使用 sql 查询结果填充 datagridview

我正在尝试显示查询结果但我不断收到空白数据网格就像数据本身不可见一样这是我的代码 private void Employee Report Load object sender EventArgs e string select SE
Rails 3.2 流数据

显然 rails 3 2 中不再提供带有 proc 的 render text 方法来传输数据我按照以下说明进行操作讨论 https stackoverflow com questions 3507594 ruby on rails 3
使用 Mongo API 在 Cosmos DB 中的共享吞吐量集合上创建唯一索引

我尝试按照以下说明进行操作微软文档 https learn microsoft com en gb azure cosmos db mongodb indexing creating unique indexes在分区集合上创建唯一索引 d
DocumentDB 输入绑定的 sqlQuery 与调制符号导致函数失败

我在 Azure Functions 上使用 DocumentDB 输入绑定今天我将以下查询指定为 sqlQuery SELECT c id c created at FROM c WHERE epoch c created at ep
如何在 Laravel 中对每个响应强制使用 JSON 响应？

我正在尝试使用 Laravel Framework 构建 REST api 我想要一种方法来强制 API 始终使用 JSON 进行响应而不是像这样手动执行此操作 return Response json data 换句话说我希望每个响应
找到从 A 到 B 的最短路径，同时拾取可能位于多个位置的某些物品[重复]

这个问题在这里已经有答案了我正在学习图形和算法我什至很难找到此类问题的名称更不用说提出一个好的解决方案了如果我们只有一个未加权的无向图那么找到从 A 到 B 的最短路径是微不足道的 BFS 如果我们必须访问某些节点从 A 到 B
使用 AngularJS 配置 Spring MVC

我希望能够使用 Spring MVC 作为 REST 服务器并在客户端使用 AngularJS 我有几个 REST 网址休息产品休息产品 id 我有几个 UI 网址商店产品商店产品 id 由于 AngularJS 在客户端
检测浏览器是否在 Android 或 iOS 设备上运行

我需要根据用户是在 Android 还是 iOS 浏览器上查看移动网站来更改移动网站上的一些按钮和文本有没有可靠的方法来进行检查 var isMobile Windows function return IEMobile i test n
在 Android 中测量“fitCenter”imageView 的边距

给定一个像这样的简单的RelativeLayout
Xamarin.Forms 仅使用点作为路径进行绑定

据我所知在 Xamarin Forms 中您需要一个源和一个路径以便执行绑定现在我遇到了这段代码
在休眠中创建内部查询

如何在休眠内部查询中添加 setparameter 方法我尝试这样做但已经有错误这是我的代码 Query query session createQuery select eq euipmentName eq type from Eui
Xamarin 表单：如何复制条目值？

我想从我的应用程序复制一个值并将其粘贴到同一应用程序的任何其他位置或应用程序外部我已经在寻找答案这个线程 https stackoverflow com questions 3546016 how to copy data to clip
验证/提交错误：应用程序未通过协同设计验证

我有许多几乎相同的应用程序除了一些常量图像和 sqllite 数据库文件我之前提交它们时从未遇到过任何问题但是今天其中一个更新在验证提交时出现以下错误注意我过去已经更新过此应用程序没有任何问题应用程序未通过协同设计验证签
使用 LINQ 连接两个不同类型的列表

是否可以连接两个不同类型的列表 string left A B C int right 1 2 3 var result left Concat right 上面的代码显然有一个类型错误如果类型匹配例如都是整数或字符串它就可以工作 p
如何在Linux中从动态库（libsample.so）生成导入库（libsample.a）

在Linux上创建动态库后我想生成一个导入库 a 来自动态库所以我该怎么做实际上 linux中的动态库不需要导入库导入库是Windows中的想法当你构建一个dll时 vs也会给你一个lib文件作为导入库或者你必须通过一些
如何从 ResultSet 填充 JTable？

I call getnPrintAllData 按确定按钮后的方法 public class DatabaseSQLiteConnection Connection conn null PreparedStatement statement
BeautifulSoup 在按复合类名搜索时返回空列表

使用正则表达式按复合类名搜索时 BeautifulSoup 返回空列表 Example import re from bs4 import BeautifulSoup bs a class name single name692 href

BeautifulSoup 在按复合类名搜索时返回空列表

BeautifulSoup 在按复合类名搜索时返回空列表 的相关文章

随机推荐

热门标签

BeautifulSoup 在按复合类名搜索时返回空列表的相关文章