BeautifulSoup .select() 方法是否支持使用正则表达式？

2024-03-04

假设我想使用 BeautifulSoup 解析 html，并且想使用 css 选择器来查找特定标签。我会通过这样做来“充实”它

from bs4 import BeautifulSoup
soup = BeautifulSoup(html)

如果我想找到一个“id”属性值为“abc”的标签，我可以这样做

soup.select('#abc')

如果我想找到当前标签下的所有“a”子标签，我们可以这样做

soup.select('#abc a')

但现在，假设我想找到所有“a”标签，其“href”属性的值以“xyz”结尾，我想使用正则表达式，我希望有类似的东西

soup.select('#abc a[href] = re.compile(r"xyz$")')

我似乎找不到任何说明 BeautifulSoup 的 .select() 方法将支持正则表达式的内容。

The soup.select()函数仅支持 CSS 语法；正则表达式不属于其中。

You can使用这样的语法来匹配属性ending附文字：

soup.select('#abc a[href$="xyz"]')

See the CSS 属性选择器文档 https://developer.mozilla.org/en-US/docs/Web/CSS/Attribute_selectors在 MSDN 上。

您始终可以使用 CSS 选择器的结果来继续搜索：

for element in soup.select('#abc'):
    child_elements = element.find_all(href=re.compile('^http://example.com/\d+.html'))

请注意，作为element.select()文档状态 http://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors:

这对于了解 CSS 选择器语法的用户来说很方便。您可以使用 Beautiful Soup API 完成所有这些工作。如果您只需要 CSS 选择器，那么您不妨直接使用 lxml：它更快，并且支持更多 CSS 选择器。但这可以让你combine带有 Beautiful Soup API 的简单 CSS 选择器。

强调我的.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

regex

select

beautifulsoup

BeautifulSoup .select() 方法是否支持使用正则表达式？的相关文章

scipy.optimize on pandas dataframe

我试图搜索它但结果很差有人可以向我解释一下如何在 Pandas DataFrame 上执行 optimize minimize 以便最小化 DataFrame 中的类别和结果列之间的错误考虑这个例子 import pandas as
Python 转换矩阵

我有一个如下所示的列表 2 1 3 1 2 3 1 2 2 2 我想要的是一个转换矩阵它向我显示如下序列 1 后跟 1 的频率是多少 1 后面跟着 2 的频率是多少 1 后跟 3 的频率是多少 2 后跟 1 的频率是多少 2 后跟 2 的
通过 python 中的另外两个修改数组[重复]

这个问题在这里已经有答案了假设我们有三个一维数组 A 长度为 5 B 长度相同示例中为5 C 更长比如长度为 100 C最初用零填充 A给出索引C应更改的元素它们可能会重复以及B给出应添加到初始零的值C 例如如果A 1 3 3
将 Python Pandas DataFrame 写入 Word 文档

我正在努力创建一个使用 Pandas DataFrames 的 Python 生成的报告目前我正在使用DataFrame to string 方法但是这会作为字符串写入文件有没有办法让我实现这一目标同时将其保留为表格以便我可以使
类型错误：“datetime.datetime”和“str”的实例之间不支持“>”

我是 python 日期和时间类型的新手我有一个日期值 date 2018 11 10 10 55 31 00 00 我需要检查该日期值是否超过 90 天我试过 from datetime import datetime from da
无法在 virtualenv 中安装 libxml2

我有一个问题libxml2蟒蛇模块我正在尝试将其安装在python3 虚拟环境使用以下命令 pip install libxml2 python3 但它显示以下错误 Collecting libxml2 python3 Using cac
django 模板 - 如何动态访问变量？

假设我有一个具有以下上下文的 django 模板 data1 this is data1 data2 this is data2 data name data2 现在我知道了data name 假设它是 data2 是否可以用它来访问变量d
带有 mkdocs 的本地 mathjax

我想在无法访问互联网的计算机上使用 MathJax 和 Mkdocs 因此我不能只调用 Mathjax CDN Config mkdocs yml site name My Docs extra javascript javascripts
ValueError：数据必须为正（boxcox scipy）

我正在尝试将我的数据集转换为正态分布 0 8 298511e 03 1 3 055319e 01 2 6 938647e 02 3 2 904091e 02 4 7 422441e 02 5 6 074046e 02 6 9 265747e
设置高亮大括号的 vim 颜色主题

如何更改突出显示大括号的 vim 配色方案我希望实际编辑 vim 主题文件以使更改永久生效问候克雷格匹配括号的自动高亮颜色称为MatchParen 您可以通过执行以下操作来更改 vimrc 中的颜色 highlight MatchP
使用正则表达式搜索 Ruby 数组

你好我有一个小的 ruby 函数它可以分割出一个 Ruby 数组如下所示 def rearrange arr from to sidx arr index from eidx arr index to arr sidx arr sid
高级描述熊猫

有没有像 pandas 那样更高级的功能通常我会继续这样 r pd DataFrame np random randn 1000 columns A r describe 我会得到一份很好的总结就像这样 A count 1000 000
Seaborn 中没有线性拟合的散点图

我想知道是否有办法关闭seaborn中的线性拟合lmplot或者是否有一个等效函数可以生成散点图当然我也可以使用 matplotlib 但是我发现 seaborn 中的语法和美学非常吸引人例如我想绘制以下情节 import sea
Django 2、python 3.4 无法解码 urlsafe_base64_decode(uidb64)

我正在尝试通过电子邮件激活用户电子邮件有效编码有效我使用了 django1 11 中的方法该方法运行成功在 Django 1 11 中以下内容成功解码为 28 其中 uidb64 b Mjg force text urlsafe
为什么 Collections.counter 这么慢？

我正在尝试解决罗莎琳德的基本问题即计算给定序列中的核苷酸并在列表中返回结果对于那些不熟悉生物信息学的人来说它只是计算字符串中 4 个不同字符 A C G T 出现的次数我期望collections Counter是最快的方法首先
如何按 pandas 中的值对系列进行分组？

我现在有一只熊猫Series与数据类型Timestamp 我想按日期对其进行分组并且每组中有许多行具有不同的时间看似显而易见的方法类似于 grouped s groupby lambda x x date 然而熊猫的groupby按索
如何通过 Python Requests 库使用基本 HTTP 身份验证？

我正在尝试在 Python 中使用基本的 HTTP 身份验证我正在使用Requests https docs python requests org 图书馆 auth requests post http hostname auth HT
如何为 Imagus 悬停缩放扩展开发自定义过滤器？

当我读到关于悬停缩放是邪恶的 http www reddit com r YouShouldKnow comments 1wjrc8 ysk that the hover zoom extension is spyware 哎呀有两篇文章
两种 ODE 求解器之间的差异

我想知道两者之间有什么区别ODEINT and solve ivp用于求解微分方程它们之间有什么优点和缺点 f1 solve ivp f 0 1 y0 y0 is the initial point f2 odeint f y0 0 1
为boost python编译的.so找不到模块

我正在尝试将 C 代码包装到 python 中只需一个类即可导出两个函数我编译为map so 当我尝试时import map得到像噪音一样的错误 Traceback most recent call last File

随机推荐

Play 应用程序中使用的 SBT 覆盖范围“排除”

我在 Play 应用程序中使用了 sbt scoverage 我使用以下配置来排除反向和路由生成的文件 coverageExcludedPackages Reverse Routes 但是这只能排除生成的 Reverse scala 文件
kubectl 推出状态后获取新 pod 名称之一 | kubectl get pods --field-selector 返回终止 pod

问题是在部署新部署后 kubectl apply f deployment yml 假设使用一个副本进行部署 Kubernetes 将创建第二个 pod 并关闭前一个 pod 到目前为止一切正常但是在 kubectl apply 之后我
如何飞往react-leaflet中的某个位置

所以我对反应和传单真的很陌生但我想做的基本上就是让用户输入一些输入然后按回车键后触发一个事件然后该事件飞到从该输入生成的坐标我正在使用地理编码经纬度坐标已成功生成但是我不知道如何使地图飞到那个位置这是我到目前为止所拥有的 i
docker-compose：为什么代理和应用程序服务因主机名而失败？

以下是 v2 规范中工作的 docker compose 文件 version 2 volumes webroot driver local services app Launch uwsgi application server buil
Dialogflow 响应时间限制可以修改吗？

我正在使用网络钩子在对话流上制作一个机器人我收到错误 DEADLINE EXCEEDED 我的 webhook 需要 5 秒多一点的时间才能返回响应有没有办法让时间超过5秒这不可能一种可能性是例如如果您有一个需要一些时间的后台任
点击按钮后文本会恢复

我有一个按钮在整个程序中他可以更改自己的名字原名线然后重命名为 bar 当被命名为 bar 并且我按下它时它会执行以下代码代码中是变量 bt3 UIView animateWithDuration 1 delay 0 optio
bash 获取末尾有 exit 命令的文件

cat gt file1 sh lt lt EOF FILE1 echo before source source file2 sh echo after source func1 EOF FILE1 cat gt file2 sh lt
Python 3 整数地址[重复]

这个问题在这里已经有答案了 x 300 y 300 print id x id y a 300 300 print id a 0 id a 1 在执行上面的代码时我得到不同的地址x and y但相同的地址a 0 and a 1 谁能告诉我
如何在Visual Studio 2010中分析程序的内存使用情况？

有没有办法检查 VS 2010 中编码的程序中分配了哪些内存我注意到我最近制作的一个程序随着时间的推移不断使用越来越多的内存而不释放任何内存另外有没有关于代码设计的文章可以教您良好的内存管理我似乎在谷歌上搜索了错误的术语因为我不断
如何获取 Google 文档图像的 url

我有一个 Google 文档其中包含一张图像我找到了图像objectId如这里所述https developers google com docs api reference rest v1 InlineObject https dev
如何在一个突变中创建嵌套节点？

嗨我正在尝试在我的上写入数据https www graph cool https www graph cool 带有突变的 db 我的项目是一个 React Web 应用程序我使用 Apollo 作为 graphql 客户端使用 gr
使用 PHP 从目录读取文件哪个更好 - glob() 或 scandir() 或 readdir()？ [关闭]

Closed 这个问题是基于意见的 help closed questions 目前不接受答案我是 PHP 初学者我想从特定文件夹目录读取文件我不想在其中包含子文件夹或文件我只想列出目录内的直接文件我最终得到了 3 个解决方案
调试 mod_php 中的内存使用情况

我有一个在 apache mod php 中运行的请求处理程序它偶尔会超出允许的最大内存使用量即 php ini 中的 memory limit 定义处理此请求会调用 proc open 来运行外部命令这些命令的内存使用量是否针对
Spring Security 中访问始终被拒绝 - DenyAllPermissionEvaluator

我已经在 Spring Boot 应用程序中配置了 ACL ACL配置如下 Configuration ComponentScan basePackages com company EnableGlobalMethodSecurity pr
在名为“HelloWeb”的 DispatcherServlet 中未找到带有 URI [/HelloWeb/] 的 HTTP 请求的映射 [重复]

这个问题在这里已经有答案了我正在 tomcat 上部署我的项目然后收到此错误在名为 HelloWeb 的 DispatcherServlet 中未找到带有 URI HelloWeb 的 HTTP 请求的映射这是我的 web xml
是否可以使用有条件选择的字符串文字来初始化字符数组？

我知道初始化一个是完全有可能的char带有字符串文字的数组 char arr foo C 11 8 5 2 1 是这样说的 A char数组无论是普通char signed char or unsigned char char16 t a
如何理解“明显不断评估”的定义？

P0595 https wg21 link P0595介绍了std is constant evaluated 功能本文讨论了在某些情况下包含表达式是常量表达式但编译器不需要在编译时计算的情况给出的例子是 constexpr dou
如何在 xcode 4.5 中默认禁用自动布局？

这里有一个问题 Xcode 4 5 损坏 XIB https stackoverflow com questions 11137669 xcode 4 5 corrupting xibs说明了 xcode 4 5 创建不能在 ios5 上运
通过Intent发送短信并了解短信是否已发送

我尝试使用以下代码通过 Intent 发送短信 Intent intent new Intent Intent ACTION VIEW intent setData Uri parse smsto phoneNumber intent pu
BeautifulSoup .select() 方法是否支持使用正则表达式？

假设我想使用 BeautifulSoup 解析 html 并且想使用 css 选择器来查找特定标签我会通过这样做来充实它 from bs4 import BeautifulSoup soup BeautifulSoup html 如果

BeautifulSoup .select() 方法是否支持使用正则表达式？

BeautifulSoup .select() 方法是否支持使用正则表达式？ 的相关文章

随机推荐

热门标签

BeautifulSoup .select() 方法是否支持使用正则表达式？的相关文章