如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？

2024-03-23

下面是我正在使用的一个简单的 html 源代码

<html>
<head>
<title>Welcome to the comments assignment from www.py4e.com</title>
</head>
<body>
<h1>This file contains the actual data for your assignment - good luck!</h1>

<table border="2">
<tr>
<td>Name</td><td>Comments</td>
</tr>
<tr><td>Melodie</td><td><span class="comments">100</span></td></tr>
<tr><td>Machaela</td><td><span class="comments">100</span></td></tr>
<tr><td>Rhoan</td><td><span class="comments">99</span></td></tr>

下面是我的代码尝试获取<td>Melodie</td> line

html='html text file aboved'

soup=BeautifulSoup(html,'html.parser')

    for tag in soup.find_all('td'):
        print(tag) 
        print('----') #Result:
#===============================================================================
# <td>Name</td>
# ----
# <td>Comments</td>
# ----
# <td>Melodie</td>
# ----
# <td><span class="comments">100</span></td>
# ----
# <td>Machaela</td>
# ----
# <td><span class="comments">100</span></td>
# ----
# <td>Rhoan</td>
# ----
#.........
#===============================================================================

现在我想得到<td>name<td>仅行，而不是带有“span”和“class”的行。我尝试了 2 个过滤器soup.find_all('td' and not 'span') and soup.find_all('td', attrs={'class':None})但这些都不起作用。我知道还有其他方法，但我想在 soup.find_all() 中使用过滤器。我的预期输出（实际上我的最终目标是获取两个之间的人名<td>):

# <td>Name</td>
# ----
# <td>Comments</td>
# ----
# <td>Melodie</td>
# ----
# <td>Machaela</td>
# ----
# <td>Rhoan</td>
# ----

您可以通过两个单独的选择器调用获得所需的输出：

from bs4 import BeautifulSoup

html = """
<body>
<table border="2">
<tr>
<td>Name</td><td>Comments</td>
</tr>
<tr><td>Melodie</td><td><span class="comments">100</span></td></tr>
<tr><td>Machaela</td><td><span class="comments">100</span></td></tr>
<tr><td>Rhoan</td><td><span class="comments">99</span></td></tr>
"""
soup = BeautifulSoup(html, "lxml")

for elem in soup.select("td"):
    if not elem.select(".comments"):
        print(elem)

Output:

<td>Name</td>
<td>Comments</td>
<td>Melodie</td>
<td>Machaela</td>
<td>Rhoan</td>

顺便说一句，与 html.parser 相比，我更喜欢 lxml。它对格式错误的 HTML 更快、更稳健。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

html

beautifulsoup

findAll

如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？的相关文章

可以memmap pandas系列。数据框怎么样？

看来我可以通过创建 mmap d ndarray 并使用它来初始化系列来对 python 系列的底层数据进行内存映射 def assert readonly iloc try iloc 0 999 Should be non editabl
在 HTML
中发布额外的值

我有一个简单的表单它传递一个值
在 python 中查找价格动量的有效方法：对列的最后 n 个条目求平均值

我正在定义价格动量是给定股票过去动量的平均值n days 反过来动量是一种分类如果当天的收盘价高于前一天则每天标记为 1 如果当天的收盘价低于前一天则标记为 1 我的库存变化百分比如下 df close in percent np
VS Code Pylint 在缺失的函数/类文档字符串上用蓝色下划线突出显示整个函数

这种情况突然开始发生当出现缺少函数文档字符串警告时 python pylint 会用蓝色波浪线突出显示整个函数我怎样才能让它只突出显示函数定义或在定义行上制作一个小指示器在开发时突出显示整个文件是非常烦人的这是缺少类文档字符串的示例
从内存中发送图像

我正在尝试为 Discord 机器人实现一个系统该系统可以动态修改图像并将其发送给机器人用户为此我决定使用 Pillow PIL 库因为它对于我的目的来说似乎简单明了这是我的工作代码的示例它加载一个示例图像作为测试修改在其上
使用正则表达式检查整个字符串

我正在尝试检查字符串是否是数字因此正则表达式 d 似乎不错然而由于某种原因该正则表达式也适合 78 46 92 168 8000 这是我不想要的一些代码 class Foo rex re compile d def bar sel
参数太少错误，同时未使用参数占位符

我尝试使用 PYODBC 在 Access 数据库中执行 SQL 查询但出现以下错误 pyodbc Error 07002 07002 Microsoft ODBC Microsoft Access 驱动程序参数太少预期为 1 301
Emacs：在缓冲区求值期间将参数传递给下级 Python shell

最近我开始使用 Emacs 作为 Python IDE 它不太直观我现在遇到的问题是当使用 C c C c 评估缓冲区时如何将命令行参数传递给下级 python shell 感谢帮助这似乎并不容易实现管理的劣质流程python el模
链接到当前页面，无需查询字符串

我知道做链接有很多技巧例如 a href query string 附加查询字符串后将链接到当前页面有没有办法在删除查询字符串后链接回当前页面而无需仅输入文件名例如在页面foo php q 3 我想链接到foo php 有没有快捷
Selenium 上的切换窗口

我在 Python 中使用 Selenium 和 PhantomJS 我需要打开一个新窗口并控制它出于测试目的我这样做 from selenium import webdriver driver webdriver PhantomJS
单击 div 中的图像时如何翻转该 Div？

好吧我对编写 Javascript 知之甚少我可以对其进行一些编辑并且涉足了 CSS3 动画我将向您展示我正在努力实现的目标然后在下面进行解释网站布局将是这样的 https i stack imgur com RMb4R jpg
在Python中将用户昵称转换为正式名字

我正在尝试根据 Python 中的用户名字和姓氏映射来自不同系统的用户一个问题是名字在很多情况下都是昵称例如对于用户来说他的名字在一个系统中是 Dave 而在另一个系统中是 David python 中有没有简单的方法可以将这些
将 Selenium 与 PyCharm CE 结合使用

我正在尝试将 Selenium 与 PyCharm CE 一起使用我已经使用 pip install Selenium 安装了 Selenium 并且可以通过终端使用它但是当我尝试将它与 PyCharm 一起使用时出现导入错误 Imp
Pandas如何将多个函数应用于数据框

有没有办法像 DataFrameGroupBy agg 函数那样将函数列表应用于 DataFrame 中的每一列我发现了一个丑陋的方法来做到这一点 df pd DataFrame dict one np random uniform 0
将文本数据作为表单中的文件发布

是否可以从 html 表单中发布一些作为文件输入类型的字符串的 XML 数据情况是我有一个像这样的表格 form action target php method post enctype multipart form data gt
Django admin.py 未知命令：'collectstatic'

我已经从 django 1 2 7 升级到 django 1 5 1我正在使用 python 2 6 6当我尝试跑步时python manage py collectstatic i get 未知命令 collectstatic 从我的设置
有没有办法将样式强制应用到已经具有 style="" 属性的 div 元素

我正在尝试对我无法控制的 HTML 输出进行皮肤处理其中一个元素是div with a style overflow auto 属性 CSS 有没有办法强制这样做div to use overflow hidden 你可以加 import
*Python 内的 Kaggle API 文档？

我想写一个python从 Kaggle com 下载公共数据集的脚本 Kaggle API 是用 python 编写的但是我能找到的几乎所有文档和资源都是关于如何在命令行中使用该 API 的而关于如何使用kaggle图书馆内python
Spark (Python) 中的 Kolmogorov Smirnov 测试不起作用？

我正在 Python Spark ml 中进行正态性测试看到了我的结果think是一个错误这是设置我有一个标准化的数据集范围 1 到 1 当我做直方图时我可以清楚地看到数据不正常 gt gt gt prices norm hist
如何在Python中显示坐标网格线的变换？

假设我有常规的笛卡尔坐标系 x y 并且我考虑一个矩形网格区域 D 分成小方块我想看看域 D 如何在 Python 中的坐标变换 T x y gt u x y v x y 下映射我正在寻找这样的东西 See here https mat

随机推荐

Jupyter 小部件未出现在笔记本中

我正在运行 jupyter 笔记本但 jupyter 小部件没有出现相反我收到以下消息 Failed to display Jupyter Widget of type Button If you re reading this me
Java - 使用流转置列表的列表

为了改进目的我尝试专门使用流来转置列表列表我的意思是我有一个双精度列表列表其中包含例如 1 2 3 4 5 6 7 8 我想获得一个包含双打列表的列表 1 5 2 6 3 7 4 8 以下 Stack Overflow 问题提供了一
.designer 文件未与 Visual Studio 中的 .cs 文件关联？

EDIT 似乎有一种视觉效果视觉工作室中的错误当我将网站文件夹作为网站打开并查看 Views ascx designer cs 时它没有显示它是关联的但是如果我打开同一网站的解决方案文件那么这些文件就会关联并且一切正常需要明确
IIS VS 2008 / Web.config - 日期格式错误

谁能帮忙我最近移动了服务器它的 IIS7 而不是我们之前的 IIS6 但其他一切都是一样的我已将区域设置为英国所有日期格式加上系统本地我的意思是一切但是当网页 asp net 在 IIS7 上运行时它认为日期是另一种格式这真
计算器：仅当鼠标悬停在测试 JFrame 类中的按钮上时才会显示按钮

我很着急所以我想知道重复的事情我仍在努力学习 Java 和术语直到本学期结束我用了一个模板我正在使用背景图像面板这使一切变得复杂基本上这些按钮仅当我将鼠标悬停在它们上方时才会显示显然它与 JPanel 有关我排除了您
QISKIT 错误 - numpy.ndarray 大小已更改，可能表示二进制不兼容。预期来自 C 标头的值为 88，而来自 PyObject 的值为 80

我跑了这个 from qiskit import QuantumCircuit execute Aer from qiskit visualization import plot histogram 并得到以下错误 ValueError T
在iPhone上安装使用android studio开发的flutter应用

我最近开始在 Windows 10 上使用带有 Android Studio 的插件开发一个 Flutter 应用程序我可以通过连接具有 USB 调试模式的手机在 Android 手机上运行应用程序在我的 iPhone 上运行 flut
AndroidManifest.xml 在 android studio 中如何验证？

android studio 如何验证 AndroidManifest xml 和任何活动 xml 我读过了this https stackoverflow com questions 10242929 validating android
Vim：Mac 与 Linux ^M 问题

我使用 Vim 和 GIT 在 Linux Ubuntu 机器上开发我的项目以前我用的是Windows 这意味着行尾是DOS格式现在在迁移到 Linux 后我总是在行尾看到 M 令人困惑烦人的字符这里有些人如何将 vim 打开
如何从 gulp 调用执行 PowerShell 脚本？

我正在使用 gulp 来构建和部署我们的应用程序 var msbuild require gulp msbuild gulp task build clean function return gulp src sln pipe msbuil
iOS 15 标签栏滚动到底部后透明

如何修复iOS 15标签栏滚动到底部后透明的问题在 iOS 15 中 UIKit 扩展了scrollEdgeAppearance 的使用默认情况下会生成透明背景由于我在 iOS 15 之前在应用程序中全局更改了标签栏颜色因此我已将以
为什么在 Dart 中“var”而不是数据类型被认为是更好的实践？ [复制]

这个问题在这里已经有答案了我正在学习 Dart 教程中提到当你初始化变量时使用关键字 var 而不是 int 这样的数据类型 Dart 会根据初始值自动推断出它是 int 还是 String 但是如果我们直接告诉 dart 它要指向一
PHP if 条件与布尔值[重复]

这个问题在这里已经有答案了为什么会这样happen http sandbox onlinephpfunctions com code d5fff6ee86bc7c62d7624a39a1070cff770ad4aa 请解释一下我不是在寻
查找嵌套开始和结束标签的最佳方法

我正在使用 ROR 制作一个基本的讨论板当用户发布对消息的响应时输入文本区域将使用标签预先填充在引号中的消息 QUOTE 因此格式为 QUOTE 此处引用的消息 QUOTE 目前我有一个简单的解决方案使用 HTML 替换 QUOT
C# - 如何返回基于字符串的类型

例如我有一个名为 Clothing 的类它继承自 Product 的抽象类 public class Clothing Product public bool IsInSeason get set public string Mater
使用 MNIST 实现逻辑回归 - 不收敛？

我希望有一个人可以帮助我我从头开始实现了逻辑回归所以没有库除了 Python 中的 numpy I used MNIST 数据集 http yann lecun com exdb mnist 作为输入并决定尝试因为我正在进行二进制
Guard Rspec :cli 选项已弃用，更改为 :cmd 选项

Working Guardfile在我的 Rails 应用程序中 guard rspec all after pass false cli drb do 不工作Guardfile guard rspec all after pass fal
使用 VueJS 动态编译和安装元素

问题我为 VueJS 创建了一个围绕 jQuery DataTables 的轻量级包装器如下所示
Xcode 不断暂停我的音乐

首先我知道这是一个编程论坛但我的问题涉及 Xcode 并且在编码时问题发生在我身上当我使用Xcode 当它在调试时停在断点处时播放的音乐的声音在我的 Mac 音乐播放器中消失了我知道这很尴尬但它确实发生了有没有人有解决方案
如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？

下面是我正在使用的一个简单的 html 源代码 h1 This file contains the actual data for your assignment good luck h1 table border 2 tr td Name

如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？

如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？ 的相关文章

随机推荐

热门标签

如何在 Beautifulsoup 的 find_all() 函数中过滤没有属性的标签？的相关文章