根据 Beautifulsoup 中的内容排除标签

2024-03-15

我正在抓取类似于以下内容的 html 数据：

<div class="target-content">
    <p id="random1">
      "the content of the p"
    </p>

    <p id="random2">
      "the content of the p"
    </p>

    <p>
      <q class="semi-predictable">
         "q tag content that I don't want
      </q>
    </p>

    <p id="random3">
      "the content of the p"
    </p>

</div>

我的目标是获得所有标签及其内容，同时能够排除<q>标签及其内容。目前，我得到了所有使用以下方法标记：

contentlist = soup.find('div', class_='target-content').find_all('p')

我的问题是在我找到所有结果集之后标签，如何过滤掉单个及其内容，其中包含<q>?

值得注意的是：得到结果集后soup.find('div', class_='target-content')find_all('p')，我迭代地添加每个通过以下方式从结果集到列表：

content = ''
    for p in contentlist:
        content += str(p)

你可以直接跳过p标签具有q里面的标签：

for p in soup.select('div.target-content > p'):
    if p.q:  # if q is present - skip
        continue
    print(p)

where p.q是一个捷径p.find("q"). div.target-content > p is a CSS 选择器 https://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors这将匹配所有p直接子标签div元素与target-content class.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

webscraping

beautifulsoup

根据 Beautifulsoup 中的内容排除标签的相关文章

2d 图像点和 3d 网格之间的交点

Given 网格源相机我有内在和外在参数图像坐标 2d Output 3D 点是从相机中心发出的光线穿过图像平面上的 2d 点与网格的交点我试图找到网格上的 3d 点 This is the process From Multip
LibreOffice 并行将 .docx 转换为 .pdf 效果不佳

我有很多 docx 文件需要转换为 pdf 将它们一一转换需要很长时间所以我编写了一个 python 脚本来并行转换它们 from subprocess import Popen import time import os os chdi
定义Python源代码编码的正确方法

PEP 263 http www python org dev peps pep 0263 定义如何声明Python源代码编码通常 Python 文件的前两行应以以下内容开头 usr bin python coding
如何为未捕获的异常处理程序编写单元测试

我有一个函数可以捕获uncaught例外情况如下有没有办法编写一个单元测试来执行uncaught exception handler 功能正常但测试正常退出 import logging def config logger logge
尝试从网页Python和BeautifulSoup获取编码

我试图从网页检索字符集这会一直改变目前我使用 beautifulSoup 来解析页面然后从标题中提取字符集这工作正常直到我遇到一个网站到目前为止我的代码以及与其他页面一起使用的代码是 def get encoding soup
在 Mac OSX 上从 Python 3.6 运行 wine 命令

我正在尝试用 Python 编写一个打开的脚本wine然后发送代码到wine终端打开一个 exe程序这 exe程序也是命令驱动的我可以打开wine 但我无法进一步 import shlex subprocess line usr bin
Python“非规范化”unicode 组合字符

我正在寻找标准化 python 中的一些 unicode 文本我想知道是否有一种简单的方法可以在 python 中获得组合 unicode 字符的非规范化形式例如如果我有序列u o xaf i e latin small lette
为什么在Python解释器中输入_会返回True？ [复制]

这个问题在这里已经有答案了我的翻译行为非常奇怪 gt gt gt True gt gt gt type True
NumPy 相当于 Keras 函数 utils.to_categorical

我有一个使用 Keras 进行机器学习的 Python 脚本我正在构建 X 和 Y 它们分别是特征和标签标签的构建方式如下 def main depth 10 nclass 101 skip True output True video
为什么这个 if 语句会导致语法错误

我正在尝试设置一个 elif 语句如果用户按下 Enter 键代码将继续但是我不断遇到语法错误 GTIN 0 while True try GTIN int input input your gtin 8 number if len
Flask 应用程序路由中的多个参数

烧瓶怎么写app route如果我在 URL 调用中有多个参数这是我从 AJax 调用的 URL http 0 0 0 0 8888 createcm summary VVV change Feauure 我试图写我的烧瓶app rout
将字符串中的随机字符转换为大写

我尝试随机附加文本字符串这样就不只是有像这样的输出 gt gt gt david 我最终会得到类似的东西 gt gt gt DaViD gt gt gt dAviD 我现在的代码是这样的 import random import stri
基于值而不是类型的单次调度

我在 Django 上构建 SPA 并且有一个庞大的功能其中包含许多功能if用于检查我的对象字段的状态名称的语句像这样 if self state new do some logic if self state archive do s
PyInstaller“ValueError：源代码字符串不能包含空字节”

我得到了一个ValueError source code string cannot contain null bytes执行命令时pyinstaller main py在具有和不具有管理员权限的cmd中 Traceback most re
使用 selenium 和 python 来提取 javascript 生成的 HTML？萤火虫？

这里是Python新手我遇到的是数据收集问题我在这个网站上当我用 Firebug 检查我想要的元素时它显示了包含我需要的信息的源然而常规源代码没有 Firebug 不会给我这个信息这意味着我也无法通过正常的 selenium
在 numpy 中连接维度

我有x 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 2 3 I want 1 2 3 4 5 6 7 8 9 10 11 12 shape 2 6 也就是说我想连接中间维度的所有项目在这种特殊情况下我可以得到这
寻找完美的正方形

我有这个Python代码 def sqrt x ans 0 if x gt 0 while ans ans lt x ans ans 1 if ans ans x print x is not a perfect square return
将时间添加到日期时间

我有一个像这样的日期字符串然后使用strptime 所以就像这样 my time datetime datetime strptime 07 05 15 m d Y 现在我想添加 23 小时 59 分钟my time 我努力了 timed
如何通过点击复制 folium 地图上的标记位置？

I am able to print the location of a given marker on the map using folium plugins MousePosition class GeoMap def update
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s

随机推荐

Bash 中声明、排版和局部变量之间的区别

在 Bash 中输入变量时有什么区别declare and typeset 当在函数内部使用时有什么区别declare and typeset and local 我遇到的唯一区别是排版可以移植到 ksh 脚本除此之外还有什么理由可
浮点图 - 外部选择条形图

我正在使用浮点http code google com p flot http code google com p flot 并希望当用户将鼠标悬停在链接上时突出显示系列中的特定栏有谁知道该怎么做 Cheers Tim 你正在寻找的是hi
将视觉块发送到外部命令

如何将视觉块发送到外部命令我使用 Ctrl q 选择我的块然后按 program name 但 Vim 发送整行而不是选定的文本块我在 Windows 10 上使用 gVim Ex 命令是基于行的而块视觉模式是一个 Vim 扩展这
Kentico UserInfoProvider 在控制台应用程序中未按预期工作

此代码在 Kentico 网站中运行良好 var users UserInfoProvider GetUsers for int x 0 x lt users Count x UserInfo currentUser users Eleme
Tailwind CSS，某些自定义颜色不起作用

我正在尝试通过编写一些主题在我的项目中使用 Tailwind 自定义颜色tailwind config js extend module exports content src js jsx ts tsx public index html
错误错误：未捕获（承诺）：NullInjectorError：R3InjectorError

我有一条错误消息 ERROR Error Uncaught in promise NullInjectorError R3InjectorError MarketModule IndiceService gt IndiceService g
仅在一个WebLogic集群节点上运行@Scheduled任务？

我们正在集群 WebLogic 10 3 4 环境中运行一个 Spring 3 0 x Web 应用程序 war 其中包含夜间 Scheduled 作业但是当应用程序部署到每个节点时使用 AdminServer 的 Web 控制台中的
超时后中止 Rust 中的评估

我有一个 Rust 函数不是我写的它要么以毫秒为单位返回要么在失败前等待约 10 分钟我想将对这个函数的调用包装在返回一个Option这是None如果运行时间超过 10 秒则包含结果如果运行时间较短然而我还没有找到任何方法来
Kotlin 中的记忆功能

我有一个带有实例方法 buildHierarchyUncached 的现有类其签名可以在下面找到 private fun buildHierarchyUncached date LocalDate Node 我想向公众提供function
语音回声问题

我正在尝试使用 Adob e Flex 构建一个视频聊天程序但回声存在一个巨大的问题如果参与者没有使用耳机他们所说的一切都会产生回声更糟糕的是它们实际上可以创建回声的正反馈循环直到麦克风静音为止该循环不会结束有没有人在 Fle
根据 WooCommerce 结账中的分类术语限制支付网关

在我的 WooCommerce 商店中仅当产品具有类别 ID 266 的特定产品类别时我想限制并显示支付网关支票现在我有了这个代码片段但它的作用相反它在结账时禁用了特定产品类别的网关 add filter woocommerce
JQuery UI 可拖动：超出一侧的限制

我正在使用 JQuery UI 来实现可调整大小可拖动的元素现在我想为这些元素定义一个包含限制在三个边上的调整大小拖动例如看看这个JSFiddle 示例 http jsfiddle net zuul e2yfC 5 您可以看到
使用 alamofire 的多部分/表单数据

我正在进行 post API 调用并且需要使用 multipart form data 我知道如何使用 JSON 进行调用但我不熟悉 multipart form data 使用 JSON 这是一个超级简单的调用只需创建一个类型参数
用于更新 JTable 中给定单元格/列并增加焦点的侦听器类型

我正在尝试使用预定义第一列的 JTable 用户仅将数据输入到第二列数量然后我通过将服务列和数量列相乘来计算最终收入并将其显示在第三列收入中 Service Quantity Income 40 00 X 40 00 3
Java：HashMap 大小是“质数”还是“2 的幂”？

许多书籍和教程都说哈希表的大小必须是素数才能将键均匀分布在所有桶中但是Java的HashMap始终使用 2 的幂的大小难道不应该使用素数吗作为哈希表大小质数或 2 的幂哪个更好使用 2 的幂可以有效地屏蔽哈希码的最高位因此
Blend 2 sp1 中的 WPF 视觉状态管理器

谁能向我解释如何让视觉状态管理器与 WPF 应用程序一起使用它刚刚被添加到新的 wpftoolkit 中我按照说明安装了它但即使是示例也没有显示 VSM 在 silverlight 中它可以工作但在 WPF 中不行如果安装了最新的
Oracle 上个月的日期函数

我有下面的查询其中日期是硬编码的我的目标是删除编码日期查询运行时应提取上个月的数据 select count distinct switch id from email protected cdn cgi l email protec
a:active a href 不起作用

我正在尝试在 a href 上应用 css 基本上我需要在单击 a href 时应用与悬停相同的样式以指示用户所在的页面有任何想法吗 active意思是被点击或以其他方式激活时它并不意味着链接到当前页面 CSS 与之最接近的是
更改 UICollectionViewCell 中的标签位置

我们有一个UICollectionView故事板上有一个原型单元该细胞有一个UILabel label 其中其定位没有自动布局我们有条件地设置标签的框架 collectionView cellForItemAtIndexPath 像这
根据 Beautifulsoup 中的内容排除标签

我正在抓取类似于以下内容的 html 数据 div class target content p the content of the p p p the content of the p p p p div

根据 Beautifulsoup 中的内容排除标签

根据 Beautifulsoup 中的内容排除标签 的相关文章

随机推荐

热门标签

根据 Beautifulsoup 中的内容排除标签的相关文章