使用BeautifulSoup提取两个节点之间的兄弟节点

2024-02-17

我有一个这样的文档：

<p class="top">I don't want this</p>

<p>I want this</p>
<table>
   <!-- ... -->
</table>

<img ... />

<p> and all that stuff too</p>

<p class="end>But not this and nothing after it</p>

我想提取 p[class=top] 和 p[class=end] 段落之间的所有内容。

有什么好的方法可以用 BeautifulSoup 做到这一点吗？

node.nextSibling属性是你的解决方案：

from BeautifulSoup import BeautifulSoup

soup = BeautifulSoup(html)

nextNode = soup.find('p', {'class': 'top'})
while True:
    # process
    nextNode = nextNode.nextSibling
    if getattr(nextNode, 'name', None)  == 'p' and nextNode.get('class', None) == 'end':
        break

这个复杂的条件是为了确保您访问的是 HTML 标记的属性而不是字符串节点。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

使用BeautifulSoup提取两个节点之间的兄弟节点的相关文章

Python中Decimal类型的澄清

每个人都知道或者至少每个程序员都应该知道 http docs oracle com cd E19957 01 806 3568 ncg goldberg html 即使用float类型可能会导致精度错误然而在某些情况下精确的解决方
Python - 将宽字符字符串从二进制文件转换为 Python unicode 字符串

这是漫长的一天我有点困惑我正在读取一个包含大量宽字符字符串的二进制文件我想将它们转储为 Python unicode 字符串为了解压非字符串数据我使用 struct 模块但我不知道如何对字符串执行相同的操作例如阅读系列一
使用 python 进行串行数据记录

Intro 我需要编写一个小程序来实时读取串行数据并将其写入文本文件我在读取数据方面取得了一些进展但尚未成功地将这些信息存储在新文件中这是我的代码 from future import print function import se
我怎样才能更多地了解Python的内部原理？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我使用Python编程已经有半年多了我对Python内部更感兴趣而不是使用Python开发应用程序
在 Tensorflow tf.nn.nce_loss 中出现 TypeError：'Mul' Op 的输入 'y' 的类型为 float32，与参数 'x' 的 int32 类型不匹配

我正在研究 Tensor Flow 中的 Bag of Words 实现并得到了类型错误 Mul Op 的输入 y 的类型为 float32 与参数 x 的 int32 类型不匹配在 tf nn nce loss 中我尝试查看 tf
Django 模型在模板中不可迭代

我试图迭代模型以获取列表中的第一个图像但它给了我错误即模型不可迭代以下是我的模型和模板的代码我只需要获取与单个产品相关的列表中的第一个图像模型 py class Product models Model title models
Pandas 中允许重复列

我将一个大的 CSV 包含股票财务数据文件分割成更小的块 CSV 文件的格式不同像 Excel 数据透视表之类的东西第一列的前几行包含一些标题公司名称 ID 等在以下列中重复因为一家公司有多个属性而不是一家公司只有一栏在前几行
切片 Dataframe 时出现 KeyError

我的代码如下所示 d pd read csv Collector Output csv df pd DataFrame data d dfa df copy dfa dfa rename columns OBJECTID Object ID
以同步方式使用 FastAPI，如何获取 POST 请求的原始正文？

在中使用 FastAPIsync not async模式我希望能够接收 POST 请求的原始未更改的正文我能找到的所有例子都显示async代码当我以正常同步方式尝试时 request body 显示为协程对象当我通过发布一些内容来
使用 Python pandas 计算调整后的成本基础（股票买入/卖出的投资组合分析）

我正在尝试对我的交易进行投资组合分析并尝试计算调整后的成本基础价格我几乎尝试了一切但似乎没有任何效果我能够计算调整后的数量但无法获得调整后的购买价格有人可以帮忙吗这是示例交易日志原始数据 import pandas as pd
更改 `base_compiledir` 以将编译后的文件保存在另一个目录中

theano base compiledir指编译后的文件存放的目录有没有办法可以永久设置theano base compiledir到不同的位置也许通过修改一些内部 Theano 文件的内容 http deeplearning net
使用 OLS 回归预测未来值（Python、StatsModels、Pandas）

我目前正在尝试在 Python 中实现 MLR 但不确定如何将我找到的系数应用于未来值 import pandas as pd import statsmodels formula api as sm import statsmodels
首先对列表中最长的项目进行排序

我正在使用 lambda 来修改排序的行为 sorted list key lambda item item lower len item 对包含元素的列表进行排序A1 A2 A3 A B1 B2 B3 B 结果是A A1 A2 A3 B
Seaborn Pairplot 图例不显示颜色

我一直在学习如何在Python中使用seaborn和pairplot 这里的一切似乎都工作正常但由于某种原因图例不会显示相关的颜色我无法找到解决方案因此如果有人有任何建议请告诉我 x sns pairplot stats2 hue
如何在 python 中没有 csv.reader 迭代器的情况下解析单行 csv 字符串？

我有一个 CSV 文件需要重新排列和重新编码我想跑 line line decode windows 1250 encode utf 8 在由 CSV 读取器解析和分割之前的每一行或者我想自己迭代行运行重新编码并仅使用单行解析表单
python Soap zeep模块获取结果

我从 SOAP API 得到如下结果 client zeep Client wsdl self wsdl transport transport auth header lb E authenticate self login res cl
如何在 OSX 上安装 numpy 和 scipy？

我是 Mac 新手请耐心等待我现在使用的是雪豹 10 6 4 我想安装numpy和scipy 所以我从他们的官方网站下载了python2 6 numpy和scipy dmg文件但是我在导入 numpy 时遇到问题 Library F
默认情况下，Keras 自定义层参数是不可训练的吗？

我在 Keras 中构建了一个简单的自定义层并惊讶地发现参数默认情况下未设置为可训练我可以通过显式设置可训练属性来使其工作我无法通过查看文档或代码来解释为什么会这样这是应该的样子还是我做错了什么导致默认情况下参数不可训练代码 im
迭代 my_dict.keys() 并修改字典中的值是否会使迭代器失效？

我的例子是这样的 for my key in my dict keys my dict my key mutate 上述代码的行为是否已定义假设my dict是一本字典并且mutate是一个改变其对象的方法我担心的是改变字典中的值可能
Elastic Beanstalk 中的 enum34 问题

我正在尝试在 Elastic Beanstalk 中设置 django 环境当我尝试通过requirements txt 文件安装时我遇到了python3 6 问题 File opt python run venv bin pip li

随机推荐

如何使用 Laravel 4.1 在字符串中查找#hashtags？

我目前正在尝试过滤输入字符串以查找用户希望与其照片一起显示的单个主题标签但是我目前在数据库中插入的内容不正确最好的情况是每个主题标签都保存在带有照片 ID 的新数据库行中但是我真的不知道该怎么做才能实现这一目标 hashtag n
如何从带有 Array 属性的 Action 方法返回 Json？

我正在尝试从操作方法返回一些 json 数据我有一个员工对象如下所示 public class Employee public int EmployeeID get set public string FirstName get set
JQuery UI 模式对话框使用 100% CPU

当我在 IE8 中打开模态 JQuery 对话框时我的 CPU 使用率达到 100 不实际上是 50 但这是一个核心的 100 如果我破坏开发人员工具似乎会触发很多调整大小事件我不进行任何自愿调整大小有其他人遇到过这个问题并且知道
超时功能

我想编写一个代码要求输入用户名但时间限制为 15 秒如果用户超出限制并且无法输入名称或任何字符串则代码将终止并显示超时按摩否则应保存名称并显示谢谢按摩我曾尝试过这样的操作但它是错误的并且不起作用请给我一个解决方案
Xt 错误：如果使用默认显示，则无法打开显示

Overview 我正在尝试让 XQuartz 在 OSX 上工作这样我就可以通过 Docker 进行 X11 转发我正在跟进此处的说明 https learning continuous deployment github io do
如何将 Geodjango 与 Google Maps API 3 集成？

我有一个包含多个字段的 geodjango 查询集但只想使用user name and location 一个点字段我想将其用作谷歌地图 API 3 中的标记请耐心等待因为我不懂 JavaScript 而且我有一系列问题将此视为新
复制工作表中的所有内容vba

Copy wb Sheets wsSource Name Range A1 W79 Copy Paste Special wbTarget Sheets Sheet1 Range A1 W79 PasteSpecial xlValues w
如何从堆栈历史记录中清除特定活动？

假设我有一个应用程序其中包含名为 A B C D 的活动现在考虑 A 已作为根活动启动 B 已从 A 启动 C 已从 B 启动 D 已从 C 启动现在我在活动 D 中有一个名为删除的按钮如果假设我按下活动 D 中的删除按
使用 Swift 从 Firebase 存储中检索图像

我正在寻找从 Firebase 存储检索图像的开始到结束代码示例只是为了显示图像作为图像视图或表格我看过这里的帖子和各种教程总感觉好像漏掉了什么如果我能看到全貌我就能更好地理解这一点所附代码是我当前尝试将 photo1 从本地
安装VS2008后，在winnt.h中出现编译错误

我正在尝试将我们的项目从 VS2005 转移到 VS2008 并且在 MFC 项目上遇到此构建错误 C Program Files Microsoft SDKs Windows v6 0A include winnt h 236 error
此插件在本文档中为此 Google 用户帐户创建了太多基于时间的触发器

我收到标题中的错误此附加组件在本文档中为此 Google 用户帐户创建了太多基于时间的触发器当我运行附加组件时该插件用于创建时间触发器我在 3 个文档中一起创建了 7 个触发器现在我无法在任何文档中创建新的触发器 ScriptAp
创建 SOAP 代理？

我想创建一个 SOAP 代理它修改原始 Web 服务 SOAP 标头 nampespace 并保持主体相同做这个的最好方式是什么创建一个 SOAP 提供程序使用原始 Web 服务然后修改标头和名称空间这看起来工作量很大如果您的
通过 Javascript 获取图像的平均颜色

不确定这是否可行但希望编写一个返回平均值的脚本hex or rgb图像的值我知道它可以在 AS 中完成但希望在 JavaScript 中完成 AFAIK 做到这一点的唯一方法是
更改 R 中 onRender() htmlWidgets 散点图中的线条粗细和不透明度

我希望使用 R 包 htmlwidgets 的 onRender 函数绘制一个图其中用户可以单击一个点并绘制一条线我现在工作的关键是以默认的粗细和默认的不透明度绘制一条灰线然而我一直坚持改变线条的粗细并且可能改变线条的不透明度
将 SpringBoot Api 部署到 IIS Web 服务器

我使用 gradle build 创建了 spring boot api 在我当地一切正常我在 IIS Web 服务器的 Sites DefaultsTest 中部署了角度应用程序它运行在https example app com ap
物体可以自我毁灭吗？

我有一个需要自我毁灭的物体能做到吗例子有错吗 void Pawn specialMoves Coordinate const from Coordinate const to int passant m board gt replace
从递归函数返回多个值

我遇到这个问题我必须将十进制数转换为二进制然后将这些位存储在链表中其中头节点是最高有效位最后一个节点是最低有效位解决问题本身其实很简单只需不断递归地对 2 取模并将结果添加到列表中直到十进制数变为 0 即可我陷入困境的是
用于查找素数的 Haskell 列表理解

我试图找到所有小于某个整数的素数n使用列表理解尽可能简洁我正在学习 Haskell 这只是一个练习我想写一些类似的东西 isqrt Integral a gt a gt a isqrt floor sqrt fromIntegral p
如何比较我的变量是否在 shell 脚本中包含换行符

我有一个脚本其中有一行将获取的第三行放入我的变量中如下所示 variable sed n 3 p home nmsadm abc txt So variable保存这个值它位于 abc txt 的第三行就我而言将是单字线或空空白
使用BeautifulSoup提取两个节点之间的兄弟节点

我有一个这样的文档 p class top I don t want this p p I want this p table table img p and all that stuff too p p class p

使用BeautifulSoup提取两个节点之间的兄弟节点

使用BeautifulSoup提取两个节点之间的兄弟节点 的相关文章

随机推荐

热门标签

使用BeautifulSoup提取两个节点之间的兄弟节点的相关文章