bs4 `next_sibling` VS `find_next_sibling`

2024-05-17

我在使用时遇到困难next_sibling（并且类似地与next_element）。如果用作属性，我不会得到任何返回，但如果用作find_next_sibling (or find_next）然后就可以了。来自doc https://www.crummy.com/software/BeautifulSoup/bs4/doc/#next-sibling-and-previous-sibling:

find_next_sibling: “迭代树中元素的其余同级元素。[...] 返回（匹配的）第一个元素”
find_next: “这些方法使用 .next_elements 迭代 [...] 并返回第一个”

So, find_next_sibling依赖于取决于next_siblings。关于什么next_sibling取决于，为什么他们什么也不返回？

from bs4 import BeautifulSoup

html = """
<div class="......>
 <div class="one-ad-desc">
  <div class="one-ad-title">
   <a class="one-ad-link" href="www this is the URL!">
    <h5>
     Text needed
    </h5>
   </a>
  </div>
  <div class="one-ad-desc">
    ...and some more needed text here!
  </div>
 </div>
</div>
"""

soup = BeautifulSoup(html, 'lxml')

for div in soup.find_all('div', class_="one-ad-title"):
    print('-> ', div.next_element)
    print('-> ', div.next_sibling)
    print('-> ', div.find_next_sibling())-> ')
    break

Output

->  

->  

->  <div class="one-ad-desc">
    ...and some more needed text here!
  </div>

我认为这里的要点是.find_next_sibling()范围已开启下一级在树上。

While .next_element and .next_sibling范围是在同一水平的解析树。

因此，看一下并打印元素的名称，您将看到下一个元素不是标签，因为树的同一级别上没有任何内容：

for div in soup.find_all('div', class_="one-ad-title"):
    print('-> ', div.next_element.name)
    print('-> ', div.next_sibling.name)
    print('-> ', div.find_next_sibling().name)

#output
->  None
->  None
->  div

因此，如果您将输入更改为一行并且没有空间，...在标签之间，您得到以下结果：

from bs4 import BeautifulSoup

html = """
<div class="......><div class="one-ad-desc"><div class="one-ad-title"><a class="one-ad-link" href="www this is the URL!"><h5>Text needed</h5></a></div><div class="one-ad-desc">...and some more needed text here!</div></div></div>"""

soup = BeautifulSoup(html, 'lxml')

for div in soup.find_all('div', class_="one-ad-title"):
    print('-> ', div.next_element)
    print('-> ', div.next_sibling)
    print('-> ', div.find_next_sibling())

Output:

->  <a class="one-ad-link" href="www this is the URL!"><h5>Text needed</h5></a>
->  <div class="one-ad-desc">...and some more needed text here!</div>
->  <div class="one-ad-desc">...and some more needed text here!</div>

Note “需要文本”不在您所选标签的同级标签中，而是在其子标签之一中。选择“需要文本”->print('-> ', div.find_next().text)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

webscraping

beautifulsoup

bs4 `next_sibling` VS `find_next_sibling` 的相关文章

如何确定非阻塞套接字是否真正连接？

这个问题不仅限于Python 这是一个一般的套接字问题我有一个非阻塞套接字想要连接到一台可访问的机器在另一端该端口不存在为什么 select 仍然成功我预计会超时 sock send 因管道损坏而失败 select 之后如何确定
python - 是否可以扩展 xml-rpc 可以序列化的事物集？

我看到几个问题询问如何发送numpy ndarray通过 xml rpc 调用这不能开箱即用因为正如 xml rpc 中所述docs https docs python org 2 library xmlrpclib html 有一组固
从字符串到类型的词法转换

最近我尝试用Python存储和读取文件中的信息遇到了一个小问题我想从文本文件中读取类型信息从 string 到 int 或 float 的类型转换非常有效但从 string 到 type 的类型转换似乎是另一个问题当然我尝试了
即使使用 .loc[row_indexer,col_indexer] = value 时也会设置 WithCopyWarning

这是我的代码中得到的行之一SettingWithCopyWarning value1 Total Population value1 Total Population replace to replace value 4 然后我将其更改为
python 中分割字符串以获得一个值？

需要帮助假设我在名为 input 的变量中有一个字符串 Sam Person name kind input split 通过执行上述操作我得到两个具有不同字符串 Sam 和 Person 的变量有没有办法只获取第一个值 name S
可以在 TensorFlow 中使用排名相关作为成本函数吗？

我正在处理偶尔充满异常值的极其嘈杂的数据因此我主要依靠相关性来衡量我的神经网络的准确性是否可以明确使用诸如等级相关性斯皮尔曼相关系数之类的东西作为我的成本函数到目前为止我主要依赖 MSE 作为相关性的代理我现在面临三个主要障碍
带图像的简单 GUI [关闭]

很难说出这里问的是什么这个问题是含糊的模糊的不完整的过于宽泛的或修辞性的无法以目前的形式得到合理的回答如需帮助澄清此问题以便重新打开访问帮助中心 help reopen questions 我试图在简单的 GUI 上显示一些卡
如果字段值在外部列表中，Django 会注释布尔值

想象一下我有这个 Django 模型 class Letter models Model name models CharField max length 1 unique True 还有这个列表 vowels a e i o u 我想查询
更改 pandas 中多个日期时间列的时区信息

有没有一种简单的方法可以将数据帧中的所有时间戳列转换为本地任何时区不是逐列进行吗您可以有选择地将转换应用于所有日期时间列首先选择它们select dtypes https pandas pydata org pandas docs
selenium.common.exceptions.WebDriverException：消息：服务

当我使用 selenium 控制 Chrome 时遇到了麻烦这是我的代码 from selenium import webdriver driver webdriver Chrome When i tried to operate it
在可编辑的QSqlQueryModel中实现setEditStrategy

这是后续这个问题 https stackoverflow com questions 49752388 editable qtableview of complex sql query 在那里我们创建了 QSqlQueryModel 的可
将 Pandas 列中的列表拆分为单独的列

这是我在 pandas 数据框中的特征列 Feature Cricket 82379 Kabaddi 255 Reality 4751 Cricket 15640 Wildlife 730 LiveTV 13 Football 4129
如何列出 python PDB 中的当前行？

在 perl 调试器中如果重复列出离开当前行的代码段可以通过输入命令返回到当前行点我无法使用 python PDB 模块找到任何类似的东西如果我list如果我自己离开当前行并想再次查看它似乎我必须记住当前正在执行的行号对我来说
将输入发送到 python 子进程而不等待结果

我正在尝试为一段代码编写一些基本测试该代码通常通过 stdin 无休止地接受输入直到给出特定的退出命令我想检查程序是否在给出一些输入字符串时崩溃经过一段时间来考虑处理但似乎无法弄清楚如何发送数据而不是陷入等待我不知道的输出关心我
Pandas Dataframe：将包含列表的行扩展到多行，并为所有列提供所需的索引

我在 pandas 数据框中有时间序列数据索引为测量开始时的时间列中包含以固定采样率记录的值列表连续索引列表中元素数量的差异这是它的样子 Time A B Z 0 1 2 3 4 1 2 3 4 2 5 6 7 8 5 6 7 8
Scipy 稀疏 Cumsum

假设我有一个scipy sparse csr matrix代表下面的值 0 0 1 2 0 3 0 4 1 0 0 2 0 3 4 0 我想就地计算非零值的累积和这会将数组更改为 0 0 1 3 0 6 0 10 1 0 0 3 0 6
如何禁止 celery 中的 pickle 序列化

Celery 默认使用 pickle 作为任务的序列化方法如中所述FAQ http ask github com celery faq html isn t using pickle a security concern 这代表一个安全漏
如何将列表字典写入字符串而不是 CSV 文件？

This 堆栈溢出问题 https stackoverflow com questions 37997085 how to write a dictionary of lists to a csv file将列表字典写入 CSV 文件的答案
异步和协程与任务队列

我一直在阅读有关 python 3 中的 asyncio 模块的内容以及更广泛地了解 python 中的协程的内容但我不明白是什么让 asyncio 成为如此出色的工具我的感觉是你可以用协程做的所有事情通过使用基于多处理模块例如
使用 Python 生成类似于 Messenger 或 kik 代码的圆形二维码

我可以使用 Python 生成圆形 QR 码就像 Facebook Messenger 或 kik 使用的那样吗我访问了很多网站但找不到这种类型的二维码默认情况下 Python 生成方形 QR 码但在我的项目中我想要圆形 QR 码

随机推荐

同时从多个流中捕获、最佳方法以及如何减少 CPU 使用率

我目前正在编写一个应用程序该应用程序将捕获大量 RTSP 流在我的例子中为 12 个并将其显示在 QT 小部件上当我超过大约 6 7 个流时问题就会出现 CPU 使用率激增并且出现明显的卡顿我认为它不是 QT 绘制函数的原因是因
stm32l0: 执行MI命令失败。使用 vFlashErase 数据包擦除闪存时出错

我正在使用 Nucleo STM32L031 和 AC6 STM32 工作台 eclipse 我编写应用程序并进入调试模式一切正常直到我在应用程序中添加另一个功能我注意到当我删除评论新函数软件可以再次进入调试模式但是当我添加
从多个开发机器管理远程 docker 机器

可以从另一个工作站管理使用 docker machine 命令从一个开发人员工作站创建的 docker 机器吗我不是在寻找涉及 docker swarm 的解决方案而只是寻找涉及 docker machine 的解决方案据我了解当
Java中HashMap和ArrayList的区别？

在爪哇 ArrayList and HashMap被用作集合但我不明白我们应该在哪些情况下使用ArrayList以及使用时间HashMap 他们两者之间的主要区别是什么您具体询问的是 ArrayList 和 HashMap 但我认为要完
在状态栏下方显示DialogFragment内容

我试图显示高度和宽度均具有 match parent 的 DialogFragment 但碰巧在顶部 DialogFragment 显示在 StatusBar 下方 DialogFragment 正在应用一些默认值来填充底部右侧左侧和顶
在 Delphi 或 C++ Builder 中使用 Chromium Edge WebView2 [重复]

这个问题在这里已经有答案了既然 Microsoft Chromium Edge 已经最终确定是否可以在 Delphi 或 C Builder 中使用它据我了解它是基于WebView2成分是否有一个组件例如TWebView2或者E
如何从清单文件（通常是清单文件与 kubectl 运行）使用 kubectl port-forward

我正在尝试在本地使用 Kubernetes 运行我的第一个应用程序或者我应该说 minikube 我有一个非常基本的 Web 服务器一个本地 docker 镜像和官方 mongodb 我想从 dockerhub 中提取镜像我并不是
检查文件权限

我怎样才能检查file permissions 无需通过运行操作系统特定命令passthru or exec Use 文件权限 http php net fileperms功能 clearstatcache echo substr spri
异常：加载数据时 URL 获取失败

我正在尝试设置我的机器来运行 Tensorflow 2 我从未使用过 Tensorflow 只是下载了 Python 3 7 我不确定这是否是我的机器的问题我按照上面列出的安装说明进行操作TensorFlow 的网站 https www
kafka 连接 s3 源无法与 Minio 一起使用

我已经验证了与 minio 的连接确保凭据工作正常并且可以访问 minio 另外如果我尝试任何其他值store url http minio 9000我无法保存配置所以我猜想在可见性方面不存在问题卡夫卡连接容器和minio容器我不确
AWS Cloudfront 作为具有自定义域的 Heroku 站点的 CDN

最近我从 AWS Route 53 brianpatrickhummel com 购买了一个域来托管个人投资组合该投资组合网站已启动并正在运行使用 S3 存储桶和 Cloudfront 作为 CDN 在作品集网站上访问者可以预览我构
ios - Gamekit 的 GKOctree 未找到元素

我正在尝试使用GKOctree https developer apple com documentation gameplaykit gkoctree用于高效检索 3D 空间中的对象然而以下代码似乎没有按预期工作 import Gam
在 Azure DevOps 项目之间移动存储库时保留拉取请求

我在同一帐户内有两个 Azure DevOps 项目我想将存储库从一个项目移动到另一个项目这一页探索如何在具有完全保真历史记录的团队项目之间移动 git 存储库 https learn microsoft com en us azure
使用终端时 Git 推送在总计后卡住了？

我尝试将一些文件推送到Github 总大小只有22 2M 我不知道为什么它在总行之后卡住了我读过推送到 Github 时 Git 推送挂起 https stackoverflow com questions 16906161 git pu
如何将相机中的图像保存到 iPhone 图库中的特定文件夹？

嘿我是 iPhone 新手最近我一直在尝试制作一个应用程序基本上我想要做的是如果用户将从相机捕获任何图像那么它应该保存在设备库中我知道如何将照片保存在图库中它对我有用但我无法将所有捕获的图像保存到设备图库中的特定文件夹例
MySQL - 选择一行 - 然后相对于所选行的下一个和上一个

我会尽力澄清这一点我需要在不使用 id 的情况下选择特定行和该选定行的前一个相对行以及该选定行的下一个相对行这可能吗简而言之上一篇和下一篇我不能也许我只是不知道如何使用 id 的原因是因为它们不是按顺序排列的正如您从这个相当
如何在 GCC 5 中处理双 ABI？

我尝试了解如何克服 GCC 5 中引入的双重 ABI 的问题但是我没能做到这是一个重现错误的非常简单的示例我使用的GCC版本是5 2 如您所见我的主要函数在 main cpp 文件中非常简单 main cpp include
将 HTML 表格导出到 Excel

我在 ASP NET MVC 视图页面上有 HTML 表现在我必须将该表导出到 Excel 1 我使用部分视图 Inquiries ascx 来显示数据库中的表数据使用LINQ to Entity 2 我还使用了 UITableFilt
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
bs4 `next_sibling` VS `find_next_sibling`

我在使用时遇到困难next sibling 并且类似地与next element 如果用作属性我不会得到任何返回但如果用作find next sibling or find next 然后就可以了来自doc https www cru

bs4 `next_sibling` VS `find_next_sibling`

bs4 `next_sibling` VS `find_next_sibling` 的相关文章

随机推荐

热门标签