使用 BeautifulSoup 解析嵌套 div

2023-12-24

我正在尝试解析许多包含文本、表格和 html 的网页。每个页面都有不同数量的段落，但每个段落都以一个开头开头<div>, 闭幕式</div>直到最后才发生。我只是想获取内容，过滤掉某些元素并用其他元素替换它们

期望的结果：text1 <b>text2</b> (table_deleted) text3

实际结果text1\n\ntext2some text heretext 3text2some text heretext 3 (table deleted)

from bs4 import BeautifulSoup

html = """
<h1>title</h1>
<h3>extra data</h3>
<div>
    text1
    <div>
        <b>next2</b><table>some text here</table>text 3
    </div>
</div>"""

soup = BeautifulSoup(html, 'html5lib')
tags = soup.find('h3').find_all_next()
contents = ""
for tag in tags:
    if tag.name == 'table':
        contents += " (table deleted) "

    contents += tag.text.strip()

print(contents)

不要使用html5lib作为解析器而不是使用html.parser。话虽这么说，您可以使用以下命令访问紧随“h3”标签之后的“div”CSS选择器 https://www.crummy.com/software/BeautifulSoup/bs4/doc/#css-selectors和select_one method.

从那里，您可以unwrap https://www.crummy.com/software/BeautifulSoup/bs4/doc/#replace-with下面的“div”标签并使用替换“table”标签replace_with https://www.crummy.com/software/BeautifulSoup/bs4/doc/#replace-with method

In [107]: from bs4 import BeautifulSoup

In [108]: html = """
     ...: <h1>title</h1>
     ...: <h3>extra data</h3>
     ...: <div>
     ...:     text1
     ...:     <div>
     ...:         <b>next2</b><table>some text here</table>text 3
     ...:     </div>
     ...: </div>"""

In [109]: soup = BeautifulSoup(html, 'html.parser')

In [110]: my_div = soup.select_one('h3 + div')

In [111]: my_div
Out[111]: 
<div>
    text1
    <div>
<b>next2</b><table>some text here</table>text 3
    </div>
</div>

In [112]: my_div.div.unwrap()
Out[112]: <div></div>

In [113]: my_div
Out[113]: 
<div>
    text1

<b>next2</b><table>some text here</table>text 3

</div>

In [114]: my_div.table.replace_with('(table deleted)')
Out[114]: <table>some text here</table>

In [115]: my_div
Out[115]: 
<div>
    text1

<b>next2</b>(table deleted)text 3

</div>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

beautifulsoup

使用 BeautifulSoup 解析嵌套 div 的相关文章

Python 切片对象和 __getitem__

python 中是否有内部的东西来处理传递给的参数 getitem 不同并自动转换start stop step构造成切片这是我的意思的演示 class ExampleClass object def getitem self args
使用python查找txt文件中字母出现的次数

我需要从 txt 文件中读取该字母并打印 txt 文件中出现的次数到目前为止我已经能够在一行中打印内容但计数有问题有人可以指导吗 infile open grades txt content infile read for char
在python中将数据库表写入文件的最快方法

我正在尝试从数据库中提取大量数据并将其写入 csv 文件我正在尝试找出最快的方法来做到这一点我发现在 fetchall 的结果上运行 writerows 比下面的代码慢 40 with open filename a as f writ
是否可以从 Julia 调用 Python 函数并返回其结果？

我正在使用 Python 从网络上抓取数据我想使用这些数据在 Julia 中运行计算是否可以在 Julia 中调用该函数并返回其结果或者我最好直接导出到 CSV 并以这种方式加载数据绝对地看PyCall jl https gith
无法在 selenium 和 requests 之间传递 cookie，以便使用后者进行抓取

我用 python 结合 selenium 编写了一个脚本来登录网站然后从driver to requests这样我就可以继续使用requests进行进一步的活动 I used item soup select one div class
Matplotlib：如何有效地将大量线段着色为独立渐变

Python 绘图库如何有效地将大量线段着色为独立渐变已经阅读this https stackoverflow com questions 8500700 how to plot a gradient color line in ma
如何通过 python 多处理利用所有核心

我一直在摆弄Python的multiprocessing现在已经使用了一个多小时的功能尝试使用并行化相当复杂的图形遍历函数multiprocessing Process and multiprocessing Manager import
如何确保 re.findall() 停止在正确的位置？

这是我的代码 a import re re findall r lt title gt lt title gt a 结果是 title aaa
如何使用scrapy检查网站是否支持http、htts和www前缀

我正在使用 scrapy 来检查某些网站是否工作正常当我使用http example com https example com or http www example com 当我创建 scrapy 请求时它工作正常例如在我的pa
Python HMAC：类型错误：字符映射必须返回整数、None 或 unicode

我在使用 HMAC 时遇到了一个小问题运行这段代码时 signature hmac new key secret key msg string to sign digestmod sha1 我收到一个奇怪的错误 File usr loca
Python Anaconda：如何测试更新的库是否与我现有的代码兼容？

我在 Windows 7 机器上使用 Python 2 7 Anaconda 安装进行数据分析和科学计算当新的库发布时例如新版本的 pandas patsy 等您建议我如何测试新版本与现有代码的兼容性是否可以在同一台机器上安装两个
Python将文本文件解析为嵌套字典

考虑以下数据结构 HEADER1 key value key value HEADER2 key value key value HEADER3 key value HEADER4 key value key value 原始数据中没有缩进
从 Flask 运行 NPM 构建

我有一个 React 前端我想在与我的 python 后端 API 相同的源上提供服务我正在尝试使用 Flask 来实现此目的但我遇到了 Flask 找不到我的静态文件的问题我的前端构建是用生成的npm run build in s
Ubuntu systemd 自定义服务因 python 脚本而失败

希望获得有关 Ubuntu 中的 systemd 守护进程服务的一些帮助我写了一个 python 脚本来禁用 Dell XPS 上的触摸屏这更像是一个问题而不是一个有用的功能该脚本可以工作但我不想一直启动它这就是为什么我想到编写
可以使用哪些技术来衡量 pandas/numpy 解决方案的性能

Question 如何简洁全面地衡量下面各个功能的性能 Example 考虑数据框df df pd DataFrame Group list QLCKPXNLNTIXAWYMWACA Value 29 52 71 51 45 76 68 6
如何给URL添加变量？

我正在尝试从网站收集数据我有一个 Excel 文件其中包含该网站的所有不同扩展名 F i www example com example2 我有一个脚本可以成功从网站中提取 HTML 但现在我想为所有扩展自动执行此操作然而当我说 s
rpy2 无法加载外部库

希望有人能帮忙解决这个问题 R版本 2 14 1rpy2版本 2 2 5蟒蛇版本 2 7 3 一直在尝试在 python 脚本中使用 rpy2 加载 R venneuler 包该包以 rJava 作为依赖项 venneuler 和 rJa
将 Keras 集成到 SKLearn 管道？

我有一个 sklearn 管道对异构数据类型布尔分类数字文本执行特征工程并想尝试使用神经网络作为我的学习算法来拟合模型我遇到了输入数据形状的一些问题我想知道我想做的事情是否可能或者我是否应该尝试不同的方法我尝试了几种不
如何（安全）将 Python 对象发送到我的 Flask API？

我目前正在尝试构建一个 Flask Web API 它能够在 POST 请求中接收 python 对象我使用 Python 3 7 1 创建请求使用 Python 2 7 运行 API 该 API 设置为在我的本地计算机上运行我试图发
定义在文本小部件中双击时选择哪些字符

在 Windows 上双击文本小部件中的单词也将选择连接的标点符号有什么方法可以定义您想要选择的角色吗 tcl wordchars该变量的值是一个正则表达式可以设置它来控制什么被视为单词字符例如通过双击 Tk 中的文本来选择单

随机推荐

如何在 Qt 中解析 XML 字符串

我正在开发一个应用程序在创建 Web 服务后我收到了来自服务器的响应该响应位于 XML 标记中响应 r n
递归地应用复杂的泛型类型

谢谢一个答案 https stackoverflow com questions 58409603 generate a type where each nullable value becomes optional来自 Nit 我有一个通
在reactjs中将字符串作为html

我有一个返回多行 html 的函数如下所示 render function var badges user get achievements badges map function badge var str h3 span span h
在命令窗口中禁用自动滚动

我在 Matlab 中编写的许多代码都有非常详细的输出当程序运行时信息被打印到命令窗口并且每换行一次窗口就会自动滚动到底部当我想更仔细地阅读一些输出或向上滚动以查看较旧的输出时这会成为一个问题我可以向上滚动但只能直到打印出新
在 Delphi 中通过 COM 对象使用 .Net 类有时会挂起

我有一组用 Delphi NET NET 1 1 编写的库我想在我的 Win32 Delphi 应用程序中使用它们对于与性能相关的问题我决定采用 COM 路线有时在重建 DLL 后当我尝试实例化通过 COM 公开的对象时 Win
如何在没有配置的情况下设置分页链接的样式 - codeigniter

我有以下分页样式 ul class pagination li a href i class fa fa long arrow left i Previous Page a li li class active a href 1 a li
我有一个程序，我想比较带来日期并带来所需的数据

我将所有详细信息写在我有两个名为 GAZZETED DAYS 的表其中包含列 GAZZETED DATE DESCRIPTION PAY IN OUT 包含列 EMP CODE ATT DATE 请检查我已经粘贴在 dbfiddle 中的
从 Azure Blob 存储下载文件

我有一个应用程序允许用户上传存储在 Azure Blob 存储中的照片用户还可以查看这些照片要查看它们我们希望应用程序将图像下载到默认下载位置目前上传工作完美但我发现Azure API的下载功能似乎没有做任何事情另外我无法
在显示用户数据的视图表中更改和保存 mysql 用户数据

我有一个表显示从 mysql 表中获取的用户数据我希望使其可以在该表的单元格内编辑我已经使用 php 在文本类型输入字段中显示数据如代码所示为了重新提交更改的数据我将表行包装在表单中但问题是表单数据没有重新提交我想让用户
Fluent nHibernate 自动映射属性为 nvarchar(max)

使用流畅的 nhibernate 和自动映射 nhibernate 创建我的数据库模式我如何让 nhibernate 基于以下类在数据库中创建 nvarchar max 列 public class VirtualPage BaseEnt
C# 中的动态字符串格式化

我创建了接受字符串的 log 方法当我想使用它时我会写这样的内容 Log string Format Message 0 AdditionalInfo 我应该如何实施Log方法以便能够使用字符串Format但不必在方法参数中显式编写 L
404 Not Found，但 Laravel 5.4 中存在路由

我正在使用 PhpStorm 我可以运行并打开index php 但是当我想按提交按钮登录后时它显示 404 未找到在 Windows 10 上运行的 Web 服务器 Apache 2 4 这是我的家这是我的路线我不完全确定为什
.dynamicType 已弃用。使用“类型（...）”代替

我刚刚更新到 Xcode 8 和 iOS 10 使用旧版 Swift 语言版本尝试再次编译我的项目一直是一种痛苦即使仍然使用旧的 Swift 语法这次我的函数之一使用NSBundle forClass self dynamicType
如何调试从完全信任进程启动器启动的 .exe

我在同一解决方案中构建了一个 UWP 应用程序和一个 WPF 应用程序我正在使用 FullTrustProcessLauncher 类从 UWP 应用程序启动 WPF 应用程序我还使用 App Service Connection 类来
查找嵌套数组中符合条件的第一个元素

我有以下文件 doc1 array field ABC enabled false field BCD enabled true field DEF enabled false field XYZ enabled true doc2 arr
使用 ADO.net 和 SQL 中的特殊字符

我想在 Winforms 中编写一个小型应用程序我可以在其中编写一些单词并使用 ADO net 将它们写入 SQL 数据库当我想编写带有占位符的字符串时遇到麻烦例如 Give me your s right now 我的数据库中记录的
AlertDialog 与 EditText，自动打开软键盘并聚焦于 EditText 不起作用

我正在尝试编写一段代码该代码应在 AlertDialog 中显示 EditText 后立即将其聚焦然后自动打开软键盘相反它只会使屏幕变暗 Builder builder new Builder this final EditText
防止快速点击视图

我正在 Xcode 和 swift 中工作我创建了一个视图充当点击时切换的菜单当菜单出现时我仍然可以单击其下方的测试按钮我不希望这种事发生我希望禁用视图后面的所有内容优先考虑菜单视图查看下图示例应用程序的屏幕截图 http
Azure Service Fabric 中的可靠 blob 状态？

是否有推荐的方法将 blob 用作 Azure Service Fabric 中的可靠状态我看到两个选择实现分块机制并将块存储在可靠的集合中不过这个选项的开发维护负担相当重外部存储 Blob Azure Blob 存储不过此
使用 BeautifulSoup 解析嵌套 div

我正在尝试解析许多包含文本表格和 html 的网页每个页面都有不同数量的段落但每个段落都以一个开头开头 div 闭幕式 div 直到最后才发生我只是想获取内容过滤掉某些元素并用其他元素替换它们期望的结果 text1 b text

使用 BeautifulSoup 解析嵌套 div

使用 BeautifulSoup 解析嵌套 div 的相关文章

随机推荐

热门标签