如何在Python中的BeautifulSoup4中使用.next_sibling时忽略空行

2024-05-09

由于我想删除 html 网站中重复的占位符，因此我使用 BeautifulSoup 的 .next_sibling 运算符。只要重复项位于同一行，就可以正常工作（参见数据）。但有时它们之间有一个空行 - 所以我希望 .next_sibling 忽略它们（看看 data2）

这就是代码：

from bs4 import BeautifulSoup, Tag
data = "<p>method-removed-here</p><p>method-removed-here</p><p>method-removed-here</p>"
data2 = """<p>method-removed-here</p>

<p>method-removed-here</p>

<p>method-removed-here</p>

<p>method-removed-here</p>

<p>method-removed-here</p>
"""
soup = BeautifulSoup(data)
string = 'method-removed-here'
for p in soup.find_all("p"):
    while isinstance(p.next_sibling, Tag) and p.next_sibling.name== 'p' and p.text==string:
        p.next_sibling.decompose()
print(soup)

数据输出符合预期：

<html><head></head><body><p>method-removed-here</p></body></html>

data2 的输出（需要修复）：

<html><head></head><body><p>method-removed-here</p>

<p>method-removed-here</p>

<p>method-removed-here</p>

<p>method-removed-here</p>

<p>method-removed-here</p>
</body></html>

我在 BeautifulSoup4 文档中找不到有用的信息，并且 .next_element 也不是我想要的。

我可以通过解决方法解决这个问题。问题描述于BeautifulSoup 的 google 群组 https://groups.google.com/forum/#!topic/beautifulsoup/F3sdgObXbO4他们建议对 html 文件使用预处理器：

 def bs_preprocess(html):
     """remove distracting whitespaces and newline characters"""
     pat = re.compile('(^[\s]+)|([\s]+$)', re.MULTILINE)
     html = re.sub(pat, '', html)       # remove leading and trailing whitespaces
     html = re.sub('\n', ' ', html)     # convert newlines to spaces
                                        # this preserves newline delimiters
     html = re.sub('[\s]+<', '<', html) # remove whitespaces before opening tags
     html = re.sub('>[\s]+', '>', html) # remove whitespaces after closing tags
     return html

这不是最好的解决方案，但却是一个。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

htmlparsing

beautifulsoup

如何在Python中的BeautifulSoup4中使用.next_sibling时忽略空行的相关文章

嵌套函数中的变量作用域

有人可以解释为什么以下程序失败 def g f for in range 10 f def main x 10 def f print x x x 1 g f if name main main 带有消息 Traceback most re
如何使用 tkinter 使用网格功能显示不同的图像？

我想使用显示文件夹中的图像grid 但是当我尝试使用以下代码时我得到了迭代单个图像的输出 My code def messageWindow win Toplevel path C Users HP Desktop dataset for
用于读取类似 CSV 行的 Python 正则表达式

我想解析传入的类似 CSV 的数据行值用逗号分隔逗号周围可能有前导和尾随空格并且可以用或引用例如这是有效的行 data1 data2 data3 data4 data5 但这是格式错误的 data1 data2 da ta3
使用 keras 澄清 Yolo v3 模型输出

我将 yolo v3 模型与 keras 一起使用该网络为我提供了形状如下的输出容器 1 13 13 255 1 26 26 255 1 52 52 255 所以我找到了这个link https www cyberailab com ho
Python：由于 OSError 无法安装软件包：[Errno 2] 没有这样的文件或目录

我尝试使用pip安装sklearn 并且我收到以下错误消息错误由于 OSError 无法安装软件包 Errno 2 没有这样的文件或目录 C Users 13434 AppData Local Packages PythonSoftwa
python win32com.client 调整窗口大小

我正在使用 Python 3 4 1 通过 win32com client 控制 Windows 应用程序我可以激活它我可以发送击键点击等现在我想知道是否有办法调整窗口大小并将其设置到特定位置我找不到方法这里有一些代码片段所以
Python正则表达式替换引号中的文本（引号本身除外）

例如我有一个测试字符串 content I opened my mouth Good morning I said cheerfully 我想使用正则表达式删除双语音标记之间的文本但不删除语音标记本身所以它会返回 I opened m
Flask 和 Reactjs 抛出 JSX 转换错误

我已经开始将 ReactJS 与 Python Flask 后端结合使用通过 Flask 渲染模板时我在 Chrome 控制台中收到以下客户端错误错误找不到模块 jstransform visitors es6 templates
Python：处理图像并保存到文件流

我需要使用 python 处理图像应用过滤器和其他转换然后使用 HTTP 将其提供给用户现在我正在使用 BaseHTTPServer 和 PIL 问题是 PIL 无法直接写入文件流因此我必须写入临时文件然后读取该文件以便将其发
python 硒按名称查找元素

查找电子邮件输入的正确代码是什么https accounts google com ServiceLogin html 是
使用 Popen 打开进程并获取 PID

我正在开发一个漂亮的小功能 def startProcess name path Starts a process in the background and writes a PID file returns integer pid Ch
我应该在哪里对对象和字段进行 django 验证？

我正在创建一个 Django 应用程序它使用 Django Rest Framework 和普通的 django views 作为用户的入口点我想对模型的独立字段以及整个对象进行验证例如字段根据正则表达式函数输入的车牌是否正确与
从 SUDS 中的 SOAP 响应中提取 Cookie

我必须使用具有多种服务的 API 所有这些都需要来自下面的身份验证的 JSESSION cookie 然而当我调用下一个服务时它不会保留 cookie 因此会拒绝它们 from suds client import Client url
从函数在 python 3 中创建全局变量

我想知道为什么在函数结束后我无法访问变量 variable for raw data 代码是这样的 def htmlfrom Website URL import urllib request response urllib request
如何使用 QAbstractTableModel（模型/视图）将数据设置到 QComboBox？

我希望能够设置itemData of a combobox当使用填充时QAbstractTableModel 但是我只能从模型返回一个字符串data method 通常当不使用模型时可以像这样执行 Set text and data
如何在Python中不使用库函数将字符串转换为整数？

我正在尝试转换 a 546 to a 546 不使用任何库函数我能想到的最纯粹 gt gt gt a 546 gt gt gt result 0 gt gt gt for digit in a result 10 for d in 01
为什么我的 Python 散点图不起作用？

我使用 pylab 创建了一个非常简单的散点图 pylab scatter engineSize fuelMile pylab show 该程序的其余部分不值得发布因为正是该行给我带来了问题当我将散点更改为绘图时它会绘制数据图
如何将另一整列作为参数传递给 pandas fillna()

我想用另一列中的值填充一列中的缺失值使用fillna方法我读到循环遍历每一行将是非常糟糕的做法最好一次完成所有事情但我不知道如何使用fillna 之前的数据 Day Cat1 Cat2 1 cat mouse 2 dog eleph
Python 中的可逆 STFT 和 ISTFT

有没有通用的形式短时傅立叶变换 https en wikipedia org wiki Short time Fourier transform与内置于 SciPy 或 NumPy 或其他什么中的相应逆变换这是pyplotspecgram
从 HDF5 文件中删除信息

我意识到 SO 用户以前曾问过这个问题question https stackoverflow com questions 1124994 removing data from a hdf5 file rq 1但它是在 2009 年被问到的

随机推荐

在 ExpressJS 中通过管道传送远程文件

我想读取远程图像并显示它我可以保存文件但无法正确显示代码理想情况下我只想直接传递文件而不进行处理不确定是否需要 tmp 文件步骤此代码不显示任何内容没有错误我也尝试了 res pipe response var url ht
Selenium - 保存网站，包括所有图像、css、dom

我想使用 firefox 或 chrome 访问带有 selenium 的页面当页面加载时我想从页面下载所有图像 css dom 我想存储每张图像就像我在其中找到它们一样 chrome gt Tools gt Development
我的用户脚本如何根据链接的文本获取链接？

给定目标页面上的 HTML dd class ddTit a href http abc xxx com 54781 html target blank special text words a dd 我怎样才能根据获取url特殊文字词
T v{} 初始化

我正在阅读 C 11 标准但不知道是否 T x 是值初始化或默认初始化自动存储它does说得很清楚 10 其初始化器为一组空括号即的对象应进行值初始化 And that 11 如果没有为对象指定初始化器则该对象被默认初始化但我
Rails - 使用delayed_job异步发送所有电子邮件

我在用着延迟作业 https github com collectiveidea delayed job我对此非常满意尤其是workless https github com lostboy workless扩大但我想这样设置ALL我的
黄瓜与 Micronaut

我正在尝试将 Cucumber 与 Micronaut 一起使用但当我尝试将其与 Cucumber 一起使用时 MicronautTest 注释根本不起作用未注入 theApple 请参阅下面的代码如果我在没有黄瓜的情况下运行它就可以
Laravel 5.5 中的主从配置

如何配置 Laravel 5 5 主从 MySQL 复制我想分别在master和slave上进行写操作和读操作可选有没有办法在理想条件下进行连接池和打开连接的最大最小数量只需改变你的config database php文件包含读
使用列表中的数据框：删除变量，添加新变量

定义一个列表dats有两个数据框 df1 and df2 dats lt list df1 data frame a sample 1 3 b sample 11 13 df2 data frame a sample 1 3 b sampl
如何在 NHibernate 中自动生成 ID

如何让 NHibernate 自动生成表的唯一 ID ID 可以是任意的long值只要每个值仅使用一次我当前的映射如下所示
如何动态查找连接组件

使用不相交集数据结构可以很容易地得到图的连通分量而且它只是支持增量连接组件 http www boost org doc libs 1 46 1 libs graph doc incremental components html 然而
excel中的多轴折线图

我正在寻找类似于下图中的多轴折线图这是由 amcharts 制作的 JavaScript 图表 excel有没有可以绘制图表的选项请注意有 3 个 Y 轴和 3 个折线图可让您比较数据是否有可能获得超过 3 个数据点每个数据点在
透明窗口层可点击并始终位于顶部

这是我尝试实现的一些代码其目的是创建一个透明全屏无边框可点击且始终位于其他窗口之上的表单层然后您可以使用 directx 在其顶部进行绘制否则保持透明不起作用的部分是点击部分和 directx 渲染当我运行它时我基本上在
如何更改 IntelliJ 中所有文件的突出显示？

在 IntelliJ 中您可以使用滑块将突出显示级别从检查更改为语法但是这仅适用于单个文件有没有办法让所有文件默认使用语法突出显示关于 PyCharm 的讨论表明 JetBrains 不希望您更改其任何 IDE 中的默认突出显示级
引发 RuntimeError(f"目录 '{directory}' 不存在") RuntimeError: 导入 fitz 时目录 'static/' 不存在

当我运行 extract img py 文件时出现此错误 RuntimeError f 目录 directory 不存在运行时错误导入 fitz 时不存在目录 static 我不明白为什么这会给我发回此错误消息我之前看到过关于这个话题
如何通过 JavaScript for 循环创建 json？

I have array选择标签
创建一个打开文件并创建字典的函数

我有一个正在处理的文件我想创建一个读取文件并将内容放入字典中的函数然后该字典需要通过 main 函数传递这是主程序它无法改变我所做的一切都必须与主程序配合 def main sunspot dict file str raw in
将变换值添加到元素上已有的当前变换中？

假设我有一个div那有translateX and translateY动态添加的值 div class object child0 style width 50px height 50px 我想添加rotateY 20deg 到当前的变换
CMake：如何将 .def 文件添加到 Visual Studio 项目过滤器？

如何将 def 文件添加到 Visual Studio 项目过滤器 filters文件 Visual Studio 使用 def 文件 CMake代码 set a src a cpp a def add library a SHARED a
angular.bootstrap 错误：错误：[ng:btstrpd] 应用程序已使用此元素引导

我正在构建一个依赖于 Angular 的小部件以及小部件构建器工具构建者使用 Angular 与ngApp附于html文档的标签当我在小部件生成器中加载小部件时出现以下错误 Error ng btstrpd App Already B
如何在Python中的BeautifulSoup4中使用.next_sibling时忽略空行

由于我想删除 html 网站中重复的占位符因此我使用 BeautifulSoup 的 next sibling 运算符只要重复项位于同一行就可以正常工作参见数据但有时它们之间有一个空行所以我希望 next sibling 忽略它

如何在Python中的BeautifulSoup4中使用.next_sibling时忽略空行

如何在Python中的BeautifulSoup4中使用.next_sibling时忽略空行 的相关文章

随机推荐

热门标签

如何在Python中的BeautifulSoup4中使用.next_sibling时忽略空行的相关文章