使用 python lxml 将多个
标签合并为一个标签

2024-04-07

我有一个 python 脚本来清理抓取的 html 内容，它使用 BeautifulSoup4 并且工作得很好。最近我决定学习 lxml，但我发现教程（对我来说）更难遵循。例如我使用下面的代码来合并多个<br />标记为一个，即如果有多个<br />标签，删除所有标签，只保留一个：

from bs4 import BeautifulSoup, Tag
data = 'foo<br /><br>bar. <p>foo<br/><br id="1"><br/>bar'
soup = BeautifulSoup(data)
for br in soup.find_all("br"):
    while isinstance(br.next_sibling, Tag) and br.next_sibling.name == 'br':
        br.next_sibling.extract()
print soup
<html><body><p>foo<br/>bar. </p><p>foo<br/>bar</p></body></html>

我如何在 lxml 中实现类似的效果？谢谢，

你可以尝试.drop_tag()删除重复连续出现的方法<br/> tag:

from lxml import html

doc = html.fromstring(data)
for br in doc.findall('.//br'):
    if br.tail is None: # no text immediately after <br> tag
        for dup in br.itersiblings():
            if dup.tag != 'br': # don't merge if there is another tag inbetween
                break
            dup.drop_tag()
            if dup.tail is not None: # don't merge if there is a text inbetween
               break

print(html.tostring(doc))
# -> <div><p>foo<br>bar. </p><p>foo<br>bar</p></div>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

lxml

使用 python lxml 将多个
标签合并为一个标签的相关文章

如何实现 __eq__ 进行集合包含测试？

我遇到了一个问题我将一个实例添加到一个集合中然后进行测试以查看该对象是否存在于该集合中我已经覆盖了 eq 但在包含测试期间不会调用它我必须覆盖吗 hash 反而如果是这样我将如何实施 hash 鉴于我需要对元组列表和字典进行哈
Django 中的 Rpy2 错误 - 未为“”类型的对象定义转换“py2rpy”

我以前从未使用过 R 并且正在尝试使用 rpy2 从 python 调用 R 函数它可以在独立的 python 终端上运行但不能在 Django 中运行但rpy2似乎无法将python字符串转换为r对象我正在使用同事提供的自定义库
Python：使用 string.format() 将单词大写

是否可以使用字符串格式将单词大写例如 user did such and such format user foobar 应该返回 Foobar 做了这样那样的事情请注意我很清楚 capitalize 但是这是我正在使用的代码非常
使用 OpenCV 和/或 Numpy 对两个图像进行 Alpha 混合 [重复]

这个问题在这里已经有答案了我想将一个填充纯色的半透明矩形添加到已加载的半透明 PNG 中这是我正在使用的输入图像示例该图像加载了标准cv2 IMREAD UNCHANGED标志以便完美保留 alpha 通道该输入图像存储在imag
ca 证书 Mac OS X

我需要在emacs 上安装offlineimap 和mu4e 问题是配置当我运行 Offlineimap 时我得到 OfflineIMAP 6 5 5 Licensed under the GNU GPL v2 v2 or any la
如何让python优雅地失败？

我只是想知道如何让 python 在所有可能的错误中以用户定义的方式失败例如我正在编写一个处理大项目列表的程序并且某些项目可能不符合我定义的格式如果 python 检测到错误它目前只会输出一条丑陋的错误消息并停止整个过程但是
将一维数组转换为下三角矩阵

我想将一维数组转换为较低的零对角矩阵同时保留所有数字我知道numpy tril函数但它用零替换了一些元素我需要扩展矩阵以包含所有原始数字例如 10 20 40 46 33 14 12 46 52 30 59 18 11 22 30
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
Python——捕获异常的效率[重复]

这个问题在这里已经有答案了可能的重复 Python 常见问题解答异常有多快 https stackoverflow com questions 8107695 python faq how fast are exceptions 我记得
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
按多个键分组并对字典列表的值进行汇总/平均值

在Python中按多个键进行分组并对字典列表进行汇总平均值的最Pythonic方法是什么假设我有一个字典列表如下所示 input dept 001 sku foo transId uniqueId1 qty 100 dept 001
在 Linux 上的 Python 中使用受密码保护的 Excel 工作表

问题很简单我每周都会收到一堆受密码保护的 Excel 文件我必须解析它们并使用 Python 将某些部分写入新文件我得到了文件的密码当在 Windows 上完成此操作时处理起来很简单我只需导入 win32com 并使用 clie
如何将类添加到 LinkML 中的 SchemaDefinition？

中的图表https linkml io linkml model docs SchemaDefinition https linkml io linkml model docs SchemaDefinition and https link
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
根据第三个变量更改散点图中的标记样式

我正在处理多列字典我想绘制两列然后根据第三列和第四列更改标记的颜色和样式我很难改变 pylab 散点图中的标记样式我的方法适用于颜色不幸的是不适用于标记样式 x 1 2 3 4 5 6 y 1 3 4 5 6 7 m k l l
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
Django Rest Framework POST 更新（如果存在或创建）

我是 DRF 的新手我阅读了 API 文档也许这是显而易见的但我找不到一个方便的方法来做到这一点我有一个Answer与 a 具有一对一关系的对象Question 在前端我曾经使用 POST 方法来创建发送到的答案api answe
在 matplotlib 中绘制多边形的并集[重复]

这个问题在这里已经有答案了我正在尝试绘制几个多边形的并集matplotlib 具有一定的 alpha 水平我当前的代码在交叉点处颜色较深有没有办法让交叉路口与其他地方的颜色相同 import matplotlib pyplot as
在Python中连续解析文件

我正在编写一个脚本该脚本使用 HTTP 流量行解析文件并取出域目前仅将它们打印到屏幕上我正在使用 httpry 将流量连续写入文件这是我用来删除域名的脚本 usr bin python import re input open r
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so

随机推荐

使用basler相机和python时保存视频而不是保存图像

我正在使用 Basler 相机和 python 来录制一些视频我可以成功捕获单个帧但我不知道如何录制视频以下是我的代码 import os import pypylon from imageio import imwrite impo
appcompat-v7:25.3.0 : AppCompat 不支持当前主题功能: { windowActionBar: false, windowActionBarOverlay: false, . }

我在运行时收到以下错误并且活动未启动错误显示在setContentView R layout activity main 请帮忙我正在使用以下库 compile project library compile com google a
如何删除pandas数据框的最后一行数据

我认为这应该很简单但我尝试了一些想法但没有一个奏效 last row len DF DF DF drop DF index last row lt fail 我尝试使用负索引但这也会导致错误我一定仍然误解了一些基本的东西删除最后
在 Macos 10.14.5 上使用 gcc 进行编译，将支持早期版本的 Mac

我编写的 C 代码几乎没有使用任何内容这不是语言本身除了使用osascript 在我的操作系统版本 10 14 5 上使用以下标志进行编译后 D DEBUG Os Wall Wextra 我发现它不能在较旧的操作系统上运行例如在 10
asp.net mvc3返回多个json列表

我的 asp net mvc3 c 代码返回 json 列表如下所示 return Json new name UserNames imageUrl ImageUrls UserNames and ImageUrls都是List
调整 TYPE_CUSTOM BufferedImage 的大小？

当我从磁盘读取 JPEG 时 Java 有时会给出一个 BufferedImage 其 getType 返回 TYPE CUSTOM 也就是说它有一个自定义颜色模型我想调整此 BufferedImage 的大小但我不确定如何构造目标对
FileInfo.LastWriteTime 怎么会早于 FileInfo.CreationTime？

我今天正在调试一些代码并注意到我的一个FileInfo物体有它的LastWriteTime早于其CreationTime时间这可能预期吗文件的这些属性可以修改为任意值所以绝对没有什么可以阻止这种情况的发生也就是说最可能的解释是该
Node.js (Express) 表单在提交时清除

我正在 Node js 使用 Express 中开发一个非常基本的注册表单并且我正在尝试找到提供基本表单验证的最简单方法我选择了 Express Validator 它似乎做得很好但是我的目标是简单地显示所需的任何验证消息并保留用户
“CGAffineTransform Identity”在 Swift 中不可用

尝试将某些动画改编为 Swift3 语法时遇到此错误 UIView animate withDuration duration delay 0 0 usingSpringWithDamping 0 5 initialSpringVeloci
如何使用 Python（和 boto）克隆 Amazon S3 中的密钥？

我的 S3 存储桶中的密钥中包含一个文件我想创建一个新密钥其中将包含相同的文件是否可以在不下载该文件的情况下进行操作我正在寻找Python 最好是boto库的解决方案其中bucket是目标bucket bucket copy k
events.js:130 throw TypeError('监听器必须是一个函数')

我正在尝试运行 node js 并收到此错误 events js 130 throw TypeError listener must be a function 我的代码是 var connect require connect var h
Android 设备上使用 HttpURLConnection 的 PHP HTTP POST

问题所以问题是这不会发布到 goDaddy 托管的在线数据库中所以我的问题是为什么以及如何修复它以将其发布到它问题 php 页面未接收传递给它的名称值对 Edit 修改了建议使用 HttpURLConnection 的代码我已将问
每个多个用户的 IndexedDb

我有一个关于 IndexedDb 最佳实践如何管理不同用户数据的问题场景我有一个包含系统数据的mysql数据库当用户登录系统时我将他的数据从mysql同步到IndexedDb 然后Web应用程序使用直接存储在indexeddb中的
如何对一个列表进行排序，以便在另一个列表中发生相同的更改？

我有个问题例如我有 2 个列表 1 Banana Apple Orange 2 Yellow Red Orange 我想要它 list sort 所以它将是 Apple Banana Orange但同时我希望黄红橙列表中也发生同样的变化
卷曲：（3）URL中发现非法字符

我要批量查找IP 详细信息请访问 ipinfo io http ipinfo io developers bulk lookup这是我的代码 cat ips txt xargs I curl http ipinfo io region 文件
在 Kendo 网格读取操作中发送附加参数

我有一个剑道网格如下所示 Html Kendo Grid
Xamarin Android 绑定

我正在尝试为此处提供的 android sdk 创建绑定https www nmi com sdks and apis CDNA https www nmi com sdks and apis CDNA 绑定项目构建完毕我可以将其添加到我
如何访问随机网站？ - Python

如何生成随机但有效的网站链接无论语言如何事实上它生成的网站语言越多样化越好我一直在使用其他人网页上的脚本来做到这一点我怎样才能不依赖这些随机站点转发脚本并制作自己的脚本我一直这样做 import webbrowser from
Unix 'find' + 'grep' 语法与 awk

我使用这一行在我所在目录及其所有子目录的文件中查找短语 B206 find exec grep s B206 print 当它尝试读取某些文件并实际上将 putty 中的标题栏更改为一堆奇怪的字符时它会崩溃例如当它遇到子目录中的 jp
使用 python lxml 将多个
标签合并为一个标签

我有一个 python 脚本来清理抓取的 html 内容它使用 BeautifulSoup4 并且工作得很好最近我决定学习 lxml 但我发现教程对我来说更难遵循例如我使用下面的代码来合并多个 br 标记为一个即如果有多个 br

使用 python lxml 将多个 标签合并为一个标签

使用 python lxml 将多个 标签合并为一个标签 的相关文章

随机推荐

热门标签

使用 python lxml 将多个
标签合并为一个标签

使用 python lxml 将多个
标签合并为一个标签的相关文章