Python从xml树中删除重复元素

2023-12-01

我有一个 xml 结构，其中一些元素不是唯一的。因此，我设法对子树进行排序，并且可以正确过滤我拥有多次的元素。但删除功能似乎不适用。

我的 XML 结构看起来像这样简化：

<root>
  <page>
    <text>blabla blub unique</text>
    <text>blabla blub not unique</text>
    <text>blabla blub not unique</text><!-- line should be removed -->
    <text>blabla blub not unique</text><!-- line should be removed -->
    <text>blabla blub not unique</text><!-- line should be removed -->
    <text>blabla blub again unique</text>
  </page>
  <page>
    <text>2nd blabla blub unique</text>
    <text>2nd blabla blub not unique</text>
    <text>2nd blabla blub not unique</text><!-- line should be removed -->
    <text>2nd blabla blub again unique</text>
  </page>
</root>

我想删除每个页面上的双字符串，因此我在两个 for 循环中迭代页面和页面中的元素：（摘录重要行，我希望没有忘记任何内容）

import xml.etree.ElementTree as ET
self.tree = ET.parse(path)
self.root = self.tree.getroot()
self.prev = None
# [...]
for page in self.root:                     # iterate over pages
    for elem in page:
        if elements_equal(elem, self.prev):
            print("found duplicate: %s" % elem.text)   # equal function works well
            page.remove(elem) # <---- removes just one line
            continue
        self.prev = elem
# [...]
self.tree.write("out.xml") # 2 duplicate lines still there....

update:该代码似乎有效，但它只删除了一个重复项，而不是所有重复项

我不知道你是如何定义的elements_equal，但是（无耻地改编自测试 xml.etree.ElementTree 的等效性）这对我有用：

编辑：存储迭代时要删除的每个元素的列表page然后删除它们，而不是在一个循环内进行删除。

编辑：在元素标签的比较中注意到代码中的一个小拼写错误并更正它。

import xml.etree.ElementTree as ET

path = 'in.xml'

tree = ET.parse(path)
root = tree.getroot()
prev = None

def elements_equal(e1, e2):
    if type(e1) != type(e2):
        return False
    if e1.tag != e2.tag: return False
    if e1.text != e2.text: return False
    if e1.tail != e2.tail: return False
    if e1.attrib != e2.attrib: return False
    if len(e1) != len(e2): return False
    return all([elements_equal(c1, c2) for c1, c2 in zip(e1, e2)])

for page in root:                     # iterate over pages
    elems_to_remove = []
    for elem in page:
        if elements_equal(elem, prev):
            print("found duplicate: %s" % elem.text)   # equal function works well
            elems_to_remove.append(elem)
            continue
        prev = elem
    for elem_to_remove in elems_to_remove:
        page.remove(elem_to_remove)
# [...]
tree.write("out.xml")

Gives:

$ python undupe.py
found duplicate: blabla blub not unique
found duplicate: 2nd blabla blub not unique
$ cat out.xml
<root>
  <page>
    <text>blabla blub unique</text>
    <text>blabla blub not unique</text>
    <text>blabla blub again unique</text>
  </page>
  <page>
    <text>2nd blabla blub unique</text>
    <text>2nd blabla blub not unique</text>
    <text>2nd blabla blub again unique</text>
  </page>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

Python从xml树中删除重复元素的相关文章

Django 自引用关系？

我正在尝试创建模型页面页面也应该能够有子页面我的模型代码如下使Python崩溃 http pastie org private butthk1aaeb3pmh7mmag1g在我的Mac python 2 6 1 和Ubuntu 10
E4X 选择后代可以是 A OR B 或 A && B 的节点

所以我有这个 XML 结构
如何针对 Heroku 路由器的代理/缓冲情况优化 uWSGI？

我在 Heroku 的生产中使用 uWSGI 已有一年多了它似乎比 Gunicorn 处理所有事情都要好得多随着我们的流量扩大我试图更好地理解heroku的路由器和uWSGI之间的接口以优化和防止问题但它对我来说仍然相当不透明我
尝试打开 Excel 时出现“KeyError：“存档中没有名为“xl/sharedStrings.xml”的项目”

我正在尝试使用 Python 脚本将数据导入 PowerBi 以便我可以安排它定期刷新数据我面临着从 Excel 文件获取数据并收到错误的挑战 KeyError 没有名为 xl sharedStrings xml 的项目在档案中导入时
如何从数据存储区刷新 NDB 实体？

我希望能够在我的代码调用的测试中断言Model put 对于已修改的实体不幸的是似乎正在进行一些缓存例如以下代码 from google appengine ext import ndb class MyModel ndb Model
如何有效地找到两个轮廓集之间的所有交点

我想知道找到两组轮廓线之间所有交点舍入误差的最佳方法哪种方法最好这是示例 import matplotlib pyplot as plt import numpy as np x np linspace 1 1 500 X Y np
matplotlib 示例代码不适用于 python 虚拟环境

我正在尝试在 matplotlib 中显示图像的 x y z 坐标示例代码 http matplotlib org examples api image zcoord html在全局 python 安装上工作得很好当我移动光标时 x y
python 使用曲面图和第四个变量的滑块可视化 4d 数据

如何使用前 3 个变量和第四个变量的 3 维曲面图作为滑块来可视化 4 维数据从 csv 文件加载集我写了一个非常小的示例重点介绍了实现此目标的方法 import numpy as np import matplotlib pypl
我可以使用对象（类的实例）作为 Python 中的字典键吗？

我想使用类实例作为字典键例如 classinstance class dictionary classinstance hello world Python似乎无法将类作为字典键处理还是我错了另外我可以使用像 classinstan
在 SQLAlchemy 中删除父级后删除子级

我的问题如下我有两个型号Entry and Tag通过 SQLAlchemy 中的多对多关系链接现在我想删除所有Tag没有任何对应的Entry后Entry被删除示例来说明我想要的内容 Entry 1带标签python java Ent
如何在Python中生成0-1矩阵的所有可能组合？

如何生成大小为 K N 的 0 1 矩阵的所有可能组合例如如果我取 K 2 和 N 2 我会得到以下组合 combination 1 0 0 0 0 combination 2 1 0 0 0 combination 3 0 1 0 0
在 ubuntu 12.04 上安装 ReviewBoard

我正在尝试使用 easy install 在 ubuntu 12 04 上安装 ReviewBoard http www reviewboard org docs manual 1 7 admin installation linux ht
PySpark：根据与另一列中的字符串匹配的字典值创建新列

我有一个数据框 A 如下所示 ID SOME CODE TITLE 1 024df3 Large garden in New York New York 2 0ffw34 Small house in dark Detroit Michig
是否可以通过 Python 使用 Cocoa API？

我想知道是否可以将 Cocoa Apple 的 API 与 Python 一起使用以便能够运行像这样的任何代码link https developer apple com documentation appkit nsworkspace
使用 Python for PyQt WebEngine 授予对 Cam & Mic 的访问权限

我正在构建一个从 Python 调用的简单 Web 应用程序我正在使用下面的代码加载此页面时以编程方式授予对摄像头和麦克风的访问权限的最简单方法是什么我只在网上找到了 C 示例无法找到在 Python 代码中执行此操作的方法 fr
如何在 Ansible 中更新嵌套变量

我有一些额外的信息例如数据库连接详细信息等存储在 etc ansible facts d environment fact 中这些可以作为变量使用例如ansible local environment database name 更
从线程队列中获取所有项目

我有一个线程将结果写入队列在另一个线程 GUI 中我定期在 IDLE 事件中检查队列中是否有结果如下所示 def queue get all q items while 1 try items append q get nowai
使用 XSLT 以外的其他解决方案解析 XML

我的公司正在开发一个项目需要在ABAP中读取XML文件当 XML 文件没有特定标记的数据时它会忽略该数据有些标签是自动关闭的例如 SAP 开发人员表示要读取 XML 文档他首先将文档解析为 ABAP XML 结构该过程在第
XSL - 如何将第一个字母大写

我有以下 xml
Doctest 返回失败，但“预期”和“得到”完美匹配

我正在尝试做列表部分的第二个练习 http www openbookproject net thinkcs python english2e ch09 html exercises 如何像计算机科学家一样思考一书的内容我基本上必须将给定

随机推荐

用于打印文本文件中搜索字符串的上一行和下一行的批处理脚本

我有一个批处理脚本它将把搜索字符串的整行打印到文本文件中 for i in log txt do FINDSTR G pattern txt i gt gt output txt 例子 pattern txt 包含搜索字符串ERROR下面
发推文，不使用推文表

我使用下面的代码来分享内容来自UITextView UIImageView 通过推特 void shareViaTweet NSString shareMessage if SLComposeViewController isAvaila
Java 6 JVM 挂起

对于这么长的帖子我深表歉意但我想知道在向 Sun 提交错误报告之前是否可以吸引更多人的关注虚拟机 6u11操作系统 Windows XP SP3硬件 AMD Athlon 64 X2 4600 2 41GHz 配备 3 25 GB R
CollapsingToolbarLayout 副标题

我可以设置标题吗CollapsingToolbarLayout通过setTitle方法还有设置字幕的方法吗如果你想让字幕转到Toolbar当的时候AppBar已完全折叠您应该创建您的自定义CoordinatorLayout Beha
缺少 libmmal.so 和 picamera 库

使用 pip 安装 picamera 库后每当我导入该库时都会收到此错误 OSError libmmal so cannot open shared object file No such file or directory 我正在运行
如何本地化alloyui调度程序组件？

我正在尝试将 Alloyui 调度程序完全本地化为法语继这篇文章之后如何获取 YUI 3 或 AlloyUI 组件的本地化版本工作快完成了但是我仍然缺少两件事的提示我需要将左栏中的时间格式从 1 12am pm 更改为 1 24
html，css - 图片下方奇怪的隐形边距

我在这里疯了不知何故在我页面中的所有图像下方有一个间隙代码中不存在的边距即使 Firebug 也看不到它但 Firefox 和 Safari 正在渲染它即使根本没有 CSS 这以前从未发生在我身上
进行 GameCenter 身份验证的正确方法是什么？

我在有关堆栈溢出的帖子中看到过其中显示了处理 GameCenter 身份验证的片段然而这些解决方案都不能解决现实世界用例所涉及的任何问题也就是说 GKLocalPlayer localPlayer authenticateHandl
使用 Ajax 检查 WooCommerce 结帐中的现有电子邮件

我正在尝试检查 WooCommerce 结账中 billing email 字段的插入值以了解它是否存在这是functions php中的代码 add action wp enqueue scripts live validation
JOIN 结果长度超过 50,000 个字符的限制

我正在尝试组合 A 列中的文本并将其与 B 列的每种可能性相匹配我使用了以下公式 in C1 transpose split join arrayformula rept filter A1 A len A1 A char 9999 co
OpenMP set_num_threads() 不起作用

我正在使用 C 中的 OpenMP 编写并行程序我想使用控制程序中的线程数omp set num threads 但它不起作用 include
Fortran 中的大实数运算

我编写了一个 Fortran 代码来计算给定列表的第 i 次排列 1 2 3 n 无需计算所有其他的即n 我需要它来找到 TSP 旅行推销员问题的第 i 条路径 When n 很大代码给了我一些错误我测试发现找到的第 i 个排列不是
circular_buffer 和 Managed_mapped_file 分段错误

我正在使用 boost 1 73 0 并尝试将circular buffer 与manage mapped file 一起使用以将字符串存储在磁盘上持久存在的循环缓冲区中我执行以下操作来创建打开circular buffer boost
如何找到不同 numpy 数组中两点之间的距离？

这是针对 K 均值算法的这是为了家庭作业所以我不想使用内置 Kmeans 函数我有 2 个 numpy 数组一种是质心另一个是数据点我试图找到从每个质心到每个数据点的距离我不知道如何将数组传递给我的函数以使其打印我想结束
JavaScript 中的保留字列表

有没有比这个更完整的列表莫斯拉的关于保留字它缺少像这样的词解析浮点型 toString 原型 etc parseFloat toString and prototype are not保留字仅仅因为它们有时具有特殊含义并不意味着您不能
使用 Pandas 与 DataFrame 合并时出现 ValueError

我正在尝试使用 Pandas 合并三个 DataFrame 为什么我会收到此错误消息 ValueError DataFrame 的真值不明确使用 a empty a bool a item a any 或 a all 这是代码 df pd
如何在给定（一条线上的两个点）和（从第三点到第一点的距离）的情况下找到第三点

给定一条线上的两个点和第三点到第一点的距离如何找到第三点语言 Visual Basic 2012 第三点与第二点在同一条线上并且可能更接近第一点也可能更接近第二点这是一个可以处理两者来自数据数组的函数奇怪的是我似乎无
SQL 从一张表的字段更新另一张表的字段

我有两张桌子 A ID column1 column2 column3 B ID column1 column2 column3 column4 A将永远是子集B 意味着所有列A也在B 我想用特定的内容更新记录ID in B他们的数据来自A
如何在页面加载时使用 Javascript 发出成功的 Ajax 请求

我正在开发一个购物车应用程序用户将向其存储在本地存储中的购物车添加商品当用户导航到将商品添加到购物车的不同页面时需要使用他们添加到购物车本地存储的商品填充该页面我使用 Handbars 为我的页面构建模板使用 NodeJS
Python从xml树中删除重复元素

我有一个 xml 结构其中一些元素不是唯一的因此我设法对子树进行排序并且可以正确过滤我拥有多次的元素但删除功能似乎不适用我的 XML 结构看起来像这样简化

Python从xml树中删除重复元素

Python从xml树中删除重复元素 的相关文章

随机推荐

热门标签

Python从xml树中删除重复元素的相关文章