python使用ElementTree处理xml容易犯错的点&美化xml

2023-05-16

python使用ElementTree处理xml容易犯错的点&美化xml

    • 引言
    • 代码环境相关
    • 先上代码

引言

目前因为需要写一个tool处理xml文件,对于面向浏览器编程的我来说,迅速打开chrome开始搜索关键字python xml,然后打开很多都是各种blog,于是随便打开了一篇,参考文章主要有如下两篇:

  1. Python xml属性/节点/文本的增删改[xml.etree.ElementTree]
  2. python处理xml文件

这两篇文章都写的不错,尤其是第一篇大佬写的是很详细了。但是因为参考了两篇再加上自己之前零散的记忆,然后我就写出来了一个不work的tool!(黑人问号脸?为什么就不work了呢?我是按照别人说的去写的鸭,为什么呢?)在经过自己内心和行动的不断挣扎之后,我终于弄明白了为什么!

代码环境相关

  1. os:windows
  2. ide: vscode
  3. python: python3.7
  4. xml文件格式
<WebServerConfig>
	<Generation>
		<Regions>
			<Region theme="test"  fileName="test_1">
				<Attribute type="test" />
				<Attribute type="valid" />
			</Region>
			<Region theme="test"  fileName="test_2">
				<Attribute type="test" />
				<Attribute type="train" />
			</Region>
		</Regions>
	</Generation>
</WebServerConfig>

先上代码

## 0. Get the root node  
import xml.etree.ElementTree as ET
import os
tree = ET.parse("d:\\tool\\input.xml")
root = tree.getroot()
## 1. Find target node
##compare with root.getiterator("Regions")
regions = root.findall("Generation/Regions") 

查找指定节点的代码需要注意的是getiterator("regions")findall(Generation/Regions),如果在使用findall的时候没有指明路径节点,而是像getiterator那样直接指定节点名称是无法找到regions节点的(踏了很久的坑)

## 2. Remove one node
for region in regions:
    for child in region.getchildren():
    	if child.get("fileName") == "test_1":
    	   region.remove(child)
## 3. Create and Add one node
attribute_dict={"theme":"test","fileName":"test_2"}
region_node = ET.Element("Region",attribute_dict)
attribute_node = ET.Element("Attribute",{"type":"test"})
region_node.append(attribute_node)
indent(region_node) ##pretty xml, defined in step 4
for region in regions:
	region.append(region_node)

删除和增加节点的时候需要找到的是你要删除节点的父亲节点,然后通过父亲节点进行删除,不能直接找到想要删除的节点进行删除,因为一旦删除,你就失去了这个节点的指向,无法操作成功!(也是一个坑鸭!)

## 4. pretty xml
def indent(elem, level=0):
    i = '\n' + level * '  '
    if len(elem):
        if not elem.text or not elem.text.strip():
            elem.text = i + '  '
        if not elem.tail or not elem.tail.strip():
            elem.tail = i
        for elem in elem:
            indent(elem, level+1)
        if not elem.tail or not elem.tail.strip():
            elem.tail = i
    else:
        if level and (not elem.tail or not elem.tail.strip()):
            elem.tail = i

这个是参考了stackoverflow中的答案,因为ElementTree这个库没有美化xml的功能,添加新的节点之后都会是一行,所以进行美化操作!

以上就是操作xml时候遇到的一些小问题,就给自己做了个总结!菜鸟的踩坑之路鸭好漫长,加油!

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python使用ElementTree处理xml容易犯错的点&美化xml 的相关文章

随机推荐