python解析xml文件(解析、更新、写入)

2023-05-16

Overview

这篇博客内容将包括对XML文件的解析、追加新元素后写入到XML,以及更新原XML文件中某结点的值。使用的是python的xml.dom.minidom包,详情可见其官方文档:xml.dom.minidom官方文档。全文都将围绕以下的customer.xml进行操作:

<?xml version="1.0" encoding="utf-8" ?>
<!-- This is list of customers -->
<customers>
  <customer ID="C001">
    <name>Acme Inc.</name>
    <phone>12345</phone>
    <comments>
      <![CDATA[Regular customer since 1995]]>
    </comments>
  </customer>
  <customer ID="C002">
    <name>Star Wars Inc.</name>
    <phone>23456</phone>
    <comments>
      <![CDATA[A small but healthy company.]]>
    </comments>
  </customer>
</customers>

CDATA:在XML中,不会被解析器解析的部分数据。

声明:在本文中,结点和节点被视为了同一个概念,你可以在全文的任何地方替换它,我个人感觉区别不是很大,当然,你也可以看做是我的打字输入错误。

1. 解析XML文件

在解析XML时,所有的文本都是储存在文本节点中的,且该文本节点被视为元素结点的子结点,例如:2005,元素节点 ,拥有一个值为 “2005” 的文本节点,“2005” 不是 元素的值,最常用的方法就是getElementsByTagName()方法了,获取到结点后再进一步根据文档结构解析即可。

具体的理论就不过多描述,配合上述XML文件和下面的代码,你将清楚的看到操作方法,下面的代码执行的工作是将所有的结点名称以及结点信息输出一下:

# -*- coding: utf-8 -*-
"""
    @Author  : LiuZhian
    @Time    : 2019/4/24 0024 上午 9:19
    @Comment : 
"""
from xml.dom.minidom import parse
def readXML():
	domTree = parse("./customer.xml")
	# 文档根元素
	rootNode = domTree.documentElement
	print(rootNode.nodeName)

	# 所有顾客
	customers = rootNode.getElementsByTagName("customer")
	print("****所有顾客信息****")
	for customer in customers:
		if customer.hasAttribute("ID"):
			print("ID:", customer.getAttribute("ID"))
			# name 元素
			name = customer.getElementsByTagName("name")[0]
			print(name.nodeName, ":", name.childNodes[0].data)
			# phone 元素
			phone = customer.getElementsByTagName("phone")[0]
			print(phone.nodeName, ":", phone.childNodes[0].data)
			# comments 元素
			comments = customer.getElementsByTagName("comments")[0]
			print(comments.nodeName, ":", comments.childNodes[0].data)

if __name__ == '__main__':
	readXML()

在这里插入图片描述

2. 写入XML文件

在写入时,我觉得可分为两种方式:

  • 新建一个全新的XML文件
  • 在已有XML文件基础上追加一些元素信息

至于以上两种情况,其实创建元素结点的方法类似,你必须要做的都是先创建/得到一个DOM对象,再在DOM基础上创建new一个新的结点。

如果是第一种情况,你可以通过dom=minidom.Document()来创建;如果是第二种情况,直接可以通过解析已有XML文件来得到dom对象,例如dom = parse("./customer.xml")

在具体创建元素/文本结点时,你大致会写出像以下这样的“四部曲”代码:

  • ①创建一个新元素结点createElement()
  • ②创建一个文本节点createTextNode()
  • ③将文本节点挂载元素结点上
  • ④将元素结点挂载到其父元素上。

现在,我需要新建一个customer节点,信息如下:

<customer ID="C003">
    <name>kavin</name>
    <phone>32467</phone>
    <comments>
      <![CDATA[A small but healthy company.]]>
    </comments>
  </customer>

代码如下:

def writeXML():
	domTree = parse("./customer.xml")
	# 文档根元素
	rootNode = domTree.documentElement

	# 新建一个customer节点
	customer_node = domTree.createElement("customer")
	customer_node.setAttribute("ID", "C003")

	# 创建name节点,并设置textValue
	name_node = domTree.createElement("name")
	name_text_value = domTree.createTextNode("kavin")
	name_node.appendChild(name_text_value)  # 把文本节点挂到name_node节点
	customer_node.appendChild(name_node)

	# 创建phone节点,并设置textValue
	phone_node = domTree.createElement("phone")
	phone_text_value = domTree.createTextNode("32467")
	phone_node.appendChild(phone_text_value)  # 把文本节点挂到name_node节点
	customer_node.appendChild(phone_node)

	# 创建comments节点,这里是CDATA
	comments_node = domTree.createElement("comments")
	cdata_text_value = domTree.createCDATASection("A small but healthy company.")
	comments_node.appendChild(cdata_text_value)
	customer_node.appendChild(comments_node)

	rootNode.appendChild(customer_node)

	with open('added_customer.xml', 'w') as f:
		# 缩进 - 换行 - 编码
		domTree.writexml(f, addindent='  ', encoding='utf-8')

if __name__ == '__main__':
	writeXML()

在这里插入图片描述

3. 更新XML文件

在更新XML时,只需先找到对应的元素结点,然后将其下的文本结点或属性取值更新即可,然后保存到文件,具体我就不多说了,代码中我将思路都注释清楚了,如下:

def updateXML():
	domTree = parse("./customer.xml")
	# 文档根元素
	rootNode = domTree.documentElement

	names = rootNode.getElementsByTagName("name")
	for name in names:
		if name.childNodes[0].data == "Acme Inc.":
			# 获取到name节点的父节点
			pn = name.parentNode
			# 父节点的phone节点,其实也就是name的兄弟节点
			# 可能有sibNode方法,我没试过,大家可以google一下
			phone = pn.getElementsByTagName("phone")[0]
			# 更新phone的取值
			phone.childNodes[0].data = 99999

	with open('updated_customer.xml', 'w') as f:
		# 缩进 - 换行 - 编码
		domTree.writexml(f, addindent='  ', encoding='utf-8')

if __name__ == '__main__':
	updateXML()

在这里插入图片描述

如有不对之处,还烦请指教~

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

python解析xml文件(解析、更新、写入) 的相关文章

随机推荐

  • react 使用@loadable/component 实现路由动态懒加载

    踩坑记录 动态引入import 变量失效问题 xff0c import不能导入变量字符串的路径问题因为webpack的现在的实现方式不能实现完全动态 xff0c 所以可以通过字符串模板来提供部分信息给webpack xff0c 如下 spa
  • 记录nuxt 使用 vue-seamless-scroll 无缝滚动和 v-viewer点击放大图片的组件

    地址 v viewer 点击图片放大vue seamless scroll 无缝滚动 遇到的问题 v viewer 点击图片无法响应事件解决 使用事件委托 GotoImage span class token operator lt spa
  • React Hooks removeEventListener 使用无效问题

    组件卸载时 和原来的componentWillUnmount一样的用法 在useEffect return里调用就可以了 span class token function useEffect span span class token p
  • 关于git:fatal:无法访问’https://github.com/xxx’:OpenSSL SSL_connect:SSL_ERROR_SYSCALL连接到github.com:443

    如果您使用代理 xff0c 请尝试运行并输入inetcpl cpl 然后连接 xff0c 然后局域网设置 xff0c 然后前进 现在您可以看到您的代理 xff0c 使用http代理 然后打开Git Bash xff0c 然后输入此命令 gi
  • flutter 监听软键盘的弹出和关闭

    实现 继承 with WidgetsBindingObserver 1 初始化监听 span class token comment 初始化监听页面高度 span WidgetsBinding span class token punctu
  • android-studio 项目启动 镜像源加速

    解决android studio download maven metadata xml卡住问题 https blog csdn net hzw2017 article details 114776815 android studio 阿里
  • 基于vue3 beego vue-beegoBackstage 后台管理系统

    基础 在线访问地址 vue3 go admingithub访问 vue3 go admin 功能 用户管理 lt gt 关联角色角色管理 lt gt 关联菜单菜单管理部门管理字典管理登录 权限校验动态路由生成 按钮权限菜单栏切换面包屑tab
  • Build Dense Trajectory Codes in Ubuntu

    Even when the OpenCV and ffmpeg have been successfully installed you still may meet the error of 34 undefined reference
  • javascript 数组拆分为3个一组

    span class token keyword const span a span class token operator 61 span span class token punctuation span span class tok
  • win10美化工具全套详细解析

    1 xff0c 任务栏透明工具StartllsBack 1 xff0c 首先安装 xff0c 选第一个为当前用户安装 xff08 这个选哪个都可以的 xff09 2 xff0c 然后就是设置这个任务栏透明了 xff0c 右键 开始 菜单找到
  • 前后端分离的情况下生成activiti流程图

    页面用调接口的方式 xff0c 将图片流显示 效果图 xff1a 注意 xff1a 布署到有些最小安装的linux服务器时 xff0c 用户任务框里面的中文会显示不出来 xff0c 这是因为缺少系统字体 宋体 xff0c 需要在服务器安装字
  • Linux文件系统变成只读的解决方法

    解决方法 1 重启看是否可以修复 xff08 很多机器可以的 xff09 2 使用用 fsck y dev hdc6 dev hdc6指你需要修复的分区 来修复文件系统 3 若 xff0c 在进行修复的时候有的分区会报错 xff0c 重新启
  • 19-29-k8s-基本命令-yaml-kubectl

    19 k8s 基本命令 yaml kubectl xff1a Kubernetes 集群的命令行工具kubectl 1 kubectl 命令格式 xff1a kubectl command type name flags 参数 xff1a
  • linux下安装nginx

    linux下安装nginx 注 xff1a 此处需要先安装vmware xff0c 下载Centos8等工具 xff0c 配置好一个虚拟机 1 下载nginx的linux版本 2 上传至搭建好的linux环境上 3 解压nginx压缩包 4
  • 128-152-spark-核心编程-源码

    128 spark 核心编程 源码 xff08 主要以了解基本原理和流程为主 xff09 xff1a 总体相关 1 环境准备 Yarn 集群 1 Driver Executor 2 组件通信 1 Driver 61 gt Executor
  • 6-zookeeper-hadoop-ha原理简述-fail

    6 zookeeper hadoop ha故障转移机制 xff0c 原理简述 HA概述 xff08 2 X版本架构 xff09 1 xff09 HA xff08 High available xff09 xff0c 即高可用 xff08 7
  • treelistview入门使用

    treelistview入门使用 1 创建窗口程序 2 引入库System Runtime InteropServices APIs dll和System Runtime InteropServices APIs dll 3 工具箱添加控件
  • ps-01

    ps 01 入门 xff1a 来源尚硅谷ps课程 xff0c 兴趣而已 xff0c 仅做记录 内容无实质性操作指导 1 软件安装 百度参考各种连接 xff0c 自己安装 https baiyunju cc 10433 2 基础操作 2 1打
  • Notes of Dense Trajectory

    Dense Trajectories densely sample feature points in each frame track points in the video based on optical flow compute m
  • python解析xml文件(解析、更新、写入)

    Overview 这篇博客内容将包括对XML文件的解析 追加新元素后写入到XML xff0c 以及更新原XML文件中某结点的值 使用的是python的xml dom minidom包 xff0c 详情可见其官方文档 xff1a xml do