python xml文件解析

2023-05-16

1 解析
1.1 解析方式
Python 有三种 XML 解析方式：SAX（simple API for XML）、DOM（Document Object Model）、ElementTree。

DOM 方式：DOM 中文译为文档对象模型，是 W3C 组织推荐的标准编程接口，它将 XML 数据在内存中解析成一个树，通过对树的操作来操作 XML。

SAX 方式：SAX 是一个用于处理 XML 事件驱动的模型，它逐行扫描文档，一边扫描一边解析，对于大型文档的解析拥有巨大优势，尽管不是 W3C 标准，但它却得到了广泛认可。

ElementTree 方式：ElementTree 相对于 DOM 来说拥有更好的性能，与 SAX 性能差不多，API 使用也很方便。

1.2 具体实现
在具体解析之前我们先准备一个 XML，如下所示：

test.xml

<?xml version="1.0" encoding="utf-8"?>
<list>
<student id="stu1" name="stu">
   <id>1001</id>
   <name>张三</name>
   <age>22</age>
   <gender>男</gender>
</student>
<student id="stu2" name="stu">
   <id>1002</id>
   <name>李四</name>
   <age>21</age>
   <gender>女</gender>
</student>
</list>

DOM 方式解析
使用 DOM 方式，首先要对其 API 有一定了解，如果不了解，网上的教程也比较多，比如：DOM 教程，下面看一下使用示例。

from xml.dom.minidom import parse

# 读取文件
dom = parse('test.xml')
# 获取文档元素对象
data = dom.documentElement
# 获取 student
stus = data.getElementsByTagName('student')
for stu in stus:
	# 获取标签属性值
    st_id = stu.getAttribute('id')
    st_name = stu.getAttribute('name')
	# 获取标签中内容
    id = stu.getElementsByTagName('id')[0].childNodes[0].nodeValue
    name = stu.getElementsByTagName('name')[0].childNodes[0].nodeValue
    age = stu.getElementsByTagName('age')[0].childNodes[0].nodeValue
    gender = stu.getElementsByTagName('gender')[0].childNodes[0].nodeValue
    print('st_id:', st_id,  ', st_name:',st_name)
    print('id:', id, ', name:', name, ', age:', age, ', gender:',gender)

SAX 方式解析
使用 SAX 解析 XML 文档主要涉及到解析器和事件处理器，解析器负责读取 XML 文档，并向事件处理器发送事件，事件处理器负责对事件作出响应，对传递的 XML 数据进行处理。

Python 使用 SAX 处理 XML 需要用到 xml.sax 中的 parse 函数和 xml.sax.handler 中的 ContentHandler 类，下面看一下 ContentHandler 类中的一些方法。

characters(content)：调用时机：从行开始，遇到标签之前，存在字符，content 的值为这些字符串；从一个标签，遇到下一个标签之前，存在字符，content 的值为这些字符串；从一个标签，遇到行结束符之前，存在字符，content 的值为这些字符串。

startDocument()：文档启动的时候调用。

endDocument()：解析器到达文档结尾时调用。

startElement(name, attrs)：遇到 XML 开始标签时调用，name 是标签的名字，attrs 是标签的属性值字典。

endElement(name)：遇到 XML 结束标签时调用。

下面通过示例看一下如何通过 SAX 方式解析 XML。

import xml.sax

class StudentHandler(xml.sax.ContentHandler):
    def __init__(self):
        self.id = ""
        self.name = ""
        self.age = ""
        self.gender = ""

    # 元素开始调用
    def startElement(self, tag, attributes):
        self.CurrentData = tag
        if tag == "student":
            stu_name = attributes["name"]
            print("stu_name:", stu_name)

    # 元素结束调用
    def endElement(self, tag):
        if self.CurrentData == "id":
            print("id:", self.id)
        elif self.CurrentData == "name":
            print("name:", self.name)
        elif self.CurrentData == "age":
            print("age:", self.age)
        elif self.CurrentData == "gender":
            print("gender:", self.gender)
        self.CurrentData = ""

    # 读取字符时调用
    def characters(self, content):
        if self.CurrentData == "id":
            self.id = content
        elif self.CurrentData == "name":
            self.name = content
        elif self.CurrentData == "age":
            self.age = content
        elif self.CurrentData == "gender":
            self.gender = content

if (__name__ == "__main__"):
    # 创建 XMLReader
    parser = xml.sax.make_parser()
    # 关闭命名空间
    parser.setFeature(xml.sax.handler.feature_namespaces, 0)
    # 重写 ContextHandler
    Handler = StudentHandler()
    parser.setContentHandler(Handler)
    parser.parse("test.xml")

ElementTree 方式解析
Python 提供了两种 ElementTree 的实现方式。一个是纯 Python 实现的 xml.etree.ElementTree，另一个是 C 语言实现 xml.etree.cElementTree，使用 C 语言实现的方式速度更快且内存消耗更少。Python3.3 之后，ElemenTree 模块会自动优先使用 C 加速器，如果不存在 C 实现，则会使用 Python 实现。因此，使用 Python3.3+ 时，只需要 import xml.etree.ElementTree 即可。下面看一下示例。

import xml.etree.ElementTree as ET

tree = ET.parse("test.xml")
# 根节点
root = tree.getroot()
# 标签名
print('root_tag:',root.tag)
for stu in root:
    # 属性值
    print ("stu_name:", stu.attrib["name"])
    # 标签中内容
    print ("id:", stu[0].text)
    print ("name:", stu[1].text)
    print("age:", stu[2].text)
    print("gender:", stu[3].text)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python xml文件解析的相关文章

使用 pdfkit 和 FastAPI 下载 PDF 文件

我将使用 FastAPI 创建一个 API 将HTML页面到 PDF 文件使用pdfkit 但是它将文件保存到我的本地磁盘当我在线提供此API后用户如何将该PDF文件下载到他们的计算机上 from typing import Opt
熊猫加入具有不同索引级别/日期时间的数据帧？

嗨我有两个 DataFrame 如下所示 dineType menuName unique columns date y m d
使用 Python 将列名称与 CSV 文件中的数据对齐

这是我用来将数据写入 csv 文件的代码 with open temp csv a as fp a csv writer fp delimiter t data faceXpos faceYpos faceHeight faceWidth
打开文件路径在 python 中不起作用[重复]

这个问题在这里已经有答案了我正在编写一个数据库程序 personica 是我的测试主题我通常在文件路径的位置有一个变量但出于测试和演示的目的我只有一个字符串在我的计算机上的这个确切位置有一个文本文件顺便说一句因为我很偏执所以
NLTK：包错误？朋克和泡菜？

基本上我不知道为什么会收到此错误只是为了获得更多图像这里有一个代码格式的类似消息由于是最新的该帖子的答案已经在消息中提到 Preprocessing raw texts LookupError Traceback most rec
如何使用 django Rest 框架保存多对多字段对象

我有博客发布标签三个模型在博客模型中我将字段 postedin 作为发布模型的外键将标签作为标签模型的许多字段模型 py class Posted models Model name models CharField Pos
python：numpy 运行脚本两次

当我将 numpy 导入到 python 脚本中时该脚本会执行两次有人可以告诉我如何阻止这种情况因为我的脚本中的所有内容都需要两倍的时间这是一个例子 usr bin python2 from numpy import print t
使用 scipy、python、numpy 进行非线性 e^(-x) 回归

下面的代码为我提供了一条最佳拟合线的平坦线而不是沿着 e x 模型的一条适合数据的漂亮曲线谁能告诉我如何修复下面的代码以使其适合我的数据 import numpy as np import matplotlib pyplot as pl
使用 Python 打开新窗口时，selenium window_handles 不正确

我想使用 selenium 和 Python 在一个浏览器中打开多个选项卡并通过多个选项卡同时抓取实时投注赔率网站主页生成游戏列表但是除非您找到游戏元素并使用 click 该网站是 ajax 密集型否则无法获取游戏链接这会在同一
ipython/jupyter 中的 tk 问题

我正在尝试编写一个用于从 ipython jupyter 笔记本启动的 gui 但在笔记本中使用 tkinter 时遇到了麻烦特别是在让 tk gui 窗口正常关闭方面如何从 jupyter 制作启动 tkinter gui 然后在不
“DATETIME_INPUT_FORMATS”在 Django Admin 中不起作用，而“DATE_INPUT_FORMATS”和“TIME_INPUT_FORMATS”则可以

I use 日期时间字段 https docs djangoproject com en 4 2 ref models fields datetimefield 日期字段 https docs djangoproject com en 4
错误：tensorflow：无法匹配检查点的文件

我正在训练一个张量流模型在每个时期之后我都会保存模型状态并腌制一些数组到目前为止我的模型执行了 2 个纪元并且保存状态的文件夹包含以下文件 checkpoint model e knihy preprocessed txt e0 c
自动创建带有文件输出的目录[重复]

这个问题在这里已经有答案了假设我想制作一个文件 filename foo bar baz txt with open filename w as f f write FOOBAR 这给出了一个IOError since foo bar不存
Python：Factory Boy 生成对象创建时指定长度的列表

我正在尝试使用 Factoryboy 在创建时指定长度的对象中创建一个列表我可以创建列表但由于提供的长度大小的惰性性质每次尝试创建具有指定长度的列表都会导致问题这是我到目前为止所拥有的 class FooFactory facto
检查图像中是否有太薄的区域

我正在尝试验证雕刻机的黑白图像更多的是剪贴画图像不是照片我需要考虑的主要事情之一是区域的大小或线条的宽度因为机器无法处理太细的线条所以我需要找到比给定阈值更细的区域以此图为例竖琴的琴弦可能太细而无法雕刻我正在阅读有关 Ma
如何将 Django 数据库中的模板标签解释/渲染为 HTML

我正在尝试添加带有来自 Django 管理站点的图像的帖子但安全自动转义关闭过滤器无法解释 Django 的模板标签 My input and page look like 复制图像地址给出http 127 0 0 1 8000 7B
如何通过异常值检测方法在周期性或基于序列的数据上生成脉冲作为异常值以进行实验？

我想对一些时间序列数据进行一些实验KM https scikit learn org stable auto examples cluster plot cluster iris html sphx glr auto examples cl
如何将动态数据传递给装饰器

我正在尝试编写一个基本的 CRUD 控制器类来执行以下操作下列的 class BaseCrudController model field validation template dir expose self template dir
Paramiko ValueError“p 的长度必须恰好为 1024、2048 或 3072 位”

我正在尝试使用 Python 脚本连接 SFTP 由于 p 错误我无法连接 import paramiko client paramiko SSHClient client load system host keys client con
收到 Python 错误“来自：无法读取 /var/mail/Bio”

我正在运行一个 bio python 脚本这会导致以下错误 from can t read var mail Bio 由于我的脚本与邮件没有任何关系我不明白为什么我的脚本在 var mail 中查找这里似乎有什么问题我怀疑这会有帮助

随机推荐

Altium designer -- 基本规则设置--线宽设置RoutingWidth

Altium designer 基本规则设置 4 线宽设置RoutingWidth 硬件设计软件 Altium designer 10PCB设计规则设置线宽设置最小宽度 xff1a 10mil 首选宽度 xff1a 10mil 最大
Ubuntu18.04：安装apt、桌面图形界面以及相关依赖包

Ubuntu18 04 xff1a 安装apt 桌面图形界面以及相关依赖包问题解决测试问题 Ubuntu18 04系统在安装aptitude后 xff0c 不小心误卸载了apt 桌面图形界面以及相关依赖下列软件包将被卸载 xff1a
报错解决：ModuleNotFoundError: No module named ‘XXX’

报错解决 xff1a ModuleNotFoundError No module named 39 XXX 39 报错原因与解决方法参考文献报错在写python程序的时候 xff0c 经常会出现如下报错 xff1a ModuleNotF
vue3 + vite + ts + setup , 第十二练 Vue3 css style 新特性，样式穿透，插槽选择器，全局选择器，在vue3中使用tailwindcss

一 vue3 x 样式新特性样式穿透深度选择器 lt style scoped gt a deep b lt style gt 插槽选择器 lt style scoped gt slotted div color red lt styl
服务器系统详细安装步骤

一首先按住ctrl 43 alt 43 delete进行对KVM的重启操作 xff0c 在进行重启的过程中按F2 xff0c 进入BIOS界面 xff0c 对RAID进行磁盘阵列 xff1a 1 选择DeviceSetting xff0c
FMC_连接器引脚分配

HPC LPC 说明 xff1a 带有 C2M 的信号名称表示该信号由载波卡驱动 xff0c 并由IO夹层模块接收带有 M2C 的信号名称表示该信号由IO夹层模块驱动 xff0c 并由载波卡接收The postfix L on a sing
解决：unable to connect to localhost:3306(默认)

问题描述 xff1a 未能连接至本地端口可能的原因分析了一下这个报错 xff0c 发现可能有两个原因 xff1a root 账户密码错误 xff0c 导致账户验证失败 xff01 本地端口禁止连接 xff01 问题解决我在安装上MyS
应急响应—常见应急响应处置思路

下图是常见应急响应处置思路的思维导图下面将对 34 常见应急响应处置思路 34 进行详细的讲解一操作系统后门排查排查目标 xff1a 找出后门程序在哪里 xff0c 找到后门是怎么启动的 xff0c 尽可能发现后门修改了系统的那些地
Mysql基础

一数据库相关概念 1 数据库 xff08 database DB xff09 存储数据的仓库保存了一系列有组织的数据优点 xff1a 持久化数据到本地 xff08 数据库借助数据库管理系统将数据存储在磁盘上的文件 xff09 可以实现
MySql基础1 --- 基础查询、条件查询、排序查询、常见函数

该文章所用的数据库文件可私发进阶1 xff1a 基础查询语法 select 查询列表 from 表名 xff1b 特点 1 查询列表可以是字段常量表达式函数 xff0c 也可以是多个 2 查询结果是一个虚拟表常见用法查询单个字
安装VMware后，本机网络适配器中没有虚拟网卡VMnet1、VMnet8

1 打开本机服务 xff0c 开启相关的服务 2 重置虚拟网络编辑器 1 gt 打开VMware 点击下图左上角标注的 34 编辑 34 xff0c 然后选中并进入 34 虚拟网络编辑器 34 2 gt 还原默认设置如果 34 还原默认设
IP地址分类以及网络地址的计算(子网划分、超网划分)

本次我将从以下5个方面介绍IP地址 xff08 由于篇幅的问题 xff0c 本篇我只介绍分类编址 xff0c 无分类编址将在下一篇介绍 xff09 了解IP地址的用途和种类了解分类编址和无分类编址区别掌握子网划分及超网划分方法网络号与主机号
常用端口号与对应服务

1 端口号在网络技术中 xff0c 端口 xff08 Port xff09 包括逻辑端口和物理端口两种类型物理端口指的是物理存在的端口 xff0c 如ADSL Modem 集线器交换机路由器上用于连接其他网络设备的接口 xff
Python基础(13)——pickle模块的详述(dumps、loads、dump、load的用法)

一 Python提供了 pickle xff08 泡菜 xff09 模块来实现序列化那什么是序列化 xff1f 在程序运行的过程中 xff0c 所有的变量都是在内存中 xff0c 比如 xff0c 定义一个 dict xff1a a 61
vue3 + vite + ts + setup , 第十三练 vue3 开发移动端，开发页面自适应

之前开发移动端常用的rem布局 xff0c 或使用媒体查询 xff0c 本文研究一下postcss px to viewport的使用现在有了更好用的vw vh vw 视口的最大宽度 xff0c 1vw等于视口宽度的百分之一 vh 视口的
Cookie和Session、SessionID的那些事儿

一 Cookie的定义指某些网站为了辨别用户身份进行session跟踪而存储在用户本地终端上的数据 xff08 通常经过加密 xff09 也就是说如果知道一个用户的Cookie xff0c 并且在Cookie有效的时间内 xff0c 就
渗透中POC、EXP、Payload与Shellcode的区别

1 POC EXP Payload与Shellcode POC xff1a 全称 39 Proof of Concept 39 xff0c 中文 39 概念验证 39 xff0c 常指一段漏洞证明的代码 EXP xff1a 全称 39 Ex
【经典配对解析】双子vs.天蝎：致命玩火冤家

原创 xff1a 珊珊树转载请注明 xff1a xff09 最近开辟一个话题专栏 xff1a 星座经典配对分析把我们身边看到最多的欢笑冤家写出来说明 xff1a 这里说的A星座vs B星座 xff0c 不一定是讲太阳星座也可以说
Springboot整合WebSocket，实现服务端主动向客户端推送数据

文章目录 Springboot整合WebSocket xff0c 实现服务端主动向客户端推送数据 1 对于WebSocket Socket Http三者的理解2 开始整合总结 Springboot整合WebSocket xff0c 实现服务
python xml文件解析

1 解析 1 1 解析方式 Python 有三种 XML 解析方式 xff1a SAX xff08 simple API for XML xff09 DOM xff08 Document Object Model xff09 Element

python xml文件解析

python xml文件解析 的相关文章

随机推荐

热门标签

python xml文件解析的相关文章