Python读取XML

2023-05-16

From: http://www.cnblogs.com/fnng/p/3581433.html

关于python读取xml文章很多，但大多文章都是贴一个xml文件，然后再贴个处理文件的代码。这样并不利于初学者的学习，希望这篇文章可以更通俗易懂的教如何使用python 来读取xml 文件。

什么是xml？

xml即可扩展标记语言，它可以用来标记数据、定义数据类型，是一种允许用户对自己的标记语言进行定义的源语言。

abc.xml


<?xml version="1.0" encoding="utf-8"?>
<catalog>
    <maxid>4</maxid>
    <login username="pytest" passwd='123456'>
        <caption>Python</caption>
        <item id="4">
            <caption>测试</caption>
        </item>
    </login>
    <item id="2">
        <caption>Zope</caption>
    </item>
</catalog>

Ok ,从结构上，它很像我们常见的HTML超文本标记语言。但他们被设计的目的是不同的，超文本标记语言被设计用来显示数据，其焦点是数据的外观。它被设计用来传输和存储数据，其焦点是数据的内容。

那么它有如下特征：

首先，它是有标签对组成，<aa></aa>

标签可以有属性：<aa id=’123’></aa>

标签对可以嵌入数据：<aa>abc</aa>

标签可以嵌入子标签（具有层级关系）：

<aa>

</aa>

获得标签属性

那么，下面来介绍如何用python来读取这种类型的文件。


#coding=utf-8
import  xml.dom.minidom

#打开xml文档
dom = xml.dom.minidom.parse('abc.xml')

#得到文档元素对象
root = dom.documentElement
print root.nodeName
print root.nodeValue
print root.nodeType
print root.ELEMENT_NODE

mxl.dom.minidom 模块被用来处理xml文件，所以要先引入。

xml.dom.minidom.parse() 用于打开一个xml文件，并将这个文件对象dom变量。

documentElement 用于得到dom对象的文档元素，并把获得的对象给root

每一个结点都有它的nodeName，nodeValue，nodeType属性。

nodeName为结点名字。

nodeValue是结点的值，只对文本结点有效。

nodeType是结点的类型。catalog是ELEMENT_NODE类型

现在有以下几种：

'ATTRIBUTE_NODE'
'CDATA_SECTION_NODE'
'COMMENT_NODE'
'DOCUMENT_FRAGMENT_NODE'
'DOCUMENT_NODE'
'DOCUMENT_TYPE_NODE'
'ELEMENT_NODE'
'ENTITY_NODE'
'ENTITY_REFERENCE_NODE'
'NOTATION_NODE'
'PROCESSING_INSTRUCTION_NODE'
'TEXT_NODE'

NodeTypes - 有名常数

http://www.w3school.com.cn/xmldom/dom_nodetype.asp

获得子标签

现在要获得catalog的子标签以的标签name


<?xml version="1.0" encoding="utf-8"?>
<catalog>
       <maxid>4</maxid>
       <login username="pytest" passwd='123456'>
            　　<caption>Python</caption>
             <item id="4">
                    <caption>测试</caption>
            </item>
    </login>
    <item id="2">
            <caption>Zope</caption>
    </item>
</catalog>

对于知道元素名字的子元素，可以使用getElementsByTagName方法获取：


#coding=utf-8
import  xml.dom.minidom

#打开xml文档
dom = xml.dom.minidom.parse('abc.xml')

#得到文档元素对象
root = dom.documentElement

bb = root.getElementsByTagName('maxid')
b= bb[0]
print b.nodeName

bb = root.getElementsByTagName('login')
b= bb[0]
print b.nodeName

如何区分相同标签名字的标签：


<?xml version="1.0" encoding="utf-8"?>
<catalog>
       <maxid>4</maxid>
       <login username="pytest" passwd='123456'>
            　　<caption>Python</caption>
             <item id="4">
                    <caption>测试</caption>
            </item>
    </login>
    <item id="2">
            <caption>Zope</caption>
    </item>
</catalog>

<caption>和<item>标签不止一个如何区分？


#coding=utf-8
import  xml.dom.minidom

#打开xml文档
dom = xml.dom.minidom.parse('abc.xml')

#得到文档元素对象
root = dom.documentElement

bb = root.getElementsByTagName('caption')
b= bb[2]
print b.nodeName

bb = root.getElementsByTagName('item')
b= bb[1]
print b.nodeName

root.getElementsByTagName('caption') 获得的是标签为caption 一组标签，b[0]表示一组标签中的第一个；b[2] ，表示这一组标签中的第三个。

获得标签属性值


<?xml version="1.0" encoding="utf-8"?>
<catalog>
       <maxid>4</maxid>
       <login username="pytest" passwd='123456'>
            　　<caption>Python</caption>
             <item id="4">
                    <caption>测试</caption>
            </item>
    </login>
    <item id="2">
            <caption>Zope</caption>
    </item>
</catalog>

<login>和<item>标签是有属性的，如何获得他们的属性？


#coding=utf-8
import  xml.dom.minidom

#打开xml文档
dom = xml.dom.minidom.parse('abc.xml')

#得到文档元素对象
root = dom.documentElement

itemlist = root.getElementsByTagName('login')
item = itemlist[0]
un=item.getAttribute("username")
print un
pd=item.getAttribute("passwd")
print pd

ii = root.getElementsByTagName('item')
i1 = ii[0]
i=i1.getAttribute("id")
print i

i2 = ii[1]
i=i2.getAttribute("id")
print i

getAttribute方法可以获得元素的属性所对应的值。

获得标签对之间的数据


<?xml version="1.0" encoding="utf-8"?>
<catalog>
       <maxid>4</maxid>
       <login username="pytest" passwd='123456'>
            　　<caption>Python</caption>
             <item id="4">
                    <caption>测试</caption>
            </item>
    </login>
    <item id="2">
            <caption>Zope</caption>
    </item>
</catalog>

<caption>标签对之间是有数据的，如何获得这些数据？

获得标签对之间的数据有多种方法，

方法一


#coding=utf-8
import  xml.dom.minidom

#打开xml文档
dom = xml.dom.minidom.parse('abc.xml')

#得到文档元素对象
root = dom.documentElement

cc=dom.getElementsByTagName('caption')
c1=cc[0]
print c1.firstChild.data

c2=cc[1]
print c2.firstChild.data

c3=cc[2]
print c3.firstChild.data

firstChild 属性返回被选节点的第一个子节点，.data表示获取该节点人数据。

方法二


#coding=utf-8
from xml.etree import ElementTree as ET
per=ET.parse('abc.xml')
p=per.findall('./login/item')

for oneper in p:
    for child in oneper.getchildren():
        print child.tag,':',child.text


p=per.findall('./item')

for oneper in p:
    for child in oneper.getchildren():
        print child.tag,':',child.text

方法二有点复杂，所引用模块也与前面的不一样，findall用于指定在哪一级标签下开始遍历。

getchildren方法按照文档顺序返回所有子标签。并输出标签名（child.tag）和标签的数据（child.text）

其实，方法二的作用不在于此，它核心功能是可以遍历某一级标签下的所有子标签。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

Python读取XML 的相关文章

在 Python 中读取 .docx 文件以查找删除线、项目符号和其他格式

任何人都可以帮助我在使用 python docx 的 Python 中识别 docx 文件中的段落是否包含带有删除线格式的文本即它出现但被划掉或者在开头有一个项目符号点我正在尝试编写一个脚本来识别文档中的结构并解析内容到目前为止我
用于列出用户和组的 Python 脚本

我正在尝试编写一个脚本在自己的行上输出每个用户及其组如下所示 user1 group1 user2 group1 user3 group2 user10 group6 etc 我正在为此用 python 编写一个脚本但想知道如何做到这
在Python中解析制表符分隔的文件

我正在尝试在 Python 中解析一个制表符分隔的文件其中与行开头分开的 k 个制表符的数字应该放入第 k 个数组中除了逐行读取并执行简单解决方案将执行的所有明显处理之外是否有内置函数可以执行此操作或者有更好的方法您可以使用the
快速NLTK解析成语法树

我正在尝试将数百个句子解析为语法树我需要快速完成问题是如果我使用 NLTK 那么我需要定义一个语法而我不知道我只知道它会是英语我尝试使用this https github com emilmont pyStatParser统计解析器
当用户点击无框架 pygame 窗口时如何移动它？

我想创建一个没有框架的 pygame 窗口当用户单击它并移动鼠标时该窗口会移动我尝试了这个脚本但是当我单击窗口时打印 0 而不是 1 我的脚本有问题 coding utf 8 import pygame from pygame lo
Python 字典组并对多个值求和[重复]

这个问题在这里已经有答案了我在字典格式列表中有一组数据如下所示 data name A tea 5 coffee 6 name A tea 2 coffee 3 name B tea 7 coffee 1 name B tea 9 co
为什么 Keras 的 train_on_batch 在第二个 epoch 产生零损失和准确率？

我正在使用一个大数据集所以我尝试使用 train on batch 或适合 epoch 1 model Sequential model add LSTM size input shape input shape return seque
优化Python：大数组、内存问题

我在运行 python numypy 代码时遇到速度问题我不知道如何让它更快也许其他人假设有一个表面有两个三角剖分一个是细三角剖分 fine 有 M 个点一个是粗剖分有 N 个点此外还有每个点的粗网格数据 N 个浮点数我正
使用 Python 发布 XML 文件

我是 Python 新手需要一些帮助我的目标是向 URL 发送一些带有 post 请求的 XML 这将触发发送 SMS 我有一个小的 XML 文档我想将其发布到 URL 我可以在需要发布的 python 代码中引用我的服务器上的 XM
ValueError: n_splits=10 不能大于每个类中的成员数

我正在尝试运行以下代码 from sklearn model selection import StratifiedKFold X hey join now hello join today join us now not today jo
Android：如何按下软键盘上方的按钮

我有一个保存按钮我想将其与软键盘一起按下因此当用户单击布局中的 EditText 时按钮必须保持在键盘上方现在该按钮隐藏在键盘下方你怎么做到这一点提前致谢您需要将键盘的输入模式设置为adjustResize 您可以通过将
从 XML 文档生成嵌套列表

在 python 中工作我的目标是解析我制作的 XML 文档并创建一个嵌套的列表列表以便稍后访问它们并解析提要 XML 文档类似于以下代码片段
使用 python 从 hive 读取数据时的性能问题

我在 hive 中有一个表其中包含 351 837 110 MB 大小记录我正在使用 python 读取该表并写入 sql server 在此过程中从 hive 读取数据到 pandas dataframe 需要很长时间当我加载整
显示具有相同节点值的多个 XML 数据条目

我有一个 XML 文档其中包含课程信息如下所示
Python pycrypto 模块：为什么 simplejson 无法转储加密字符串？

表明统一码错误 utf8 codec can t decode byte 0x82 in position 0 unexpected code byte 这是代码 from Crypto Cipher import AES import s
在python中求Legendre多项式的根

我正在编写一个程序通过勒让德高斯求积求解积分 n 阶求积算法需要在某一时刻找到 n 阶勒让德多项式 Pn x 的根并将它们分配给数组 Absc 表示横坐标 Pn 是一个 n 阶多项式在区间 1 1 上有 n 个独立的实根我希望能
允许任何内容的 XML 架构 (xsd:any)

我需要一个允许任何事情的 XML 模式示例这可能听起来很奇怪但我需要它来调试我当前的模式问题是我有一个在函数我无法控制的 DLL 的一部分中使用的复杂对象以及模式并且该函数返回 XML 目前该函数会抛出异常因为在验证模式时
python - lxml：强制执行属性的特定顺序

我有一个 XML 编写脚本可以为特定的第 3 方工具输出 XML 我使用原始 XML 作为模板来确保构建所有正确的元素但最终的 XML 看起来与原始的不同我以相同的顺序编写属性但 lxml 按自己的顺序编写它们我不确定但我怀疑第
在 Python 中计算时间（datetime.timedelta？）

我相信这对很多人来说都是理所当然的事情但我发现自己对整个 datetime timedelta 事情感到非常困惑本质上我在开始时给一些东西加上时间戳startTime然后我为流程结束添加时间戳endTime我试图找出 HH MM SS
与 IPython 内核分离而不终止它

有人可以告诉我如何在不终止 IPython 内核的情况下分离它吗我在文档中看到quit 有一个参数keep kernel 但不幸的是quit keep kernel True 行不通的如果您通过 IPython 控制台客户端连接到内核并

随机推荐

Windows下安装TensorFlow快速教程

参考 xff1a https www tensorflow org install install windows 一安装环境 TensorFlow即可以支持CPU xff0c 也可以支持CPU 43 GPU 前者的环境需求简单 xff0
使用Google Earth Engine（一）：提取下载MODIS、Landsat点数据

现在可以使用Google Earth Engine 快捷的提取MODIS Landsat等产品的点 xff08 或区域 xff09 数据到自己的Google Drive下载 PS GEE可以做全球尺度长时间序列的数据分析出图等 xff0c
Mark 概率图模型PGM和马尔科夫随机场MRF

待续概率图模型 xff08 PGM xff09 有必要系统地学习一下吗 xff1f PGM学习之七 MRF xff0c 马尔科夫随机场
cmd下文件md5查看插件

文件md5可以帮助我们检测文件是否被篡改或者比较两个文件是否含有完全相同的内容 xff0c 在linux及mac系统之中 xff0c 都可以在终端窗口使用md5命令查看指定文件的md5值 xff0c 然而在微软window系统的cmd下却没
PowerShell: 如何解决File **.ps1 cannot be loaded because the execution of scripts is disabled on this sy

转自 xff1a http www cnblogs com findcaiyzh archive 2012 09 21 2696282 html PowerShell 默认不允许执行 ps1脚本文件运行ps1文件会得到下面的错误 File
JavaScript入门教程链接

看到一些适合JavaScript初学者的一些入门教程记录下 xff0c 初级教程基本都是介绍语法的 xff0c 学习JS时最好能够结合HTML CSS和WEB开发的概念一起学习会理解比较深中文教程有 xff1a W3school的JS教程
.NET Arrary OutOfMemoryException

在 NET中如果数组大小超过2GB xff0c 会遇到错误 xff1a OutOfMemoryException Array dimensions exceeded supported range 此时可以通过修改App config中设置
Get help of python and python package function/获取python及python包函数的帮助文档

摘要 xff1a 快速获取函数的帮助文档是阅读陌生程序的需求 xff0c 也是学习编程语言的有效方法对于python和python包 xff0c 均有这样的支持这里以numpy为例 xff0c 说明其获取帮助的方法 xff0c 其一使用
Python Numpy Tutorial / Python Numpy 教程（矩阵和图像操作）

Python Numpy教程介绍了Python基础 Python Numpy的矩阵和矩阵运算 SciPy的图像读写处理函数 matplotlib的绘图和图像显示 xff08 plot和imshow xff09 等这些都是深度学习中对于矩阵
Python获取当前路径

Refs https blog csdn net qq 15188017 article details 53991216 假设py文件路径为 F SEG myResearch myProject 2 test py Method 1 sy
Matlab去除二值图像小对象 bwareaopen

From https ww2 mathworks cn help images ref bwareaopen html bwareaopen Remove small objects from binary image collapse a
百度地图POI数据获取

转载自 xff1a https blog csdn net baidu 26646129 article details 80464447 本文主要介绍百度地图POI数据获取 xff1a 从百度地图得到POI数据 xff0c 以json格式
遥感影像降位16位到8位

From https blog csdn net shenshanxiaozhu article details 53224554 常用卫星影像基本上都是16位影像 xff0c 在某些应用场景下需要将16位影像降到8位影像 xff0c 这样
ipython notebook 如何打开.ipynb文件？

三种方法查看 ipynb 文件 xff1a 1 xff0c GitHub 中可以直接打开 ipynb 文件 2 xff0c 可以把 ipynb 文件对应的下载链接复制到 https nbviewer jupyter org 中查看 3 xf
解析IOS二进制格式的bplist

关于二进制格式的plist xff0c 搜到一篇博客详解Binary Plist格式 xff0c 介绍的很详细 xff0c 但是结合github上关于一份解析bplist的代码通过结果实际来看 xff0c 博客中解析对象表的说明出现了问题
'gbk' codec can't encode character解决方法

Friom https www cnblogs com themost p 6603409 html 使用Python写文件的时候 xff0c 或者将网络数据流写入到本地文件的时候 xff0c 大部分情况下会遇到 xff1a Unicode
Python中str与bytes互相转换

快速转换方式 str to bytes my str 61 34 hello world 34 my str as bytes 61 str encode my str type my str as bytes ensure it is b
Python关于%matplotlib inline

在github代码中经常会看到这样的代码 xff1a import numpy import matplotlib pyplot as plt from pandas import read csv import math from ker
Jupyter Notebook介绍、安装及使用教程

目录一什么是Jupyter Notebook xff1f 1 简介 Jupyter Notebook是基于网页的用于交互计算的应用程序其可被应用于全过程计算 xff1a 开发文档编写运行代码和展示结果 Jupyter Notebo
Python读取XML

From http www cnblogs com fnng p 3581433 html 关于python读取xml文章很多 xff0c 但大多文章都是贴一个xml文件 xff0c 然后再贴个处理文件的代码这样并不利于初学者的学习 xf

Python读取XML

Python读取XML 的相关文章

随机推荐

热门标签