ElementTree(1.3.0) Python中XML解析的高效方法

2023-12-09

我正在尝试解析一个巨大的 XML 文件（20MB-3GB）。文件是来自不同仪器的样本。所以，我正在做的是从文件中查找必要的元素信息并将它们插入到数据库（Django）中。

我的文件样本的一小部分。命名空间存在于所有文件中。文件的有趣特征是它们有节点属性多于文本

<?xml VERSION="1.0" encoding="ISO-8859-1"?>
<mzML xmlns="http://psi.hupo.org/ms/mzml" xmlns:xs="http://www.w3.org/2001/XMLSchema-instance" xs:schemaLocation="http://psi.hupo.org/ms/mzml http://psidev.info/files/ms/mzML/xsd/mzML1.1.0.xsd" accession="plgs_example" version="1.1.0" id="urn:lsid:proteios.org:mzml.plgs_example">

    <instrumentConfiguration id="QTOF">
                    <cvParam cvRef="MS" accession="MS:1000189" name="Q-Tof ultima"/>
                    <componentList count="4">
                            <source order="1">
                                    <cvParam cvRef="MS" accession="MS:1000398" name="nanoelectrospray"/>
                            </source>
                            <analyzer order="2">
                                    <cvParam cvRef="MS" accession="MS:1000081" name="quadrupole"/>
                            </analyzer>
                            <analyzer order="3">
                                    <cvParam cvRef="MS" accession="MS:1000084" name="time-of-flight"/>
                            </analyzer>
                            <detector order="4">
                                    <cvParam cvRef="MS" accession="MS:1000114" name="microchannel plate detector"/>
                            </detector>
                    </componentList>
     </instrumentConfiguration>

小但完整的文件是here

所以到目前为止我所做的就是使用 findall 来处理每个感兴趣的元素。

import xml.etree.ElementTree as ET
tree=ET.parse('plgs_example.mzML')
root=tree.getroot()
NS="{http://psi.hupo.org/ms/mzml}"
s=tree.findall('.//{http://psi.hupo.org/ms/mzml}instrumentConfiguration')
for ins in range(len(s)):
    insattrib=s[ins].attrib
    # It will print out all the id attribute of instrument
    print insattrib["id"]

如何访问仪器配置元素的所有子/孙子元素？

s=tree.findall('.//{http://psi.hupo.org/ms/mzml}instrumentConfiguration')

我想要的例子

InstrumentConfiguration
-----------------------
Id:QTOF
Parameter1: T-Tof ultima
source:nanoelectrospray
analyzer: quadrupole
analyzer: time-of-flight
detector: microchannel plate decector

当命名空间存在时，是否有有效的方法来解析元素/子元素/子元素？或者我每次都必须使用 find/findall 来访问具有命名空间的树中的特定元素？这只是一个小例子，我必须解析更复杂的元素层次结构。

有什么建议么！

Edit

没有得到正确答案，所以必须再次编辑！

这是一个解析一百万的脚本<instrumentConfiguration/>元素（967MB文件）中40秒（在我的机器上）而不消耗大量内存。

吞吐量为24MB/s. The cElementTree page (2005)报告47MB/s.

#!/usr/bin/env python
from itertools import imap, islice, izip
from operator  import itemgetter
from xml.etree import cElementTree as etree

def parsexml(filename):
    it = imap(itemgetter(1),
              iter(etree.iterparse(filename, events=('start',))))
    root = next(it) # get root element
    for elem in it:
        if elem.tag == '{http://psi.hupo.org/ms/mzml}instrumentConfiguration':
            values = [('Id', elem.get('id')),
                      ('Parameter1', next(it).get('name'))] # cvParam
            componentList_count = int(next(it).get('count'))
            for parent, child in islice(izip(it, it), componentList_count):
                key = parent.tag.partition('}')[2]
                value = child.get('name')
                assert child.tag.endswith('cvParam')
                values.append((key, value))
            yield values
            root.clear() # preserve memory

def print_values(it):
    for line in (': '.join(val) for conf in it for val in conf):
        print(line)

print_values(parsexml(filename))

Output

$ /usr/bin/time python parse_mxml.py
Id: QTOF
Parameter1: Q-Tof ultima
source: nanoelectrospray
analyzer: quadrupole
analyzer: time-of-flight
detector: microchannel plate detector
38.51user 1.16system 0:40.09elapsed 98%CPU (0avgtext+0avgdata 23360maxresident)k
1984784inputs+0outputs (2major+1634minor)pagefaults 0swaps

Note: 代码很脆弱它假设前两个孩子<instrumentConfiguration/> are <cvParam/> and <componentList/>所有值都可用作标记名称或属性。

论性能

在这种情况下，ElementTree 1.3 比 cElementTree 1.0.6 慢约 6 倍。

如果你更换root.clear() by elem.clear()那么代码速度会快 10%，但内存会多 10 倍。lxml.etree与elem.clear()变体，性能与cElementTree但它消耗 20 (root.clear()) / 2 (elem.clear()) 倍内存 (500MB)。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

performance

Parsing

lxml

ElementTree(1.3.0) Python中XML解析的高效方法的相关文章

Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
如何在 PyCharm 4.5.2 中使用 PyPy 作为标准/默认解释器？

如何在 PyCharm 4 5 2 中使用 PyPy 作为标准默认解释器一切都在 Ubunutu 14 10 下运行并且 pypy 已经安装您可以在项目的设置下进行配置这个官方文档直接涵盖了 https www jetbrains
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
查找模块中显式定义的函数 (python)

好的我知道您可以使用 dir 方法列出模块中的所有内容但是有什么方法可以仅查看该模块中定义的函数吗例如假设我的模块如下所示 from datetime import date datetime def test return Thi
在 macOS 中通过 Python 访问进程的压缩 RAM（顶部的 CMPRS）的方法？

我试图弄清楚如何从 Python 访问任何给定进程占用的实际 RAM 量我发现 psutil Process PID memory info rss 工作得很好直到操作系统决定开始压缩某些进程的 RAM 然后所有的 memory in
如何在 Python 3 中循环遍历集合，同时从集合中删除项目

这是我的情况我有一个list set 哪个并不重要 movieplayer我想调用的对象 preload 功能开启该预加载函数可以立即返回但希望将来返回一点我想存储这个电影播放器集合表明它们尚未预加载然后循环它们调用prel
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
错误膨胀类 android.support.design.widget.NavigationView [启动时崩溃]

该应用程序应该有一个导航抽屉可以从左侧拉出并显示各种活动但是一旦将导航栏添加到 XML Activity homescreen 文档中应用程序一启动就会崩溃主屏幕 java package com t99sdevelopment c
如何从 CSS 选择器中提取类名？

故事我目前正在构建一个 ESLint 规则以警告在 CSS 选择器定位器中使用引导布局导向和角度技术类目前我在字符串方法中使用简单的子字符串 for var i 0 i lt prohibitedClasses length i if
由于 json 字符串化 dict 键导致数据丢失

考虑下面的例子 gt gt gt import json gt gt gt d 0 potato 0 spud gt gt gt json dumps d 0 potato 0 spud gt gt gt json loads json d
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
为什么 java.util.Arraylist#clear 按照 OpenJDK 中的方式实现？

http grepcode com file repository grepcode com java root jdk openjdk 6 b14 java util ArrayList java 473 http grepcode co
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
在 Django shell 会话期间获取 SQL 查询计数

有没有办法打印 Django ORM 在 Django shell 会话期间执行的原始 SQL 查询的数量 Django 调试工具栏已经提供了此类信息例如 5 QUERIES in 5 83MS但如何从 shell 中获取它并不明显您可
如何为所有用户安装 Anaconda python？

Anaconda python 发行版 https store continuum io cshop anaconda 非常方便地部署科学计算环境 SCE 并根据需要切换python版本默认情况下安装会将 python 定位到 anac
缓存 Flask-登录 user_loader

我有这个 login manager user loader def load user id None return User query get id 在我引入 Flask Principal 之前它运行得很好 identity loa

随机推荐

Rails 迁移：建立_连接在错误的数据库中创建表

我想在数据库中创建一个新表而不是在我的database yml 文件中定义的表这是我的database yml 文件 development adapter mysql2
如何：使用 wix 工具集使程序在 Windows 启动时启动？

我有简单的 Hello world Windows 窗体应用程序在 VS 2013 中创建如何使用 WIX Toolset 使应用程序在 Windows 启动时启动必须在 Windows 7 和 Windows 8 中运行这是我目前
带有 angularjs 的材料设计 md-tabs

我有一个关于材料设计 md tabs 控制的问题我在其中一个页面上使用 md tabs 和 Angularjs 效果很好我在该页面上还有一个 md 按钮我们想要做的是当用户单击该按钮时我们想要移动到下一个选项卡我对整个材料角度的
Java 类型泛型作为 GSON 的参数

在 GSON 中获取你所做的对象列表 Gson gson new Gson Type token new TypeToken
使用 MongoDB 压缩数组

是否可以在 mongo 文档中压缩数组我指的是 zip 的函数式编程定义其中相应的项被配对成元组更准确地说我想从这样的 mongo 文档开始 A A1 A2 A3 B B1 B2 B3 C 100 0 200 0 300 0 最终得
连接到与登录 google colab 不同的 google 驱动器

最近 colab 删除了从您在 google 云端硬盘中登录的帐户以外的其他帐户连接到 google 云端硬盘的功能有人发布了一个使用以下代码的解决方法效果很好直到现在 apt get install y qq software pr
理解结构等价

我有两种类型的结构等价思想我正在努力理解 VAR 1 int VAR 2 pointer to VAR 1 所以在这里我觉得它们在结构上是等效的因为从技术上讲这些类型都指向整数类型对吗但如果你有类似的东西 VAR 3 pointe
Crystal Report Viewer 打印/导出按钮在 ASP.NET MVC 应用程序中不起作用

我的 MVC 应用程序使用推送模型和 CR 查看器进行报告在查看器中显示报告时一切都很好但是打印导出按钮给出了 JavaScript 错误此操作不支持对象我正在使用 VS 2008 和 MVC 这发生在我的开发环境中有任何想法吗
Android 中的自定义字体（适用于整个应用程序）[重复]

这个问题在这里已经有答案了我有这个 android 代码其中有许多类每个类都有不同的视图我们可以进入设置并根据所选的字体更改其字体目前仅预装的 Android 字体可用有没有办法稍微调整我的代码以便我可以添加 ttf 文件并将
如何知道 Azure 服务器是否使用 TLS 1.2

我们有一个托管在 Azure 服务器中的 Web 应用程序使用 Azure 服务器中的 api 出于安全目的我们想知道服务器是否处于 tls 1 2 之下我想对于非云服务器我们只需在 regedit 中查看即可知道我已经看到有关如
线程是内核对象吗？

在这本书中我读到每个实例Thread类实际上正在分配一个内核对象这是使用的开销之一Thread 据我所知线程不是内核对象在这种情况下只有进程是内核对象进程包含的线程不是内核对象有人可以解释一下吗线程首先是一个托管对象你知道S
如何将 JavaScript 侦听器添加到 PrimeFaces Ajax 事件

我想通过javascript方法监听pickList传输事件侦听器与 java bean 配合良好
Django + Mongo + Docker 获取 pymongo.errors.ServerSelectionTimeoutError

我一直在努力使用 Django Djongo Mongodb 和 Docker Compose 运行一个简单的应用程序我的设置如下所示 docker compose yml services mongodb image mongo lat
PackageMaker 的“在包中包含根”选项实际上有什么作用？

我正在为 OS X 应用程序制作安装程序但无法理解 PackageMaker 的 UI 我的 PackageMaker 版本是 3 0 4 与 Lion 和 Xcode 4 1 一起运行其中一个选项尤其让我感到困惑这是编辑包内容时的
为什么我必须最后调用 super -dealloc，而不是首先调用？

正确的例子 void dealloc viewController release window release super dealloc 错误的例子 void dealloc super dealloc viewController r
删除QListView背景

我想删除我的 QListView 的背景以便可以看到下面的背景我怎样才能做到这一点 I tried setAttribute Qt WA NoSystemBackground and setAttribute Qt WA NoBackg
通过pywin32将pandas数据框写入word文档表

我目前正在编写一个脚本需要写入 docx 文件以进行演示我使用 pandas 来处理脚本中的所有数据计算我希望使用 PyWIN32 将 pandas 数据帧写入 word docx 文件中书签处的表中数据框由浮点数组成伪代码是这样
如何创建其中包含永久提示的编辑文本

我有一个编辑文本用户在其中输入金额我想要做的是在其前面设置一个用户不可编辑的文本视图值例如 INR 然后用户将在其前面输入金额我希望 edittext 看起来像下面的那样我怎样才能做到这一点
Laravel 4 Auth with Facebook（无密码身份验证）

我正在尝试使用 Laravel 4 设置一个通过 Facebook 登录的身份验证系统我正在为 Laravel 4 使用 madewithlove laravel oauth2 包当然当用户使用 Facebook 登录时没有密码可以
ElementTree(1.3.0) Python中XML解析的高效方法

我正在尝试解析一个巨大的 XML 文件 20MB 3GB 文件是来自不同仪器的样本所以我正在做的是从文件中查找必要的元素信息并将它们插入到数据库 Django 中我的文件样本的一小部分命名空间存在于所有文件中文件的有趣特征是它们有

ElementTree(1.3.0) Python中XML解析的高效方法

Output

论性能

ElementTree(1.3.0) Python中XML解析的高效方法 的相关文章

随机推荐

热门标签

ElementTree(1.3.0) Python中XML解析的高效方法的相关文章