使用 Python ElementTree 迭代多个（父、子）节点

2024-04-07

Python (2.6) 的 ElementTree 标准实现不提供从子节点指向父节点的指针。因此，如果需要父母，建议循环父母而不是孩子。

考虑我的 xml 的形式：

<Content>
  <Para>first</Para>
  <Table><Para>second</Para></Table>
  <Para>third</Para>
</Content>

以下查找所有“Para”节点而不考虑父节点：

(1) paras = [p for p in page.getiterator("Para")]

这（改编自 effbot）通过循环遍历父节点而不是子节点来存储父节点：

(2) paras = [(c,p) for p in page.getiterator() for c in p]

这是完全有道理的，并且可以使用条件进行扩展以实现（据称）与（1）相同的结果，但添加了父信息：

(3) paras = [(c,p) for p in page.getiterator() for c in p if c.tag == "Para"]

The ElementTree 文档 http://docs.python.org/release/2.6.4/library/xml.etree.elementtree.html建议 getiterator() 方法进行深度优先搜索。在不查找父级 (1) 的情况下运行它会产生：

first
second
third

然而，从 (3) 中的段落中提取文本，会得到：

first, Content>Para
third, Content>Para
second, Table>Para

这似乎是广度优先的。

因此，这提出了两个问题。

这是正确且预期的行为吗？
当子项必须是某种类型但父项可以是任何类型时，如何提取（父项，子项）元组，是否必须维持文件顺序。我不认为运行两个循环并将（3）生成的（父，子）映射到（1）生成的订单是理想的。

考虑一下：

>>> xml = """<Content>
...   <Para>first</Para>
...   <Table><Para>second</Para></Table>
...   <Para>third</Para>
... </Content>"""
>>> import xml.etree.cElementTree as et
>>> page = et.fromstring(xml)
>>> for p in page.getiterator():
...     print "ppp", p.tag, repr(p.text)
...     for c in p:
...         print "ccc", c.tag, repr(c.text), p.tag
...
ppp Content '\n  '
ccc Para 'first' Content
ccc Table None Content
ccc Para 'third' Content
ppp Para 'first'
ppp Table None
ccc Para 'second' Table
ppp Para 'second'
ppp Para 'third'
>>>

旁白：列表推导式非常出色，直到您想确切地看到正在迭代的内容:-)

getiterator is按照广告顺序生成“ppp”元素。然而，您正在从辅助“ccc”元素中提取您感兴趣的元素，这些元素不符合您想要的顺序。

一种解决方案是进行自己的迭代：

>>> def process(elem, parent):
...    print elem.tag, repr(elem.text), parent.tag if parent is not None else None
...    for child in elem:
...       process(child, elem)
...
>>> process(page, None)
Content '\n  ' None
Para 'first' Content
Table None Content
Para 'second' Table
Para 'third' Content
>>>

现在，您可以在“Para”元素流过时对其父元素（如果有）进行引用，从而捕获每个元素。

这可以很好地封装在生成器小工具中：

>>> def iterate_with_parent(elem):
...     stack = []
...     while 1:
...         for child in reversed(elem):
...             stack.append((child, elem))
...         if not stack: return
...         elem, parent = stack.pop()
...         yield elem, parent
...
>>>
>>> showtag = lambda e: e.tag if e is not None else None
>>> showtext = lambda e: repr((e.text or '').rstrip())
>>> for e, p in iterate_with_parent(page):
...     print e.tag, showtext(e), showtag(p)
...
Para 'first' Content
Table '' Content
Para 'second' Table
Para 'third' Content
>>>

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

elementtree

使用 Python ElementTree 迭代多个（父、子）节点的相关文章

使用 GWT 读取非常大的本地 XML 文件

我正在使用 GWT 构建我的第一个 Java 应用程序它必须从一个非常大的 XML 文件中读取数据当我尝试发送对文件中信息的请求时遇到问题并且我不太确定它是否与文件的大小或我的语义有关在我的程序中我有以下内容 static fin
numpy python 中的“AttributeError：'matrix'对象没有属性'strftime'”错误

我有一个维度为 72000 1 的矩阵该矩阵涉及时间戳我想使用 strftime 如下所示 strftime d m y 为了得到像这样的输出 11 03 02 我有这样一个矩阵 M np matrix timestamps 我使用了
CakePHP Xml 实用程序库触发 DOMDocument 警告

我正在使用 CakePHP 在视图中生成 XMLXML核心库 http book cakephp org 2 0 en core utility libraries xml html xml Xml build data array ret
ctypes 错误：libdc1394 错误：无法初始化 libdc1394

我正在尝试将程序编译为共享库我可以使用 ctypes 在 Python 代码中使用该库使用以下命令该库可以正常编译 g shared Wl soname mylib O3 o mylib so fPIC files pkg config
从sklearn PCA获取特征值和向量

如何获取 PCA 应用程序的特征值和特征向量 from sklearn decomposition import PCA clf PCA 0 98 whiten True converse 98 variance X train clf f
无故运行测试时 PyCharm 抛出“AttributeError: 'module' object has no attribute”

因此我有一个 Django REST Framework 项目有一天它无法在 PyCharm 中运行测试从命令行我可以使用它们来运行它们paver or the manage py直接地曾经有一段时间当我们没有在文件顶部导入类的超
cv2.drawContours() - 取消填充字符内的圆圈（Python，OpenCV）

根据 Silencer的建议我使用了他发布的代码here https stackoverflow com questions 48244328 copy shape to blank canvas opencv python 482465
PyTorch 给出 cuda 运行时错误

我对我的代码做了一些小小的修改以便它不使用 DataParallel and DistributedDataParallel 代码如下 import argparse import os import shutil import time
将二维数组放入 Pandas 系列中

我有一个 2D Numpy 数组我想将其放入 pandas 系列而不是 DataFrame 中 gt gt gt import pandas as pd gt gt gt import numpy as np gt gt gt a np
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
在相同任务上，Keras 比 TensorFlow 慢

我正在使用 Python 运行斩首 DCNN 本例中为 Inception V3 来获取图像特征我使用的是 Anaconda Py3 6 和 Windows7 使用 TensorFlow 时我将会话保存在变量中感谢 jdehesa 并
Alembic：如何迁移模型中的自定义类型？

My User模型是 class User UserMixin db Model tablename users noinspection PyShadowingBuiltins uuid Column uuid GUID default
Python Pandas：如何对组中的所有项目进行分组并为其分配 id？

我有 df domain orgid csyunshu com 108299 dshu com 108299 bbbdshu com 108299 cwakwakmrg com 121303 ckonkatsunet com 121303
在 Windows 上使用带有对数刻度的 matplotlib 时出现 Unicode 错误

我正在使用 python 2 6 和 matplotlib 如果我运行 matplotlib 库页面中提供的示例 histogram demo py 它工作正常我已经大大简化了这个脚本 import numpy as np import
falcon，AttributeError：“API”对象没有属性“create”

我正在尝试测试我的猎鹰路线但测试总是失败而且看起来我把所有事情都做对了 my app py import falcon from resources static import StaticResource api falcon API
Python对象初始化性能

我只是做了一些快速的性能测试我注意到一般情况下初始化列表比显式初始化列表慢大约四到六倍这些可能是错误的术语我不确定这里的行话例如 gt gt gt import timeit gt gt gt print timeit timeit
字符串列表，获取n个元素的公共子串，Python

我的问题可能类似于this https stackoverflow com questions 37514193 count the number of occurrences of n length not given string in
计算互相关函数？

In R 我在用ccf or acf计算成对互相关函数以便我可以找出哪个移位给我带来最大值从它的外观来看 R给我一个标准化的值序列 Python 的 scipy 中是否有类似的东西或者我应该使用fft模块目前我正在这样做 xcor
如何使用Python保存“完整的网页”而不仅仅是基本的html

我正在使用以下代码来使用 Python 保存网页 import urllib import sys from bs4 import BeautifulSoup url http www vodafone de privat tarife r
使用Multiprocessing和Pool时如何访问全局变量？

我试图避免将变量冗余地传递到dataList e g 1 globalDict 2 globalDict 3 globalDict 并在全球范围内使用它们 global globalDict然而在下面的代码中并不是这样做的解决方案是否有

随机推荐

用于电子表格的 Google 应用脚本：如何在脚本管理器中隐藏辅助函数？

我使用 Google Apps 脚本在 Google 电子表格中自定义了一个菜单我遇到的问题是当我按脚本管理器时我正在使用的所有辅助函数都会列出我想隐藏它们我读过如果我在函数名称末尾加下划线但它不起作用 From documen
Ruby 是否像 PHP 一样支持 var 引用？

在 PHP 中您可以使两个变量指向相同的数据 a foo b bar a b echo a Outputs bar echo b Outputs bar 我们在 Ruby 中尝试做的事情已经确定 app session等于session
无法使用轨迹球单击列表视图中的视图

我有一个在行视图中带有可单击按钮的列表视图以及一个自定义 SimpleCursorAdapter 来实现此列表尽管单击该行时 onitemclicklistener 没有被触发请参阅here https stackoverflow c
MinGW C 编译器“无法编译简单的测试程序”

我想将 MinGW 作为 C 编译器运行 MinGW 已从 Chocolatey 安装调用是通过 CMake 从 gitlab runner 进行的这失败了 cmake G MinGW Makefiles DCMAKE C COMPIL
通过 Excel VBA 实现 IE11 自动化 - 公司网页

首先我对尝试通过 Excel VBA 自动化 IE 还很陌生话虽这么说我正在努力自动登录公司特定的网页仅我们的员工可以访问目标是自动登录员工编号密码并单击登录我发现 Firefox 在识别字段方面特别有帮助所以这就是我在
Laravel 翻译 required_if 值

我正在使用 Laravel 版本 5 2 45 目前我在翻译 required if 规则时遇到一些麻烦当我使用 required if field value 时它会打印错误验证消息中的字段值在本例中为 1 或 0 这不太可读例
如何对 LINQ to Objects 查询进行分区？

这是一个资源分配问题我的目标是运行查询来获取任何时间段的最高优先级班次数据集非常大对于此示例假设 1000 家公司每个班次有 100 个班次尽管实际数据集更大它们都已加载到内存中我需要对它们运行单个 LINQ to Objec
具有不同图钉颜色的地图视图注释

我有一个包含 200 多个对象的数组我试图对每个对象执行循环每个对象都有一个是否字段我想根据该是否值显示不同颜色的标记从我所看到的情况来看我的循环首先遍历每个对象然后在每个对象的末尾添加所有注释由于当所有注释都添加到我的地
如何使用 MSAL 对 AAD B2C 进行身份验证？

我有一个使用 ADAL 的客户端服务器身份验证的工作版本但是当您想要使用本地帐户即仅使用用户名或仅使用 AAD 之外没有支持身份验证器的电子邮件地址时 B2C AAD 似乎无法与 ADAL 很好地配合看来我们应该用于本地帐户的
参考 Windows Powershell 中的弹出窗口

我正在为我正在开发的网站进行测试自动化我正在使用 Windows powershell 创建脚本来执行此操作我的问题是我需要单击打开另一个窗口的链接我需要以某种方式引用该窗口 ie new object com InternetExp
SQLite 数据到 RecyclerView

该应用程序的数据存储在 SQLite 数据库中 UI 主要是 RecyclerView 问题是如何最好地将数据从数据库传输到 UI 同时保持主线程的运行我原本计划使用 CursorLoader ContentProvider 和 Recy
多维数组、可为 null 的引用类型和类型转换

使用 C 8 的可空引用类型我们可以编写对于引用类型 T x T y x 但是我无法理解多维和锯齿状数组的转换规则 string a new string 1 string b new string 1 string c new st
Haskell：ghci 是否显示“Chunk .. Empty”？

向你学习 Haskell http learnyouahaskell com input and output bytestrings有一个这样的代码示例 ghci gt B pack 99 97 110 Chunk can Empty B
Grafana - 是否可以在基于 Loki 的仪表板查询中使用变量？

我正在 Grafana 上开发基于 Loki 的仪表板我有一个用于在 Loki 跟踪日志中搜索文本的面板当前查询如下 job abc service searchTrace json line format if trace messa
获取 rfc7517 格式的 JWKS for Firebase

我正在使用 Firebase 对我的应用程序中的用户进行身份验证 Firebase 生成一个 JWT 令牌我需要在我的服务器上对其进行身份验证我使用 tyk io 来做到这一点 Tyk 支持这些令牌但要求公钥的数据源位于https w
Swagger 将 IFormFile 参数列为“对象”类型

我有一个控制器它请求一个包含 IFormFile 作为其属性之一的模型对于请求描述 Swagger UI 我使用 Swashbuckle 和 OpenApi 3 0 for NET Core 将文件属性的类型列出为类型对象有没有办法让
为什么 PeekMessage 总是返回 TRUE？

Main message loop MSG msg ZeroMemory msg sizeof msg while msg message WM QUIT if PeekMessage msg NULL 0U 0U PM REMOVE Tr
将 XSLT 转换作为构建步骤执行

在 Visual Studio 构建期间我需要从另一个 XML 文件生成一个 XML 文件对我来说很明显 XSLT 模板和转换正是我所需要的我更喜欢实现此目的的方法是使用项目文件中的自定义工具属性是否已经有一个内置工具可以用于
如何在 Jetpack Compose 中实现这种布局

我正在尝试使用新的 Jetpack Compose UI 框架但遇到了问题我想实现这个布局在 xml 中很容易实现但我无法弄清楚如何使垂直分隔线占用可用的垂直空间而不指定固定的高度我尝试过的这段代码似乎不起作用 Composab
使用 Python ElementTree 迭代多个（父、子）节点

Python 2 6 的 ElementTree 标准实现不提供从子节点指向父节点的指针因此如果需要父母建议循环父母而不是孩子考虑我的 xml 的形式

使用 Python ElementTree 迭代多个（父、子）节点

使用 Python ElementTree 迭代多个（父、子）节点 的相关文章

随机推荐

热门标签

使用 Python ElementTree 迭代多个（父、子）节点的相关文章