使用 LXML 和 Python 解析空白 XML 标签

2023-12-22

解析 XML 文档时的格式为：

<Car>
    <Color>Blue</Color>
    <Make>Chevy</Make>
    <Model>Camaro</Model>
</Car>

我使用以下代码：

carData = element.xpath('//Root/Foo/Bar/Car/node()[text()]')
parsedCarData = [{field.tag: field.text for field in carData} for action in carData]
print parsedCarData[0]['Color'] #Blue

如果标签为空，则此代码将不起作用，例如：

<Car>
    <Color>Blue</Color>
    <Make>Chevy</Make>
    <Model/>
</Car>

使用与上面相同的代码：

carData = element.xpath('//Root/Foo/Bar/Car/node()[text()]')
parsedCarData = [{field.tag: field.text for field in carData} for action in carData]
print parsedCarData[0]['Model'] #Key Error

我将如何解析这个空白标签。

你正在输入一个[text()]过滤器明确只要求具有文本节点的元素...然后当它没有为您提供没有文本节点的元素时您会感到不高兴？

保留该过滤器，您将获得模型元素：

>>> s='''
... <root>
...   <Car>
...     <Color>Blue</Color>
...     <Make>Chevy</Make>
...     <Model/>
...   </Car>
... </root>'''
>>> e = lxml.etree.fromstring(s)
>>> carData = e.xpath('Car/node()')
>>> carData
[<Element Color at 0x23a5460>, <Element Make at 0x23a54b0>, <Element Model at 0x23a5500>]
>>> dict(((e.tag, e.text) for e in carData))
{'Color': 'Blue', 'Make': 'Chevy', 'Model': None}

也就是说，如果您的直接目标是迭代树中的节点，您可能会考虑使用lxml.etree.iterparse()相反，这将避免尝试在内存中构建完整的 DOM 树，并且比构建树然后使用 XPath 迭代它要高效得多。（想想 SAX，但没有疯狂且痛苦的 API）。

实施与iterparse可能看起来像这样：

def get_cars(infile):
    in_car = False
    current_car = {}
    for (event, element) in lxml.etree.iterparse(infile, events=('start', 'end')):
        if event == 'start':
            if element.tag == 'Car':
                in_car = True
                current_car = {}
            continue
        if not in_car: continue
        if element.tag == 'Car':
            yield current_car
            continue
        current_car[element.tag] = element.text

for car in get_cars(infile = cStringIO.StringIO('''<root><Car><Color>Blue</Color><Make>Chevy</Make><Model/></Car></root>''')):
  print car

...这是更多的代码，但是（如果我们没有使用 StringIO 作为示例）它可以处理比内存容量大得多的文件。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

xml

Parsing

xmlparsing

使用 LXML 和 Python 解析空白 XML 标签的相关文章

如何在 Python 2.4 CSV 阅读器中禁用引用？

我正在编写一个 Python 实用程序需要解析一个我无法控制的大型且定期更新的 CSV 文件该实用程序必须在仅提供 Python 2 4 的服务器上运行 CSV 文件根本不引用字段值但Python 2 4版本的csv库 http ww
Huggingface 变形金刚模块未被 anaconda 识别

我正在使用 Anaconda python 3 7 Windows 10 我尝试通过安装变压器https huggingface co transformers https huggingface co transformers 在我的环境
TCP打孔问题

我尝试使用 Python 3 中概述的原则为防火墙编写一个基本的 TCP 打孔器本文 http www bford info pub net p2pnat index html 不过我无法连接任何东西这是代码 usr bin pytho
Python实时读取串口数据

我正在使用 Python 中的脚本通过串行端口以 2Mbps 的速度从 PIC 微控制器收集数据 PIC 在 2Mbps 下完美定时工作 FTDI USB 串行端口在 2Mbps 下工作也很好均通过示波器验证我每秒发送消息大小约为 1
将 2D Panda 的 DataFrame 列表转换为 3D DataFrame

我正在尝试创建一个将标签值保存到 2D DataFrame 的 Pandas DataFrame 这是我到目前为止所做的我正在使用读取 csv 文件pd read csv并将它们附加到列表中出于这个问题的目的让我们考虑以下代码 imp
使用 NumPy 的 Mittag-Leffler 函数的不稳定性

在尝试重现时Wolfram MathWorld 上的情节 http mathworld wolfram com Mittag LefflerFunction html 并试图帮助这个问题 https stackoverflow com qu
如何使用appium自动化Android手机后退按钮

我正在使用 Appium python 客户端库对 Android 上的混合移动应用程序进行测试自动化我无法找到任何方法来自动化或创建手势以使用电话后退按钮返回到应用程序的上一页有没有可以使用的驱动函数我尝试了 self dri
为什么最简单的 requests_mock 示例在 pytest 中失败？

我有一个特殊的问题requests mock 我想用它pytest测试我的 API 包装器库我尝试过使用requests mock 文档中的第一个示例 http requests mock readthedocs io en latest
如何使直方图列的宽度都相同

我在操作直方图时遇到了一些麻烦我有一个包含两列的 df 我将它们绘制为堆叠直方图我将它们放入特定的垃圾箱中请参阅下面的代码但我想在最后制作一个大垃圾箱 4000 10000 但是默认情况下大垃圾箱的列宽很大有没有办法让这个大垃
模拟类：Mock() 还是 patch()？

我在用mock http www voidspace org uk python mock index html使用Python 想知道这两种方法中哪一种更好阅读更Pythonic 方法一只需创建一个模拟对象并使用它代码如下 def
如何打印和显示子进程 stdout 和 stderr 输出而不失真？

也许有人可以帮助我解决这个问题我在 SO 上看到了许多与此类似的问题但没有一个问题同时处理标准输出和标准错误也没有处理像我这样的情况因此出现了这个新问题我有一个 python 函数它打开一个子进程等待它完成然后输出返回代码以
Tkinter 如何根据此组合框自动更新第二个组合框

我在 Tkinter Python 中遇到了组合框更新的问题我有两个组合框组合框A with values A B C and 组合框B 我想要的是当值A在组合框中选择A然后在组合框中B显示值 1 2 3 当值B在组合框中选择A然后在
Python itertools groupby 中令人不安的奇怪行为/错误？

我在用itertools groupby解析一个短的制表符分隔的文本文件文本文件有几列我想做的就是对具有特定值的所有条目进行分组x在特定的列中下面的代码对名为的列执行此操作name2 寻找变量中的值x 我尝试使用以下方法来做到这一点c
如何连接多个字符串？ [复制]

这个问题在这里已经有答案了如何将 stringList 中的所有字符串合并为一个而不打印它例如 s joinStrings very hot day returns string print s Veryhotday 感觉有点倒退但是
如何使用资源模块来衡量函数的运行时间？

我想使用Python代码测量函数的CPU运行时间和挂钟运行时间此处建议资源模块如何以 Python 代码不是从终端的形式分别测量函数的 CPU 运行时间和挂钟运行时间 https stackoverflow com q 192046
对 Python 列表元素进行分组

我有一个 python 列表如下所示 my list 25 1 0 65 25 3 0 63 25 2 0 62 50 3 0 65 50 2 0 63 50 1 0 62 我想根据以下规则对它们进行排序 1 gt 0 65 0 62 l
混合两个列表的Pythonic方法[重复]

这个问题在这里已经有答案了我有两个长度为 n 和 n 1 的列表 a 1 a 2 a n b 1 b 2 b n 1 我想要一个函数作为结果给出一个列表其中包含两个中的替代元素即 b 1 a 1 b n a n b n 1 以下方法有
重新安装后使用 pandas dataframes 时出现问题

我已经重新安装了 Python 和 Anaconda 现在面临以下问题在我将 pkl 文件加载到数据帧并尝试查看该文件后如下所示 df pd read pickle example pkl df 我收到错误 AttributeErr
真实值与预测值的降维可视化

我有一个数据框如下所示 label predicted F1 F2 F3 F40 major minor 2 1 4 major major 1 0 10 minor patch 4 3 23 major patch 2 1 11 min
使用 TkInter 绑定设置不可交互（点击）覆盖

我已经浏览了其他几篇关于类似问题的帖子所有这些似乎都指向this https stackoverflow com questions 29458775 tkinter see through window not affected by

随机推荐

单击“通知”后打开应用程序

我的应用程序中有一条通知代码如下 Notification Start notificationManager NotificationManager getSystemService Context NOTIFICATION SERVI
如何使用 highchart 使两个图表使用 div 并排显示在同一行中

我想使用 div 在同一行显示两个图表你能帮忙吗这是我正在尝试的但它显示为两行 div div style width 200px height 200px div div style width 200px height 200px
Perl - 使用编码方法读取文件？

我在编码方面不太好我想弄清楚如何以与开始时相同的编码返回数据我有一个文件其中包含一些字符例如当我编辑并插入数据库时它们已经变成了 decode entities 什么都不做 encode entities 再次对字符进行编码因
Symfony2 Monolog 到电子邮件错误为什么 swiftmailer.transport.real 服务不存在

更新 symfony 后2 3 to 2 4 i got ServiceNotFoundException Fatal error Uncaught exception Symfony Component DependencyInjecti
HTML5 视频，视频内无缝循环

我正在编写一个交互式视频一种游戏用户在侧面板上进行操作并且操作发生在视频中对于一部分来说视频正在等待用户在面板上执行操作因此它必须循环播放直到用户启动该操作所以在 15 秒时只要用户没有做出动作我就会回到 11 秒视频
如何以编程方式检测 iPhone XS 或 iPhone X？ [复制]

这个问题在这里已经有答案了我的一个应用程序连接到一项 Web 应用程序服务该服务向用户提供设备特定的新闻为了适应最新的 iPhone 版本我需要以编程方式区分 iPhone XS 和 iPhone X 如何做到这一点 UIScree
ASP.NET AutoPostBack 正在清除表单数据

我有一个单选按钮列表我想在用户做出选择时执行一些操作
通过 WSO2 ESB 访问 WSO2 数据服务服务

我创建了一个服务产品它接受 ProductID 值并返回数据我有此服务的 SOAP 和 HTTP 请求和响应我可以通过执行 h p localhost 9763 services Products HTTPEndpoint Prod
每次都是相同的随机数

我正在通过命令行运行脚本R CMD BATCH script in R script out R 我有以下行它选择 12 个随机行 id 并对它们进行排序 test index lt sort sample 1 nrow recoded
Base64 DataURL 图像的大小限制是多少？

我想知道浏览器中加载的 Base64 DataURL 图像的最大长度是多少 Thanks Citing MDN 对此 https developer mozilla org en US docs data URIs Common probl
为什么 Linux 服务器响应的 TCP 数据包多于客户端请求的 MSS

嗯我看到了一件奇怪的事情这不是我所期望的 TCP 理论客户端在握手时将 MSS 最大段大小设置为 1360 窗口大小为 64K 但 Linux 服务器发送的 TCP 数据包包含 4KB 7KB 一些 8KB 的数据包超过 1360
具有队列基本功能的最快 Java 集合是什么？

Java 中最快的集合是什么我只需要添加和删除操作顺序并不重要 equals元素不是问题无非添加和删除很重要没有限制的大小也很重要这些集合里面都会有Object 目前我正在使用 ArrayDeque 因为我发现这是更快的队列实现
设置 Android 日期选择器日期限制

我在 android 中使用 datePicker 根据用户选择的日期显示图像我需要将所述日期限制为某些日期例如 2010 年 1 月 1 日至 2010 年 12 月 31 日我想这很简单但我在哪里可以找到有关如何限制这些日期的答
如何将视频从 iOS 设备发送到服务器？

我必须将视频从 iPhone 实时发送到服务器我创建捕获会话并使用 AVCaptureMovieFileOutput NSError error nil captureSession AVCaptureSession alloc init
iOS：从后台线程创建 UIImage？

苹果文档说由于图像对象是不可变的因此创建后无法更改其属性大多数图像属性是使用随附图像文件或图像数据中的元数据自动设置的图像对象的不可变性质也意味着它们可以安全地从任何线程创建和使用 Link https developer appl
如何通过名称删除会话

如何通过名称删除php会话我的例子session sec and session page 我需要删除session page 没有删除session sec for a single variable unset SESSION ses
为什么要避免使用子shell？

我在 Stack Overflow 上看到了很多答案和评论提到做一些事情来避免子shell 在一些情况下给出了一个功能性原因最常见的是可能需要读取变量在其内部分配的子 shell 之外但是在在其他情况下回避似乎被视为结束
如何解决“属性内插值已被删除。使用 v-bind 或冒号简写”？ Vue.js 2

我的 Vue js 组件是这样的
MySQL 左连接（未知列）

我的查询遇到问题 MySQL 查询 SELECT DISTINCT users username users full name users profile picture url users followed by count users
使用 LXML 和 Python 解析空白 XML 标签

解析 XML 文档时的格式为

使用 LXML 和 Python 解析空白 XML 标签

使用 LXML 和 Python 解析空白 XML 标签 的相关文章

随机推荐

热门标签

使用 LXML 和 Python 解析空白 XML 标签的相关文章