嵌套 XML 到 Pandas 数据框

2023-12-08

我正在尝试创建一个脚本来将嵌套 XML 文件转换为 Pandas 数据帧。我找到了这篇文章https://medium.com/@robertopreste/from-xml-to-pandas-dataframes-9292980b1c1c，它很好地达到了第二级（父母，孩子），但我既不知道如何进入更深的层次（例如孙子），也不知道如何获得孩子的属性（例如“邻居” - > “姓名”）。

这是我的 XML 结构：

<?xml version="1.0"?>
<data>
    <country name="Liechtenstein">
        <rank>1</rank>
        <year>2008</year>
        <gdppc>141100</gdppc>
        <neighbor name="Austria" direction="E"/>
        <neighbor name="Switzerland" direction="W"/>
            <neighbor2 name="Italy" direction="S"/>
    </country>
    <country name="Singapore">
        <rank>4</rank>
        <year>2011</year>
        <gdppc>59900</gdppc>
        <neighbor name="Malaysia" direction="N"/>
    </country>
    <country name="Panama">
        <rank>68</rank>
        <year>2011</year>
        <gdppc>13600</gdppc>
        <neighbor name="Costa Rica" direction="W"/>
        <neighbor name="Colombia" direction="E"/>
    </country>
</data>

这是我的代码：

import pandas as pd
import xml.etree.ElementTree as et

def parse_XML(xml_file, df_cols): 

    xtree = et.parse(xml_file)
    xroot = xtree.getroot()
    rows = []

    for node in xroot: 
        res = []
        res.append(node.attrib.get(df_cols[0]))
        for el in df_cols[1:]: 
            if node is not None and node.find(el) is not None:
                res.append(node.find(el).text)
            else: 
                res.append(None)
        rows.append({df_cols[i]: res[i] 
                     for i, _ in enumerate(df_cols)})

    out_df = pd.DataFrame(rows, columns=df_cols)

    return out_df

xml_file= "example.xml"
df_cols = ["name","year","direction"]

out_df=parse_XML(xml_file, df_cols)
out_df

我想要获得的是如下结构：

| name          | year | neighbor name 1 | neighbor direction 1 | neighbor2 name 1 |
|---------------|------|-----------------|----------------------|------------------|
| Liechtenstein | 2008 | Austria         | E                    | Italy            |
|               |      |                 |                      |                  |
|               |      |                 |                      |                  |

该结构需要尽可能灵活，以便只需很少的编辑即可用于不同的文件。我正在获取具有不同数据结构的 XML 文件，因此我希望每次都能进行一些最少的编辑。

多谢！！

我已经为类似的用例制作了一个包。它也可以在这里工作。

pip install pandas_read_xml

你可以做类似的事情

import pandas_read_xml as pdx

df = pdx.read_xml('filename.xml', ['data'])

要压平，你可以

df = pdx.flatten(df)

df = pdx.fully_flatten(df)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

xml

pandas

嵌套 XML 到 Pandas 数据框的相关文章

Spyder 导入模块出错

我正在尝试在 Spyder 中使用 sklearn 一开始当我尝试导入它时我收到 ImportError No module named sklearn 然后我用 PYTHONPATH 管理器设置 PATH 然后使用工具菜单中的更新模
使用 Pymongo 从 Windows 连接到 AWS 实例上的 MongoDB

此行反复抛出错误 client MongoClient ec2 12 345 67 89 us east 2 compute amazonaws com 27017 ssl True ssl keyfile C mongo pem 由于显而
Seaborn 热图中的自定义调色板间隔

我正在尝试绘制一个heatmap https seaborn pydata org generated seaborn heatmap html使用seaborn库绘图函数如下所示 def plot confusion matrix da
了解 asyncio 已经运行的永久循环和挂起的任务

我在理解如何将新任务挂起到已经运行的事件循环中时遇到问题这段代码 import asyncio import logging asyncio coroutine def blocking cmd while True logging in
在 vim 折叠线中语法高亮 Python

我发现代码折叠 http en wikipedia org wiki Code folding帮助我更好地组织我的文件因此在我的底部 vimrc 我启用vim代码折叠 http vimdoc sourceforge net htmldo
是否有更矢量化的方法来沿轴执行 numpy.outer ？

gt gt gt x np array a0 a1 b0 b1 gt gt gt y np array x0 x1 y0 y1 gt gt gt iterable np outer x i y i for i in xrange x sha
用于检查项目文件中的项目变量和引用路径的 api

我正在研究一个 net application VS2010 与 x 没有解和变量号这些解决方案中的项目数量我需要检查项目属性特定于一定数量的项目是否同质并且检查验证构建期间的参考路径有没有一个API是这样的吗如果没有我该
根据给定列表中的值替换列中的值[重复]

这个问题在这里已经有答案了我在数据框中有一列仅允许定义列表中存在的值例如给定列表 l1 1 2 5 6 如果列表中不存在列中的值我需要将每个值替换为 0 column Expected column 1 1 5 5 2 2 3 0
使 np.loadtxt 使用多个可能的分隔符

我有一个程序可以读取数据文件用户可以选择他们想要使用的列我希望它对于输入文件更加通用有时列可能如下所示 10 34 24 58 8 284 6 121 有时它们可能看起来像这样 10 34 24 58 8 284 6 121 我希
使用 XML 文档部署 Web API 项目时，构建服务器上“访问被拒绝”

为了使用 Web API 帮助页面为我的 Web API 项目生成 XML 文档我必须检查项目属性的构建部分下的 XML 文档文件选项当我在本地构建时这会正确生成文档但是当我签入时我在构建服务器上收到以下错误 CSC 生成
使用 Python 脚本打开特定文件类型？

如何使 Python 脚本成为特定文件类型例如 foo 的默认应用程序例如当我双击 Finder Explorer 中的文件时我希望该文件在 Python 脚本中打开这可以在 Win 和或 OS X 中实现吗如果重要的话该应
如何测试列表中多个值的成员资格

我想测试两个或多个值是否在列表中具有成员资格但我得到了意外的结果 gt gt gt a b in b a foo bar a True 那么 Python 可以同时测试列表中多个值的成员资格吗这个结果意味着什么 See also How
psycopg 错误，列不存在

我不断收到这个错误 psycopg2 ProgrammingError 列 someentry 不存在该错误表明该列someentry不存在时someentry不是列它只是要输入数据库的值这是给出错误的代码 cur execute
Celery：每个工作人员的 task_acks_late 的不同设置/向 celery 添加自定义选项

这个问题是后续问题django celery 禁用一个工作者的预取有错误吗 https stackoverflow com questions 58290045 django celery disable prefetch for one
Python 队列 get()/task_done() 问题

我的消费者端队列 m queue get queue task done
如何可视化多维数据上的 kmeans 聚类

我在 mnist 数据集上使用 kmeans 聚类算法并希望可视化聚类后的图到目前为止我做了这个 from mnist import MNIST mndata MNIST Datasets X train y train mndata
如何保持 python 3 脚本 (Bot) 运行

不是母语英语抱歉英语可能很蹩脚我也是编程新手您好我正在尝试使用 QueryServer 连接到 TeamSpeak 服务器来创建机器人经过几天的努力它有效只有 1 个问题而我却被这个问题困扰了如果您需要检查这是我正在使
部署 Flask 应用程序时如何检测额外文件的更改并重新加载应用程序？ [关闭]

Closed 这个问题需要调试细节 help minimal reproducible example 目前不接受答案我在 Flask 中构建了一个小型 Web 应用程序并尝试将其部署在 Pythonanywhere 上在开发过程中
Python matplotlib 在鼠标悬停时不显示完整日期

我有一个数据框日期索引 and 温度值 Date Temperature 2015 10 21 9 118 2015 10 22 9 099 2015 10 23 8 945 2015 10 26 8 848 2015 10 27 8 84
SQL Server XQuery 返回错误

我正在 SQL Server 2012 中对 XML 数据类型列执行查询数据示例如下

随机推荐

我用 Set.Fold F# 做错了什么

着色问题你好我正在尝试实现一个 bool 函数当颜色可以扩展到一个国家地区时该函数返回 true 否则返回 false 但我在使用集合时遇到问题因为我们无法对它们进行模式匹配我的代码 type Country string t
如何为 std::string 对象预分配内存？

我需要将文件复制到字符串中我需要某种方式为该字符串对象预分配内存以及直接将文件内容读入该字符串内存的方法 std string has a reserve method用于预分配 std string s s reserve 104857
XMLHttpRequest 文件上传在 IE11 中不起作用

您好我的页面上有以下 JS 它在 Chrome 和 Firefox 上运行良好但它不适用于 Internet Explorer 11 我是一名 salesforce 开发人员我不太了解 javascript 您能帮我找出问题出在哪里吗
在javascript中对两个布尔数组进行逻辑与运算？

在 ES6 中对两个布尔数组进行与运算的优雅功能解决方案是什么 const a1 true false false const a2 true true false 应该导致 true false false 使用可以使用数组 map迭代第
WordPress Ajax 请求返回 0

我不明白为什么没有返回任何内容我是 Ajax 的真正初学者我刚刚阅读了很多有关在 Wordpress 中使用 Ajax 的主题但这些示例对我来说非常高级这是我的JS代码combo checkout iRange js jQuery
如果我不关闭Python SQLite中的数据库连接怎么办

我正在做这样的事情 conn sqlite3 connect db filename with conn cur conn cursor cur execute with自动提交更改但文档没有提到关闭连接其实我可以用conn在后面的陈述
Swift 3.0：“IndexSet”类型的值没有成员“enumerateIndexesUsingBlock”

接收Value of type IndexSet has no member enumerateIndexesUsingBlock enumerateIndexesUsingBlock 处出错 Extension for creating
pandoc 生成的 docx 遗漏了方程中的斜体变量

我有以下带有嵌入 LaTeX 方程的 Markdown 片段 Fisher s linear discriminant newcommand cov mathrm cov newcommand A mathrm A renewcommand
jQuery：如何通过溢出获取不可见的内容：隐藏？

我试图将内容跨越多个页面 div 每个 div 的高度设置为 950px 这样我就可以正确输出为 pdf 我从一个 div 开始它使用溢出隐藏来嵌套所有内容理想情况下我想使用 jquery 查找超出查看范围隐藏的内容但我看不到
共享模式下的 Excel 下拉菜单

当我将 Excel 工作簿更改为共享模式并尝试复制并粘贴具有下拉列表数据验证列表的行时下拉列表消失只要工作簿不共享它就可以正常工作有什么解决办法吗将工作簿设置为取消共享复制粘贴您的数据然后再次共享工作簿共享工作簿有用的
高可用性计算：如何处理不返回的系统调用，而不冒误报的风险？

我有一个进程在 Linux 计算机上运行作为高可用性系统的一部分该进程有一个主线程用于接收来自网络上其他计算机的请求并响应它们还有一个心跳线程定期发送多播心跳数据包让网络上的其他进程知道该进程仍然存在并且可用如果它们在一段时间内
如何在代码中更改操作栏标题颜色

我在以编程方式更改 v11 及更高版本的 Android 操作栏标题颜色时遇到问题我可以在 xml 中完成它但需要在代码中动态更改它我该怎么办提前致谢您可以使用 SpannableString 和 ForegroundColorS
计算将 Box2D 主体移动到特定位置的正确冲击力或力 - Box2D

我有一个关于将 Box2D 主体移动到特定位置而不使用此示例的问题 body gt SetTransform targetVector body gt GetAngle 我有一些适用于 applyForce 的代码 here const f
Scala中的apply方法是什么，特别是在类型定义中使用

我知道apply方法在伴生对象中使用时是语法糖然而什么是apply方法在类型定义中使用时如下所示 type Applyn def apply A f A gt A n Int x A A 这句话之间有区别吗据我猜测这句话是用于将通用
sourceupdated 事件未触发

我发现了主机这是ObservableCollection
如何在 Flutter 中处理不同屏幕尺寸上的定位元素（在 Stack 中）？

以下是包含堆栈和其中一些定位小部件的代码 Stack children Positioned top 50 bottom 0 left 30 child Text Mon Sat style TextStyle color Colors w
BUG：Java Swing 键绑定在 OSX 中使用 awt setFullScreenWindow 时 JDK 7 失去功能

编辑 1 16 2013 原始问题已被删除这似乎是 mac OSX 上 JDK 7 的一个错误我已向 Sun Oracle 提交了错误报告下面的文件使用 awt 类 GraphicsEnvironment 和方法 setFullScr
禁用鼠标垂直滚动[重复]

这个问题在这里已经有答案了可能的重复如何通过鼠标停止垂直滚动我在网络浏览器中使用 javascript Jquery 我制作了一个自定义水平滚动条它与鼠标滚轮或鼠标滚动一起使用通常鼠标滚动与垂直条配合使用所以它和我编程的水平滚动
创建子文档后如何填充猫鼬？

我正在向 item comments 列表添加评论在将其输出到响应中之前我需要获取 comment created by 用户数据我该怎么做 Item findById req param itemid function err it
嵌套 XML 到 Pandas 数据框

我正在尝试创建一个脚本来将嵌套 XML 文件转换为 Pandas 数据帧我找到了这篇文章https medium com robertopreste from xml to pandas dataframes 9292980b1c1c 它

嵌套 XML 到 Pandas 数据框

嵌套 XML 到 Pandas 数据框 的相关文章

随机推荐

热门标签

嵌套 XML 到 Pandas 数据框的相关文章