解析具有已知结构和重复元素的 XML 文件

2024-03-24

我正在尝试从包含大量具有重复名称的元素的 XML 文件中解析信息。

以下是我尝试解析的文件类型的示例，仅包含一条记录：

<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE plist PUBLIC "-//Apple//DTD PLIST 1.0//EN" "http://www.apple.com/DTDs/PropertyList-1.0.dtd">
<plist version="1.0">
<array>
    <!--
        Start of the FIRST record.
    -->
    <dict>
        <key>80211D_IE</key>
        <dict>
            <key>IE_KEY_80211D_CHAN_INFO_ARRAY</key>
            <array>
                <dict>
                    <key>IE_KEY_80211D_FIRST_CHANNEL</key>
                    <integer>1</integer>
                    <key>IE_KEY_80211D_MAX_POWER</key>
                    <integer>27</integer>
                    <key>IE_KEY_80211D_NUM_CHANNELS</key>
                    <integer>11</integer>
                </dict>
            </array>
            <key>IE_KEY_80211D_COUNTRY_CODE</key>
            <string>US</string>
        </dict>
        <key>AGE</key>
        <integer>0</integer>
        <key>AP_MODE</key>
        <integer>2</integer>
        <key>BEACON_INT</key>
        <integer>100</integer>
        <key>BSSID</key>
        <string>ac:5d:10:73:c3:11</string>
        <key>CAPABILITIES</key>
        <integer>1073</integer>
        <key>CHANNEL</key>
        <integer>2</integer>
        <key>CHANNEL_FLAGS</key>
        <integer>10</integer>
        <key>IE</key>
        <data>
        AAZPbGl2ZXIBCIKEiwwSlhgkAwECBwZVUyABCxswGAEAAA+sAgIAAA+sBAAP
        rAIBAAAPrAIAAN0aAFDyAQEAAFDyAgIAAFDyBABQ8gIBAABQ8gIqAQAyBDBI
        YGw=
        </data>
        <key>NOISE</key>
        <integer>0</integer>
        <key>RATES</key>
        <array>
            <integer>1</integer>
            <integer>2</integer>
            <integer>5</integer>
            <integer>6</integer>
            <integer>9</integer>
            <integer>11</integer>
            <integer>12</integer>
            <integer>18</integer>
            <integer>24</integer>
            <integer>36</integer>
            <integer>48</integer>
            <integer>54</integer>
        </array>
        <key>RSN_IE</key>
        <dict>
            <key>IE_KEY_RSN_AUTHSELS</key>
            <array>
                <integer>2</integer>
            </array>
            <key>IE_KEY_RSN_MCIPHER</key>
            <integer>2</integer>
            <key>IE_KEY_RSN_UCIPHERS</key>
            <array>
                <integer>4</integer>
                <integer>2</integer>
            </array>
            <key>IE_KEY_RSN_VERSION</key>
            <integer>1</integer>
        </dict>
        <key>RSSI</key>
        <integer>-74</integer>
        <key>SSID</key>
        <data>
        T2xpdmVy
        </data>
        <key>SSID_STR</key>
        <string>Oliver</string>
        <key>WPA_IE</key>
        <dict>
            <key>IE_KEY_WPA_AUTHSELS</key>
            <array>
                <integer>2</integer>
            </array>
            <key>IE_KEY_WPA_MCIPHER</key>
            <integer>2</integer>
            <key>IE_KEY_WPA_UCIPHERS</key>
            <array>
                <integer>4</integer>
                <integer>2</integer>
            </array>
            <key>IE_KEY_WPA_VERSION</key>
            <integer>1</integer>
        </dict>
    </dict>
    <!--
        End of the FIRST record.
        In reality, more records follow.
    -->
</array>
</plist>

我遇到的问题是，我想从本质上展平每个观察结果（上例中只有一个观察结果），以便第一个中的每个元素<array>（即每个<dict> within <array>) 是数据框中的一行，其中的每个元素<dict>是一列，由适当的名称命名<key>.

我已经尝试过以下功能XML包，主要是xmlToList，但还没有完全弄清楚解析 XML 数据的正确方法。

Edit:

我想要的输出或多或少是将每个记录展平为数据框或列表中的一行，以便可以通过键轻松访问值。我不一定关心保留任何层次结构，例如每条记录都会有<key>80211D_IE</key>随后是一个dict包含实际信息——<key>80211D_IE</key>不是必需的，因为它不包含任何真实信息，而只是一组项目的不必要的分组。我可以将其存储为列表，例如mydata$record1$X80211D_IE$I.E._KEY_80211D_CHAN_INFO_ARRAY$IE_KEY_80211D_FIRST_CHANNEL，或者在像这样的数据框中mydata[1, 'I.E._KEY_80211D_FIRST_CHANNEL'].

我现在遇到的最大问题是这个 XML 结构似乎不太适合解析。例如，如果我想将 XML 子集化为记录，其中SSID_STR匹配一个字符串，我不能只使用xmlToList因为它不知道键应该与其值相关联。所以我得到一个这样的列表：

> str(xmlToList("path/to/my/file.xml"), max.level=2)
List of 2
 $ array :List of 25
  ..$ dict:List of 36
  ..$ dict:List of 32
  ..$ dict:List of 32
  ..$ dict:List of 38
  ..$ dict:List of 36
  ..$ dict:List of 34
  ..$ dict:List of 34
  ..$ dict:List of 34
  ..$ dict:List of 34
  ..$ dict:List of 34
  ..$ dict:List of 32
  ..$ dict:List of 38
  ..$ dict:List of 38
  ..$ dict:List of 34
  ..$ dict:List of 36
  ..$ dict:List of 34
  ..$ dict:List of 36
  ..$ dict:List of 34
  ..$ dict:List of 36
  ..$ dict:List of 36
  ..$ dict:List of 40
  ..$ dict:List of 42
  ..$ dict:List of 36
  ..$ dict:List of 38
  ..$ dict:List of 38
 $ .attrs: Named chr "1.0"
  ..- attr(*, "names")= chr "version"

看看其中的一个

> str(xmlToList("path/to/my/file.xml")$array[[1]], max.level = 1)
List of 36
 $ key    : chr "80211D_IE"
 $ dict   :List of 4
 $ key    : chr "AGE"
 $ integer: chr "0"
 $ key    : chr "AP_MODE"
 $ integer: chr "2"
 $ key    : chr "BEACON_INT"
 $ integer: chr "100"
 $ key    : chr "BSSID"
 $ string : chr "a:18:a:31:0:83"
 $ key    : chr "CAPABILITIES"
 $ integer: chr "4145"
 $ key    : chr "CHANNEL"
 $ integer: chr "11"
 $ key    : chr "CHANNEL_FLAGS"
 $ integer: chr "10"
 $ key    : chr "HT_CAPS_IE"
 $ dict   :List of 12
 $ key    : chr "HT_IE"
 $ dict   :List of 34
 $ key    : chr "IE"
 $ data   : chr "\n\t\tAAR0ZXN0AQiWlgwSGCQwSAMBCwcGVVMgAQseKgEDMBgBAAAPrAICAAAPrAQA\n\t\tD6wCAQAAD6wCAAAyAmBsRgVzwAEAADMCDAstGowRG///AAAAAAAAAAA"| __truncated__
 $ key    : chr "NOISE"
 $ integer: chr "0"
 $ key    : chr "RATES"
 $ array  :List of 9
 $ key    : chr "RSN_IE"
 $ dict   :List of 8
 $ key    : chr "RSSI"
 $ integer: chr "-86"
 $ key    : chr "SSID"
 $ data   : chr "\n\t\tdGVzdA==\n\t\t"
 $ key    : chr "SSID_STR"
 $ string : chr "test"
 $ key    : chr "WPA_IE"
 $ dict   :List of 8

很容易看出，实际上只有 18 个项目，但密钥作为自己的项目存储（总共 36 个）。

The xmlToList函数实际上是almost我希望它做什么——而是使用相应键的值来命名包含数据的列表的元素。

这看起来像：

List of 18
 $ AGE          : chr "0"
 $ AP_MODE      : chr "2"
 $ BEACON_INT   : chr "100"
 $ BSSID        : chr "a:18:a:31:0:83"
 $ CAPABILITIES : chr "4145"
 $ CHANNEL      : chr "11"
 $ CHANNEL_FLAGS: chr "10"
 $ HT_CAPS_IE   :List of 12
 $ HT_IE        :List of 34
 $ IE           : chr "\n\t\tAAR0ZXN0AQiWlgwSGCQwSAMBCwcGVVMgAQseKgEDMBgBAAAPrAICAAAPrAQA\n\t\tD6wCAQAAD6wCAAAyAmBsRgVzwAEAADMCDAstGowRG///AAAAAAAAAAA"| __truncated__
 $ NOISE        : chr "0"
 $ RATES        :List of 9
 $ RSN_IE       :List of 8
 $ RSSI         : chr "-86"
 $ SSID         : chr "\n\t\tdGVzdA==\n\t\t"
 $ SSID_STR     : chr "test"
 $ WPA_IE       :List of 8
 $ X80211D_IE   :List of 4

在这个假设的输出中，使用适当的键很容易获取值。此外，继续取消嵌套列表（因为不需要分组结构）以生成数据框将很容易。

我将OP的XML存储在一个文件中但重复了所提供的单个记录！

使用一些附加的附加包这可能会更灵活（我会使用dplyr和%>%），但我忍住了。我建议使用xml2代替XML。您可以使用 XPATH 表达式来定位感兴趣的节点。

x <- read_xml("so.xml")
(elements <- xml_find_all(x, ".//dict/dict/array/dict"))
#> {xml_nodeset (2)}
#> [1] <dict>\n                    <key>IE_KEY_80211D_FIRST_CHANNEL</key>\n ...
#> [2] <dict>\n                    <key>IE_KEY_80211D_FIRST_CHANNEL</key>\n ...

## isolate the key nodes ... will become variable names
keys <- lapply(elements, xml_find_all, "key")
keys <- lapply(keys, xml_text)
## I advise checking that keys are uniform across the records here!
(keys <- keys[[1]])
#> [1] "IE_KEY_80211D_FIRST_CHANNEL" "IE_KEY_80211D_MAX_POWER"    
#> [3] "IE_KEY_80211D_NUM_CHANNELS"

## isolate integer data
integers <- lapply(y, xml_find_all, "integer")
integers <- lapply(integers, xml_text)
integers <- lapply(integers, type.convert)
yay <- as.data.frame(do.call(rbind, integers))
names(yay) <- keys
yay
#>   IE_KEY_80211D_FIRST_CHANNEL IE_KEY_80211D_MAX_POWER
#> 1                           1                      27
#> 2                           1                      27
#>   IE_KEY_80211D_NUM_CHANNELS
#> 1                         11
#> 2                         11

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

r

解析具有已知结构和重复元素的 XML 文件的相关文章

如何将数据库查询的行转换为 XML 文件？

我正在开发一个 Delphi 应用程序该应用程序需要从一段工作中获取行并将其转换为单个 XML 文件以便上传到第三方 Web 服务有没有可用的组件或库可以做到这一点如果不是那么构建 DB2XML 转换器的最佳代码方法是什么我注意
使用pivot_longer将R中的多列变成一列[重复]

这个问题在这里已经有答案了我有一个dfpopulation看起来像这样未列出所有列和行 Region X1975 X1976 X1977 X2008 National Total 942420 93717 94974 132802 Be
建模前减少因子水平数量

我有一个 2600 个级别的因子我想在建模之前将其减少到 10 我想我可以通过这样的操作来做到这一点如果一个因素列出的次数少于 x 次则应将其放入名为其他的存储桶中这是一些示例数据 df lt data frame colour
在 Shiny 应用程序中过滤数据时，长度为 1 的字符向量除了第一个元素之外的所有元素都将被忽略错误

我有以下闪亮的应用程序 library shiny library rhandsontable library shinydashboard library ggplot2 library dplyr setwd C Users Marc
在ggplotly散点图中添加自定义数据标签

我想显示Species对于每个数据点当光标位于该点上方而不是 x 和 y 值时我用iris数据集另外我希望能够单击数据点以使标签持久存在并且当我在图中选择新位置时标签不会消失如果可能的话最基本的是标签持久性问题是一个优点这
栅格堆叠后如何写入？

我想操作几个光栅文件然后再次写入它们 rasterfiles lt list files C data envi full names TRUE d1 lt overlay stack rasterfiles fun function x
在 R Shiny 中，如何使用可排序 js 将其在列表中出现的顺序次数附加到每个列表元素？

下面的可重现代码适用于将元素从一个面板拖动到另一个面板并在拖动到面板中自动使用 HTML CSS 对拖入的每个元素进行排名顺序编号但是我现在尝试附加到每个拖动到列表元素的末尾使用某种形式的paste0 我假设该元素在拖至
编写健壮的 R 代码：命名空间、屏蔽和使用 `::` 运算符

简洁版本对于那些不想阅读我的案例的人来说这就是本质最小化新包破坏现有代码即编写您编写的代码的机会的推荐方法是什么尽可能坚固充分利用该功能的推荐方法是什么命名空间机制 when a just using贡献的软件包比如在一
kmeans 对分组数据进行聚类

目前我尝试在分组数据中找到簇的中心通过使用示例数据集和问题定义我能够创建kmeans每个组内的集群然而当涉及到给定组的集群的每个中心时我不知道如何获取它们 https rdrr io cran broom man kmeans
以编程方式触发 R 传单中的标记鼠标单击事件以获得闪亮效果

我的问题与此相同在 R 传单中触发标记鼠标单击事件以获得闪亮效果 https stackoverflow com questions 56962857 trigger marker mouse click event in r leafl
使用 data.table 进行分组并选择最短日期

My Data df1 lt structure list ID c A A A B B C c1 1 6 c2 1 6 myDate c 01 01 2015 02 02 2014 03 01 2014 09 09 2009 10 10
连接多个用户的 R 闪亮会话

最小可重现示例 library shiny ui lt fluidPage actionButton button1 Run 1 actionButton button2 Run 2 server lt function session i
如何从R中的日期中提取月份

我正在使用lubridate封装并应用month从日期中提取月份的函数我在日期字段上运行了 str 命令得到了 Factor w 9498 levels 01 01 1979 01 01 1980 5305 1 1 1 1 1 1 1
访问 R 工作区中的数据[重复]

这个问题在这里已经有答案了我是自学 R 的可能有一些非常基本的东西我可能不熟悉如果是这样我道歉我正在尝试访问外部来源提供给我的数据它作为一个工作空间出现我的流程如下 gt ls 1 2003OHT HR gt attach 20
使用 readHTMLTable 从 https 网页读取表格

我安装了 R 3 3 1 并使用 RStudio 0 99 903 我正在尝试从以下 URL 将表格读入 R https www fantasypros com nfl rankings consensus cheatsheets php
jQuery - 提高处理 XML 时的选择器性能

我正在处理一个 XML 文件当使用 XPath 样式选择器选择节点时该文件的性能非常慢这是运行特别慢的部分代码 for i 0 i
聚合日期时间以总结在特定条件下花费的时间

我很困惑我应该如何继续我下面有一些虚拟数据 Date lt as POSIXct c 2018 03 20 11 52 25 2018 03 22 12 01 44 2018 03 20 12 05 25 2018 03 20 12 10
VBA XML V6.0 如何让它等待页面加载？

我一直在努力寻找答案但似乎找不到任何有用的东西基本上我是从一个网站上拉取的当您在该页面上时该网站会加载更多项目我希望我的代码在加载完成后提取最终数据但不知道如何让 XML httprequest 等待 Edited Sub p
从 data.frame 中提取时用 NA 填充缺失的列

我有一个函数它将具有某些列的数据框作为输入 columns a b z 现在我有一个数据框DF只有很少的这些列DF columns f u z 如果列不在其中如何创建一个包含所有值为 NA 的列的数据框DF这与DF在柱子上 f u z
如何有效地将多个光栅 (.tif) 文件导入 R

我是 R 新手尤其是在空间数据方面我正在尝试找到一种方法来有效地将多个 600 单波段栅格 tif 文件导入到 R 中所有文件都存储在同一文件夹中不确定这是否重要但请注意在我的 Mac 和 Windows 并行 VM 上的文件夹

随机推荐

为什么新的 Mac 不显示我的屏幕保护程序？

我们写了一个应用程序屏保忍者 https screensaver ninja 通过将屏幕保护程序复制到 Library Screen Savers 来为用户安装屏幕保护程序这在我的机器和其他开发人员的机器上运行良好但在我拥有的测试机器
如何在 SQL Server 中确定日期时间范围是否与另一个日期时间范围重叠

我们有例如下表 ID startDateTime endDateTime 1 2010 01 01 10 30 00 2010 01 01 11 00 00 2 2010 01 01 10 30 00 2010 01 01 11 30 0
C++ 计时，自上一整秒以来的毫秒数

我正在开发一个需要详细计时信息低至毫秒级别的 C 应用程序我们打算使用标准来收集时间到秒的精度time 函数于
无效的捆绑包结构 - 该应用程序可能仅包含一个可执行文件。

这个问题 https stackoverflow com questions 16424431 invalid bundle structure ios即使不相同也是相似的但没有解决方案我查看了存档内部发现只有一个可执行文件所以我
javascript 如何上传 blob？

我有一个这样结构的 blob 数据 Blob type audio wav size 655404 slice function size 655404 type audio wav proto Blob 它实际上是使用最新的 Chrome
是否可以将对象移出函数？（C++11）

该程序尝试将一个字符串移出函数并将其用于构造另一个字符串 include
使用 Google App Engine php55 或 php7 将任意大文件下载到云存储的解决方案是什么？

我有一个谷歌应用程序引擎 php55 服务它定期检查公共网站并下载文件该文件通常很小我发现这个文件有时会更大超过32M
ECMAScript v 6 何时成为标准 [关闭]

这个问题不太可能对任何未来的访客有帮助它只与一个较小的地理区域一个特定的时间点或一个非常狭窄的情况相关通常不适用于全世界的互联网受众为了帮助使这个问题更广泛地适用访问帮助中心 help reopen questions 很抱歉如
文本环绕绝对定位的 div

我知道有一些关于类似主题的问题但它们主要涉及浮动 div 图像我需要将图像和 div 绝对定位向右但我只想让文本围绕它流动如果我浮动 div 但我无法将其放置在我想要的位置它会起作用因为文本只是在图片后面流动 div cla
如何绘制java uml类图并在另一个类中创建枚举[重复]

这个问题在这里已经有答案了假设我有一个类名 A 在这个类中我定义了枚举 Bpublic enum B AA BB CC 现在我想画一个uml来体现这种关系应该怎么做呢在类类图中表示使用例如
如何在 XML 布局中添加片段

我有一个布局其中包含一个片段如下所示
使用标准 Gmail 应用程序发送电子邮件，无需选择器

我正在尝试使用标准 Gmail 应用程序从我的应用程序发送电子邮件但我总是有选择器如何在没有选择器的情况下立即打开标准 Gmail 应用程序我不需要任何可以发送电子邮件的应用程序的选择器我只需要 GMAIL 谢谢你这是我的代码 I
中间操作和终端操作有什么区别？

有人可以告诉我中间操作和终端操作有什么区别Stream Stream操作被组合到管道中来处理流所有操作要么是中间操作要么是最终操作意味着一个Stream支持多种操作这些操作分为intermediate and terminal运营
如何使用 Spring-Data-MongoDB 在实体中设置 @TextIndex 名称

我有一个实体Person 继承于Musician and 政治家和一个存储库 PersonRepository 我试图使用 PersonRepository save 默认方法将所有三个实体保存到 MongoDB 中的集合 person 中
CustomKeyBoardExtension 中的当前文本选择

我正在尝试写Custom Keyboard Extension 我正在寻找知道光标在哪里的方法UITextField UITextView 等等自定义键盘扩展但我没有看到类似的东西我看到了 SwiftKey 应用程序 http swif
如何使用样式数据绑定？

我在 KnockoutJS 中使用样式绑定时遇到困难 div div 渲染该模板
从 C# 调用批处理文件

我希望这是一个简单的问题但我的 C 应用程序中有以下代码由于某种原因它不会执行我指向的批处理文件 private void filesystemwatcher Renamed object sender System IO Renam
通过 javac 使用多个 .jar

请原谅我的术语我正在尝试将三个 jar 文件与 java 程序一起用于我的 CS 课程第一个是funjava 一种简化的java语言其他的是类定义颜色和几何这是我的代码以及当我尝试运行它时会发生什么 import colors cl
Ruby 中的 preg_match_all 和 preg_replace

我正在从 php 过渡到 ruby 我试图找出 ruby 中 php 命令 preg match all 和 preg replace 的同源太感谢了 Ruby 中的等价物preg match all is String scan htt
解析具有已知结构和重复元素的 XML 文件

我正在尝试从包含大量具有重复名称的元素的 XML 文件中解析信息以下是我尝试解析的文件类型的示例仅包含一条记录

解析具有已知结构和重复元素的 XML 文件

解析具有已知结构和重复元素的 XML 文件 的相关文章

随机推荐

热门标签

解析具有已知结构和重复元素的 XML 文件的相关文章