在 Spark 中读取 XML

2024-04-21

我正在尝试使用spark-xml jar 读取pyspark 中的xml/嵌套xml。

df = sqlContext.read \
  .format("com.databricks.spark.xml")\
   .option("rowTag", "hierachy")\
   .load("test.xml"

当我执行时，数据框未正确创建。

    +--------------------+
    |                 att|
    +--------------------+
    |[[1,Data,[Wrapped...|
    +--------------------+

我的 xml 格式如下：

heirarchy应该rootTag and att应该rowTag as

df = spark.read \
    .format("com.databricks.spark.xml") \
    .option("rootTag", "hierarchy") \
    .option("rowTag", "att") \
    .load("test.xml")

你应该得到

+-----+------+----------------------------+
|Order|attval|children                    |
+-----+------+----------------------------+
|1    |Data  |[[[1, Studyval], [2, Site]]]|
|2    |Info  |[[[1, age], [2, gender]]]   |
+-----+------+----------------------------+

and schema

root
 |-- Order: long (nullable = true)
 |-- attval: string (nullable = true)
 |-- children: struct (nullable = true)
 |    |-- att: array (nullable = true)
 |    |    |-- element: struct (containsNull = true)
 |    |    |    |-- Order: long (nullable = true)
 |    |    |    |-- attval: string (nullable = true)

查找更多信息数据块 XML https://github.com/databricks/spark-xml

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

apachespark

DataFrame

PySpark

apachesparkxml

在 Spark 中读取 XML 的相关文章

如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
xml 拉解析器资产 xml

如何使用拉解析器解析资产文件夹中的本地 XML 文件我无法让拉解析器工作它总是抛出 io 异常我想我无法获取文件的路径或连接到该文件 mixm 我正在尝试各种方法来从资产和资源加载本地文件但要按要求回答您的问题因为其他人似
通过删除连续的重复项来减少字符串长度

我有一个包含 2 个字段的 R 数据框 ID WORD 1 AAAAABBBBB 2 ABCAAABBBDDD 3 我想通过仅保留字母而不是重复中的重复项来简化具有重复字母的单词 e g AAAAABBBBB应该给我AB and ABCAA
Spark日期格式问题

我在火花日期格式中观察到奇怪的行为实际上我需要转换日期yy to yyyy 日期转换后日期应为 20yy 我尝试过如下 2040年后失败 import org apache spark sql functions val df Seq
膨胀类片段 InflateException 二进制 XML 文件时出错

我正在使用 Material Design 和 NavigationDrawer 布局等设计我的第一个应用程序但我遇到了一个问题该应用程序非常简单它只显示文本并且基于 Android Studio 中提供的模板尝试启动我的应用程序
如何使用 SAX Java 解析器读取注释文本

我只想使用 Java 中的 SAX 解析器读取 XML 文件中对象标记的注释这是我的文件的摘要
将 r 数据框中的列字符串转换为数字

我有一个数据框其中有一列字符串如下所示 mydata lt c 1 356670 35 355030 1 356670 35 355030 1 356620 35 355890 1 356930 35 358660 1 357000 3
更改 Spark SQL 中的 Null 顺序

我需要能够按升序和降序对列进行排序并且还允许空值位于第一个或空值位于最后一个使用 RDD 我可以将 sortByKey 方法与自定义比较器结合使用我想知道是否有使用 Dataset API 的相应方法我了解如何将 desc asc
在 pandas 数据框中按列应用 Seaborn 热图

我试图在枢轴熊猫数据帧上使用seaborn的热图就像在超链接中一样有效 df pd DataFrame np random randint 1 100 size 3 2 df columns A B df sns heatmap df a
选择一个单元格内的最小值或最大值（分隔字符串）

我有一个数据框其中每个样本的列可以有多个值例如 Gene Pvalue1 Pvalue2 Pvalue3 Beta Ace 0 0381 0 00357 0 01755 0 001385 0 0037 NA 0 039 0 03 1 1
获取 pandas 中最后一次出现特定值之后的所有行

我的数据框看起来像 ID colA 1 B 1 D 2 B 2 D 2 C 我已返回每组中事件 B 最后一次出现后的所有行输出将是 ID colA 1 D 2 D 2 C 我试过 a df colA str contains B grou
从受密码保护的 Excel 文件到 pandas DataFrame

我可以使用以下命令打开受密码保护的 Excel 文件 import sys import win32com client xlApp win32com client Dispatch Excel Application print Exce
在嵌套 tibbles 上应用 ntile

我正在尝试申请ntile在一些嵌套的小标题上但我似乎无法让它工作你能看出我错在哪里吗 data iris iris gt group by Species gt mutate quintile ntile Petal Length 5
如何使用 AWS Glue 开始处理从 Web 服务终端节点提取的数据？

更多源数据来自我需要定期轮询的 Web 服务端点获得数据后我可以使用 pyspark 执行传统的 ETL 并最终将数据写入 S3 和 Redshift 我不确定如何进行初始提取甚至不确定我应该在 AWS Glue 文档中查找什么内容
使用 C# 编辑 XML 文档

我在解决如何将元素添加到 XML 文档中时遇到了一些麻烦我想将热点信息添加到 xml 中其中 Id 正确因此 id 2 添加热点信息这是我当前的 XML
如何将 Pyspark Dataframe 标题设置到另一行？

我有一个如下所示的数据框 col1 col2 col3 id name val 1 a01 X 2 a02 Y 我需要从中创建一个新的数据框使用 row 1 作为新的列标题并忽略或删除 col1 col2 等行新表应如下所示 id na
使用 stargazer 分析包含时间序列的数据帧

我有一个面板数据集共 10 个观测值和 3 个变量观测值 30 的数量 10 行国家地区 2 列迁移参数相应年份的 1 列可以这么说我的数据框由 3 个年度数据框组成我该如何申请观星者考虑到它是一个面板数据集所以最大 N
文本视图不显示全文

我正在使用 TableLayout 和 TableRow 创建一个简单的布局其中包含两个 TextView 这是代码的一部分
将 Access 数据库转换为 SQL Microsoft DTS - 数据类型“130”不在映射文件中

我正在尝试将大型 Access mdb 数据库导出到 SQL Server 数据库但遇到了 Microsoft DTS 无法识别 Access 数据库中特定类型字段的数据类型的问题我查看了相关的访问表它们被设置为长度为 1 的文本
以 UTF8 而不是 UTF16 输出 DataTable XML

我有一个 DataTable 我正在使用 WriteXML 创建一个 XML 文件尽管我在以 UTF 16 编码导出它时遇到问题并且似乎没有明显的方法来更改它我了解 NET 在字符串内部使用 UTF 16 这是正确的吗然后我通过

随机推荐

如何在嵌入式Linux中高效地在VFAT分区上创建大文件

我正在尝试在嵌入式 Linux 盒子中使用 dd 命令在 VFAT 分区上创建一个大的空文件 dd if dev zero of mnt flash file bs 1M count 1 seek 1023 目的是跳过前 1023 个块并在
Nginx no-www 到 www 以及 www 到 no-www

我在用按照教程在 Rackspace 云上安装 nginx http www howtoforge com running phpmyadmin on nginx lemp on debian squeeze ubuntu 11 04并在网
无法使用 Leiningen 构建 jar

我正在尝试使用 Intellij 的 Cursive 中的 Leiningen 插件从我的基本 Clojure 项目中制作一个独立的 jar 为了创建项目我刚刚创建了 project clj 文件将其打开 Cursive 提出将其导入为
Heroku SSL 与 Route53

我的 SSL 证书已全部设置完毕并准备好在 Heroku 上运行我按照这里的说明进行操作https devcenter heroku com articles route 53 https devcenter heroku com art
Python 子进程调用不能采用 grep [重复]

这个问题在这里已经有答案了 Python 子进程调用应该按原样作为命令运行但如果其中有管道它就会抱怨这是我的代码 usr bin python import sys import subprocess import time serv
如何在预构建步骤中转义美元符号

我正在与 Visual Studio 进行斗争以在预构建步骤中正确转义美元符号目标是提供一个变量名作为文字 VS 不应该尝试处理变量名 The 文档 https msdn microsoft com en us library bb38
Angular 子路由不起作用并将我重定向到同一页面

我尝试过改变我的route到目前为止我没有发现任何问题但是如果您发现任何缺陷请告诉我我也会尝试查找任何类型错误并仔细检查我的组件到目前为止我还没有找到但请再次告诉我我尝试输入我的路线 URL 它可以工作但显示的是相同的页面
使用 Jackson JsonFormat 模式自定义日期字符串

Summary 我正在尝试解析日期例如25 Sep 17因此简单日期格式 https docs oracle com javase 8 docs api java text SimpleDateFormat html注释似乎是 JsonF
将标头附加到 Rspec 控制器测试

我正在尝试为我的控制器编写测试该控制器接收来自外部服务的请求到目前为止这是我的测试 describe ApplyController do context when valid do let parameters do file Fi
在 Python 中使用 Selenium 进行导航并使用 BeautifulSoup 进行抓取

好的这就是我想要实现的目标调用带有动态过滤搜索结果列表的 URL 点击第一个搜索结果 5 页抓取标题段落和图像并将它们作为 json 对象存储在单独的文件中例如 Title 单个条目的标题元素 Content 各个条目的 DOM
自定义键盘中断处理程序

我正在尝试编写一个简单的程序将标准键盘中断替换为自定义的键盘中断以减少变量但是如果不调用旧处理程序它就无法工作这是我的中断处理程序 handler proc push ax push di dec EF pushf when t
res.send 和 res.render 调用

我试图确定是否可以同时调用 res send data 和 res render reports 为了进一步详细解释当我路由到 reports 时首先在服务器端对返回 json 数据的 API 进行 REST 调用现在我希望在客户端上
我有 12000 个已知 URL，用 Python 抓取它们的最快方法是什么？

因此我有一个从数据库中提取的 URL 列表我需要抓取并解析每个 URL 的 JSON 响应某些 URL 返回 null 而其他 URL 返回发送到 csv 文件的信息我目前正在使用Scrapy 但是抓取这12000个URL大约需要4
将 Double.NaN 与其自身进行比较

我一直试图找出为什么这两个操作返回不同的值 Double NaN Double NaN回报false Double NaN Equals Double NaN 回报true 我有answer https stackoverflow com
TypeScript 中的通用类型反射

我可以确定泛型类型吗T在以下场景中 class MyClass constructor GenericMethod
当项目数等于列数时，chrome 和 safari 渲染 css 列的方式不同

我有一个目录列表它使用 CSS 列但在 Chrome 和 Safari 中的行为有所不同目录的每个部分都有一个包装器将列表排列成两列我已经有了 CSS 所以 Chrome 会按照我想要的方式呈现它在 Safari 中第二列中的
使用 $in 和 $nin 进行查询不使用索引

当将属性与 in 和 nin 进行匹配时 Mongo 无法正确使用索引如果仅使用 in 则索引会利用这一点 db assets find tags in blah explain cursor BtreeCursor tags 1 isM
Jasper 报告迭代数组列表[重复]

这个问题在这里已经有答案了如何创建将在 Jasper 报告中作为参数传递的详细信息部分中的数组列表进行迭代的报告这可能吗我搜索并找到了必须添加 ArrayList 作为数据源的解决方案我怎么做 Regards 您可以将 ArrayL
从 MySQL 中的列表字符串中获取单个项目

给定以下代表可能列表的字符串我如何获取指定索引处的项目n 1 2 3 4 5 word1 word2 word3 pipe delimited list 此功能的可能原因是从 GROUP CONCAT 输出中提取特定元素从 SET 列
在 Spark 中读取 XML

我正在尝试使用spark xml jar 读取pyspark 中的xml 嵌套xml df sqlContext read format com databricks spark xml option rowTag hierachy loa

在 Spark 中读取 XML

在 Spark 中读取 XML 的相关文章

随机推荐

热门标签