从 Scala 中的 StructType 中提取行标记架构以解析嵌套 XML

2024-03-14

我正在尝试使用spark-xml 库将宽嵌套的XML 文件解析为DataFrame。

以下是缩写的架构定义 (XSD)：

<?xml version="1.0" encoding="UTF-8"?>
<xs:schema attributeFormDefault="unqualified" elementFormDefault="qualified" xmlns:xs="http://www.w3.org/2001/XMLSchema">
<xs:element name="ItemExport">
    <xs:complexType>
    <xs:sequence> 
        <xs:element name="Item">
            <xs:complexType>
            <xs:sequence>
                <xs:element name="ITEM_ID" type="xs:integer" />
                <xs:element name="CONTEXT" type="xs:string" />
                <xs:element name="TYPE" type="xs:string" />
                ...
                <xs:element name="CLASSIFICATIONS">
                    <xs:complexType>
                        <xs:sequence>
                        <xs:element maxOccurs="unbounded" name="CLASSIFICATION">
                            <xs:complexType>
                            <xs:sequence>
                                <xs:element name="CLASS_SCHEME" type="xs:string" />
                                <xs:element name="CLASS_LEVEL" type="xs:string" />
                                <xs:element name="CLASS_CODE" type="xs:string" />
                                <xs:element name="CLASS_CODE_NAME" type="xs:string" />
                                <xs:element name="EFFECTIVE_FROM" type="xs:dateTime" />
                                <xs:element name="EFFECTIVE_TO" type="xs:dateTime" />
                            </xs:sequence>
                            </xs:complexType>
                        </xs:element>
                        </xs:sequence>
                    </xs:complexType>
                </xs:element>
            </xs:sequence>
            </xs:complexType>
        </xs:element>
    </xs:sequence>
    </xs:complexType>
</xs:element>
</xs:schema>

包含数据的 XML 文件看起来像这样：

<?xml version="1.0" encoding="utf-8"?>
<ItemExport>
    <TIMEZONE>PT</TIMEZONE>
    <Item>
        <ITEM_ID>56</ITEM_ID>
        <CONTEXT>Sample</CONTEXT>
        <TYPE>Product</TYPE>
    </Item>
    ...
    <Item>
        <ITEM_ID>763</ITEM_ID>
        <CONTEXT>Sample</CONTEXT>
        <TYPE>Product</TYPE>
        <CLASSIFICATIONS>
            <CLASSIFICATION>
                <CLASS_SCHEME>AAU</CLASS_SCHEME>
                <CLASS_LEVEL>1</CLASS_LEVEL>
                <CLASS_CODE>14</CLASS_CODE>
                <CLASS_CODE_NAME>BizDev</CLASS_CODE_NAME>
                <EFFECTIVE_FROM />
                <EFFECTIVE_TO />
            </CLASSIFICATION>
        </CLASSIFICATIONS>
    </Item>
<ItemExport>

现在，可以明确的是，RowTag需要是Item，但我遇到了有关 XSD 的问题。行模式封装在文档模式中。

import com.databricks.spark.xml.util.XSDToSchema
import com.databricks.spark.xml._
import java.nio.file.Paths
import org.apache.spark.sql.functions._

val inputFile = "dbfs:/samples/ItemExport.xml"
val schema = XSDToSchema.read(Paths.get("/dbfs/samples/ItemExport.xsd"))
val df1 = spark.read.option("rowTag", "Item").xml(inputFile)
val df2 = spark.read.schema(schema).xml(inputFile)

我基本上想要得到struct在根元素下的 Item 下，而不是整个文档架构。

schema.printTreeString

root
|-- ItemExport: struct (nullable = false)
|    |-- Item: struct (nullable = false)
|    |    |-- ITEM_ID: integer (nullable = false)
|    |    |-- CONTEXT: string (nullable = false)
|    |    |-- TYPE: string (nullable = false)
...(a few more fields...)
|    |    |-- CLASSIFICATIONS: struct (nullable = false)
|    |    |    |-- CLASSIFICATION: array (nullable = false)
|    |    |    |    |-- element: struct (containsNull = true)
|    |    |    |    |    |-- CLASS_SCHEME: string (nullable = false)
|    |    |    |    |    |-- CLASS_LEVEL: string (nullable = false)
|    |    |    |    |    |-- CLASS_CODE: string (nullable = false)
|    |    |    |    |    |-- CLASS_CODE_NAME: string (nullable = false)
|    |    |    |    |    |-- EFFECTIVE_FROM: timestamp (nullable = false)
|    |    |    |    |    |-- EFFECTIVE_TO: timestamp (nullable = false)

在上面的例子中，使用文档模式解析会产生一个空的 DataFrame：

df2.show()

+-----------+
| ItemExport|
+-----------+
+-----------+

虽然推断的模式基本上是正确的，但它只能在存在嵌套列时推断它们（情况并非总是如此）：

df1.show()

+----------+--------------------+----------+---------------+
|   ITEM_ID|             CONTEXT|      TYPE|CLASSIFICATIONS|
+----------+--------------------+----------+---------------+
|        56|            Sample  |   Product|         {null}|
|        57|            Sample  |   Product|         {null}|
|        59|              Part  | Component|         {null}|
|        60|              Part  | Component|         {null}|
|        61|            Sample  |   Product|         {null}|
|        62|            Sample  |   Product|         {null}|
|        63|          Assembly  |   Product|         {null}|

df1.printSchema

root
|-- ITEM_ID: long (nullable = true)
|-- CONTEXT: string (nullable = false)
|-- TYPE: string (nullable = true)
...
|-- CLASSIFICATIONS: struct (nullable = true)
|    |-- CLASSIFICATION: array (nullable = true)
|    |    |-- element: struct (containsNull = true)
|    |    |    |-- CLASS_CODE: long (nullable = true)
|    |    |    |-- CLASS_CODE_NAME: string (nullable = true)
|    |    |    |-- CLASS_LEVEL: long (nullable = true)
|    |    |    |-- CLASS_SCHEME: string (nullable = true)
|    |    |    |-- EFFECTIVE_FROM: string (nullable = true)
|    |    |    |-- EFFECTIVE_TO: string (nullable = true)

如上所述here https://stackoverflow.com/questions/67531343/spark-xml-receiving-only-null-when-parsing-xml-column-using-from-xml-function并在XML 库文档 https://github.com/databricks/spark-xml#features（“用于单独验证每行 XML 的 XSD 文件的路径”），我可以解析为给定的行级架构，如下所示：

import org.apache.spark.sql.types._

val structschema = StructType(
  Array(
    StructField("ITEM_ID",IntegerType,false), 
    StructField("CONTEXT",StringType,false), 
    StructField("TYPE",StringType,false),
  )
)

val df_struct = spark.read.schema(structschema).option("rowTag", "Item").xml(inputFile)

不过，我想从 XSD 获取嵌套列的架构。鉴于以下情况，如何解决这个问题schema?

版本信息：Scala2.12, Spark 3.1.1, Spark-XML0.12.0

XSD 中的列是必需的或不为空，并且 XML 文件中的某些列为空以匹配 XSD 和 XML 文件内容，更改架构nullable=false to nullable=true

尝试以下代码。

  import com.databricks.spark.xml.util.XSDToSchema
  import com.databricks.spark.xml._
  import java.nio.file.Paths
  import org.apache.spark.sql.functions._

  val inputFile = "dbfs:/samples/ItemExport.xml"

从 XSD 获取架构，将相同的架构应用于空数据框以获取所需的列。

 val schema = spark
    .createDataFrame(
      spark
        .sparkContext
        .emptyRDD[Row],
      XSDToSchema
        .read(Paths.get("/dbfs/samples/ItemExport.xsd"))
    )
    .select("ItemExport.Item.*")
    .schema


  val df2 = spark.read
    .option("rootTag", "ItemExport")
    .option("rowTag", "Item")
    .schema(setNullable(schema, true)) // To match XSD & XML file content setting all columns are optional i.e nullable=true
    .xml(inputFile)

下面的函数将更改所有列optional or nullable=true

  def setNullable(schema: StructType, nullable:Boolean = false): StructType = {
    def recurNullable(schema: StructType): Seq[StructField] =
      schema.fields.map{
        case StructField(name, dtype: StructType, _, meta) =>
          StructField(name, StructType(recurNullable(dtype)), nullable, meta)
        case StructField(name, dtype: ArrayType, _, meta) => dtype.elementType match {
          case struct: StructType => StructField(name, ArrayType(StructType(recurNullable(struct)), true), nullable, meta)
          case other => StructField(name, other, nullable, meta)
        }
        case StructField(name, dtype, _, meta) =>
          StructField(name, dtype, nullable, meta)
      }

    StructType(recurNullable(schema))
  }

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

xml

scala

apachespark

xsd

Databricks

从 Scala 中的 StructType 中提取行标记架构以解析嵌套 XML 的相关文章

在 Akka 中配置嵌套 Router

我有一些嵌套的路由器应创建它FromConfig 我想要的是这样的 test akka actor deployment worker router round robin nr of instances 5 slave router b
如何获取带有标头的 XML (

考虑下面的简单代码它创建一个 XML 文档并显示它 XmlDocument xml new XmlDocument XmlElement root xml CreateElement root xml AppendChild root X

如何使用 WSDL 和 XSD 的注释生成 .NET 类

有一些 XSD 和 WSDL 我想从它们生成 C 代码我使用了 svcutil exe 但它不会从 XSD 注释生成 XML 注释
如何附加到 xml

我有这个xml
如何在 Apache Spark 中通过 DStream 使用特征提取

我有通过 DStream 从 Kafka 到达的数据我想进行特征提取以获得一些关键词我不想等待所有数据的到达因为它是可能永远不会结束的连续流所以我希望以块的形式执行提取如果准确性会受到一点影响对我来说并不重要到目前为止我整理
多个 scala 库导致 intellij 出错？

我正在使用 intellij 14 和 scala 2 11 6 使用 homebrew 安装并使用符号链接 ln s usr local Cellar scala 2 11 6 libexec src usr local Cellar s
如何使用 SAX Java 解析器读取注释文本

我只想使用 Java 中的 SAX 解析器读取 XML 文件中对象标记的注释这是我的文件的摘要
带属性的 XML 模式限制

在XML Schema中如何创建元素Age具有restriction允许在元素内部写入最大值为 10 最小值为 1 的整数Age还有元素Age有属性
Android 键盘清单未显示在设置中

我正在制作我的第一个 Android 应用程序我需要它作为键盘服务据我所知清单看起来不错并且我有一个文件 WifiJoy java 在 com zwad3 wifijoy 包中以及所有其他文件
使用 JAXB 编组只能包含多种子节点类型之一的 XML 节点（SharePoint 查询）

我正在尝试创建 JAXB 带注释的类来生成基于 Microsoft SharePoint 的 XML查询模式 http msdn microsoft com en us library ms467521 28v office 14 29 a
C# MonoGame 有帮助吗？ (Content.Load("入侵者");)

我正在 MonoGame 中使用 Open GL 制作太空入侵者游戏并且尝试加载已添加到内容文件夹中的纹理这是一个名为 Invader 的 PNG 文件我使用的代码是 invader Content Load
ElementTree 和 Element 有什么区别？（Python XML）

from xml etree ElementTree import ElementTree Element SubElement dump elem Element 1 sub SubElement elem 2 tree ElementT
允许 .NET WebApi 忽略 DOCTYPE 声明

我正在尝试通过 WebApi 方法将 XML 反序列化为对象我有以下课程 XmlRoot IsNullable false public class MyObject XmlElement Name public string Name
加载 highchart 时 Android 错误膨胀类

我正在尝试加载highcharts via Dialog 下面是我的代码 Gradle implementation com highsoft highcharts highcharts 9 0 1 XML
如何使用 Spark 2 屏蔽列？

我有一些表我需要屏蔽其中的一些列要屏蔽的列因表而异我正在读取这些列application conf file 例如对于员工表如下所示 id name age address 1 abcd 21 India 2 qazx 42 Ger
如何获取 cElementTree 中某个元素的所有文本子元素？

我正在使用cElementTreePython 中的模块用于获取某个文本的子级XML树使用text财产但它似乎只适用于直接文本子项见下文 python gt gt gt import xml etree cElementTree as
Scala：什么是 CompactBuffer？

我试图弄清楚 CompactBuffer 的含义和迭代器一样吗请解释其中的差异根据 Spark 的文档它是 ArrayBuffer 的替代方案可以提供更好的性能因为它分配的内存更少以下是 CompactBuffer 类文档的摘
使用 Scala 获取 Spark 数据集中最新时间戳对应的行

我对 Spark 和 Scala 比较陌生我有一个具有以下格式的数据框 Col1 Col2 Col3 Col 4 Col 5 Col TS Col 7 1234 AAAA 1111 afsdf ewqre 1970 01 01 00 00
Slick和bonecp：org.postgresql.util.PSQLException：FATAL：抱歉，太多客户端已经错误

当我在本地开发应用程序时我使用以下命令启动我的 play2 应用程序sbt run 我喜欢如何更改代码然后重新加载浏览器以查看我的更改在大约 10 次代码更改之后我收到 postgresql 太多连接错误见下文我的数据库连接使用
以 UTF8 而不是 UTF16 输出 DataTable XML

我有一个 DataTable 我正在使用 WriteXML 创建一个 XML 文件尽管我在以 UTF 16 编码导出它时遇到问题并且似乎没有明显的方法来更改它我了解 NET 在字符串内部使用 UTF 16 这是正确的吗然后我通过

随机推荐

docker-compose restart 连接池已满

我和我的团队正在使用 docker compose 将我们的一些基础设施转换为 docker 一切似乎都工作得很好我遇到的唯一问题是重新启动它给我一个连接池已满错误我正在尝试找出造成这种情况的原因如果我删除 2 个容器或 1 个完整设
如何强制 Ruby 尊重 Net::HTTP 标头中的下划线

我如何强制 Ruby 尊重 a 中的下划线Net HTTP header uri URI parse url headers api key my private key request Net HTTP Post new uri head
删除node.js中的几个文件

删除node js中的多个文件的最佳方法是什么 function deleteFiles files callback var files file1 js file2 jpg file3 css deleteFiles files cal
如何在 M1 mac 上安装自制软件

我刚买了一台新 Mac M1 Macbook pro 我正在尝试安装自制程序但每次我完成安装时它都会告诉我它没有写入路径然后当我尝试建议的任何内容添加到路径什么也没有发生终端或其他任何东西根本无法识别该命令就好像它没有安装一样
在 VBE 中无法查看 Excel 工作表

我正在使用其他人创建的 Excel 文件一张包含宏的工作表似乎受密码保护但我不明白的是我无法在工作表列表下的 VBE 中看到它工作表选项卡在 Excel 中可见但我看不到内容有没有办法在VBE中取消隐藏它一张包含宏的工作表这是
Rails：Watir 中的代理身份验证（Chrome 驱动程序）

我尝试添加代理身份验证chrome在 watir 上运行的 webdriver 如下所示 require watir proxies proxy server 185 264 167 184 63109 proxy auth usernam
难以从 iPhone X 上的 2D 区域获取面部标志点的深度（SceneKit/ARKit 应用程序）

我正在使用 iPhone X 上的前置摄像头运行面部标志检测并且正在努力获取面部标志的 3D 点 VNFaceLandmarkRegion2D 仅提供图像坐标 X Y 我一直在尝试使用ARSCNView hitTest or ARFram
jQuery 如何返回一个数组并且仍然是一个 jQuery 对象？

我试图重现 jQuery 1 7 1 的对象结构以更好地理解它是如何工作的我有以下代码 function window undefined var document window document navigator window na
PDF 到 Excel 转换将每个 pdf 页面放在不同的工作表中

我正在尝试将 pdf 文件有 16 页转换为 Excel 文件以便运行我在 Excel 中已有的程序我已经有一个将 pdf 转换为 excel 的代码但我希望宏将 pdf 文件的每个单独页面放入我的 excel 文件中的不同工作表
伪造 WPF 操作事件

我想使用鼠标键盘伪造操纵或触摸事件当我尝试使用以下方式引发事件时 RoutedEventArgs e new RoutedEventArgs ManipulationStartedEvent this RaiseEvent e 给我
CodeLearn Twitter 教程 TweetAdapter.java 上出现空指针错误

我目前正在学习 Codelearn Twitter 教程但我在下面的代码中收到一个空指针有人可以帮助我吗 public class TweetAdapter extends ArrayAdapter
等待异步 JavaScript 函数返回

我正在使用第三方库提供的函数该函数接受一个回调函数作为参数但我想等待该回调被调用后再继续有没有标准可接受的方法来做到这一点我不确定这是否适合您但您可以通过将代码分成 2 个函数来实现所需的结果假设这是您打算做的基本上这是你原
如何在具有传递性的MySQL连接（同表）中选择不同的对？

我面临着一个设计非常糟糕的数据库其中有一个非规范化的表 X 该表 X 应该与另一个表 Y 具有 N M 关系问题在于这种关系目前是 1 N 而到目前为止偷工减料的解决方案是在有多个注册表需要关联时复制条目简化一下我有这个 ID
这些代码中哪一段在 Java 中速度更快？

a for int i 100000 i gt 0 i b for int i 1 i lt 100001 i 答案就在那里这个网站 http www mydeveloperconnection com html JavaTrap htm
关于 NaCL 加密库的问题

我正在寻找实现加密系统的库并对使用 NaCl 网络和密码学库特别感兴趣盒子功能 http nacl cr yp to box html 显然它使用对称加密 XSalsa20 用于公私加密的 Curve25519 和用于身份验证的 Pol
我们如何在 Google Glass 上启用调试模式以在 Google Glass 上测试 Android 应用程序？

我正在开发谷歌眼镜的应用程序但我不知道如何在谷歌眼镜中启用调试模式以及如何更改谷歌眼镜上的设置 To connect ADB to Google Glass you have to turn on debug mode on the de
> *:first-child 和 > :first-child 之间有功能差异吗？

编写一段代码时我注意到在一个地方我写了 gt first child以及后来 gt first child 这两个块看起来都很实用但是两者之间有区别吗即使我们考虑性能它们也是相同的从规格 https drafts csswg or
绘图和 fill_ Between 的组合图例条目

这类似于Matlab 结合阴影误差和实线平均值的图例 https stackoverflow com questions 17617190 matlab combine the legends of shaded error and sol
运行 django 教程测试失败 - 没有名为 polls.tests 的模块

我正在使用 django 1 6 教程但无法运行测试我的项目名称 mydjango 和应用程序结构名称是 polls 在 virtualenv 中如下所示 nja 文件是由我正在使用的 ninja ide 创建的 init py m
从 Scala 中的 StructType 中提取行标记架构以解析嵌套 XML

我正在尝试使用spark xml 库将宽嵌套的XML 文件解析为DataFrame 以下是缩写的架构定义 XSD

从 Scala 中的 StructType 中提取行标记架构以解析嵌套 XML

从 Scala 中的 StructType 中提取行标记架构以解析嵌套 XML 的相关文章

随机推荐

热门标签