apachesparkxml

如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下

apachespark PySpark apachesparkxml

我正在尝试使用spark xml jar 读取pyspark 中的xml 嵌套xml df sqlContext read format com databricks spark xml option rowTag hierachy loa

xml apachespark DataFrame PySpark apachesparkxml

我想使用 Spark 将大型 51GB XML 文件在外部 HDD 上读取到数据帧中使用Spark XML 插件 https github com databricks spark xml 进行简单的映射过滤重新排序然后将其作为

xml scala apachespark apachespark20 apachesparkxml