在 Spark 中将流式 XML 转换为 JSON

2024-05-28

我是 Spark 新手，正在开发一个简单的应用程序，将从 Kafka 接收的 XML 流转换为 JSON 格式

Using:

火花2.4.5
斯卡拉 2.11.12

在我的用例中，kafka 流采用 xml 格式）。以下是我尝试过的代码。


    val spark: SparkSession = SparkSession.builder()
      .master("local")
      .appName("Spark Demo")
      .getOrCreate()

    spark.sparkContext.setLogLevel("ERROR")

    val inputStream = spark.readStream
      .format("kafka")
      .option("kafka.bootstrap.servers", "localhost:9092")
      .option("subscribe", "demo_topic_xml")
      .option("startingOffsets", "earliest") // From starting
      .load()

    inputStream.printSchema()


    val records = inputStream.selectExpr("CAST(value AS STRING)")
    //How to remove value column here while converting xml in to json?
    val jsons = records.toJSON

    jsons.writeStream
      .format("console")
      .option("truncate", false)
      .outputMode("append")
      .start()
      .awaitTermination()

然而，上面的代码在 json 输出中给出了“value”列标题作为字段名称，如下所示：{"value":"<?xml version=\"1.0\" encoding=\"utf-16\"?><employees><employee id=\"be129\"><firstname>Jane</firstname><lastname>Doe</lastname><title>Engineer</title><division>Materials</division><building>327</building><room>19</room><supervisor>be131</supervisor></employee><employees>"}

我真正需要的只是将 xml 有效负载转换为 json，而不需要“值”列部分。看起来我在这里遗漏了一些明显的东西。有人可以帮我吗？谢谢你的时间。

Use org.json.XML要转换的库XML数据到JSON.

检查下面的代码。

创造UDF

scala> import org.json.XML
import org.json.XML

scala> val parse = udf((value: String) => XML.toJSONObject(value).toString) // Defined UDF to parse xml to json
parse: org.apache.spark.sql.expressions.UserDefinedFunction = UserDefinedFunction(<function1>,StringType,Some(List(StringType)))

定义schema基于XML data.

scala> val schema_json = """{"type":"struct","fields":[{"name":"employees","type":{"type":"struct","fields":[{"name":"employee","type":{"type":"struct","fields":[{"name":"building","type":"long","nullable":true,"metadata":{}},{"name":"division","type":"string","nullable":true,"metadata":{}},{"name":"firstname","type":"string","nullable":true,"metadata":{}},{"name":"id","type":"string","nullable":true,"metadata":{}},{"name":"lastname","type":"string","nullable":true,"metadata":{}},{"name":"room","type":"long","nullable":true,"metadata":{}},{"name":"supervisor","type":"string","nullable":true,"metadata":{}},{"name":"title","type":"string","nullable":true,"metadata":{}}]},"nullable":true,"metadata":{}}]},"nullable":true,"metadata":{}}]}""" // Define Schema of your xml data in json.
schema_json: String = {"type":"struct","fields":[{"name":"employees","type":{"type":"struct","fields":[{"name":"employee","type":{"type":"struct","fields":[{"name":"building","type":"long","nullable":true,"metadata":{}},{"name":"division","type":"string","nullable":true,"metadata":{}},{"name":"firstname","type":"string","nullable":true,"metadata":{}},{"name":"id","type":"string","nullable":true,"metadata":{}},{"name":"lastname","type":"string","nullable":true,"metadata":{}},{"name":"room","type":"long","nullable":true,"metadata":{}},{"name":"supervisor","type":"string","nullable":true,"metadata":{}},{"name":"title","type":"string","nullable":true,"metadata":{}}]},"nullable":true,"metadata":{}}]},"nullable":true,"metadata":{}}]}

scala> val schema = DataType.fromJson(schema_json).asInstanceOf[StructType] // Convert Json schema data to schema.
schema: org.apache.spark.sql.types.StructType = StructType(StructField(employees,StructType(StructField(employee,StructType(StructField(building,LongType,true), StructField(division,StringType,true), StructField(firstname,StringType,true), StructField(id,StringType,true), StructField(lastname,StringType,true), StructField(room,LongType,true), StructField(supervisor,StringType,true), StructField(title,StringType,true)),true)),true))

Final Schema

scala>
    inputStream
    .selectExpr("CAST(value AS STRING)")
    .select(from_json(parse($"data"),schema).as("emp_data"))
    .select($"emp_data.employees.employee.*")
    .printSchema

root
 |-- building: long (nullable = true)
 |-- division: string (nullable = true)
 |-- firstname: string (nullable = true)
 |-- id: string (nullable = true)
 |-- lastname: string (nullable = true)
 |-- room: long (nullable = true)
 |-- supervisor: string (nullable = true)
 |-- title: string (nullable = true)

写作转换为JSON数据到console.

scala> 
    inputStream
    .selectExpr("CAST(value AS STRING)")
    .select(from_json(parse($"data"),schema).as("emp_data"))
    .select($"emp_data.employees.employee.*")
    .writeStream
    .format("console")
    .option("truncate", false)
    .outputMode("append")
    .start()
    .awaitTermination()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

SparkStreaming

在 Spark 中将流式 XML 转换为 JSON 的相关文章

在 Scala 中定义具有多个隐式参数的函数

如何定义具有多个隐式参数的函数 def myfun arg String implicit p1 String implicit p2 Int doesn t work 它们必须全部放入一个参数列表中并且该列表必须是最后一个 def my
抽象类型与类型参数

在什么情况下抽象类型应该优先于类型参数添加到我的之前关于抽象类型与参数的回答 https stackoverflow com questions 1154571 scala abstract types vs generics 11547
Scala Spark：将数据框中的双列转换为日期时间列

我正在尝试编写代码来将日期时间列 date 和 last updated date 转换为 mm dd yyyy 格式以进行显示它们实际上是 unix 时间转换为双精度数我该怎么做呢 import org joda time impor
Spark sql 每组前 n 个

我怎样才能获得每组的前n名比如说前10名或前3名 spark sql http www xaprb com blog 2006 12 07 how to select the firstleastmax row per group in
超时对“Future”进行排序

我利用了TimeoutScheduler介绍于Scala Futures 内置超时 https stackoverflow com questions 16304471 scala futures built in timeout 但是现
mssql 的 UUID 疯狂

我的数据库条目有一个 UUID 及其值使用 Microsoft SQL Server Management Studio 提取 CDF86F27 AFF4 2E47 BABB 2F46B079E98B 将其加载到我的 Scala 应用程序
Spark中DataFrame、Dataset、RDD的区别

我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花你能将其中一种转换为另一种吗首先是DataFrame是从SchemaRDD 是的
使用 Scala 的解析器组合器时如何忽略不匹配的前面文本？

我真的很喜欢解析器组合器但是当我不关心相关文本之前的文本时我对我提出的提取数据的解决方案并不满意考虑这个小型解析器来获取货币金额 import scala util parsing combinator case class Amou
如何列出Resources文件夹中的所有文件（java/scala）

我正在编写一个函数需要访问资源中的文件夹并循环遍历所有文件名如果这些文件符合条件则加载这些文件 new File getClass getResource images sprites getPath listFiles 返回空指针
选择排序通用类型实现

我以自己的方式实现了选择和快速排序的递归版本我试图以一种可以对任何泛型类型的列表进行排序的方式修改代码我想假设提供的泛型类型可以转换为 Comparable at运行有人有关于如何执行此操作的链接代码或教程吗我正在尝试修改这个特定
Spark 有效地过滤大数据框中存在于小数据框中的条目

我有一个 Spark 程序它读取一个相对较大的数据帧 3 2 TB 其中包含 2 列 id name 和另一个相对较小的数据帧 20k 条目其中包含单个列 id 我想做的是从大数据框中获取 id 和名称如果它们出现在小数据框中我想知
如何使用 monocle 修改嵌套映射和 scala 中的另一个字段

我第一次尝试单片眼镜这是案例类 case class State mem Map String Int pointer Int 当前的修改使用标准 scala 我想做 def add1 s State gt s copy mem s m
scala案例类复制实现

我找不到 scala 中案例类的复制是如何实现的我可以以某种方式检查一下吗我虽然 Intellij 可以指出我的实现但它不想跳转我不知道为什么您可以使用以下命令检查 scala 案例类输出scalac print ClassNam
为什么流式聚合总是延迟到两批数据？

我使用 Spark 2 3 0 我的问题是每当我在输入目录中添加第三批数据时第一批数据就会被处理并打印到控制台为什么 val spark SparkSession builder appName micro1 enableHiveSu
我的sparkDF.persist(DISK_ONLY)数据存储在哪里？

我想更多地了解spark中hadoop的持久化策略当我使用 DISK ONLY 策略保存数据帧时我的数据存储在哪里路径文件夹我在哪里指定这个位置对于简短的答案我们可以看看文档 https spark apache org do
在 Scala 中实现“.clone”

我正在想办法 clone我自己的对象在 Scala 中这是为了模拟因此可变状态是必须的由此产生了克隆的全部需要在提前模拟时间之前我将克隆整个状态结构这是我目前的尝试 abstract trait Cloneable A See
结构化流式自定义重复数据删除

我有一个从 kafka 进入 dataFrame 的流数据我想根据 Id 删除重复项并根据时间戳保留最新记录样本数据是这样的 Id Name count timestamp 1 Vikas 20 2018 09 19T10 10 10
enableHiveSupport 在 java Spark 代码中引发错误[重复]

这个问题在这里已经有答案了我有一个非常简单的应用程序尝试使用 Spark 从 src main resources 读取 orc 文件我不断收到此错误无法实例化具有 Hive 支持的 SparkSession 因为找不到 Hive
Shapeless 中 TypeClass 特征的 emptyCoproduct 和 coproduct 方法的用途是什么

我并不完全清楚这样做的目的是什么emptyCoProduct and coproduct的方法TypeClass无形中的特质什么时候会使用TypeClass特质而不是ProductTypeClass 这两种方法的实施方式有哪些示例假设我
在 Scala Spark 和 PySpark 之间传递 SparkSession

我的要求是从现有的 PySpark 程序调用 Spark Scala 函数将 PySpark 程序中创建的 SparkSession 传递给 Scala 函数的最佳方法是什么我将 scala jar 传递给 Pyspark 如下所示 s

随机推荐

设置数据类型为 Decimal 的 pandas 数据框列的小数精度

我有一个包含两列的 pandas 数据框第 1 列包含文本第 2 列包含十进制值 Key Value A 1 2089 B 5 6718 B 7 3084 我使用 apply 函数将值列的数据类型设置为 Decimal Python D
画布未在顶部渲染

我使用画布和 Unity UI 元素作为 HUD 我希望 HUD 能够领先于一切但事实并非如此以前没有使用过 Cardboard 但我相信你可以通过相机剔除来解决这个问题只需按照以下步骤操作 Canvas 1 选择Canvas并将图层
将 ActiveAdmin 用户与现有用户模型合并

我在项目早期就设置了 ActiveAdmin 并使用了默认值admin users认证模型从那以后我使用 Devise 建立了一个单独的用户模型并意识到合并两个表可能会更明智这样管理员就可以在 Activeadmin 和站点前端中进
如何将文本环绕在非矩形图像周围？

是否可以将文本环绕在非矩形图像周围我希望不同国家的地图周围的文本环绕该国家地区的形状即使边界本身不是直的文本也始终与该国家地区的边界保持相同的距离这可能吗您可以使用这个方法 http torylawson com index
如何使用 AudioKit 音序器设置不在曲目末尾的循环？

有没有办法在 AKSequencer 中设置具有任意开始和结束时间戳的循环正如我所看到的方法 setLoopInfo 只允许您设置循环的末端恰好位于轨道的末尾但我想在曲目中间设置一个循环我知道 AudioKit Sequencer
将数据从 C++ 传递到 gnuplot 示例（使用 Gnuplot-iostream 接口）

我刚刚遇到 Dan Stahlke gnuplot C I O 接口它使我免于自己动手不幸的是没有太多的例子并且 ios 没有真正的文档我的 C 项目中有以下数据类型 struct Data std string datestr
如何正确使用 z-index？

请在此处查看此页面 http www blakearchive org blake public exhibits canterburySpecial html http www blakearchive org blake public
如何使用 Jsoup 解析此 HTML

我正在尝试提取了解你的拖拉机和壳牌石油公司 1955 请记住这只是整个代码的一小段并且有多个 H2 H3 标签我想获取所有 H2 和 H3 标签的数据 HTML 如下 https i stack imgur com Pif3B
野牛语义类型检查分析

我一直试图到处寻找例子但徒劳无功我正在尝试编写一个基本的 Ruby 解释器为此我编写了一个 Flex 词汇文件其中包含标记识别句子和一个语法文件我希望我的语法包含语义类型检查我的语法文件包含例如 arg arg arg 这应
将 JavaScript 正则表达式转换为 C#

如何将以下 Regex 语句转换为 C Match match Regex Match line Trim A Za z s A Za z RegexOptions IgnoreCase if match Success do someth
在功能分支上运行测试

我有一个构建配置其中包含连接到 git 分支的测试 VCS 根dev 3 个构建步骤和 1 个触发器这些是我的构建步骤构建测试运行测试构建和部署我想为分支运行所有这些构建步骤dev但只有其中两个构建和运行测试用于分支匹配fe
是否可以在没有迭代器变量的情况下创建“for”循环？（如何让代码循环一定次数？）

是否可以在没有以下情况的情况下执行以下操作i for i in range some number do something 如果你只想做某件事N次并且不需要迭代器从我的头顶上看不我认为你能做的最好的事情就是这样 def loop f
asciinema 丢失文件：ImportError：没有名为“termios”的模块

跑步时asciinema rec asciinema exe都从里面C Python34 Scripts这是唯一的地方pip命令在 git bash 中工作 asciinema exe Traceback most recent call
NHibernate Hi/Lo - id 中的间隙

场景 Hi Lo 初始化为MyEntity与 Lo 100 桌子是空的具有不同连接的两个会话都插入了三个项目 TableIds 1 2 3 100 101 102 如果稍后有第三个进来并插入三项 TableIds 200 201 202
将 async-for 与 if 条件结合起来以中断中间等待的正确方法是什么？

如果我有一个协程正在消耗异步生成器中的项目那么从外部条件终止该循环的最佳方法是什么考虑到这一点 while not self shutdown event is set async with self external lib cl
为什么 boost::geometry::intersection 不能正确工作？

我为 Boost Geometry 交集函数编写了下一个测试函数 typedef boost geometry model polygon
如何在 Firebase 上随机获取相同的数据？

我有用户表和这段代码 getOnline 代码和连接按钮 var onlineStatus firebase database ref users firebase auth currentUser uid online onlineSta
WebAPI 和 Angular JS Excel 文件下载 - 文件损坏

我正在 WebAPI 中生成 Excel 文件我将其存储在内存流中然后放入响应如下所示 var result new HttpResponseMessage HttpStatusCode OK Content new Stream
使用仪器分配时 iOS 应用程序冻结

当我想使用 Instruments Allocation 来分析应用程序的内存使用情况时它在启动后立即冻结它总是停留在启动屏幕这是一个 Xamarin forms 应用程序这是屏幕截图其他信息如果我创建一个新项目然后使用 In
在 Spark 中将流式 XML 转换为 JSON

我是 Spark 新手正在开发一个简单的应用程序将从 Kafka 接收的 XML 流转换为 JSON 格式 Using 火花2 4 5 斯卡拉 2 11 12 在我的用例中 kafka 流采用 xml 格式以下是我尝试过的代码 val

在 Spark 中将流式 XML 转换为 JSON

在 Spark 中将流式 XML 转换为 JSON 的相关文章

随机推荐

热门标签