将 Spark 结构化流与 Confluence 架构注册表集成

2024-01-10

我在 Spark 结构化流中使用 Kafka Source 来接收 Confluence 编码的 Avro 记录。我打算使用Confluence SchemaRegistry，但与spark结构化流的集成似乎是不可能的。

我已经看到这个问题，但无法让它与融合模式注册表一起工作。使用 Spark 2.0.2 从 Kafka 读取 Avro 消息（结构化流） https://stackoverflow.com/questions/40705926/reading-avro-messages-from-kafka-with-spark-2-0-2-structured-streaming

我花了几个月的时间阅读源代码并进行测试。简而言之，Spark只能处理String和Binary序列化。您必须手动反序列化数据。在 Spark 中，创建 Confluence Rest 服务对象以获取架构。使用 Avro 解析器将响应对象中的架构字符串转换为 Avro 架构。接下来，像平常一样阅读 Kafka 主题。然后使用 Confluence KafkaAvroDeSerializer 映射二进制类型的“值”列。我强烈建议您了解这些类的源代码，因为这里发生了很多事情，因此为了简洁起见，我将省略许多细节。

//Used Confluent version 3.2.2 to write this. 
import io.confluent.kafka.schemaregistry.client.rest.RestService
import io.confluent.kafka.serializers.KafkaAvroDeserializer
import org.apache.avro.Schema

case class DeserializedFromKafkaRecord(key: String, value: String)

val schemaRegistryURL = "http://127.0.0.1:8081"

val topicName = "Schema-Registry-Example-topic1"
val subjectValueName = topicName + "-value"

//create RestService object
val restService = new RestService(schemaRegistryURL)

//.getLatestVersion returns io.confluent.kafka.schemaregistry.client.rest.entities.Schema object.
val valueRestResponseSchema = restService.getLatestVersion(subjectValueName)

//Use Avro parsing classes to get Avro Schema
val parser = new Schema.Parser
val topicValueAvroSchema: Schema = parser.parse(valueRestResponseSchema.getSchema)

//key schema is typically just string but you can do the same process for the key as the value
val keySchemaString = "\"string\""
val keySchema = parser.parse(keySchemaString)

//Create a map with the Schema registry url.
//This is the only Required configuration for Confluent's KafkaAvroDeserializer.
val props = Map("schema.registry.url" -> schemaRegistryURL)

//Declare SerDe vars before using Spark structured streaming map. Avoids non serializable class exception.
var keyDeserializer: KafkaAvroDeserializer = null
var valueDeserializer: KafkaAvroDeserializer = null

//Create structured streaming DF to read from the topic.
val rawTopicMessageDF = sql.readStream
  .format("kafka")
  .option("kafka.bootstrap.servers", "127.0.0.1:9092")
  .option("subscribe", topicName)
  .option("startingOffsets", "earliest")
  .option("maxOffsetsPerTrigger", 20)  //remove for prod
  .load()

//instantiate the SerDe classes if not already, then deserialize!
val deserializedTopicMessageDS = rawTopicMessageDF.map{
  row =>
    if (keyDeserializer == null) {
      keyDeserializer = new KafkaAvroDeserializer
      keyDeserializer.configure(props.asJava, true)  //isKey = true
    }
    if (valueDeserializer == null) {
      valueDeserializer = new KafkaAvroDeserializer
      valueDeserializer.configure(props.asJava, false) //isKey = false
    }

    //Pass the Avro schema.
    val deserializedKeyString = keyDeserializer.deserialize(topicName, row.key, keySchema).toString //topic name is actually unused in the source code, just required by the signature. Weird right?
    val deserializedValueString = valueDeserializer.deserialize(topicName, row.value, topicValueAvroSchema).toString

    DeserializedFromKafkaRecord(deserializedKeyString, deserializedValueString)
}

val deserializedDSOutputStream = deserializedTopicMessageDS.writeStream
    .outputMode("append")
    .format("console")
    .option("truncate", false)
    .start()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

将 Spark 结构化流与 Confluence 架构注册表集成的相关文章

决策树和规则引擎 (Drools)

In the application that I m working on right now I need to periodically check eligibility of tens of thousands of object
WCF 服务主机配置 - 请尝试将 HTTP 端口更改为 8732

我的 PC 上运行着一个复杂的基于 WCF 服务的解决方案但由于安装 Windows 8 1 时出现问题我不得不刷新我的 PC 现在我已经重新安装了 Visual Studio 2012 我的项目不再正常运行当我调试单元测试时 w
Java中单例的其他方式[重复]

这个问题在这里已经有答案了只是我在考虑编写单例类的其他方法那么这个类是否被认为是单例类呢 public class MyClass static Myclass myclass static myclass new MyClass pr
Spark scala 模拟 Spark.implicits 用于单元测试

当尝试使用 Spark 和 Scala 简化单元测试时我使用 scala test 和mockito scala 以及mockito Sugar 这只是让你做这样的事情 val sparkSessionMock mock SparkSes
Chrome 调试器注入 javascript

我有这样的好奇心是否可以以某种方式在我的页面中注入 javascript 并执行它并调试它正如您在控制台中所做的那样但在控制台中您无法暂停并观察变量是否可以调试我通过控制台输入的代码为什么无法调试通过 XHR 接收的代码 Than
如何在连接到 Heroku PostgreSQL 的 Flask 应用程序上处理更多并发用户？

Heroku 上的 Flask API 有许多端点它们在将 json 化结果返回给客户端之前在我的 Heroku PostgreSQL 数据库上运行查询我当前的计划是 Hobby Basic 层因此数据库最多只能处理 20 个连接如
Jquery 以编程方式更改
文本

编辑解决方案是将其添加到个人资料页面而不是性别页面 profile live pageinit function event p pTest text localStorage getItem gender 我在列表视图中有一个带有一些文
如何为命令 stdout 添加 [stdout] 和 [stderr] 前缀？

使用命令结构 https doc rust lang org std process struct Command html 如何向 stdout 和 stderr 缓冲区添加前缀我希望输出看起来像这样 stdout things are
将客户端库添加到 Razor 类库

我正在学习 Blazor 我注意到创建 Razor 类库是一个很好的做法您将在其中定义大部分组件这样您就可以在客户端或服务器中使用它们而不会出现太多问题在不同的框架中我习惯于以 SASS 形式包含库作为引导程序这样我就可以在我的
区分 NaN 输入和输入类型为“number”的空输入

我想使用 type number 的表单输入并且只允许输入数字
$ 在 JQuery 中意味着什么

在下面的 var obj one 1 two 2 three 3 four 4 five 5 each obj function i val console log val 这里是什么意思是对象吗是一个别名jQuery对象函数它充当
如何通过点击复制 folium 地图上的标记位置？

I am able to print the location of a given marker on the map using folium plugins MousePosition class GeoMap def update
使用溢出支持定位粘性填充材料[重复]

这个问题在这里已经有答案了我在用position sticky在我的应用程序中在使用overflow属性来显示滚动条我已经寻找了一个确实支持这种情况的polyfill 但到目前为止没有任何运气有谁知道这样的polyfill shim
进程被杀死后不会调用 onActivityResult

我有一个主要活动 Main 和另一个活动 Sub 由 Main 调用 startActivityForResult new Intent this SubActivity class 25 当我在 Sub 时我终止该进程使用任务管理器或
水平和垂直居中 div 位于页面中间，页眉和页脚粘在页面顶部和底部

我正在尝试制作一个具有固定高度页眉和页脚的页面页眉位于屏幕顶部 100 宽度页脚位于底部 100 宽度我想将一个具有可变高度内容的 div 居中放置在页眉和页脚之间的空间中在下面的 jsfiddle 中如果内容比空格短它会起作用
java中void的作用是什么？

返回类型方法返回值的数据类型如果方法不返回值则返回 void http download oracle com javase tutorial java javaOO methods html http download oracle
是否可以使用 Dapper 流式传输大型 SQL Server 数据库结果集？

我需要从数据库返回大约 500K 行请不要问为什么然后我需要将这些结果保存为 XML 更紧急并将该文件通过 ftp 传输到某个神奇的地方我还需要转换结果集中的每一行现在这就是我正在做的事情 TOP 100结果使用 Dappe
描述符“join”需要“unicode”对象，但收到“str”

代码改编自here http wiki geany org howtos convert camelcase from foo bar to Foo Bar def lower case underscore to camel case s
通过 Telnet 运行应用程序

我需要创建一个 BAT 文件来通过 telnet 运行应用程序但据我所知在 DOS 上无法执行此操作 Telnet 不允许在连接的瞬间向远程计算机发送任何命令并且 BAT 文件中的每个后续命令只有在 telnet 停止后才会执行这段
R data.table 1.9.2 关于 setkey 的问题

这似乎是 1 8 10 后引入的一个错误与包含列表的 DT 的 setkey 相关运行下面两个代码来查看问题 library data table dtl lt list dtl 1 lt data table scenario 1 p

随机推荐

有没有一种方法可以对列表进行排序，以使一列中具有相同值的行均匀分布？

希望按扇区排序左下但均匀分布右下 Name Sector Name Sector A 1 A 1 B 1 E 2 C 1 H 3 D 4 D 4 E 2 B 1 F 2 F 2 G 2 J 3 H 3 I 4 I 4 C 1 J 3
jQuery：如何查找*没有*某个类的元素

为什么这个会失败 div contactAperson input not input hadFocus focus function this attr value 它的目的是嗅出具有的输入not获得类 hadFocus 然后当该子集之一
小波函数的选择如何影响 cwt() 的速度？

In cwt 我可以指定使用哪个小波函数这对速度有何影响cwt 这是一个基准测试我用它运行 singleCompThread https stackoverflow com q 24397847 395857启动 MATLAB 时强制其
如果我使用 youtube-API 或在网络视图中呈现视频有什么优点或缺点

在 YouTube 播放器 API 中当我按全屏时它会从头开始重复视频有任何帮助可以解决此问题另外当我锁定手机睡眠模式时它会停止播放我希望它能够恢复如果您向 AndroidManifest 添加全屏方向标志则不会基
Python authlib Flask - 如何处理刷新令牌？

到目前为止我只需要 oauth2 进行登录但我觉得为了相当完整我的应用程序仍然应该处理刷新令牌我对 oauth 还很陌生所以这是我的理解通过保持访问令牌生命周期较短但刷新令牌生命周期较长您可以强制客户端定期签入以更新访问
Java SQLite - 如何关闭连接？

我见过很多关闭人们使用的数据库连接的例子finally 在 DAO 方法中但在我的例子中 DAO 方法例如 insertUsers 向它所调用的方法抛出异常在这种情况下我该如何关闭我的连接我在尝试时收到 SQLiteExcepti
使用变量而不是显式列名访问列

我想通过使用变量而不是静态列名来访问列例子 variable customer SELECT table variable this is what I would prefer instead of table customer 我需要
MATLAB 中的 subplot 是如何工作的以及 subplot(121) 和 subplot(1,2,1) 之间有什么区别？

我有点不清楚如何subplot作品具体来说有什么区别subplot 121 and subplot 1 2 1 在 MATLAB 中我尝试过搜索subplot文档但我似乎找不到我要找的东西长话短说没有什么区别如何subplot
在 wpf 中显示用户控件的替代方法

我想知道是否有其他显示方式usercontrols inside mainwindow在WPF应用程序中目前我利用的可见性属性usercontrols单击按钮一次显示一个用户控件我将用户控件的可见性设置为Hidden单击按钮后我会更改
ImageIO脏内存不会被iOS自动清除

我正在创建一个应用程序它是一种画廊它作为全屏查看器显示不同的媒体内容分配工具显示使用应用程序时 Live Bytes 参数不会增长到高于 40 Mb 同时在我滑动页面 20 30 次后该应用程序 100 被杀死我检查了 Dir
当 udf 函数不接受足够大的输入变量时 Spark DataFrames

我正在准备一个带有 id 和特征向量的 DataFrame 以便稍后用于进行预测我在我的数据帧上做了一个 groupBy 并在我的 groupBy 中将几列作为列表合并到一个新列中 def mergeFunction with 14 in
检查表单的所有复选框是否都被选中

我有多个从代码动态创建的复选框所以我知道我可以使用以下方式获取复选框 foreach var checkBox in this Controls OfType
C#：HashSet的易失性读写

我有一堂课 public class Checker private HashSet
单击单选按钮时提交表单 - 单击单选按钮时提交表单并执行其他操作

我有一个关于单选按钮和表单的 jQuery 问题我有选项卡式内容设置有 5 个选项卡设置每个选项卡中有一个表单每个表单由 5 个单选按钮和一个提交按钮组成我有我的 jQuery 设置来验证是否首先进行了选择然后使用 AJAX 提
Espresso 测试经常因 NoActivityResumedException 失败

编辑更新了描述和错误消息并添加了一些图像还是有这个问题我在运行浓缩咖啡测试时多次出现奇怪的错误几次成功的测试运行后测试开始失败并出现以下异常 06 23 13 04 48 438 info TestRunner failed W
如何在频繁更新的滑动数组中有效跟踪滚动最小值/最大值

考虑以下 JavaScript 数据结构 let sensors sensor1 min 1 00 max 9 00 data timestamp 1517760374400 value 1 00 timestamp 15177603745
无法理解 Rust 模块系统

我出于教育目的创建了一个简单的项目所以我有一个主要功能和 3 个特征Battery Display and GSM以及他们的实施我希望 main 函数位于文件 main rs 中而 3 个特征位于另一个名为 phone rs 的文件中
如何在 Apache-Spark 中连接主从？（独立模式）

我在用着Spark独立模式 https spark apache org docs latest spark standalone html以独立模式安装 Spark 的教程页面 1 我通过以下方式开始了大师生涯 sbin start ma
错误：“非静态字段、方法或属性需要对象引用...”[重复]

这个问题在这里已经有答案了我正在用 C 创建一个应用程序它的功能是评估给定的数是否是素数以及相同的交换数是否也是素数当我在 Visual Studio 中构建解决方案时它说非静态字段方法或属性需要对象引用我在使用 voltea
将 Spark 结构化流与 Confluence 架构注册表集成

我在 Spark 结构化流中使用 Kafka Source 来接收 Confluence 编码的 Avro 记录我打算使用Confluence SchemaRegistry 但与spark结构化流的集成似乎是不可能的我已经看到这个问题

将 Spark 结构化流与 Confluence 架构注册表集成

将 Spark 结构化流与 Confluence 架构注册表集成 的相关文章

随机推荐

热门标签

将 Spark 结构化流与 Confluence 架构注册表集成的相关文章