如何解决 DataSet.toJSON 与结构化流不兼容的问题

2024-01-10

我想将 Twitter 中的数据写入 Kafka。出于教育目的，我尝试使用结构化流来做到这一点。我创建了一个基于套接字源的 Twitter 源，它运行良好。

我按如下方式设置来源：

val tweets = spark
  .readStream
  .format("twitter")
  .option("query", terms)
  .load()
  .as[SparkTweet]

这为我提供了一个很好的用于分析查询的数据集。伟大的！

接下来，我想将略微 Sparkified 模式中的每条推文持久保存到 Kafka 中：

val kafkaOutStream = tweets
  .toJSON.as("value")
  .writeStream
  .queryName("stream_to_kafka")
  .outputMode(OutputMode.Append())
  .trigger(Trigger.ProcessingTime("1 second"))
  .format("kafka")
  .option("kafka.bootstrap.servers","localhost:9092")
  .option("topic","tweets")
  .start

这很容易！除此之外，它不起作用。在QueryExecution.scala呼叫传递到assertSupported最终被抛弃，因为

Exception in thread "main" org.apache.spark.sql.AnalysisException:
    Queries with streaming sources must be executed with writeStream.start();;

我没想到toJSON成为一个纯粹的批处理操作，但没有它，并使用 sayselect($"text" as "value")相反，该代码将起作用。

现在，我有点惊讶，希望有人能解释为什么 toJSON 不应该与流兼容（这是一个错误吗？缺少功能吗？），并告诉我是否有一种结构化流方式来获取序列化表示我的目标是卡夫卡。

这有点冗长，但是to_json函数应该可以解决问题：

import org.apache.spark.sql.functions.{to_json, struct, col}

tweets.select(to_json(struct(df.columns map col: _*)).alias("value"))
  .writeStream
  ...

问题在于toJSON似乎是转换为 RDD https://github.com/apache/spark/blob/v2.2.0/sql/core/src/main/scala/org/apache/spark/sql/Dataset.scala#L2738:

val rdd: RDD[String] = queryExecution.toRdd.mapPartitions { iter =>
  ...

和（正如所指出的maasg https://stackoverflow.com/users/764040/maasg in 评论 https://stackoverflow.com/questions/45614364/sparks-dataset-tojson-is-not-structuredstreaming-compatible-how-to-convert-a-d/45614984#comment78190232_45614984）似乎已经在开发版本中解决了。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

ApacheKafka

SparkStructuredStreaming

如何解决 DataSet.toJSON 与结构化流不兼容的问题的相关文章

使用 Akka 1.3 的 actor 时，我需要注意生产者-消费者速率匹配吗？

使用 Akka 1 3 时我是否需要担心当生成消息的 Actor 生成消息的速度比使用消息的 Actor 的处理速度快时会发生什么如果没有任何机制在长时间运行的进程中队列大小将增大以消耗所有可用内存 The doc http doc
如何在 Lift 框架中添加新页面

如何在 lift 中的 webapp 目录中添加一个可供用户访问的新页面目前只能通过index html访问http localhost 8080 com http localhost 8080 or http localhost 808
Scala 的“神奇”函数列表

在哪里可以找到 Scala 的神奇函数列表例如apply unapply update etc 魔法函数是指编译器的某些语法糖使用的函数例如 o update x y lt gt o x y 我用谷歌搜索了一些组合scala mag
在 scala 宏中使用 LabelDef (2.10)

我正在尝试 scala 2 10 宏功能我使用时遇到问题LabelDef但在某些情况下在某种程度上我偷看了编译器的代码阅读了摘录米格尔加西亚的论文 http lampwww epfl ch magarcia但我还是卡住了如果我的
过滤器的 Scala 集合类型

假设您有一个 List 1 1 其类型为 List Any 这当然是正确的且符合预期现在如果我像这样映射列表 scala gt List 1 1 map case x Int gt x case y String gt y toInt 结
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
解决 sbt 中 jar 加载冲突的问题

当两个特定的 sbt 插件启动时我在 sbt 启动时收到以下错误加在一起到其构建定义中的项目这些 sbt 插件之一是规模化jdbc https github com scalikejdbc scalikejdbc另一个是my own h
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所
@tailrec为什么这个方法不编译为“包含不在尾部位置的递归调用”？

tailrec private def loop V key String V key match case gt loop key 此方法无法编译并抱怨它包含不在尾部位置的递归调用有人可以向我解释一下发生了什么事吗这个错误消息对我来
Spark SQL sql("").first().getDouble(0) 给我不一致的结果

我有下面的查询它应该找到列值的平均值并返回一个数字的结果 val avgVal hiveContext sql select round avg amount 4 from users payment where dt between 2
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Scala 为了在 JVM 上运行做出了哪些妥协？

Scala 是一种很棒的语言但我想知道如果它有自己的运行时如何改进 IE 由于 JVM 的选择做出了哪些设计选择我所知道的两个最重要的妥协是类型擦除 http java sun com docs books tutorial ja
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
如何在不使用 .toPandas() hack 的情况下提取 PySpark 中对长度敏感的特征？

我是 PySpark 的新手我想翻译特征提取 FE 将 pythonic 部分脚本放入 PySpark 中首先我有所谓的 Spark 数据框sdf包括 2 列 A 和 B 下面是示例 data A B https example1 o
Java时间转正常格式

我有 Java 时间1380822000000 我想转换为我可以阅读的内容 import java util Date object Ws1 val a new Date 1380822000000 toString 导致异常 warnin
生产者程序中的 kafka 网络处理器错误（ArrayIndexOutOfBoundsException：18）

我有下面的 kafka Producer Api 程序我对 kafka 本身是新手下面的代码从 API 之一获取数据并将消息发送到 kafka 主题 package kafka Demo import java util Propert
sh / Bash shell 脚本中 !# (bang-pound) 的含义是什么？

我想了解这个 Scala 脚本是如何工作的 usr bin env bash exec scala 0 object HelloWorld def main args Array String println Hello world arg
缩放数据框的每一列

我正在尝试缩放数据框的每一列首先我将每一列转换为向量然后使用 ml MinMax Scaler 除了简单地重复它之外是否有更好更优雅的方法将相同的函数应用于每一列 import org apache spark ml linalg
SBT Scaladoc 配置

我正在尝试在 SBT 中配置 Scaladoc 特别是标题输出目录和类路径我通过将以下内容添加到 build sbt 来定义标题 scalacOptions in Compile doc Opts doc title Scala Too

随机推荐

Swift 仅针对某些错误类型组合重试

我有一个自定义管道我想对一些可恢复的错误代码进行 3 次重试并且我想为可恢复的错误添加一些短暂的延迟有人知道我该怎么做吗 func createRequest for message Message gt AnyPublisher
编译期间未包含在目标中的 .h 文件会发生什么情况？

我有一个 Common h 文件其中存储了在我的项目中重复使用的所有字符串 namespace Common static const std string mystring IamAwesum 因此在任何需要特定字符串的文件中我都包
哪些 std::async 实现使用线程池？

使用的优点之一std async而不是手动创建std thread对象应该是std async可以在幕后使用线程池来避免超额订阅问题但是哪些实现可以做到这一点呢我的理解是微软的实现确实如此但是其他的呢 async实施 Gnu 的 li
使用 MapReduce 实施 PageRank

我正在尝试解决使用 MapReduce 实现 PageRank 的理论问题我有以下具有三个节点的简单场景 A B C 邻接矩阵在这里 A B C B A 例如 B 的 PageRank 等于 1 d N d PR A C A N numb
Matlab 中打印函数的 Ghostscript 错误

我正在尝试使用 Matlab 保存图像print功能 myImage magic 500 myFigure figure visible off r 1 set myFigure PaperUnits inches PaperPositio
业务对象、验证和异常

我一直在阅读一些有关异常及其使用的问题和答案似乎有一种强烈的观点认为仅应针对异常未处理的情况提出异常因此这让我想知道验证如何与业务对象一起工作假设我有一个业务对象其中包含对象属性的 getter setter 假设我需要验证该
我正在尝试创建一个情节性的旭日图，但收到错误消息：“dtype：对象，”不是叶子。

我正在尝试创建一个旭日图其中不同的行具有不同的长度并收到错误消息 dtype 对象不是叶子我读过这篇文章请注意 None 条目的父项必须是叶子即它不能有除 None 之外的其他子项否则会引发 ValueError 在情节页面上
gulp-filter 过滤掉所有文件

我正在努力将我的工作流程转移到 Gulp 到目前为止我很喜欢它然而我似乎误解了 gulp filter 插件的工作原理我有以下任务 gulp task assets function var stylesFilter gulpFilt
YAML 中的管道符号有什么用？

我是 yaml 新手我对用于多行的管道符号有疑问 YAML 是否有类似于下面的语法 test 6 在下面的两个 YAML 文件中第一个有效第二个无效我不知道是什么原因造成的第一个文件 Name testing val1 seco
将一个 TForm 嵌入另一个 TForm 时如何避免出现问题？

我经常嵌入一个TForm后代成为另一个TForm后代是这样的 var Form1 TForm1 Form2 TForm2 begin Form2 Parent Form1 Form2 BorderStyle bsNone Form2 Ali
AS400 角色扮演模拟器

我有一个迫切的需求从java调用一个RPG程序正如本文中所建议的从 Java 访问 iSeries 上的 RPG https stackoverflow com questions 184864 accessing rpg on ise
为自定义设计器编写 Visual Studio 扩展

所以我有一些我想尝试的东西我的想法是拥有一个作为 Visual Studio 扩展的视觉设计器我希望能够拖出事件处理程序并连接行为任何曾经玩过魔兽争霸 III 脚本编辑器的人都会很清楚我的意思我想做这种事情可以在 Visual
如何连接浮点数和字符串？

我试过这个 ostringstream myString float x string s if x myString lt
包含列表的 Angular2 反应形式

我正在尝试为用户创建一个表单该表单允许将多个电话号码与该用户关联这对于当前反应式表单的实现来说是可能的吗例如我希望下面的表格接受可能的许多电话号码我的前端实现将显示电话号码字段并且有一个按钮允许添加额外的电话号码字段 userF
从 OpenCart 中删除 index.php?route=common/home

我目前有User SEO URL s在 OpenCart 管理中设置为是 System gt Settings gt Store gt Server gt User SEO URL s 到目前为止所有标签和 SEO 链接都正常工作该命令
如何在android中添加填充矢量文件

如何在矢量文件中添加填充左右上和下变量我变了 android 视口宽度 and android 视口高度但一切都没有改变我的矢量
以编程方式将自定义 WCF 标头添加到端点以实现可靠会话

我正在构建一个 WCF 路由器我的客户端使用可靠会话在这种情况下当客户端打开通道时会发送一条消息建立可靠会话其内容如下
如何创建一个根据参数使用 $resource 返回数据的服务

我想创建一个根据参数调用后端的服务这段代码不起作用但我希望它能显示我想要实现的目标 myproject factory Item function resource if id undefined return resource res
如何强制 GPG 接受来自 STDIN 的输入而不是尝试打开文件？

我正在尝试将 GPG 的文本清晰签名合并到 PHP 脚本的字符串中我可以让 GPG 加密字符串中的文本如下所示 encrypted shell exec echo text gpg e a r email protected cdn c
如何解决 DataSet.toJSON 与结构化流不兼容的问题

我想将 Twitter 中的数据写入 Kafka 出于教育目的我尝试使用结构化流来做到这一点我创建了一个基于套接字源的 Twitter 源它运行良好我按如下方式设置来源 val tweets spark readStream for

如何解决 DataSet.toJSON 与结构化流不兼容的问题

如何解决 DataSet.toJSON 与结构化流不兼容的问题 的相关文章

随机推荐

热门标签

如何解决 DataSet.toJSON 与结构化流不兼容的问题的相关文章