SparkStructuredStreaming

Spark 结构化流式传输多个 WriteStream 到同一接收器

Two Writestream在 Spark Structured Streaming 2 2 1 中到同一个数据库接收器的操作不会按顺序发生请建议如何使它们按顺序执行 val deleteSink ds1 writestream ou

scala apachespark slick30 SparkStructuredStreaming

如何解决 DataSet.toJSON 与结构化流不兼容的问题

我想将 Twitter 中的数据写入 Kafka 出于教育目的我尝试使用结构化流来做到这一点我创建了一个基于套接字源的 Twitter 源它运行良好我按如下方式设置来源 val tweets spark readStream for

scala apachespark ApacheKafka SparkStructuredStreaming

[IllegalStateException]：Spark 结构化流正在终止流查询并出现错误

我创建了一个 Spark 结构化流应用程序在应用程序中我从 Kafka 主题中提取数据为了恢复目的我使用检查点我面临的挑战如下 ERROR StreamExecution Query id cf9e0f0a 653a 4246 a

scala apachespark ApacheKafka SparkStructuredStreaming

将 Spark 结构化流与 Confluence 架构注册表集成

我在 Spark 结构化流中使用 Kafka Source 来接收 Confluence 编码的 Avro 记录我打算使用Confluence SchemaRegistry 但与spark结构化流的集成似乎是不可能的我已经看到这个问题

如何在pyspark中使用foreach接收器？

我该如何使用foreach在 Python Spark 中结构化流式传输可在输出上触发操作 query wordCounts writeStream outputMode update foreach func start def fun

apachespark PySpark apachesparksql SparkStructuredStreaming

从 Spark 结构化流读取增量文件时出错

我们在 Spark 2 2 中使用 Spark 结构化流在某些时候流崩溃当它开始时它尝试从检查点读取并失败 java lang IllegalStateException Error reading delta file XYZ C

apachespark SparkStructuredStreaming

Spark 2.x 中结构化流连接两个流的解决方法

我有一个配置流不经常更改但如果有更新它将是一条消息和另一个原始数据点流据我了解目前 Spark 不支持加入流数据集或数据帧有没有好的方法来解决这个问题是否可以将其中一个流数据集快照为静态数据集可能是配置数据集因为它的

apachespark SparkStructuredStreaming

如何为 Spark 结构化流编写 ElasticsearchSink

我正在使用 Spark 结构化流来处理来自 Kafka 队列的大量数据并进行一些复杂的 ML 计算但我需要将结果写入 Elasticsearch 我尝试使用ForeachWriter但无法得到SparkContext在里面另一个选择可能

scala apachespark elasticsearch SparkStructuredStreaming

使用 Kafka SASL/PLAIN 身份验证的 Spark 结构化流

有没有办法将 Spark 结构化流作业连接到受 SASL PLAIN 身份验证保护的 Kafka 集群我在想类似的事情 val df2 spark read format kafka option kafka bootstrap serv

apachespark ApacheKafka SparkStructuredStreaming

错误：java.lang.IllegalArgumentException：选项“basePath”必须是目录

基于可用的书籍https github com jaceklaskowski spark structured streaming book blob master spark structured streaming adoc https

apachespark SparkStructuredStreaming

在 Spark 2.3.0 的结构化流中禁用 _spark_metadata

我的结构化流应用程序正在写入镶木地板我想摆脱它创建的 spark metadata 文件夹我使用了下面的属性看起来不错 conf spark hadoop parquet enable summary metadata false 当

为什么单个结构化查询每批运行多个 SQL 查询？

为什么以下结构化查询会运行多个 SQL 查询如 Web UI 的 SQL 选项卡中所示 import org apache spark sql streaming OutputMode Trigger import scala concu

apachespark SparkStructuredStreaming

具有自定义接收器的 Spark 结构化流中的输入行数

我在结构化流 spark 2 2 0 中使用自定义接收器并注意到 Spark 为输入行数生成了错误的指标它始终为零我的流构建 StreamingQuery writeStream session readStream schema R

apachespark apachesparksql SparkStreaming SparkStructuredStreaming

Pyspark - 在结构化流上应用自定义函数

我有 4 列 clienttimestamp sensor id activity incidents 从 kafka 流中我在窗口中消费数据预处理和聚合如果我使用 count 进行 groupby 操作则该流可以很好地在控制台中写

apachespark PySpark Bigdata SparkStreaming SparkStructuredStreaming

Spark 结构化流 ForeachWriter 和数据库性能

我已经尝试过像这样实现结构化流 myDataSet map r gt StatementWrapper Transform r writeStream foreach MyWrapper myWriter start awaitTermin

database scala apachespark JDBC SparkStructuredStreaming

使用Spark结构化流读取Kafka数据总是出现超时问题

这是我使用 Spark Structured Streaming 从 Kafka 读取数据的代码 ss SparkSession is defined before import ss implicits val df ss readStr

apachespark ApacheKafka SparkStructuredStreaming

无法在结构化流上评估 ML 模型，因为 RDD 转换和操作是在其他转换内部调用的

这是结构化流的一个众所周知的限制 1 我试图使用自定义接收器来解决它接下来 modelsMap是一个字符串键的映射org apache spark mllib stat KernelDensity models and streaming

apachespark apachesparkml SparkStructuredStreaming

如何在流数据帧上应用滞后函数？

我有一个具有三列 time col1 col2 的流数据帧我必须在第 2 列上应用滞后函数我尝试过以下查询 val w org apache spark sql expressions Window oderBy time df sel

如何在 foreachBatch 中使用临时表？

我们正在构建一个流平台其中批量使用 SQL 至关重要 val query streamingDataSet writeStream option checkpointLocation checkPointLocation foreachB

apachespark SparkStructuredStreaming

如何在不使用 flatMapsGroupWithState 的情况下使用 Structured Streaming 2.3.0 在 Spark 中进行无状态聚合？

如何在不使用 flatMapsGroupWithState 或 Dstream API 的情况下使用 Structured Streaming 2 3 0 在 Spark 中进行无状态聚合寻找一种更具声明性的方式 Example sele

apachespark apachesparksql SparkStructuredStreaming