SparkStructuredStreaming

在 Spark 结构化流 2.3.0 中连接两个流时，左外连接不发出空值

两个流上的左外连接不发出空输出它只是等待记录添加到另一个流中使用套接字流来测试这一点在我们的例子中我们想要发出具有 null 值的记录这些记录与 id 不匹配或且不属于时间范围条件水印和间隔的详细信息如下 val ds1Map

scala apachespark SparkStructuredStreaming

如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这

apachespark SparkStructuredStreaming

非时间戳列上的 Spark 结构化流窗口

我收到以下形式的数据流 id timestamp val xxx 1 12 15 25 50 1 2 12 15 25 30 1 3 12 15 26 30 2 4 12 15 27 50 2 5 12 15 27 30 3 6 12 15

为什么 format("kafka") 失败并显示“无法找到数据源：kafka”。（即使使用 uber-jar）？

我使用 HDP 2 6 3 0 和 Spark2 包 2 2 0 我正在尝试使用结构化流 API 编写 Kafka 消费者但将作业提交到集群后出现以下错误 Exception in thread main java lang ClassN

apachespark apachesparksql SparkStructuredStreaming uberjar

Jupyter Notebook 上未显示结构化流输出

我有两个笔记本第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字其他笔记本正在使用 Spark 结构化流 Python 从该套接字读取推文并将其结果写入控制台不幸的是我没有在 jupyter 控制台上得到

从 Spark-Shell (pyspark) 查询 Spark 流应用程序

我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame

apachespark PySpark SparkStructuredStreaming

使用 Spark 结构化流进行实时数据标准化/归一化

在实现机器学习算法时标准化归一化数据即使不是关键也是至关重要的一点使用 Spark 结构化流以实时方式执行此操作是过去几周我一直试图解决的问题使用StandardScaler估计器 value i mean standard de

Spark结构化流：书写不正确

我将抄表记录以 JSON 形式从 kafka 2 11 0 10 0 1 流式传输到 Spark 2 1 中我改用结构化流媒体尽管kafka消费者确认传入数据但我控制台和writeStream不动我正在测试使用 pyspark pa

python apachespark SparkStructuredStreaming

使用 Spark 结构化流处理后删除文件

我正在使用Spark结构化流中的文件源 http spark apache org docs latest structured streaming programming guide html data sources并想在处理完这些文件

apachespark SparkStructuredStreaming

结构化 Spark 流指标检索

我有一个具有结构化 Spark 流的应用程序我想获取一些指标例如调度延迟延迟等通常此类指标可以在 Spark UI Streaming 选项卡中找到但是结构化流不存在此类功能我知道那么如何获取这些指标值呢目前我尝试使用查

apachespark Streaming SparkStructuredStreaming

来自 Kafka 的 pySpark 结构化流不会输出到控制台进行调试

下面是我的代码我尝试了许多不同的选择变体但应用程序运行但没有显示每秒写入的消息我有一个 Spark Streaming 示例它使用 pprint 确认 kafka 实际上每秒都会收到消息 Kafka 中的消息采用 JSON 格式

python apachespark PySpark ApacheKafka SparkStructuredStreaming

Spark 结构化流检查点在生产中的使用

在使用 Spark 结构化流时我很难理解检查点的工作原理我有一个 Spark 进程它会生成一些事件并将其记录在 Hive 表中对于这些事件我在 kafka 流中收到确认事件我创建了一个新的火花过程将 Hive 日志表中的事件

如何将流数据写入Kafka？

我正在尝试对主题数据进行一些丰富因此使用 Spark 结构化流从 Kafka 接收器读回 Kafka val ds spark readStream format kafka option kafka bootstrap servers

apachespark ApacheKafka SparkStructuredStreaming

Spark 结构化流是否可以实现正确的事件时间会话？

一直在玩 Spark Structured Streaming 和mapGroupsWithState 具体如下结构化会话化 https github com apache spark blob v2 3 1 examples src ma

apachespark apachesparksql SparkStructuredStreaming

如何高效更新文件修改频繁的Impala表

我们有一个基于 Hadoop 的解决方案 CDH 5 15 我们可以在 HDFS 的某些目录中获取新文件在这些目录的顶部我们有 4 5 个 Impala 2 1 表在 HDFS 中写入这些文件的过程是 Spark Structured

Hadoop impala SparkStructuredStreaming clouderacdh

MapGroupsWithState 的 Spark 结构化流状态存储在哪里？

我知道状态作为状态存储保存在检查点位置但我不知道它还在内存中存储在哪里我创建了一个使用mapGroupsWithState的Streaming作业但我看到执行器使用的存储内存为0 这是否意味着状态存储在执行内存中我无法知道状态消耗

apachespark SparkStructuredStreaming

为什么启动流式查询会导致“ExitCodeException exitCode=-1073741515”？

一直在尝试适应新的结构化流媒体但一旦我开始它就会一直给我以下错误 writeStream query 知道是什么原因造成的吗如果您在本地和 HDFS 之间拆分检查点和元数据文件夹我能找到的最接近的是一个正在进行的 Spark 错误

Windows apachespark SparkStructuredStreaming

为什么Complete输出模式需要聚合？

我在 Apache Spark 2 2 中使用最新的结构化流处理并遇到以下异常 org apache spark sql AnalysisException 完整输出模式不当流上没有流聚合时支持数据框数据集为什么完整输出模式需要流式

apachespark SparkStructuredStreaming

在 Spark 结构化流中组合窗口 (groupBy) 和 mapGroupsWithState (groupByKey)

目前使用 Spark 2 2 0 结构化流给定带有水印的时间戳数据流有没有办法结合 1 groupBy通过时间戳字段和其他分组标准实现窗口化的操作 2 groupByKey操作才能申请mapGroupsWithState到自定义会话组

apachespark SparkStructuredStreaming

使用 pyspark 结构化流计算移动平均列

我正在使用 pyspark 处理一些传入的流数据我想向我的数据帧添加一个具有 50 秒移动平均值的新列我尝试使用带有 rangeBetween 的 Window 规范 import pyspark sql window as W w W

PySpark SparkStructuredStreaming movingaverage