Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
在 Spark 结构化流 2.3.0 中连接两个流时,左外连接不发出空值
两个流上的左外连接不发出空输出 它只是等待记录添加到另一个流中 使用套接字流来测试这一点 在我们的例子中 我们想要发出具有 null 值的记录 这些记录与 id 不匹配或 且不属于时间范围条件 水印和间隔的详细信息如下 val ds1Map
scala
apachespark
SparkStructuredStreaming
如何读取一次流数据集并输出到多个接收器?
我有 Spark 结构化流作业 它从 S3 读取数据 转换数据 然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器 目前 我正在做readStream一次然后writeStream format start 两次 这
apachespark
SparkStructuredStreaming
非时间戳列上的 Spark 结构化流窗口
我收到以下形式的数据流 id timestamp val xxx 1 12 15 25 50 1 2 12 15 25 30 1 3 12 15 26 30 2 4 12 15 27 50 2 5 12 15 27 30 3 6 12 15
为什么 format("kafka") 失败并显示“无法找到数据源:kafka”。 (即使使用 uber-jar)?
我使用 HDP 2 6 3 0 和 Spark2 包 2 2 0 我正在尝试使用结构化流 API 编写 Kafka 消费者 但将作业提交到集群后出现以下错误 Exception in thread main java lang ClassN
apachespark
apachesparksql
SparkStructuredStreaming
uberjar
Jupyter Notebook 上未显示结构化流输出
我有两个笔记本 第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字 其他笔记本正在使用 Spark 结构化流 Python 从该套接字读取推文并将其结果写入控制台 不幸的是我没有在 jupyter 控制台上得到
从 Spark-Shell (pyspark) 查询 Spark 流应用程序
我正在关注这个example http cdn2 hubspot net hubfs 438089 notebooks spark2 0 Structured 20Streaming 20using 20Python 20DataFrame
apachespark
PySpark
SparkStructuredStreaming
使用 Spark 结构化流进行实时数据标准化/归一化
在实现机器学习算法时 标准化 归一化数据即使不是关键 也是至关重要的一点 使用 Spark 结构化流以实时方式执行此操作是过去几周我一直试图解决的问题 使用StandardScaler估计器 value i mean standard de
Spark结构化流:书写不正确
我将抄表记录以 JSON 形式从 kafka 2 11 0 10 0 1 流式传输到 Spark 2 1 中 我改用结构化流媒体 尽管kafka消费者确认传入数据 但我控制台和writeStream不动 我正在测试使用 pyspark pa
python
apachespark
SparkStructuredStreaming
使用 Spark 结构化流处理后删除文件
我正在使用Spark结构化流中的文件源 http spark apache org docs latest structured streaming programming guide html data sources并想在处理完这些文件
apachespark
SparkStructuredStreaming
结构化 Spark 流指标检索
我有一个具有结构化 Spark 流的应用程序 我想获取一些指标 例如调度延迟 延迟等 通常 此类指标可以在 Spark UI Streaming 选项卡中找到 但是 结构化流不存在此类功能我知道 那么如何获取这些指标值呢 目前 我尝试使用查
apachespark
Streaming
SparkStructuredStreaming
来自 Kafka 的 pySpark 结构化流不会输出到控制台进行调试
下面是我的代码 我尝试了许多不同的选择变体 但应用程序运行 但没有显示每秒写入的消息 我有一个 Spark Streaming 示例 它使用 pprint 确认 kafka 实际上每秒都会收到消息 Kafka 中的消息采用 JSON 格式
python
apachespark
PySpark
ApacheKafka
SparkStructuredStreaming
Spark 结构化流检查点在生产中的使用
在使用 Spark 结构化流时 我很难理解检查点的工作原理 我有一个 Spark 进程 它会生成一些事件 并将其记录在 Hive 表中 对于这些事件 我在 kafka 流中收到确认事件 我创建了一个新的火花过程 将 Hive 日志表中的事件
如何将流数据写入Kafka?
我正在尝试对主题数据进行一些丰富 因此 使用 Spark 结构化流从 Kafka 接收器读回 Kafka val ds spark readStream format kafka option kafka bootstrap servers
apachespark
ApacheKafka
SparkStructuredStreaming
Spark 结构化流是否可以实现正确的事件时间会话?
一直在玩 Spark Structured Streaming 和mapGroupsWithState 具体如下结构化会话化 https github com apache spark blob v2 3 1 examples src ma
apachespark
apachesparksql
SparkStructuredStreaming
如何高效更新文件修改频繁的Impala表
我们有一个基于 Hadoop 的解决方案 CDH 5 15 我们可以在 HDFS 的某些目录中获取新文件 在这些目录的顶部 我们有 4 5 个 Impala 2 1 表 在 HDFS 中写入这些文件的过程是 Spark Structured
Hadoop
impala
SparkStructuredStreaming
clouderacdh
MapGroupsWithState 的 Spark 结构化流状态存储在哪里?
我知道状态作为状态存储保存在检查点位置 但我不知道它还在内存中 存储在哪里 我创建了一个使用mapGroupsWithState的Streaming作业 但我看到执行器使用的存储内存为0 这是否意味着状态存储在执行内存中 我无法知道状态消耗
apachespark
SparkStructuredStreaming
为什么启动流式查询会导致“ExitCodeException exitCode=-1073741515”?
一直在尝试适应新的结构化流媒体 但一旦我开始 它就会一直给我以下错误 writeStream query 知道是什么原因造成的吗 如果您在本地和 HDFS 之间拆分检查点和元数据文件夹 我能找到的最接近的是一个正在进行的 Spark 错误
Windows
apachespark
SparkStructuredStreaming
为什么Complete输出模式需要聚合?
我在 Apache Spark 2 2 中使用最新的结构化流处理并遇到以下异常 org apache spark sql AnalysisException 完整输出模式不 当流上没有流聚合时支持 数据框 数据集 为什么完整输出模式需要流式
apachespark
SparkStructuredStreaming
在 Spark 结构化流中组合窗口 (groupBy) 和 mapGroupsWithState (groupByKey)
目前使用 Spark 2 2 0 结构化流 给定带有水印的时间戳数据流 有没有办法结合 1 groupBy通过时间戳字段和其他分组标准实现窗口化的操作 2 groupByKey操作才能申请mapGroupsWithState到自定义会话组
apachespark
SparkStructuredStreaming
使用 pyspark 结构化流计算移动平均列
我正在使用 pyspark 处理一些传入的流数据 我想向我的数据帧添加一个具有 50 秒移动平均值的新列 我尝试使用带有 rangeBetween 的 Window 规范 import pyspark sql window as W w W
PySpark
SparkStructuredStreaming
movingaverage
1
2
3
4
5
»