SparkStreaming

如何在启动Spark Streaming进程时加载历史数据，并计算运行聚合

我的 ElasticSearch 集群中有一些与销售相关的 JSON 数据我想使用 Spark Streaming 使用 Spark 1 4 1 通过 Kafka 动态聚合来自我的电子商务网站的传入销售事件以获得用户总金额的当前视图销售

流式 pyspark 应用程序中的连接池

在流式 pyspark 应用程序中使用连接池的正确方法是什么我通读了https forums databricks com questions 3057 how to reuse database session object creat

python apachespark PySpark connectionpooling SparkStreaming

为什么sbt找不到KafkaUtils？

我在使用 SBT 编译的代码来自 Kafka 的 wordCount 中出现此错误 error home hduser sbt project project1 src main scala sparkKafka scala 4 35 o

scala apachespark ApacheKafka sbt SparkStreaming

“AssertionError：断言失败：不安全符号不稳定”是什么意思？

我正在使用带有 Java 8 的 Spark sql 2 4 1 版本 I have raw df列 eventTs 是长数据类型的时间戳我正在尝试将其转换回时间戳如下所示 Dataset

apachespark apachesparksql SparkStreaming

从 Spark 转换函数中动态读取 HDFS 文件

如何在 Spark 函数中读取 HDFS 中的文件而不在函数中使用 SparkContext Example val filedata rdd rdd map x gt ReadFromHDFS x getFilePath 问题是如何实现

apachespark SparkStreaming

在 Spark 2.3.0 的结构化流中禁用 _spark_metadata

我的结构化流应用程序正在写入镶木地板我想摆脱它创建的 spark metadata 文件夹我使用了下面的属性看起来不错 conf spark hadoop parquet enable summary metadata false 当

如何使用直接流在Kafka Spark Streaming中指定消费者组

如何使用直接流 API 为 kafka Spark 流指定消费者组 ID HashMap

Java apachespark ApacheKafka SparkStreaming kafkaconsumerapi

Spark Streaming Kafka 流

我在尝试使用 Spark Streaming 读取 kafka 时遇到一些问题我的代码是 val sparkConf new SparkConf setMaster local 2 setAppName KafkaIngestor val

apachespark ApacheKafka SparkStreaming sparkstreamingkafka

Kafka Spark directStream无法获取数据

我正在使用 Spark directStream api 从 Kafka 读取数据我的代码如下 val sparkConf new SparkConf setAppName testdirectStreaming val sc new S

apachespark ApacheKafka SparkStreaming

Spark SQL + Window + Streaming 问题 - 使用 Spark Streaming 运行时，Spark SQL 查询执行时间较长

我们期待使用 Spark Streaming 带有 Flume 和带有窗口的 Spark SQL 来实现一个用例使我们能够对一组数据执行 CEP 计算有关如何捕获和使用数据的信息请参阅下文这个想法是使用 SQL 来执行一些符合某些条

apachespark apachesparksql SparkStreaming apachespark13

具有自定义接收器的 Spark 结构化流中的输入行数

我在结构化流 spark 2 2 0 中使用自定义接收器并注意到 Spark 为输入行数生成了错误的指标它始终为零我的流构建 StreamingQuery writeStream session readStream schema R

apachespark apachesparksql SparkStreaming SparkStructuredStreaming

Spark 广播变量 Map 给出 null 值

我正在使用 java8 和 Spark v2 4 1 我正在尝试使用广播变量Map查找使用如下所示输入数据 code1 code2 code3 1 7 5 2 7 4 3 7 3 4 7 2 5 7 1 预期输出 code1 code2

Java apachespark apachesparksql SparkStreaming

Pyspark - 在结构化流上应用自定义函数

我有 4 列 clienttimestamp sensor id activity incidents 从 kafka 流中我在窗口中消费数据预处理和聚合如果我使用 count 进行 groupby 操作则该流可以很好地在控制台中写

apachespark PySpark Bigdata SparkStreaming SparkStructuredStreaming

在 Spark mapPartitions 中使用 Java 8 并行流

我试图了解 Spark 并行性中 Java 8 并行流的行为当我运行下面的代码时我期望输出大小为listOfThings与输入大小相同但事实并非如此我的输出中有时会缺少一些项目这种行为并不一致如果我只是遍历迭代器而不是使用par

apachespark parallelprocessing java8 SparkStreaming

Spark Streaming mapWithState 超时延迟？

我预计 Spark 1 6 的新 mapWithState API 能够几乎立即删除超时的对象但存在延迟我正在使用改编版本测试 APIJavaStatefulNetworkWordCount https github com apach

Java apachespark timeout SparkStreaming

Spark Streaming - java.io.IOException：租赁超时 0 秒已过期

我有 Spark Streaming 应用程序使用 HDFS 上的检查点写入有谁知道解决方案吗之前我们使用 kinit 来指定主体和密钥表并得到了通过以下方式指定这些的建议spark submit命令代替kinit但仍然出现此错误并

apachespark HDFS SparkStreaming kerberos Cloudera

Spark Streaming窗口操作

以下是获取窗口大小为 30 秒幻灯片大小为 10 秒的字数统计的简单代码 import org apache spark SparkConf import org apache spark streaming import org apa

scala Distributed apachespark SparkStreaming

规则引擎在 Azure 上的流分析中意味着什么？

我是 Azure 和分析的新手我正在尝试了解流式警报规则引擎我使用了一些示例数据作为输入并有查询来过滤数据但我不确定什么rules engine意思是它只是查询还是还有更多的东西有没有一种方法我们可以将所有规则集中在一个如果是的

Azure Streaming SparkStreaming RuleEngine azurestreamanalytics

Spark 文件流问题

我正在尝试使用 Spark Streaming 的简单文件流示例 spark streaming 2 10 版本 1 5 1 public class DStreamExample public static void main final

apachespark SparkStreaming

Spark Worker 关闭 - 如何释放共享资源

Spark手册中推荐使用共享静态资源例如连接池在工作代码内示例来自manual http spark apache org docs latest streaming programming guide html design pat

apachespark SparkStreaming