SparkStreaming

Spark Streaming mapWithState 超时延迟？

我预计 Spark 1 6 的新 mapWithState API 能够几乎立即删除超时的对象但存在延迟我正在使用改编版本测试 APIJavaStatefulNetworkWordCount https github com apach

Java apachespark timeout SparkStreaming

Spark Streaming - java.io.IOException：租赁超时 0 秒已过期

我有 Spark Streaming 应用程序使用 HDFS 上的检查点写入有谁知道解决方案吗之前我们使用 kinit 来指定主体和密钥表并得到了通过以下方式指定这些的建议spark submit命令代替kinit但仍然出现此错误并

apachespark HDFS SparkStreaming kerberos Cloudera

Spark Streaming窗口操作

以下是获取窗口大小为 30 秒幻灯片大小为 10 秒的字数统计的简单代码 import org apache spark SparkConf import org apache spark streaming import org apa

scala Distributed apachespark SparkStreaming

规则引擎在 Azure 上的流分析中意味着什么？

我是 Azure 和分析的新手我正在尝试了解流式警报规则引擎我使用了一些示例数据作为输入并有查询来过滤数据但我不确定什么rules engine意思是它只是查询还是还有更多的东西有没有一种方法我们可以将所有规则集中在一个如果是的

Azure Streaming SparkStreaming RuleEngine azurestreamanalytics

Spark 文件流问题

我正在尝试使用 Spark Streaming 的简单文件流示例 spark streaming 2 10 版本 1 5 1 public class DStreamExample public static void main final

apachespark SparkStreaming

Spark Worker 关闭 - 如何释放共享资源

Spark手册中推荐使用共享静态资源例如连接池在工作代码内示例来自manual http spark apache org docs latest streaming programming guide html design pat

apachespark SparkStreaming

foreachRDD是在Driver上执行的吗？

我正在尝试使用 Spark Streaming 处理 JMS 队列 QPID 上收到的一些 XML 数据将 xml 作为 DStream 获取后我将它们转换为 Dataframe 这样我就可以将它们与已加载的 Dataframe 形式的

apachespark SparkStreaming

准备批处理语句，将spark-streaming生成的所有rdd存储到mysql

我正在尝试使用 Spark streaming 将 Dstream 生成的批量 RDD 插入到 mysql 中以下代码工作正常但问题是我正在创建一个连接来存储每个元组因此为了避免我在 foreachRDD 之外创建连接但它给了我以

mysql apachespark SparkStreaming

AbstractMethodError 创建 Kafka 流

我正在尝试使用以下命令打开 Kafka 尝试过版本 0 11 0 2 和 1 0 1 流createDirectStream方法并收到此 AbstractMethodError 错误 Exception in thread main jav

scala apachespark ApacheKafka SparkStreaming

具有流源的查询必须使用 writeStream.start();; 执行

我正在尝试使用 Spark 结构化流从 Kafka 读取数据并预测传入数据我正在使用使用 Spark ML 训练过的模型 val spark SparkSession builder appName Spark SQL basic exa

Spark 结构化流 - 对不同的 GroupBy 键使用不同的 Windows

目前我通过 Spark 结构化流媒体读取 Kafka 主题后得到了下表 key timestamp value key1 2017 11 14 07 50 00 0000 10 key1 2017 11 14 07 50 10 0000

scala apachespark apachesparksql SparkStreaming

Spark 流上的 SQL

这是通过 Spark Streaming 运行简单 SQL 查询的代码 import org apache spark streaming Seconds StreamingContext import org apache spark s

apachespark SparkStreaming

如何设置具有不同批处理持续时间的多个 Spark Streaming 作业？

我们正处于转变大型企业当前数据架构的开始阶段我目前正在构建一个 Spark Streaming ETL 框架在该框架中我们将所有源连接到目的地源目的地可以是 Kafka 主题 Flume HDFS 等通过转换这看起来像 Spar

Hadoop apachespark SparkStreaming

_spark_metadata 导致问题

我将 Spark 与 Scala 一起使用并且我有一个目录其中有多个文件在这个目录中我有 Spark 生成的 Parquet 文件和 Spark Streaming 生成的其他文件并且Spark Streaming生成一个目录 s

scala apachespark SparkStreaming

Pyspark应用foreach

我是 Pyspark 的菜鸟我假装玩了一下几个函数以更好地理解如何在更现实的场景中使用它们有一段时间我尝试对 RDD 中的每个数字应用特定的函数我的问题基本上是当我尝试打印从 RDD 中获取的内容时结果是 None My co

apachespark PySpark SparkStreaming

Spark Streaming - 根据按键分组的键值对计算统计信息

背景我正在使用 Spark Streaming 从 Kafka 流式传输事件这些事件采用逗号分隔键值对的形式以下是事件如何流入我的 Spark 应用程序的示例 Key1 Value1 Key2 Value2 Key3 Value3 K

scala apachespark SparkStreaming

build.sbt：如何添加spark依赖项

你好我正在尝试下载spark core spark streaming twitter4j and spark streaming twitter在下面的 build sbt 文件中 name hello version 1 0 scala

scala apachespark sbt SparkStreaming

Spark Streaming：跨批次缓存 DStream 结果

使用 Spark Streaming 1 6 我有一个文件流用于读取批量大小为 2 秒的查找数据但是文件仅每小时复制到目录中一旦有新文件它的内容就会被流读取这就是我想要缓存到内存中并保留在那里的内容直到读取新文件我想加入这个数

scala apachespark SparkStreaming

Spark Streaming update_state_by_keys 用于数组聚合

我有如下输入行 t1 文件1 1 1 1 t1 文件 1 1 2 3 t1 文件2 2 2 2 2 t2 文件 1 5 5 5 t2 文件2 1 1 2 2 输出如下所示是相应数字的垂直相加文件1 1 1 2 5 1 3 5 文件2 2

scala apachespark SparkStreaming

如何将非流文件加入DStream？

我想将 DStream 中的每个 RDD 与非流式不变的参考文件连接起来这是我的代码 val sparkConf new SparkConf setAppName LogCounter val ssc new StreamingCont

apachespark SparkStreaming