SparkStreaming

如何计算 Spark 中数据帧的大小（以字节为单位）？

我想编写一个带有重新分区的大型数据帧因此我想计算源数据帧的重新分区数 numberofpartition size of dataframe default blocksize 如何计算数据帧大小以字节为单位 Usingspark se

scala apachespark apachesparksql size SparkStreaming

Spark Streaming：接收器故障后如何不重新启动接收器

我们正在使用自定义 Spark 接收器它从提供的 http 链接读取流数据如果提供的http链接不正确则接收失败问题是spark会不断重启接收器并且应用程序永远不会终止问题是如果接收器失败如何告诉 Spark 终止应用程序这

Spark RDD 块在使用前被移除

我正在使用 Future 对 RDD 执行阻塞操作如下所示 dStreams foreach foreachRDD rdd gt Future writeRDD rdd 有时我会收到此错误 org apache spark SparkEx

scala apachespark SparkStreaming

Scala Spark - 处理层次结构数据表

我有带有树结构的层次结构数据模型的数据表例如这是一个示例数据行 Id name parentId path depth 55 Canada null null 0 77 Ontario 55 55 1 100 Toronto 77 55

scala apachespark apachesparksql SparkStreaming

Spark Streaming：长排队/活动批次

谁能指出这些活跃批次挂在那里数周且从未得到处理的原因是什么多谢我的猜测是执行者不够更多的工人执行者会解决问题吗或者 Spark 在其任务调度程序中为不同批次分配优先级但这里的情况是最近的批次 6 月底已成功处理但 5 月份

apachespark batchprocessing SparkStreaming

将 Dataframe 存储到 Spark 中的 Hive 分区表

我正在尝试将从 kafka 主题传入的数据流存储到配置单元分区表中我能够将 dstream 转换为数据帧并创建一个配置单元上下文我的代码看起来像这样 val hiveContext new HiveContext sc hiveCont

Hadoop hive SparkStreaming

火花提交：--jars 不起作用

我正在为 Spark Streaming 作业构建指标系统在系统中指标是在每个执行器中收集的因此需要在每个执行器中初始化指标源用于收集指标的类指标源被打包在一个jar中提交作业时使用参数 jars 将jar从本地发送到每个执行

apachespark SparkStreaming

保留 Spark Streaming 输出

我正在从消息传递应用程序收集数据我目前正在使用 Flume 它每天发送大约 5000 万条记录我想用卡夫卡使用 Spark Streaming 从 Kafka 消费并将其保存到 hadoop 并使用 impala 进行查询我尝试过

Hadoop ApacheKafka SparkStreaming

Apache Zeppelin 0.6.1：运行 Spark 2.0 Twitter Stream 应用程序

我有一个安装了 Spark 2 0 和 Zeppelin 0 6 1 的集群自从上课以来TwitterUtils scala从 Spark 项目移至 Apache Bahir 我无法再在我的 Zeppelin 笔记本中使用 Twitter

scala apachespark SparkStreaming twitter4j apachezeppelin

EC2 上的 Spark Streaming：线程“main”中出现异常 java.lang.ExceptionInInitializerError

我正在尝试在我创建的 jar 文件上运行 Spark submit 当我在我的计算机上本地运行它时它可以正常工作但当部署到 Amazon EC2 上时它会返回以下错误 root ip 172 31 47 217 bin spark s

scala Maven amazonec2 apachespark SparkStreaming

Spark Streaming：输入速率和文件流 [0] 始终具有“平均：0.00 个事件/秒”

我正在使用 Spark 1 5 2 运行代码如下它定期正确打印计数但在 Spark Streaming UI 中输入速率和文件流 0 始终具有平均 0 00 个事件秒注意每个文件包含一行其中包含 json 字符串我也尝试

apachespark SparkStreaming

如何使用 Spark 数据框评估 Spark Dstream 对象

我正在编写一个 Spark 应用程序我需要根据历史数据评估流数据这些数据位于 SQL Server 数据库中现在的想法是 spark 将从数据库中获取历史数据并将其保存在内存中并根据它评估流数据现在我得到的流数据为 import

apachespark PySpark SparkStreaming

Spark 流异常：java.util.NoSuchElementException：None.get

我在写信SparkStreaming通过将数据转换为数据帧来将数据传输到 HDFS Code object KafkaSparkHdfs val sparkConf new SparkConf setMaster local setAppN

apachespark Hadoop ApacheKafka apachesparksql SparkStreaming

使用 Spark 从 Azure Blob 读取数据

我在通过 Spark Streaming 从 azure blob 读取数据时遇到问题 JavaDStream

Java Azure apachespark azureblobstorage SparkStreaming

Spark Streaming + Kafka：SparkException：无法找到 Set 的领导者偏移量

我正在尝试设置 Spark Streaming 以从 Kafka 队列获取消息我收到以下错误 py4j protocol Py4JJavaError An error occurred while calling o30 createDi

apachespark ApacheKafka SparkStreaming

Spark Streaming 2.0.0 - 在负载下几天后冻结

我们在带有 Spark 2 0 0 的 AWS EMR 5 0 0 上运行从 125 个分片 Kinesis 流中使用使用 2 个消息生成器提供 19k 个事件秒每条消息大小约为 1k 使用 20 台机器组成的集群进行消费该代码有

apachespark SparkStreaming

具有合成时间戳的 Spark 窗口函数？

假设我有一个包含记录的数据文件其中每个记录都有一个时间戳如下所示 foo bar blaz timestamp1 foo flibble baz timestamp2 bleh foo gnarly timestamp3 我想使用 Sp

Java Stream apachespark SparkStreaming

Spark Streaming中如何处理旧数据并删除处理后的数据

我们正在运行一个 Spark 流作业从目录中检索文件使用 textFileStream 我们担心的一个问题是作业已停止但文件仍在添加到目录中的情况一旦作业再次启动这些文件就不会被拾取因为它们在作业运行时不是新的或已更改但我们希望

apachespark SparkStreaming

Spark-submit 类路径问题与 --repositories --packages 选项

我在一个独立的集群中运行 Spark 其中 Spark master worker 并在自己的 Docker 容器中提交每次运行 When spark submit我的 Java 应用程序 repositories and packages

apachespark ApacheKafka SparkStreaming

2 个具有相同消费者组 ID 的 Spark Stream 作业

我正在尝试对消费者群体进行实验这是我的代码片段 public final class App private static final int INTERVAL 5000 public static void main String ar

apachespark ApacheKafka SparkStreaming