SparkStreaming

非时间戳列上的 Spark 结构化流窗口

我收到以下形式的数据流 id timestamp val xxx 1 12 15 25 50 1 2 12 15 25 30 1 3 12 15 26 30 2 4 12 15 27 50 2 5 12 15 27 30 3 6 12 15

Jupyter Notebook 上未显示结构化流输出

我有两个笔记本第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字其他笔记本正在使用 Spark 结构化流 Python 从该套接字读取推文并将其结果写入控制台不幸的是我没有在 jupyter 控制台上得到

HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind

Hadoop SparkStreaming hadoopyarn ResourceManager

纱线堆的使用量随着时间的推移而增长

我们在 AWS EMR 上运行 Spark Streaming 作业该作业将稳定运行 10 到 14 小时然后崩溃并且 stderr stdout 或 Cloudwatch 日志中没有明显错误在此崩溃之后任何重新启动作业的尝试都将

apachespark heapmemory SparkStreaming hadoopyarn amazonemr

Spark流吞吐量监控

有没有办法监控 Spark 集群的输入和输出吞吐量以确保集群不会被传入数据淹没和溢出就我而言我在 AWS EC2 上设置了 Spark 集群所以我正在考虑使用AWS 云观察来监控网络输入 and 网络输出对于集群中的每个节点但我的

performance apachespark monitoring SparkStreaming amazoncloudwatch

Spark Streaming 中的 ML 模型更新

我通过 Spark 批处理作业在 HDFS 中保留了机器学习模型并且我在 Spark 流中使用它基本上 ML 模型从 Spark Driver 广播到所有执行器有人可以建议我如何在不停止 Spark Streaming 作业的情况下实

SparkStreaming apachesparkml

执行器失败后 Spark 无法在 HDFS 中找到检查点数据

我从 Kafka 传输数据如下 final JavaPairDStream

apachespark SparkStreaming sparkcheckpoint

Spark Streaming：如何在 Python 中获取已处理文件的文件名

我对 Spark 老实说也是 Python 有点菜鸟所以如果我错过了一些明显的东西请原谅我我正在使用 Spark 和 Python 进行文件流处理在我做的第一个示例中 Spark 正确地侦听给定目录并计算文件中单词的出现次数因此我

python SparkStreaming

使用 Spark 结构化流进行实时数据标准化/归一化

在实现机器学习算法时标准化归一化数据即使不是关键也是至关重要的一点使用 Spark 结构化流以实时方式执行此操作是过去几周我一直试图解决的问题使用StandardScaler估计器 value i mean standard de

在 HDP 2.2 上运行 Spark Streaming 作业时出现 NoSuchMethodError

我正在尝试在 HDP 2 2 Sandbox 上运行简单的流作业但面临 java lang NoSuchMethodError 错误我可以在这台机器上运行 SparkPi 示例没有任何问题以下是我正在使用的版本

scala apachespark hortonworksdataplatform SparkStreaming

DStream 在一个批处理间隔内生成多少个 RDD？

是否生成一批间隔的数据一个且唯一一个DStream中的RDD不管数据量有多大是的每个批次间隔恰好有一个 RDD 在每个批次间隔生成与记录数量无关包含在 RDD 中内部可能有零条记录如果没有并且 RDD 创建以元素数量为条件则

apachespark SparkStreaming

地图功能中的条件

Scala 有没有类似的东西 condition first expression second expression 我可以在scala中的map函数中使用它吗我希望能够写出这样的东西 val statuses tweets map s

scala apachespark SparkStreaming mapfunction

与查找数据集连接后进行多列值查找

我正在使用spark sql 2 4 1v如何根据列的值进行各种连接我需要获得多个查找值map val给定值列的列如下所示样本数据 val data List 20 score school 2018 03 31 14 12 21 s

scala apachespark apachesparksql SparkStreaming

Spark 结构化流 - 从嵌套目录读取文件

我有一个客户端将 CSV 文件放置在嵌套目录中如下所示我需要实时读取这些文件我正在尝试使用 Spark 结构化流来做到这一点 Data user data 1 csv user data 2 csv user data 3 csv u

apachespark SparkStreaming

如何从迭代器创建 Spark RDD？

为了说清楚我不是从像这样的数组列表中寻找RDD List

apachespark SparkStreaming

在pyspark中读取json文件

我是 PySpark 的新手下面是来自 kafka 的 JSON 文件格式 header platform atm version 2 0 details abc 3 def 4 abc 5 def 6 abc 7 def 8 我怎样才能

apachespark PySpark SparkStreaming

结合 Spark Streaming + MLlib

我尝试使用随机森林模型来预测示例流但似乎我无法使用该模型对示例进行分类这是pyspark中使用的代码 sc SparkContext appName App model RandomForest trainClassifier trai

python apachespark PySpark SparkStreaming apachesparkmllib

Spark清理shuffle溢出到磁盘

我有一个循环操作它生成一些 RDD 进行重新分区然后进行聚合键操作循环运行一次后它会计算出最终的 RDD 该 RDD 会被缓存和检查点并用作下一次循环的初始 RDD 这些 RDD 非常大并且在每次迭代到达最终 RDD 之前都会生

scala apachespark OutOfMemory SparkStreaming

如何使用scala从apache Spark中的kafka主题读取json数据

我是新的 Spark 您能否让我知道如何使用 scala 从 apache Spark 中的 kafka 主题读取 json 数据 Thanks 最简单的方法是使用 Spark 附带的 DataFrame 抽象 val sqlContext

scala apachespark ApacheKafka SparkStreaming

SparkContext.getOrCreate() 用途

目的是什么getOrCreate方法来自SparkContext班级我不明白什么时候应该使用这个方法如果我有 2 个 Spark 应用程序运行spark submit 在主要方法中我用以下方法实例化 Spark 上下文SparkCon

apachespark PySpark apachesparksql SparkStreaming