Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
非时间戳列上的 Spark 结构化流窗口
我收到以下形式的数据流 id timestamp val xxx 1 12 15 25 50 1 2 12 15 25 30 1 3 12 15 26 30 2 4 12 15 27 50 2 5 12 15 27 30 3 6 12 15
Jupyter Notebook 上未显示结构化流输出
我有两个笔记本 第一个笔记本正在使用 tweepy 从 twitter 读取推文并将其写入套接字 其他笔记本正在使用 Spark 结构化流 Python 从该套接字读取推文并将其结果写入控制台 不幸的是我没有在 jupyter 控制台上得到
HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序
我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind
Hadoop
SparkStreaming
hadoopyarn
ResourceManager
纱线堆的使用量随着时间的推移而增长
我们在 AWS EMR 上运行 Spark Streaming 作业 该作业将稳定运行 10 到 14 小时 然后崩溃 并且 stderr stdout 或 Cloudwatch 日志中没有明显错误 在此崩溃之后 任何重新启动作业的尝试都将
apachespark
heapmemory
SparkStreaming
hadoopyarn
amazonemr
Spark流吞吐量监控
有没有办法监控 Spark 集群的输入和输出吞吐量 以确保集群不会被传入数据淹没和溢出 就我而言 我在 AWS EC2 上设置了 Spark 集群 所以我正在考虑使用AWS 云观察来监控网络输入 and 网络输出对于集群中的每个节点 但我的
performance
apachespark
monitoring
SparkStreaming
amazoncloudwatch
Spark Streaming 中的 ML 模型更新
我通过 Spark 批处理作业在 HDFS 中保留了机器学习模型 并且我在 Spark 流中使用它 基本上 ML 模型从 Spark Driver 广播到所有执行器 有人可以建议我如何在不停止 Spark Streaming 作业的情况下实
SparkStreaming
apachesparkml
执行器失败后 Spark 无法在 HDFS 中找到检查点数据
我从 Kafka 传输数据如下 final JavaPairDStream
apachespark
SparkStreaming
sparkcheckpoint
Spark Streaming:如何在 Python 中获取已处理文件的文件名
我对 Spark 老实说也是 Python 有点菜鸟 所以如果我错过了一些明显的东西 请原谅我 我正在使用 Spark 和 Python 进行文件流处理 在我做的第一个示例中 Spark 正确地侦听给定目录并计算文件中单词的出现次数 因此我
python
SparkStreaming
使用 Spark 结构化流进行实时数据标准化/归一化
在实现机器学习算法时 标准化 归一化数据即使不是关键 也是至关重要的一点 使用 Spark 结构化流以实时方式执行此操作是过去几周我一直试图解决的问题 使用StandardScaler估计器 value i mean standard de
在 HDP 2.2 上运行 Spark Streaming 作业时出现 NoSuchMethodError
我正在尝试在 HDP 2 2 Sandbox 上运行简单的流作业 但面临 java lang NoSuchMethodError 错误 我可以在这台机器上运行 SparkPi 示例 没有任何问题 以下是我正在使用的版本
scala
apachespark
hortonworksdataplatform
SparkStreaming
DStream 在一个批处理间隔内生成多少个 RDD?
是否生成一批间隔的数据一个且唯一一个DStream中的RDD不管数据量有多大 是的 每个批次间隔恰好有一个 RDD 在每个批次间隔生成 与记录数量无关 包含在 RDD 中 内部可能有零条记录 如果没有 并且 RDD 创建以元素数量为条件 则
apachespark
SparkStreaming
地图功能中的条件
Scala 有没有类似的东西 condition first expression second expression 我可以在scala中的map函数中使用它吗 我希望能够写出这样的东西 val statuses tweets map s
scala
apachespark
SparkStreaming
mapfunction
与查找数据集连接后进行多列值查找
我正在使用spark sql 2 4 1v如何根据列的值进行各种连接 我需要获得多个查找值map val给定值列的列 如下所示 样本数据 val data List 20 score school 2018 03 31 14 12 21 s
scala
apachespark
apachesparksql
SparkStreaming
Spark 结构化流 - 从嵌套目录读取文件
我有一个客户端将 CSV 文件放置在嵌套目录中 如下所示 我需要实时读取这些文件 我正在尝试使用 Spark 结构化流来做到这一点 Data user data 1 csv user data 2 csv user data 3 csv u
apachespark
SparkStreaming
如何从迭代器创建 Spark RDD?
为了说清楚 我不是从像这样的数组 列表中寻找RDD List
apachespark
SparkStreaming
在pyspark中读取json文件
我是 PySpark 的新手 下面是来自 kafka 的 JSON 文件格式 header platform atm version 2 0 details abc 3 def 4 abc 5 def 6 abc 7 def 8 我怎样才能
apachespark
PySpark
SparkStreaming
结合 Spark Streaming + MLlib
我尝试使用随机森林模型来预测示例流 但似乎我无法使用该模型对示例进行分类 这是pyspark中使用的代码 sc SparkContext appName App model RandomForest trainClassifier trai
python
apachespark
PySpark
SparkStreaming
apachesparkmllib
Spark清理shuffle溢出到磁盘
我有一个循环操作 它生成一些 RDD 进行重新分区 然后进行聚合键操作 循环运行一次后 它会计算出最终的 RDD 该 RDD 会被缓存和检查点 并用作下一次循环的初始 RDD 这些 RDD 非常大 并且在每次迭代到达最终 RDD 之前都会生
scala
apachespark
OutOfMemory
SparkStreaming
如何使用scala从apache Spark中的kafka主题读取json数据
我是新的 Spark 您能否让我知道如何使用 scala 从 apache Spark 中的 kafka 主题读取 json 数据 Thanks 最简单的方法是使用 Spark 附带的 DataFrame 抽象 val sqlContext
scala
apachespark
ApacheKafka
SparkStreaming
SparkContext.getOrCreate() 用途
目的是什么getOrCreate方法来自SparkContext班级 我不明白什么时候应该使用这个方法 如果我有 2 个 Spark 应用程序运行spark submit 在主要方法中 我用以下方法实例化 Spark 上下文SparkCon
apachespark
PySpark
apachesparksql
SparkStreaming
1
2
3
4
5
6
...9
»