Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何计算 Spark 中数据帧的大小(以字节为单位)?
我想编写一个带有重新分区的大型数据帧 因此我想计算源数据帧的重新分区数 numberofpartition size of dataframe default blocksize 如何计算数据帧大小 以字节为单位 Usingspark se
scala
apachespark
apachesparksql
size
SparkStreaming
Spark Streaming:接收器故障后如何不重新启动接收器
我们正在使用自定义 Spark 接收器 它从提供的 http 链接读取流数据 如果提供的http链接不正确 则接收失败 问题是spark会不断重启接收器 并且应用程序永远不会终止 问题是如果接收器失败 如何告诉 Spark 终止应用程序 这
Spark RDD 块在使用前被移除
我正在使用 Future 对 RDD 执行阻塞操作 如下所示 dStreams foreach foreachRDD rdd gt Future writeRDD rdd 有时我会收到此错误 org apache spark SparkEx
scala
apachespark
SparkStreaming
Scala Spark - 处理层次结构数据表
我有带有树结构的层次结构数据模型的数据表 例如 这是一个示例数据行 Id name parentId path depth 55 Canada null null 0 77 Ontario 55 55 1 100 Toronto 77 55
scala
apachespark
apachesparksql
SparkStreaming
Spark Streaming:长排队/活动批次
谁能指出这些活跃批次挂在那里数周且从未得到处理的原因是什么 多谢 我的猜测是执行者不够 更多的工人 执行者会解决问题吗 或者 Spark 在其任务调度程序中为不同批次分配优先级 但这里的情况是 最近的批次 6 月底 已成功处理 但 5 月份
apachespark
batchprocessing
SparkStreaming
将 Dataframe 存储到 Spark 中的 Hive 分区表
我正在尝试将从 kafka 主题传入的数据流存储到配置单元分区表中 我能够将 dstream 转换为数据帧并创建一个配置单元上下文 我的代码看起来像这样 val hiveContext new HiveContext sc hiveCont
Hadoop
hive
SparkStreaming
火花提交:--jars 不起作用
我正在为 Spark Streaming 作业构建指标系统 在系统中 指标是在每个执行器中收集的 因此需要在每个执行器中初始化指标源 用于收集指标的类 指标源被打包在一个jar中 提交作业时 使用参数 jars 将jar从本地发送到每个执行
apachespark
SparkStreaming
保留 Spark Streaming 输出
我正在从消息传递应用程序收集数据 我目前正在使用 Flume 它每天发送大约 5000 万条记录 我想用卡夫卡 使用 Spark Streaming 从 Kafka 消费 并将其保存到 hadoop 并使用 impala 进行查询 我尝试过
Hadoop
ApacheKafka
SparkStreaming
Apache Zeppelin 0.6.1:运行 Spark 2.0 Twitter Stream 应用程序
我有一个安装了 Spark 2 0 和 Zeppelin 0 6 1 的集群 自从上课以来TwitterUtils scala从 Spark 项目移至 Apache Bahir 我无法再在我的 Zeppelin 笔记本中使用 Twitter
scala
apachespark
SparkStreaming
twitter4j
apachezeppelin
EC2 上的 Spark Streaming:线程“main”中出现异常 java.lang.ExceptionInInitializerError
我正在尝试在我创建的 jar 文件上运行 Spark submit 当我在我的计算机上本地运行它时 它可以正常工作 但当部署到 Amazon EC2 上时 它会返回以下错误 root ip 172 31 47 217 bin spark s
scala
Maven
amazonec2
apachespark
SparkStreaming
Spark Streaming:输入速率和文件流 [0] 始终具有“平均:0.00 个事件/秒”
我正在使用 Spark 1 5 2 运行 代码如下 它定期正确打印计数 但在 Spark Streaming UI 中 输入速率和文件流 0 始终具有 平均 0 00 个事件 秒 注意 每个文件包含一行 其中包含 json 字符串 我也尝试
apachespark
SparkStreaming
如何使用 Spark 数据框评估 Spark Dstream 对象
我正在编写一个 Spark 应用程序 我需要根据历史数据评估流数据 这些数据位于 SQL Server 数据库中 现在的想法是 spark 将从数据库中获取历史数据并将其保存在内存中 并根据它评估流数据 现在我得到的流数据为 import
apachespark
PySpark
SparkStreaming
Spark 流异常:java.util.NoSuchElementException:None.get
我在写信SparkStreaming通过将数据转换为数据帧来将数据传输到 HDFS Code object KafkaSparkHdfs val sparkConf new SparkConf setMaster local setAppN
apachespark
Hadoop
ApacheKafka
apachesparksql
SparkStreaming
使用 Spark 从 Azure Blob 读取数据
我在通过 Spark Streaming 从 azure blob 读取数据时遇到问题 JavaDStream
Java
Azure
apachespark
azureblobstorage
SparkStreaming
Spark Streaming + Kafka:SparkException:无法找到 Set 的领导者偏移量
我正在尝试设置 Spark Streaming 以从 Kafka 队列获取消息 我收到以下错误 py4j protocol Py4JJavaError An error occurred while calling o30 createDi
apachespark
ApacheKafka
SparkStreaming
Spark Streaming 2.0.0 - 在负载下几天后冻结
我们在带有 Spark 2 0 0 的 AWS EMR 5 0 0 上运行 从 125 个分片 Kinesis 流中使用 使用 2 个消息生成器提供 19k 个事件 秒 每条消息大小约为 1k 使用 20 台机器组成的集群进行消费 该代码有
apachespark
SparkStreaming
具有合成时间戳的 Spark 窗口函数?
假设我有一个包含记录的数据文件 其中每个记录都有一个时间戳 如下所示 foo bar blaz timestamp1 foo flibble baz timestamp2 bleh foo gnarly timestamp3 我想使用 Sp
Java
Stream
apachespark
SparkStreaming
Spark Streaming中如何处理旧数据并删除处理后的数据
我们正在运行一个 Spark 流作业 从目录中检索文件 使用 textFileStream 我们担心的一个问题是作业已停止但文件仍在添加到目录中的情况 一旦作业再次启动 这些文件就不会被拾取 因为它们在作业运行时不是新的或已更改 但我们希望
apachespark
SparkStreaming
Spark-submit 类路径问题与 --repositories --packages 选项
我在一个独立的集群中运行 Spark 其中 Spark master worker 并在自己的 Docker 容器中提交每次运行 When spark submit我的 Java 应用程序 repositories and packages
apachespark
ApacheKafka
SparkStreaming
2 个具有相同消费者组 ID 的 Spark Stream 作业
我正在尝试对消费者群体进行实验 这是我的代码片段 public final class App private static final int INTERVAL 5000 public static void main String ar
apachespark
ApacheKafka
SparkStreaming
«
1
2
3
4
5
6
7
...9
»