Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
如何在启动Spark Streaming进程时加载历史数据,并计算运行聚合
我的 ElasticSearch 集群中有一些与销售相关的 JSON 数据 我想使用 Spark Streaming 使用 Spark 1 4 1 通过 Kafka 动态聚合来自我的电子商务网站的传入销售事件 以获得用户总金额的当前视图销售
流式 pyspark 应用程序中的连接池
在流式 pyspark 应用程序中使用连接池的正确方法是什么 我通读了https forums databricks com questions 3057 how to reuse database session object creat
python
apachespark
PySpark
connectionpooling
SparkStreaming
为什么sbt找不到KafkaUtils?
我在使用 SBT 编译的代码 来自 Kafka 的 wordCount 中出现此错误 error home hduser sbt project project1 src main scala sparkKafka scala 4 35 o
scala
apachespark
ApacheKafka
sbt
SparkStreaming
“AssertionError:断言失败:不安全符号不稳定”是什么意思?
我正在使用带有 Java 8 的 Spark sql 2 4 1 版本 I have raw df列 eventTs 是长数据类型的时间戳 我正在尝试将其转换回时间戳 如下所示 Dataset
apachespark
apachesparksql
SparkStreaming
从 Spark 转换函数中动态读取 HDFS 文件
如何在 Spark 函数中读取 HDFS 中的文件而不在函数中使用 SparkContext Example val filedata rdd rdd map x gt ReadFromHDFS x getFilePath 问题是如何实现
apachespark
SparkStreaming
在 Spark 2.3.0 的结构化流中禁用 _spark_metadata
我的结构化流应用程序正在写入镶木地板 我想摆脱它创建的 spark metadata 文件夹 我使用了下面的属性 看起来不错 conf spark hadoop parquet enable summary metadata false 当
如何使用直接流在Kafka Spark Streaming中指定消费者组
如何使用直接流 API 为 kafka Spark 流指定消费者组 ID HashMap
Java
apachespark
ApacheKafka
SparkStreaming
kafkaconsumerapi
Spark Streaming Kafka 流
我在尝试使用 Spark Streaming 读取 kafka 时遇到一些问题 我的代码是 val sparkConf new SparkConf setMaster local 2 setAppName KafkaIngestor val
apachespark
ApacheKafka
SparkStreaming
sparkstreamingkafka
Kafka Spark directStream无法获取数据
我正在使用 Spark directStream api 从 Kafka 读取数据 我的代码如下 val sparkConf new SparkConf setAppName testdirectStreaming val sc new S
apachespark
ApacheKafka
SparkStreaming
Spark SQL + Window + Streaming 问题 - 使用 Spark Streaming 运行时,Spark SQL 查询执行时间较长
我们期待使用 Spark Streaming 带有 Flume 和带有窗口的 Spark SQL 来实现一个用例 使我们能够对一组数据执行 CEP 计算 有关如何捕获和使用数据的信息 请参阅下文 这个想法是使用 SQL 来执行一些符合某些条
apachespark
apachesparksql
SparkStreaming
apachespark13
具有自定义接收器的 Spark 结构化流中的输入行数
我在结构化流 spark 2 2 0 中使用自定义接收器 并注意到 Spark 为输入行数生成了错误的指标 它始终为零 我的流构建 StreamingQuery writeStream session readStream schema R
apachespark
apachesparksql
SparkStreaming
SparkStructuredStreaming
Spark 广播变量 Map 给出 null 值
我正在使用 java8 和 Spark v2 4 1 我正在尝试使用广播变量Map查找使用如下所示 输入数据 code1 code2 code3 1 7 5 2 7 4 3 7 3 4 7 2 5 7 1 预期输出 code1 code2
Java
apachespark
apachesparksql
SparkStreaming
Pyspark - 在结构化流上应用自定义函数
我有 4 列 clienttimestamp sensor id activity incidents 从 kafka 流中 我在窗口中消费数据 预处理和聚合 如果我使用 count 进行 groupby 操作 则该流可以很好地在控制台中写
apachespark
PySpark
Bigdata
SparkStreaming
SparkStructuredStreaming
在 Spark mapPartitions 中使用 Java 8 并行流
我试图了解 Spark 并行性中 Java 8 并行流的行为 当我运行下面的代码时 我期望输出大小为listOfThings与输入大小相同 但事实并非如此 我的输出中有时会缺少一些项目 这种行为并不一致 如果我只是遍历迭代器而不是使用par
apachespark
parallelprocessing
java8
SparkStreaming
Spark Streaming mapWithState 超时延迟?
我预计 Spark 1 6 的新 mapWithState API 能够几乎立即删除超时的对象 但存在延迟 我正在使用改编版本测试 APIJavaStatefulNetworkWordCount https github com apach
Java
apachespark
timeout
SparkStreaming
Spark Streaming - java.io.IOException:租赁超时 0 秒已过期
我有 Spark Streaming 应用程序 使用 HDFS 上的检查点写入 有谁知道解决方案吗 之前我们使用 kinit 来指定主体和密钥表 并得到了通过以下方式指定这些的建议spark submit命令代替kinit但仍然出现此错误并
apachespark
HDFS
SparkStreaming
kerberos
Cloudera
Spark Streaming窗口操作
以下是获取窗口大小为 30 秒 幻灯片大小为 10 秒的字数统计的简单代码 import org apache spark SparkConf import org apache spark streaming import org apa
scala
Distributed
apachespark
SparkStreaming
规则引擎在 Azure 上的流分析中意味着什么?
我是 Azure 和分析的新手 我正在尝试了解流式警报规则引擎 我使用了一些示例数据作为输入 并有查询来过滤数据 但我不确定什么rules engine意思是 它只是查询还是还有更多的东西 有没有一种方法我们可以将所有规则集中在一个如果是的
Azure
Streaming
SparkStreaming
RuleEngine
azurestreamanalytics
Spark 文件流问题
我正在尝试使用 Spark Streaming 的简单文件流示例 spark streaming 2 10 版本 1 5 1 public class DStreamExample public static void main final
apachespark
SparkStreaming
Spark Worker 关闭 - 如何释放共享资源
Spark手册中推荐使用共享静态资源 例如连接池 在工作代码内 示例来自manual http spark apache org docs latest streaming programming guide html design pat
apachespark
SparkStreaming
«
1
2
3
4
5
6
7
8
9
»