Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
Spark Streaming mapWithState 超时延迟?
我预计 Spark 1 6 的新 mapWithState API 能够几乎立即删除超时的对象 但存在延迟 我正在使用改编版本测试 APIJavaStatefulNetworkWordCount https github com apach
Java
apachespark
timeout
SparkStreaming
Spark Streaming - java.io.IOException:租赁超时 0 秒已过期
我有 Spark Streaming 应用程序 使用 HDFS 上的检查点写入 有谁知道解决方案吗 之前我们使用 kinit 来指定主体和密钥表 并得到了通过以下方式指定这些的建议spark submit命令代替kinit但仍然出现此错误并
apachespark
HDFS
SparkStreaming
kerberos
Cloudera
Spark Streaming窗口操作
以下是获取窗口大小为 30 秒 幻灯片大小为 10 秒的字数统计的简单代码 import org apache spark SparkConf import org apache spark streaming import org apa
scala
Distributed
apachespark
SparkStreaming
规则引擎在 Azure 上的流分析中意味着什么?
我是 Azure 和分析的新手 我正在尝试了解流式警报规则引擎 我使用了一些示例数据作为输入 并有查询来过滤数据 但我不确定什么rules engine意思是 它只是查询还是还有更多的东西 有没有一种方法我们可以将所有规则集中在一个如果是的
Azure
Streaming
SparkStreaming
RuleEngine
azurestreamanalytics
Spark 文件流问题
我正在尝试使用 Spark Streaming 的简单文件流示例 spark streaming 2 10 版本 1 5 1 public class DStreamExample public static void main final
apachespark
SparkStreaming
Spark Worker 关闭 - 如何释放共享资源
Spark手册中推荐使用共享静态资源 例如连接池 在工作代码内 示例来自manual http spark apache org docs latest streaming programming guide html design pat
apachespark
SparkStreaming
foreachRDD是在Driver上执行的吗?
我正在尝试使用 Spark Streaming 处理 JMS 队列 QPID 上收到的一些 XML 数据 将 xml 作为 DStream 获取后 我将它们转换为 Dataframe 这样我就可以将它们与已加载的 Dataframe 形式的
apachespark
SparkStreaming
准备批处理语句,将spark-streaming生成的所有rdd存储到mysql
我正在尝试使用 Spark streaming 将 Dstream 生成的批量 RDD 插入到 mysql 中 以下代码工作正常 但问题是我正在创建一个连接来存储每个元组 因此 为了避免我在 foreachRDD 之外创建连接 但它给了我以
mysql
apachespark
SparkStreaming
AbstractMethodError 创建 Kafka 流
我正在尝试使用以下命令打开 Kafka 尝试过版本 0 11 0 2 和 1 0 1 流createDirectStream方法并收到此 AbstractMethodError 错误 Exception in thread main jav
scala
apachespark
ApacheKafka
SparkStreaming
具有流源的查询必须使用 writeStream.start();; 执行
我正在尝试使用 Spark 结构化流从 Kafka 读取数据并预测传入数据 我正在使用使用 Spark ML 训练过的模型 val spark SparkSession builder appName Spark SQL basic exa
Spark 结构化流 - 对不同的 GroupBy 键使用不同的 Windows
目前 我通过 Spark 结构化流媒体读取 Kafka 主题后得到了下表 key timestamp value key1 2017 11 14 07 50 00 0000 10 key1 2017 11 14 07 50 10 0000
scala
apachespark
apachesparksql
SparkStreaming
Spark 流上的 SQL
这是通过 Spark Streaming 运行简单 SQL 查询的代码 import org apache spark streaming Seconds StreamingContext import org apache spark s
apachespark
SparkStreaming
如何设置具有不同批处理持续时间的多个 Spark Streaming 作业?
我们正处于转变大型企业当前数据架构的开始阶段 我目前正在构建一个 Spark Streaming ETL 框架 在该框架中我们将所有源连接到目的地 源 目的地可以是 Kafka 主题 Flume HDFS 等 通过转换 这看起来像 Spar
Hadoop
apachespark
SparkStreaming
_spark_metadata 导致问题
我将 Spark 与 Scala 一起使用 并且我有一个目录 其中有多个文件 在这个目录中 我有 Spark 生成的 Parquet 文件和 Spark Streaming 生成的其他文件 并且Spark Streaming生成一个目录 s
scala
apachespark
SparkStreaming
Pyspark应用foreach
我是 Pyspark 的菜鸟 我假装玩了一下几个函数 以更好地理解如何在更现实的场景中使用它们 有一段时间 我尝试对 RDD 中的每个数字应用特定的函数 我的问题基本上是 当我尝试打印从 RDD 中获取的内容时 结果是 None My co
apachespark
PySpark
SparkStreaming
Spark Streaming - 根据按键分组的键值对计算统计信息
背景 我正在使用 Spark Streaming 从 Kafka 流式传输事件 这些事件采用逗号分隔键值对的形式 以下是事件如何流入我的 Spark 应用程序的示例 Key1 Value1 Key2 Value2 Key3 Value3 K
scala
apachespark
SparkStreaming
build.sbt:如何添加spark依赖项
你好我正在尝试下载spark core spark streaming twitter4j and spark streaming twitter在下面的 build sbt 文件中 name hello version 1 0 scala
scala
apachespark
sbt
SparkStreaming
Spark Streaming:跨批次缓存 DStream 结果
使用 Spark Streaming 1 6 我有一个文件流 用于读取批量大小为 2 秒的查找数据 但是文件仅每小时复制到目录中 一旦有新文件 它的内容就会被流读取 这就是我想要缓存到内存中并保留在那里的内容 直到读取新文件 我想加入这个数
scala
apachespark
SparkStreaming
Spark Streaming update_state_by_keys 用于数组聚合
我有如下输入行 t1 文件1 1 1 1 t1 文件 1 1 2 3 t1 文件2 2 2 2 2 t2 文件 1 5 5 5 t2 文件2 1 1 2 2 输出如下所示 是相应数字的垂直相加 文件1 1 1 2 5 1 3 5 文件2 2
scala
apachespark
SparkStreaming
如何将非流文件加入DStream?
我想将 DStream 中的每个 RDD 与非流式 不变的参考文件连接起来 这是我的代码 val sparkConf new SparkConf setAppName LogCounter val ssc new StreamingCont
apachespark
SparkStreaming
«
1 ...
3
4
5
6
7
8
9
»