Spark Streaming：跨批次缓存 DStream 结果

2023-12-15

使用 Spark Streaming (1.6)，我有一个文件流，用于读取批量大小为 2 秒的查找数据，但是文件仅每小时复制到目录中。
一旦有新文件，它的内容就会被流读取，这就是我想要缓存到内存中并保留在那里的内容直到读取新文件。
我想加入这个数据集的另一个流，因此我想缓存。

这是一个后续问题Spark流式批量查找数据.
答案确实适用于updateStateByKey但是我不知道如何处理 KV 对的情况deleted从查找文件中，作为值的序列updateStateByKey不断增长。还有任何关于如何做到这一点的提示mapWithState会很好。

这是我到目前为止所尝试的，但数据似乎没有被持久化：

val dictionaryStream = ssc.textFileStream("/my/dir")
dictionaryStream.foreachRDD{x => 
  if (!x.partitions.isEmpty) {
    x.unpersist(true)
    x.persist()
  }
}

DStreams可以直接使用持久化persist持久化流中每个 RDD 的方法：

dictionaryStream.persist

根据官方文档这自动适用于

基于窗口的操作，例如reduceByWindow and reduceByKeyAndWindow以及基于状态的操作，例如updateStateByKey

所以在你的情况下应该不需要显式缓存。也不需要手动取消持久化。去引用the docs再次：

默认情况下，所有输入数据和 DStream 转换生成的持久化 RDD 都会自动清除

并且保留期会根据管道中使用的转换自动调整。

关于mapWithState你必须提供一个StateSpec。一个最小的例子需要一个函数，它需要key, Option当前的value和之前的状态。假设你有DStream[(String, Long)]并且您想记录到目前为止的最大值：

val state = StateSpec.function(
  (key: String, current: Option[Double], state: State[Double]) => {
    val max  = Math.max(
      current.getOrElse(Double.MinValue),
      state.getOption.getOrElse(Double.MinValue)
    )
    state.update(max)
    (key, max)
  }
)

val inputStream: DStream[(String, Double)] = ??? 
inputStream.mapWithState(state).print()

还可以提供初始状态、超时间隔并捕获当前批处理时间。最后两个可用于对一段时间内未更新的密钥实施删除策略。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark Streaming：跨批次缓存 DStream 结果的相关文章

如何区分spark中的操作是转换还是动作？

最近在学习spark 对transformation和action操作很困惑我阅读了spark文档和一些关于spark的书籍我知道action会导致spark作业在集群中执行而transformation则不会但是spark的api
如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

这可能是一个愚蠢的问题源于我的无知我已经在 PySpark 上工作了几个星期并没有太多的编程经验我的理解是在 Spark 中 RDD 数据帧和数据集都是不可变的我再次理解这意味着您无法更改数据如果是这样为什么我们能够使用编
这个错误是什么意思（SimpleHttpConnectionManager 被错误使用）？

我正在尝试从 ElasticSearch 中读取数据到 Spark conf es resource sflow sflow es nodes ES01 es query some query rdd sc newAPIHadoopRDD
mssql 的 UUID 疯狂

我的数据库条目有一个 UUID 及其值使用 Microsoft SQL Server Management Studio 提取 CDF86F27 AFF4 2E47 BABB 2F46B079E98B 将其加载到我的 Scala 应用程序
我需要比较两个数据帧以进行类型验证并发送非零值作为输出

我正在比较两个数据帧基本上这些是两个不同数据源的模式一个来自 hive 另一个来自 SAS9 2 我需要验证两个数据源的结构因此我将模式转换为两个数据帧它们是 SAS 架构将采用以下格式 scala gt metadata sho
JavaFX 控制器如何访问其他服务？

我将 JavaFX 2 与 Scala 一起使用我有class Application extends javafx application Application它执行诸如读取应用程序配置等操作然后它会启动主窗口该主窗口需要连接到一
SQL 类似于 PySpark 数据帧的 NOT IN 子句

例如在 SQL 中我们可以这样做select from table where col1 not in A B 我想知道是否有一个与此等效的 PySpark 我能够找到isin类似于 SQL 的函数IN条款但没有任何内容NOT IN
Scala Play 2.3 IntelliJ 14 *社区版 - 是否可以在没有命令行激活器命令的情况下运行项目

From http blog jetbrains com scala 2012 12 28 a new way to compile http blog jetbrains com scala 2012 12 28 a new way to
如何使用 monocle 修改嵌套映射和 scala 中的另一个字段

我第一次尝试单片眼镜这是案例类 case class State mem Map String Int pointer Int 当前的修改使用标准 scala 我想做 def add1 s State gt s copy mem s m
Scala：折叠与折叠左

我试图了解fold 和foldLeft 以及各自的reduce 和reduceLeft 如何工作我使用 Fold 和 FoldLeft 作为示例 scala gt val r List ArrayBuffer 1 2 3 4 10 sca
如何使用数据集进行分组

我有一个使用rdd的请求 val test Seq New York Jack Los Angeles Tom Chicago David Houston John Detroit Michael Chicago Andrew Detroi
在 Scala 中实现“.clone”

我正在想办法 clone我自己的对象在 Scala 中这是为了模拟因此可变状态是必须的由此产生了克隆的全部需要在提前模拟时间之前我将克隆整个状态结构这是我目前的尝试 abstract trait Cloneable A See
Scala变量作用域问题

我有一个 scala 语法问题假设我有一个简单的依赖模式构造如下所示 trait Master val foobar object SubObject extends SubObject foobar foobar trait SubO
IntelliJ、Akka 和配置文件

使用时akka http akka io 我放置akka conf in src main resources 当我run通过 sbt akka conf被正确识别但当我运行 IntelliJ 时却没有即使在gen idea 实现这一目
结构化流式自定义重复数据删除

我有一个从 kafka 进入 dataFrame 的流数据我想根据 Id 删除重复项并根据时间戳保留最新记录样本数据是这样的 Id Name count timestamp 1 Vikas 20 2018 09 19T10 10 10
如何创建独立的电梯 Web 应用程序？

如何制作独立的电梯应用程序使用哪些工具库与在某些应用程序服务器中使用 lift 应用程序作为战争相比性能如何使用 onejar maven 插件http onejar maven plugin googlecode com svn
Shapeless 中 TypeClass 特征的 emptyCoproduct 和 coproduct 方法的用途是什么

我并不完全清楚这样做的目的是什么emptyCoProduct and coproduct的方法TypeClass无形中的特质什么时候会使用TypeClass特质而不是ProductTypeClass 这两种方法的实施方式有哪些示例假设我
在 Spark 流/结构化流中读取来自 Kafka 的 avro 消息

我是第一次使用 pyspark 火花版本 2 3 0 卡夫卡版本 2 2 0 我有一个kafka生产者它以avro格式发送嵌套数据我正在尝试在pyspark中的spark streaming 结构化流中编写代码它将把来自kafka的a
Akka Stream Kafka 与 Kafka Streams

我目前正在与Akka 流卡夫卡 http doc akka io docs akka stream kafka current home html与卡夫卡互动我想知道与卡夫卡有什么区别卡夫卡流 https kafka apache org
需要以下 scala 片段的简单英语翻译

我是 scala 和 playframework 的新手有人可以将下面的代码片段翻译成简单的英语吗对于上下文可以在这里找到 http www playframework org documentation 2 0 4 ScalaSec

随机推荐

将 LocalDate 转换为 LocalDateTime 或 java.sql.Timestamp

我正在使用 JodaTime 1 6 2 我有一个LocalDate我需要转换为 Joda LocalDateTime or a java sqlTimestamp用于或映射这样做的原因是我已经弄清楚如何在LocalDateTime an
比较 2 个 JSON 对象 [重复]

这个问题在这里已经有答案了可能的重复 JavaScript 中的对象比较是否有任何方法可以接受 2 个 JSON 对象并比较这两个对象以查看是否有任何数据发生更改 Edit 审查完评论后需要进行一些澄清 JSON 对象定义为一组无序
Flask 在请求之前获取 url 变量？

在 Flask 中我有带有变量的 url 规则例如 my blueprint add url rule
为 iOS 7 编译 x264

我在为 iOS 编译 x264 时遇到错误我有 Xcode 版本 5 0 5A1413 和 Apple LLVM 版本 5 0 clang 500 2 75 基于 LLVM 3 3svn 我正在编译 x264 snapshot 20130
PHPhotoLibrary 保存 gif 数据

我在新的 PHPhotoLibrary 中找不到与 ALAssetsLibrary gt writeImageDataToSavedPhotosAlbum 类似的方法因为 ALAssetsLibrary 在 iOS 9 中已弃用我无法保
组合 git `continue` 命令

我可能需要以不同的方式运行 git rebase continue git cherry pick continue git revert continue 在每种情况下我的命令行都会提醒我我正处于中间状态 rebase cp reve
如何在audio_service flutter中传递和播放播放列表中特定队列位置的媒体项目？

我正在使用颤动音频服务 and 只是音频音乐播放器包我想在初始化音乐播放器时播放播放列表中特定队列位置的媒体项目当我调用 AudioService start 方法时它始终播放播放列表的第一项当我启动音频服务时如何传递并播放播放列
读取文件的前 4 个字节

我习惯了 C 但我试图制作一个将前 4 个字节读入数组的应用程序但我没有成功我还需要反转文件的 Endian 我不知道在 Java 中如何在 C 中是这样Array Reverse bytes 我尝试将文件读入 Int32 但由于某种
Gradle sonarqube 无法识别常规测试

我有一个多语言项目使用 Java JUnit 和 Groovy Spock 实现测试 plugins id org sonarqube version 2 2 1 apply plugin idea apply plugin java a
Jquery - IE 未实现错误（在 IE 8 中）

我遇到了 IE 未实现 JavaScript 错误它似乎与我到目前为止在该网站上阅读的内容没有任何关系我使用 jquery simplemodal 插件它在除 IE 之外的所有浏览器中都可以正常工作除非我将 doctype 更改为
如何在卸载时应用 Msi 转换？

我正在尝试修复已发布的基于 Windows Installer 的设置该修复针对卸载软件包时发生的错误为此我想提供一个在卸载之前应用的 mst 转换文件产品安装后是否可以使用转换或者可以在卸载开始之前将转换应用于已安装的 msi
如何在 OpenCV Java 中从 HoughLines 变换检测矩形

我知道这是重复的帖子但仍然在实施过程中陷入困境我遵循互联网上的一些指南了解如何使用 OpenCV 和 Java 检测图像中的文档我想出的第一个方法是在预处理一些图像处理如模糊边缘检测后使用 findContours 在获得所有
`print_r($mysqli,1)` 更改 `$mysqli->affected_rows`

我正在使用用户断言函数例如 debug assert gettype ob object Not an object pre print r ob 1 pre or exit 但我发现 print r 在调用 mysqli 时更改了 my
如何从SSIS包向SSRS报告传递参数？

我正在编写我的第一个 SSIS pkg 但我陷入了困境任何见解将不胜感激我正在运行一个 sql 代理作业来启动 SSRS 报告该作业是通过预定订阅生成的此报告依赖于 2 个存储过程它们需要参数何时日期类型并将报告的 PDF
查询在 phpmyadmin 中有效，但在 PHP 脚本中无效

我发现了类似的问题但还不能解决我的问题这是相关代码 query SELECT FROM conceptos WHERE descripcion descripcion if result mysql query query connec
如何确定 .NET 程序集是否是使用目标平台 AnyCPU、AnyCPU Prefer32 位、x86、x64 构建的，而不使用反射和第三方软件

我对如何通过正确读取 PE 标头直接从文件中读取程序集平台目标信息的方式感兴趣我知道可以将程序集加载到新的中AppDomain by Assembly ReflectionOnlyLoad rawAssembly 并通过以下方式进行调查a
向 MVC3 添加视图时出现异常

我正在使用 Visual Studio 2012 Express for Web 当我尝试添加视图时出现错误 The templates had the following 1 error s C Program Files Micros
JAXB 绑定 - “无法执行此转换自定义”

我在架构中有自己的复杂类型应该查看XML像这样的东西
使用 f 字符串输出 LaTeX 符号

请耐心等待因为我不太明白 f 字符串的可能用途和不可能用途取代码 pi 3 14159265 print f pi on 2 decimals is pi 2f 显然输出 pi on 2 decimals is 3 14 是否有可能得到
Spark Streaming：跨批次缓存 DStream 结果

使用 Spark Streaming 1 6 我有一个文件流用于读取批量大小为 2 秒的查找数据但是文件仅每小时复制到目录中一旦有新文件它的内容就会被流读取这就是我想要缓存到内存中并保留在那里的内容直到读取新文件我想加入这个数

Spark Streaming：跨批次缓存 DStream 结果

Spark Streaming：跨批次缓存 DStream 结果 的相关文章

随机推荐

热门标签

Spark Streaming：跨批次缓存 DStream 结果的相关文章