如何在spark Streaming中定期更新rdd

2024-06-18

我的代码是这样的：

sc = SparkContext()
ssc = StreamingContext(sc, 30)

initRDD = sc.parallelize('path_to_data')
lines = ssc.socketTextStream('localhost', 9999)
res = lines.transform(lambda x: x.join(initRDD))

res.pprint()

我的问题是initRDD需要每天半夜更新.

我尝试这样：

sc = SparkContext()
ssc = StreamingContext(sc, 30)

lines = ssc.socketTextStream('localhost', 9999)


def func(rdd):
    initRDD = rdd.context.parallelize('path_to_data')
    return rdd.join(initRDD)


res = lines.transform(func)

res.pprint()

但似乎initRDD每 30 秒更新一次，与batchDuration

有没有什么好的理想

一种选择是在截止日期之前检查是否有截止日期transform。该检查是一个简单的比较，因此在每个批次间隔进行检查很便宜：

def nextDeadline() : Long = {
  // assumes midnight on UTC timezone.
  LocalDate.now.atStartOfDay().plusDays(1).toInstant(ZoneOffset.UTC).toEpochMilli()
}
// Note this is a mutable variable!
var initRDD = sparkSession.read.parquet("/tmp/learningsparkstreaming/sensor-records.parquet")
// Note this is a mutable variable!
var _nextDeadline = nextDeadline()

val lines = ssc.socketTextStream("localhost", 9999)
// we use the foreachRDD as a scheduling trigger. 
// We don't use the data, only the execution hook
lines.foreachRDD{ _ => 
    if (System.currentTimeMillis > _nextDeadline) {
      initRDD = sparkSession.read.parquet("/tmp/learningsparkstreaming/sensor-records.parquet")
      _nextDeadline = nextDeadline()
    }
}
// if the rdd was updated, it will be picked up in this stage.
val res = lines.transform(rdd => rdd.join(initRDD))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

apachespark

SparkStreaming

如何在spark Streaming中定期更新rdd 的相关文章

pyspark 中的 Pandas UDF

我正在尝试在 Spark 数据帧上填充一系列观察结果基本上我有一个日期列表我应该为每个组创建缺失的日期在熊猫中有reindex函数这是 pyspark 中不可用的我尝试实现 pandas UDF pandas udf schema
在 IntelliJ 中运行 Spark 字数统计

我花了几个小时浏览 You Tube 视频和教程试图了解如何在 Scala 中运行 Spark 字数统计程序并将其转换为 jar 文件我现在完全糊涂了我运行了 Hello World 并且了解了如何在 Apache spark sp
Checkpoint RDD ReliableCheckpointRDD 与原始 RDD 的分区数量不同

我有一个由两台机器组成的 Spark 集群当我运行 Spark 流应用程序时出现以下错误 Exception in thread main org apache spark SparkException Checkpoint RDD R
使用 Apache Spark 读取 JSON - `corrupt_record`

我有一个json file nodes看起来像这样 toid osgb4000000031043205 point 508180 748 195333 973 index 1 toid osgb4000000031043206 point
Apache Spark：Yarn 日志分析

我有一个 Spark streaming 应用程序我想使用 Elasticsearch Kibana 分析作业的日志我的工作在纱线集群上运行因此日志将按照我的设置写入 HDFSyarn log aggregation enable为真
如何传递架构以从现有数据帧创建新数据帧？

要将 schema 传递到 json 文件我们这样做 from pyspark sql types import StructField StringType StructType IntegerType data schema Stru
如何使用 PySpark 有效地将这么多 csv 文件（大约 130,000 个）合并到一个大型数据集中？

我之前发布了这个问题并得到了一些使用 PySpark 的建议如何有效地将这一大数据集合并到一个大数据框中 https stackoverflow com questions 60259271 how can i merge this la
K均值||用于 Spark 上的情感分析

我正在尝试编写基于Spark的情感分析程序为此我使用了 word2vec 和 KMeans 聚类从 word2Vec 我在 100 维空间中得到了 20k 个单词向量集合现在我正在尝试对这个向量空间进行聚类当我使用默认并行实现运
与 aws-java-sdk 链接时读取 json 文件时 Spark 崩溃

Let config json是一个小的 json 文件 toto 1 我编写了一个简单的代码来读取 json 文件sc textFile 因为文件可以在S3 本地或HDFS上所以textFile很方便 import org apache
为什么我必须明确告诉 Spark 要缓存什么？

在 Spark 中每次我们对 RDD 执行任何操作时都会重新计算 RDD 因此如果我们知道 RDD 将被重用我们应该显式地缓存 RDD 比方说 Spark 决定延迟缓存所有 RDD 并使用 LRU 自动将最相关的 RDD 保留在内存
如何将巨大的pandas数据帧保存到hdfs？

我正在使用 pandas 和 Spark 数据框数据帧总是非常大 gt 20 GB 标准 Spark 函数不足以满足这些大小目前我将 pandas 数据框转换为 Spark 数据框如下所示 dataframe spark creat
在 PySpark 中将结构数组扩展为列

我有一个来自 Google Analytics 的 Spark 数据框如下所示 id customDimensions Array
用于在 pyspark 中处理大数的数据类型

我将 Spark 与 python 一起使用上传 csv 文件后我需要解析 csv 文件中的一列其中包含 22 位数字长的数字为了解析我使用的列长类型我使用 map 函数来定义列以下是我在 pyspark 中的命令 gt gt
如何将参数传递给用户定义函数？

我有一个用户定义的函数 calc udf calculate FloatType param1 A result df withColumn col1 calc col type col pos groupBy pk sum events
Spark中RDD转换的结果是什么？

谁能解释一下结果是什么RDD 转换它是新的数据集数据副本还是只是新的指针集用于过滤旧数据块 RDD 转换允许您在 RDD 之间创建依赖关系依赖关系只是产生结果程序的步骤谱系链依赖字符串中的每个 RDD 都有一个计算其数
选择 PySpark 数据框中的列

我正在寻找一种在 PySpark 中选择数据帧列的方法对于第一行我知道我可以使用df first 但不确定列是否存在没有列名我有 5 列想循环浏览每一列 1 2 3 4 5 6 7 1 0 0 0 0 0 0 1 0 0 0 0 0
如果 Spark 中的数据帧是不可变的，为什么我们能够使用 withColumn() 等操作来修改它？

这可能是一个愚蠢的问题源于我的无知我已经在 PySpark 上工作了几个星期并没有太多的编程经验我的理解是在 Spark 中 RDD 数据帧和数据集都是不可变的我再次理解这意味着您无法更改数据如果是这样为什么我们能够使用编
仅使用 Spark ML Pipelines 进行转换

我正在开发一个项目其中可配置的管道和 Spark DataFrame 更改的沿袭跟踪都是必不可少的该管道的端点通常只是修改后的 DataFrame 将其视为 ETL 任务对我来说最有意义的是利用现有的 Spark ML Pipelin
SQL 类似于 PySpark 数据帧的 NOT IN 子句

例如在 SQL 中我们可以这样做select from table where col1 not in A B 我想知道是否有一个与此等效的 PySpark 我能够找到isin类似于 SQL 的函数IN条款但没有任何内容NOT IN
Spark中DataFrame、Dataset、RDD的区别

我只是想知道有什么区别RDD and DataFrame Spark 2 0 0 DataFrame 只是一个类型别名Dataset Row 在阿帕奇火花你能将其中一种转换为另一种吗首先是DataFrame是从SchemaRDD 是的

随机推荐

升级到 Rails 6 时是否有一种编程方法可以检测 Zeitwerk::NameError？

我目前正在将旧的 Rails 应用程序迁移到 Rails 6 好像项目中有些文件和里面定义的类不一致运行应用程序测试时我没有看到此错误但部署后我收到如下错误 Zeitwerk NameError expected file app my
Statsmodels.formula.api OLS不显示截距的统计值

我正在运行以下源代码 import statsmodels formula api as sm Add one column of ones for the intercept term X np append arr np ones 50
在 Nexus 7 2013 上更改方向时 CSS 媒体查询不起作用

我目前正在我的笔记本电脑台式电脑和 Nexus 7 2013 上测试 CSS 媒体查询除了 Nexus 7 之外它们在台式机和笔记本电脑上都运行良好当我更改方向时除非刷新页面否则样式不会应用例如以纵向模式握住设备时页面正常
如何在react-highcharts中使用图表工具提示格式化程序？

如何使用图表工具提示格式化程序我正在使用高图表的反应包装器我有这样的配置 const CHART CONFIG tooltip formatter tooltip gt var s b this x b each this points
强制 Listview 不重复使用视图（复选框）

我做了一个定制Listview 没有覆盖getView 方法 Listview 中的每个项目都具有以下布局联系布局 xml
MSDeploy 不使用 MSBuild 和 Visual Studio 2010 部署到远程服务器

我当前正在运行 Visual Studio Team System 2010 RC 并且正在尝试获取构建服务设置来构建我的解决方案并在其中部署 3 个 Web 应用程序我创建了一个名为集成的自定义构建配置并在每个 Web 应用程序的
如何在 Angular Universal 中向添加类？

我们可以用户Rendered2在 Angular 应用程序的浏览器版本中但它需要document body参考它在服务器渲染上不可用 platform browser has Title and Meta组件但我想有更多的控制权部分
闪亮应用程序中的本地图像没有 img(src())？

我想按照以下说明在我的闪亮应用程序中包含本地图像文件在闪亮的应用程序中嵌入图像 https stackoverflow com questions 21996887 embedding image in shiny app 然而由于某种
如果找不到元素，为什么 Scala 的索引方法返回 -1 而不是 None？

我一直想知道为什么在 Scala 中使用各种索引方法来确定集合中元素的位置例如List indexOf List indexWhere 返回 1指示集合中不存在给定元素而不是更惯用的Option Int 回国有什么特别的好处吗 1代替N
C++ 中动态分配内存的碎片整理

在 C 中动态分配的内存使用 new 和 malloc 运算符分配的碎片整理如何工作 C 堆中没有碎片整理因为应用程序可以自由保留指向已分配内存的指针因此堆管理器无法移动已分配的内存唯一可能的碎片整理是释放两个相邻的块然
Safari 背景图像黑线

Safari 7 0 我不知道为什么但我在背景图像上看到黑线当我调整浏览器窗口大小时垂直窗口消失有谁知道它是什么 website fedoriv com http www fedoriv com only Russian sorry
如何在 ReasonML 中扩展 JS 类

例如我有一个es6类 class Foo 我想扩展它 class Bar extends Foo In 理性反应文档我找到了示例但我不确定它是否适合我 let component ReasonReact reducerComponent
如何以编程方式在android中修剪视频的开始和结束时间？

我想根据 android 中的开始和结束时间以编程方式修剪本地视频我尝试了下面附加的一些链接但对我来说没有用请让我知道任何工作库或示例代码来克服这个问题审稿链接 Android sdk 剪切修剪视频文件 https stackov
如何使用 Cloud Init 挂载未格式化的 EBS 卷

Context 我正在使用https wiki jenkins io display JENKINS Amazon EC2 Plugin https wiki jenkins io display JENKINS Amazon EC2 Pl
httpmodules httphandlers，它们的理想用途是什么？什么时候使用，什么时候不使用？

我对 httpmodules 和 httphandlers 有一些疑问我对它们的真正需要有点困惑我创建了很多网站但很少使用它们当然我失去了不使用它们的好处这些好处是什么什么时候使用什么时候不使用您可以使用 httpmodul
如何使用文件系统访问 API 在 Web 浏览器中递归读取本地文件和目录

我需要读取使用新的 Web 文件系统访问 API 打开的文件夹的所有文件和目录我能够读取目录但不知道如何以优雅的方式继续递归 try const directoryHandle await window showDirectoryPic
选择简单 Apache Synapse 与 WSO2 的标准

在评估各种 ESB 时我遇到了 Apache Synapse 和 WSO2 在 WSO2 中提到 WSO2 完全使用 Synapse 并构建在其之上但是我仍然不清楚 WSO2 比 Synapse 提供哪些附加功能除了商业支持我看到的
需要“依赖属性”的简短而清晰的定义

我试图弄清楚依赖属性到底是什么但是当我在任何地方寻找定义时我只找到如何使用而不是它是什么想象一下您在面试时被问到什么是依赖属性你的答案是什么 DependencyProperty 是一个属性其值取决于或可以取决于某些
如何跟踪访问者所在的国家/地区并将他们重定向到适当的网站？

我想跟踪访问者的国家地区然后将他们重定向到我网站的适当子域就像谷歌所做的那样如果我应该使用任何API 我可以在多大程度上依赖API的数据我用的是php 下载并安装Maxmind 的 GeoLite 国家 http www maxm
如何在spark Streaming中定期更新rdd

我的代码是这样的 sc SparkContext ssc StreamingContext sc 30 initRDD sc parallelize path to data lines ssc socketTextStream local

如何在spark Streaming中定期更新rdd

如何在spark Streaming中定期更新rdd 的相关文章

随机推荐

热门标签