Spark 中的迭代缓存与检查点

2024-04-11

我有一个在 Spark 上运行的迭代应用程序，我将其简化为以下代码：

var anRDD: org.apache.spark.rdd.RDD[Int] = sc.parallelize((0 to 1000))
var c: Long = Int.MaxValue 
var iteration: Int = 0
while (c > 0) {
    iteration += 1
    // Manipulate the RDD and cache the new RDD
    anRDD = anRDD.zipWithIndex.filter(t => t._2 % 2 == 1).map(_._1).cache() //.localCheckpoint()
    // Actually compute the RDD and spawn a new job
    c = anRDD.count()
    println(s"Iteration: $iteration, Values: $c")
}

后续作业中的内存分配会发生什么情况？

目前是否anRDD“覆盖”以前的还是它们都保留在内存中？从长远来看，这可能会引发一些内存异常
Do localCheckpoint and cache有不同的行为？如果localCheckpoint用于代替cache, as localCheckpoint截断 RDD 谱系，那么我希望之前的 RDD 会被覆盖

不幸的是 Spark 似乎不太适合这样的事情。

您最初的实现是不可行的，因为在每次迭代中，新的 RDD 都会对旧的 RDD 进行内部引用，因此所有 RDD 都会堆积在内存中。

localCheckpoint是您想要实现的目标的近似值。它确实截断了 RDD 的谱系，但你失去了容错能力。该方法的文档中已明确说明。

checkpoint也是一种选择。它是安全的，但它会在每次迭代时将数据转储到 hdfs。

考虑重新设计该方法。此类黑客迟早会造成损失。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

sparkcheckpoint

Spark 中的迭代缓存与检查点的相关文章

IntelliJ IDEA 不会从 SBT 项目加载 Lift 库

我通过创建了一个空白项目sbt使用最基本的指南具体来说 gt cd xyz gt sbt here we create a new project w Scala 2 8 1 gt lift is org lifty lifty 1 6
如何将包含多个字段的大型 csv 加载到 Spark

新年快乐我知道以前曾提出回答过此类类似的问题但是我的问题有所不同我有大尺寸的 csv 有 100 个字段和 100MB 我想将其加载到 Spark 1 6 进行分析 csv 的标题看起来像附件sample http www roc
正确使用术语 Monoid

从下面的例子来看我认为这样的说法是正确的String在串联运算下定义了一个幺半群因为它是关联二元运算并且String碰巧有一个身份元素它是一个空字符串 scala gt Jane Doe Jane Doe res0 Boolean
从 PySpark RDD 中的每个组中取出前 N 个元素（不使用 groupByKey）

我有一个如下所示的 RDD dataSource sc parallelize user1 3 blue user1 4 black user2 5 white user2 3 black user2 6 red user1 1 red 我
使用 Python 计算 Spark 中成对 (K,V) RDD 中每个 KEY 的平均值

我想与 Python 共享这个特定的 Apache Spark 解决方案因为它的文档非常贫乏我想通过 KEY 计算 K V 对存储在 Pairwise RDD 中的平均值示例数据如下所示 gt gt gt rdd1 take 10
如何在 Scala 2.11 中查找封闭源文件的名称

在编译时如何在 scala 2 11 中检索当前源文件编写代码的位置的名称这是一种实际有效的方法 val srcFile new Exception getStackTrace head getFileName println sr
如何关闭 Scala 中因方法重载而导致代码无法编译的特定隐式？

我正忙着尝试自己回答这个问题 Scala Play 2 4 x 通过 anorm MySQL 处理扩展字符到 Java Mail https stackoverflow com questions 31417718 scala play 2
如何在不从 DataFrame 转换并访问它的情况下向数据集添加列？

我知道使用以下方法将新列添加到 Spark 数据集的方法 withColumn and a UDF 它返回一个 DataFrame 我还知道我们可以将生成的 DataFrame 转换为 DataSet 我的问题是如果我们仍然遵循传统的
IntelliJ IDEA 能否正确格式化 scala.html 文件以及如何启用它？

IntelliJ IDEA 12 Ultimate 和 CE 格式化我的 main scala html 文件中的以下行在 Play 应用程序中 main css gt As main css gt 是的真的它分解了带引号的字符串我
当泛型类型与无界通配符一起使用时，不考虑类型参数绑定

在我的项目中我有一个这样的星座 trait F trait X A lt F def test x X X lt F x Trait X有一个类型参数其上限为F 根据我的理解类型X and X lt F 应该是等价的但scalac2
火花内存不足

我有一个文件夹里面有 150 G 的 txt 文件大约 700 个文件平均每个 200 MB 我使用 scala 来处理文件并最终计算一些汇总统计数据我认为有两种可能的方法可以做到这一点手动循环所有文件对每个文件进行计算并最终合
了解 Spark 中的 DAG

问题是我有以下 DAG 我认为当需要洗牌时火花将工作划分为不同的阶段考虑阶段 0 和阶段 1 有些操作不需要洗牌那么为什么 Spark 将它们分成不同的阶段呢我认为跨分区的实际数据移动应该发生在第 2 阶段因为这里我们需要cogr
如果两个阶段使用相同的 DataFrame，spark 是否会读取同一文件两次？

以下代码读取相同的 csv 两次即使只调用一个操作端到端可运行示例 import pandas as pd import numpy as np df1 pd DataFrame np arange 1 000 reshape 1 1
在没有匹配器的情况下如何跳过specs2中的测试？

我正在尝试使用 scala 中的 specs2 测试一些与数据库相关的内容目标是测试 db running 然后执行测试我发现如果数据库关闭我可以使用 Matcher 类中的 orSkip 问题是我正在获取一个匹配条件的输出作为
用于共享大型不可变对象的工厂/缓存策略

我的问题很像上一篇文章最佳哈希集初始化 Scala Java https stackoverflow com questions 14714900 optimal hashset initialization scala java 我想用的
将下划线分配给变量。下划线是做什么的？

最近我遇到了这样的代码 var myVariable variableKind 这似乎是一种分配方式null to myVariable 谁能解释一下背后的理由在这种情况下分配之间有什么区别 and null到一个变量它使用默认值初始
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
使用什么框架来引导我的第一个生产 scala 项目？

我正在第一次涉足 scala 的生产应用程序该应用程序当前打包为 war 文件我的计划是创建 scala 编译工件的 jar 文件并将其添加到 war 文件的 lib 文件夹中我的增强功能是通过 Jersey 公开的 mysql 支
在 Scala 中提取案例类字段名称

我有一个案例类 case class A field1 String field2 Int 我想在某些代码中引用确切的字符串 field1 例如 val q Query field1 gt hello performQuery q 现在我必
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa

随机推荐

d3js 将标签移动到节点旁边

我正在开发一个通过图表进行模式表示的项目我来从 json 检索数据以生成图形并找到与节点关联的标签我还想找到与链接对应的标签但是当移动节点时我无法移动标签有什么帮助吗请参阅此处的代码 http jsfiddle net obo
Matlab 中行索引的笛卡尔积

我有一个二进制矩阵A维度的mxn with m gt n在Matlab中我想构造一个矩阵B维度的cxn按行列出包含在中的行索引的笛卡尔积的每个元素A 为了更清楚地考虑以下示例例子 m 4 n 3 A 1 0 1 0 0 1 1 1 0
如何解决 JDK 17 中 Field.setAccessible 的 InaccessibleObjectException？

使用 JDK 17 不可能再使用反射来访问字段至少对于java lang 课程以下片段 final Process process new ProcessBuilder directory new File d temp command
使用 Geoplugin 旋转链接

我使用 geoplugin class 将 CA 用户重定向到特定链接现在该代码仅允许我将用户重定向到 1 个网站我想修改此代码以便我可以将用户重定向到 link1 com link2 com link3 com 有人对此有快速修改
copy.deepcopy 与 pickle

我有一个小部件的树结构例如集合包含模型模型包含小部件我想复制整个收藏 copy deepcopy与 pickle and de pickle 对象相比更快但用 C 编写的 cPickle 更快因此为什么我我们不应该总是使用
iOS项目：静态/动态代码分析和调用图

我正在寻找一些适用于 iOS 项目的方便的代码分析工具尤其是进行静态分析动态分析并生成调用图到目前为止在我的调查中我发现 dtrace 解释如下here https stackoverflow com questions 107
如何在Python中使用编码utf-8.py代替cp1252.py

我编写了一个非常小的程序当该行包含某个字符串时它将一个文件的所有行复制到另一个文件这是完整的来源 f in open all txt r f out open all out w for line in f in if
如何获取Windows 7主题名称

Windows 7 附带多个内置主题可以通过右键单击桌面并选择个性化来访问它们在个性化下有一个名为航空主题的部分其中包含建筑自然等主题我尝试使用 uxtheme dll 的 GetCurrentThemeName 但它实
Java UDP 服务器，并发客户端

下面的代码足以接受并发 UDP 传输吗更具体地说如果 2 个客户端同时传输当我调用 receive 时 DatagramSocket 会将传输排队并一一传送它们还是只有一个能够通过 DatagramSocket socket new
MySQL 将布尔字段计为两个不同的列

认为我有一个包含两个字段的表 ID and State 状态值即布尔值可以是 0 或 1 ID不是唯一的因此该表如下所示 ID State 1 true 1 false 2 false 3 true 1 true 现在我想对按 ID
Python3.3 HTML Client TypeError: 'str' 不支持缓冲区接口

import socket Set up a TCP IP socket s socket socket socket AF INET socket SOCK STREAM Connect as client to a selected s
Gradle 同步任务，同步到文件夹但忽略目标中的指定目录

我想将驱动器上的一个文件夹与另一个包含我想要保留的名为 logs 的文件夹的文件夹同步使困惑这是一个图表 C mydir sync this folder someotherfiles txt anotherDir into this
c, obj c 没有标签或标识符的枚举

我正在学习 cocos2d iPhone 上目标 C 的 open gl 包装器现在玩精灵在一个示例中发现了这一点 enum easySprite 0x0000000a mediumSprite 0x0000000b hardSprite
如何确定 akka 中生成的 actor 数量？

我最近开始研究 Akka 2 0 框架并且能够运行一些代码生成执行简单 Oracle 数据库调用执行简单计算等的 Actor 但是在生产中什么也没有我想知道的是是否有一般的经验法则或最佳实践来确定为某些类型的任务生成多少个参与者
无法在同一页面设置PHP cookie

我在同一页面上设置 cookie 时遇到问题我在我的网站上使用了 cookie 它工作正常我倾向于将 php 设置为单独的文件现在我在同一页面上设置 cookie 但它似乎不起作用 expire time 5 setcookie r
如何使用 JSP 页面中的参数运行 java 类？

我之前编写了一个从 bash 文件执行的 java 类现在我需要使用 Javascript HTML 按钮允许它从 JSP 页面执行我想知道如何做到这一点首先我的课程是这样的 public class Sync public sta
WCF .svc 文件在 IIS7.5 .NET 4.0 中用作纯文本 - 不在默认网站下

最终更新事实证明由于 DotNetNuke 模块的压缩问题这是一个转移注意力的问题我必须添加到 PageBlaster DNN 模块所以这不再是问题我正在将 WCF svc 文件部署到我的实时网站 http www pokerd
无法打开输入文件：localhost:8080

在 Windows 上要从命令提示符运行 PHP Web 服务器我键入 php s localhost 80800 t public 我收到此错误无法打开输入文件 localhost 8080 And yet cmd php test
在 SQL 中使用累积需求时在聚合级别上优化表概览

我试图找到最好的方法来获得累积显示的总体概述的概述即通过扣除不满足每个步骤中的累积要求的观察结果这是表脚本和示例数据 CREATE TABLE Table A id INTEGER NOT NULL PRIMARY KEY totalA
Spark 中的迭代缓存与检查点

我有一个在 Spark 上运行的迭代应用程序我将其简化为以下代码 var anRDD org apache spark rdd RDD Int sc parallelize 0 to 1000 var c Long Int MaxValu

Spark 中的迭代缓存与检查点

Spark 中的迭代缓存与检查点 的相关文章

随机推荐

热门标签

Spark 中的迭代缓存与检查点的相关文章