Spark 执行器上的对象缓存

2024-03-28

对于 Spark 专家来说，这是一个很好的问题。

我正在处理数据map操作（RDD）。在映射器函数中，我需要查找类的对象A用于处理 RDD 中的元素。

由于这将在执行器上执行并创建类型的元素A（将被查找）恰好是一个昂贵的操作，我想在每个执行器上预加载和缓存这些对象。最好的方法是什么？

一种想法是广播查找表，但是类A不可序列化（无法控制其实现）。
另一个想法是将它们加载到一个单例对象中。但是，我想控制加载到该查找表中的内容（例如，不同 Spark 作业上可能有不同的数据）。

理想情况下，我想通过驱动程序启动期间在任何操作之前可用的参数来指定将在执行器上加载一次的内容（包括流式处理的情况，以便查找表在批次之间保留在内存中）。数据得到处理。

是否有一种干净而优雅的方法来做到这一点，或者是不可能实现的？

这正是目标用例broadcast.广播变量传输一次并使用 torrent 有效地移动到所有执行器，并保留在内存/本地磁盘中，直到您不再需要它们。

在使用其他人的接口时，序列化经常会成为一个问题。如果您可以强制您使用的对象是可序列化的，那么这将是最好的解决方案。如果这是不可能的，你的生活就会变得更加复杂。如果您无法序列化A对象，那么您必须在每个任务的执行器上创建它们。如果它们存储在某个文件中，则如下所示：

rdd.mapPartitions { it => 
  val lookupTable = loadLookupTable(path)
  it.map(elem => fn(lookupTable, elem))
}

请注意，如果您使用此模型，则必须为每个任务加载一次查找表 - 您无法从广播变量的跨任务持久性中受益。

编辑：这是另一个模型，我相信它可以让您在每个 JVM 的任务之间共享查找表。

class BroadcastableLookupTable {
  @transient val lookupTable: LookupTable[A] = null

  def get: LookupTable[A] = {
    if (lookupTable == null)
      lookupTable = < load lookup table from disk>
    lookupTable
  }
}

这个类可以被广播（不传输任何实质性内容），并且第一次每个 JVM 调用它时，您将加载查找表并返回它。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

Spark 执行器上的对象缓存的相关文章

在scala中，如何将对象的值转换为Map[String, String]？

假设我有这门课 case class Test id Long name String 和这个类的一个实例 Test id gt 1 name gt toto 我想创建一个 Map String String 如下 Map id gt 1
重写继承的构造函数字段时的差异？

考虑这个简单的 Scala 类 class A val d Int Scala 之间是否存在差异无论是行为还是生成的字节码 class B d Int extends A d and class B override val d Int
Spark：Aggregator和UDAF有什么区别？

在Spark的文档中 Aggregator 抽象类聚合器 IN BUF OUT 扩展可序列化用户定义聚合的基类可以是在数据集操作中用于获取组中的所有元素并将它们减少到单个值用户定义的聚合函数是抽象类 UserDefinedAgg
scala 使用 GMPUtil 处理 pidigits

Rex Kerr 发布了有关在 scala 中使用 GMP 的信息特别是运行 pidigits 程序 libjpargmp so 使用 GmpUtil c 生成我的问题是在哪里可以找到 GMPUtil c 我的谷歌搜索没有发现任何东西
idea sbt java.lang.NoClassDefFoundError: org/apache/spark/SparkConf

我是spark的初学者我使用 linux idea sbt 构建了一个环境当我尝试快速启动Spark时我遇到了问题 Exception in thread main java lang NoClassDefFoundError org
模式匹配中使用的抽象类型的类型不匹配

此代码编译时出现错误 def f1 T e T T e match case i Int gt i case b Boolean gt b type mismatch found i type with underlying type In
Scala 中两个地图的交集和合并/连接

假设我有两张类似这样的地图 val m1 Map 1 gt One 2 gt Two 3 gt Three val m2 Map 2 gt 2 0 3 gt 3 0 4 gt 4 0 我想根据键获取交集并返回一个表示合并值的元组结果看起来
Spark 中的广播 Annoy 对象（对于最近邻居）？

由于 Spark 的 mllib 没有最近邻居功能我正在尝试使用Annoy https github com spotify annoy为近似最近邻我尝试广播 Annoy 对象并将其传递给工人然而它并没有按预期运行下面是可重复性的
将元组划分为多个元组的类型安全方法

我们有一个特征除其他外还包含execute T lt Record Seq Session gt T Seq T 方法其中Record是我们从数据库中检索的所有特征的超级特征 trait DbTrait val threadCount
实施策略模式的函数式方法

我正在尝试解决一个处理从一种温度单位到另一种温度单位摄氏度开尔文华氏度转换的问题在Java中我需要创建一个接口并提供多个实现来封装输入类型并将结果作为输出类型的单元返回例如开尔文到摄氏度或摄氏度到华氏度等我已经在 scala
如何过滤 pyspark 列表中值的列？

我有一个数据框原始数据我必须在 X 列上应用值 CB CI 和 CR 的过滤条件所以我使用了下面的代码 df dfRawData filter col X between CB CI CR 但我收到以下错误 Between 恰好需要 3
Scala：获取 Map.head 元素的键（和值）

让我们想象一下以下不可变的 Map val foo Map 10 ten 100 one hundred 我想获得第一个元素的密钥 foo head获取第一个元素但接下来呢我还想要这个元素的值即十设置键值对 val key va
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
在 kubernetes 上安装 PySpark 软件包时出现 Spark-Submit：ivy-cache 文件未找到错误

我一整天都在与它斗争我能够安装并使用带有 Spark shell 或连接的 Jupiter 笔记本的包 graphframes 但我想使用 Spark Submit 将其移动到基于 kubernetes 的 Spark 环境我的火花版
解析嵌套括号内包含的值

我只是在开玩笑奇怪地发现在简单的递归函数中解析嵌套括号有点棘手例如如果程序的目的是查找用户详细信息它可能来自 name surname age to Bob Builder age 然后到Bob Builder 20 这是一个用于在
选项包装值是一个好的模式吗？

我最近写了以下 Scala 代码 val f File pretend this file came from somewhere val foo toFoo io Source fromFile f mkString 我真的不喜欢这种方式
Scala 2.10，它对 JSON 库和案例类验证/创建的影响

显然在 Scala 2 10 中我们得到了改进的反射这将如何影响 lift json jerkson sjson 和朋友此外我们能否期望在不久的将来 Scala 中会出现内置的 JSON 语言功能如 Groovy 的出色 GSON
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
.java 和 .scala 类之间是否可能存在循环依赖？

假设我在 java 文件中定义了类 A 在 scala 文件中定义了类 B A 类使用 B 类 B 类使用 A 类如果我使用 java 编译器则会出现编译错误因为 B 类尚未编译如果我使用scala编译器A类将找不到有没有可以同时
什么样的函数被认为是“可组合的”？

维基百科文章函数组合计算机科学 https en wikipedia org wiki Function composition computer science says 就像数学中通常的函数组合一样每个函数的结果作为下一个函数的参数

随机推荐

React Native - launchPackager.command 无法打开

我在构建 React Native ios 项目时遇到问题错误信息 launchPackage command can t be opened because it is from an unidentified developer 知道
如何充分替换 Sensor.TYPE_ORIENTATION （现已弃用）？

我尝试了在互联网上找到的几个代码片段SensorManager getOrientation 相关讨论没有一个能可靠地给出磁方位角因为Sensor TYPE ORIENTATION做过谁能分享一个工作代码Sensor TYPE ORI
如何从Windows内核驱动程序获取设备实例路径？

看一下这个示例 Windows 7 中的 USB 设备据报告具有设备实例路径 DevinstPath USB VID 1EAB PID 0501 7 25C389C1 0 1我确切地知道它对应于注册表中所谓的硬件密钥 hwkey 现在我的问
为什么C中的结构体名称不是指针？

数组名称是指针函数名称也是指针但结构名称不是指针我想了解这种差异背后是否存在某种逻辑推理或者它只是 C 语言的随机语法数组很奇怪他们的行为与其他类型不同 C was derived from an earlier languag
“AdjustJavacVersionArguments”任务意外失败

我已经开始开发了Xamarin Forms应用在Visual Studio Enterprise 2015作为初学者当我构建解决方案时我收到如下错误 AdjustJavacVersionArguments 任务意外失败严重性代码说明
验证英语文本中“a”和“an”的正确使用 - Python [关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我想创建一个程序从文件中读取文本并指出 a 和 an 何时使用不正确据我所知一般规则是当下一个单词以元音开头时使用 an 但还应
Objective-C ARC 和传递 C 对象数组

如果这是一个有点菜鸟的问题我很抱歉我知道我需要根据我的指示进行操作不幸的是我的截止日期已经到了所以没有时间完成整本书的章节所以我希望得到更有针对性的建议我想在 C 数组中存储一些 Objective C 对象我正在使用ARC
C# 上的 DrawString 文本太粗体

我已经使用GDIDrawString绘制文本的方法当程序运行时屏幕上的文字看起来很好但是一旦我将文件保存到图像中字体就会比以前更粗正常的会加粗加粗的会更加粗这该如何处理呢 public override void DrawTo
如何在 Pug 文件中插入原始 HTML（不包括外部 HTML 文件）

所以我想要的是将一些多行 HTML 放入 Pug 文件中但在任何地方都找不到如何执行此操作 Example html head body div a href lala blabla a div p hihuhohoo Pug text可
在本地网络中推送通知

我需要在无法访问 Internet 的本地网络中使用我自己的服务器来实现 Android 和 iOS 的推送通知更准确地说我的用户将拥有一个移动应用程序 Android 和 iOS 它将通过无线网络连接到本地服务器该网络不会有任何 I
Josh Smith 的 MVVM 示例中的视图是如何构建的？

作为 WPF 和 MVVM 的新手我正在学习Josh Smith 关于 MVVM 模式的文章 http msdn microsoft com en us magazine dd419663 aspx以及随附的示例代码我可以看到该应用程序
AWS-Lambda 可以使用调用 C 的 Python 吗？

我有一个进行图像比较的 C 库和调用它的 Python 我在 AWS Lambda 功能列表中没有看到 C 或 C 运行时然而 Python 本身不是调用 C 的吗我以为翻译其实是C 我们可以在 AWS Lambda 上运行从 Pyth
RESTful WCF Web 服务 POST 问题

我无法将参数传递给 wcf web 服务我的网络方法 OperationContract WebInvoke Method POST ResponseFormat WebMessageFormat Json UriTemplate pla
有关 SQL Server 中重音不敏感的问题 (Latin1_General_CI_AS)

我们所有的数据库都是使用默认排序规则安装的 Latin1 General CI AS 我们计划更改排序规则以允许客户端不区分重音地搜索数据库问题不区分重音的数据库有哪些负面影响如果有的话不区分重音的数据库是否有任何性能开销为什么
复选框不显示 Chrome - 在其他浏览器中工作

我不确定发生了什么事记住我左侧应该有一个复选框底部应该有两个测试复选框因为我有一辆自行车我有一辆汽车它们在 Firefox 中显示但在 Chrome 中不显示我相信我有 CSS 问题但找不到它有人可以帮忙吗 http w
Python ord 函数中的多个字符

编程初学者在这里 Python 2 7 是否有解决方法可以在 Python 的 ord 函数中使用多个字符例如我有一个十六进制字符串 xff x1a 我想要它的十进制值以便我可以将其与其他十六进制字符串求和但是 ord 只接受单个十
在C中从键盘获取输入而不用“return”

在 C Mac OS 中如何在不按 return 的情况下从键盘获取输入在带有终端的类 Unix 系统上我认为 MacOS X 符合要求那么您需要将终端设置为所谓的 cbreak 模式重点是terminal保留数据直到按下 ret
尽管导入了类，但未定义类

我似乎遇到了一个非常令人困惑的错误尽管导入了包含我的类的 py 文件 Python 仍然坚持认为该类实际上并不存在 testmodule py中的类定义 class Greeter def init self arg1 None self
在我的 android studio 模拟器中元素相互重叠

我是新来的Android Studio 当我创建应用程序时所有元素都相互重叠我不知道如何编辑这段代码请给我详细的描述布局编辑器和模拟器结果布局代码
Spark 执行器上的对象缓存

对于 Spark 专家来说这是一个很好的问题我正在处理数据map操作 RDD 在映射器函数中我需要查找类的对象A用于处理 RDD 中的元素由于这将在执行器上执行并创建类型的元素A 将被查找恰好是一个昂贵的操作我想在每个执行器上预

Spark 执行器上的对象缓存

Spark 执行器上的对象缓存 的相关文章

随机推荐

热门标签

Spark 执行器上的对象缓存的相关文章