当我在 scala 中使用全局映射变量而不广播时会发生什么

2024-06-22

在 scala 中，当我在 scala 中使用全局映射变量而不进行广播时会发生什么？

例如。如果我使用变量collect*（例如collectAsMap），看来它是一个全局变量，我可以在所有地方使用它RDD.mapValues()函数无需显式广播它。

但我知道 Spark 是分布式工作的，它不应该能够在不广播全局内存存储变量的情况下处理它。所以发生了什么事？

代码示例（此代码在文本中调用 tf-idf，其中 df 存储在 Map 中）：

//dfMap is a String->int Map in memory
//Array[(String, Int)] = Array((B,2), (A,3), (C,1))
val dfMap = dfrdd.collectAsMap;
//tfrdd is a rdd, and I can use dfMap in its mapValues function
//tfrdd: Array((doc1,Map(A -> 3.0)), (doc2,Map(A -> 2.0, B -> 1.0)))
val tfidfrdd = tfrdd.mapValues( e => e.map(x => x._1 -> x._2 * lineNum / dfMap.getOrElse(x._1, 1) ) ); 
tfidfrdd.saveAsTextFile("/somedir/result/");

该代码工作得很好。我的问题是那里发生了什么？驱动程序是否像广播一样将 dfMap 发送给所有工作人员？

如果我像这样明确地编写广播代码有什么区别：

dfMap = sc.broadcast(dfrdd.collectAsMap)
val tfidfrdd = tfrdd.mapValues( e => e.map(x => x._1 -> x._2 * lineNum / dfMap.value.getOrElse(x._1, 1) )

我检查了更多资源并汇总了其他人的答案并将其按顺序排列。直接使用外部变量（作为我所谓的“全局变量”）和使用 sc.broadcast() 广播变量之间的区别如下：

1）当直接使用外部变量时，spark将随每个任务一起发送序列化变量的副本。而通过 sc.broadcast，变量会向每个 EXECUTOR 发送一份副本。 Task的数量通常是Executor的10倍。

因此，当变量（比如地图）足够大（超过20K）时，前一个操作可能会花费大量的网络转换时间并导致频繁的GC，从而减慢spark的速度。因此，建议显式广播大变量（>20K）。

2）直接使用外部变量时，该变量不会被持久化，它会随着任务结束而无法重复使用。而通过 sc.broadcast() ，变量会自动保留在执行程序的内存中，它会一直持续到您明确取消保留它为止。因此 sc.broadcast 变量可跨任务和阶段使用。

因此，如果预计该变量会被多次使用，建议使用 sc.broadcast() 。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

scala

apachespark

当我在 scala 中使用全局映射变量而不广播时会发生什么的相关文章

通过Listener获取Spark thrift服务器查询中读取的行数

我正在尝试为我们的 ST 服务器构建一个监控系统到目前为止诸如记录查询检索的行红色和花费的时间之类的事情都很好我已经实现了一个自定义侦听器我能够毫无问题地检索查询和时间侦听SparkListenerSQLExecutionSt
Scala 修饰符和类型参数化

我正在创建一个记忆类每个类都会记忆一个函数类型并具有以下定义 class MemoizedFunction1 T1 R f T1 gt R private this val cache mutable Map T1 R def apply
如何抑制 EMR 上运行的 Spark-sql 的 INFO 消息？

我正在 EMR 上运行 Spark 如中所述在 Amazon Elastic MapReduce 上运行 Spark 和 Spark SQL https aws amazon com articles 4926593393724923 本教
Scala 中简单表达式的非法开始

我刚刚开始学习scala 在尝试实现递归函数时我在 Eclipse 中收到错误简单表达式的非法开始 def foo total Int nums List Int if total nums sorted head 0 0 else r
Spark：连接两个相同分区的数据帧时防止洗牌/交换

我有两个数据框df1 and df2我想在一个名为的高基数字段上多次加入这些表visitor id 我只想执行一次初始洗牌并让所有连接发生而无需在 Spark 执行器之间洗牌交换数据为此我创建了另一个名为visitor parti
登录模块控制标志在 JAAS 配置中不可用 - Scala Kafka

尝试使用 kerberos 身份验证连接到 Kafka 时遇到问题使用 scala 和我的jaas config看起来像这样 KafkaClient com sun security auth module Krb5LoginModule
Spark sql 每组前 n 个

我怎样才能获得每组的前n名比如说前10名或前3名 spark sql http www xaprb com blog 2006 12 07 how to select the firstleastmax row per group in
在 Pandas UDF PySpark 中传递多列

我想计算 PySpark DataFrame 两列之间的 Jaro Winkler 距离 Jaro Winkler 距离可通过所有节点上的 pyjarowinkler 包获得 pyjarowinkler 的工作原理如下 from pyjar
超时对“Future”进行排序

我利用了TimeoutScheduler介绍于Scala Futures 内置超时 https stackoverflow com questions 16304471 scala futures built in timeout 但是现
我需要比较两个数据帧以进行类型验证并发送非零值作为输出

我正在比较两个数据帧基本上这些是两个不同数据源的模式一个来自 hive 另一个来自 SAS9 2 我需要验证两个数据源的结构因此我将模式转换为两个数据帧它们是 SAS 架构将采用以下格式 scala gt metadata sho
特征/类类型参数优先于方法类型参数的规则是什么

我已经使用 scala 一段时间了我认为我真的开始理解一切好吧大多数事情但我发现自己对 Map 类中的许多方法定义感到困惑我知道 FoldLeft 等如何工作但我感到困惑的是 Map 函数中使用的类型参数我们以 FoldLef
Zeppelin：如何在 zeppelin 中重新启动 SparkContext

我正在使用 zeppelins Spark 解释器的隔离模式在这种模式下它将为 Spark 集群中的每个笔记本启动一项新工作我想在笔记本执行完成后通过 zeppelin 终止该作业为此我做了sc stop这停止了 sparkCont
JavaScript 中 Scala View 的等效项

在斯卡拉中 view允许防止创建全新的集合例如在Scala中视图有什么作用 https stackoverflow com questions 6799648 in scala what does view do JavaScript
java.lang.RuntimeException：不支持的文字类型类org.joda.time.DateTime

我在一个使用库的项目中工作这对我来说非常新尽管我在其他项目中使用它没有任何问题 org joda time DateTime 所以我和Scala 并将项目作为作业运行数据块 scala版本 2 11 12 根据我到目前为止的调查异常
将数组中的值提取到元组中

有没有一种简单的方法可以将列表的值提取到 Scala 中的元组中基本上是这样的 15 8 split map toInt mkTuple 15 8 或者我可以采取其他方式 val x y 15 8 split map toInt 如果你把
选择排序通用类型实现

我以自己的方式实现了选择和快速排序的递归版本我试图以一种可以对任何泛型类型的列表进行排序的方式修改代码我想假设提供的泛型类型可以转换为 Comparable at运行有人有关于如何执行此操作的链接代码或教程吗我正在尝试修改这个特定
如何使用 monocle 修改嵌套映射和 scala 中的另一个字段

我第一次尝试单片眼镜这是案例类 case class State mem Map String Int pointer Int 当前的修改使用标准 scala 我想做 def add1 s State gt s copy mem s m
Scala变量作用域问题

我有一个 scala 语法问题假设我有一个简单的依赖模式构造如下所示 trait Master val foobar object SubObject extends SubObject foobar foobar trait SubO
我应该将 scala-compiler 作为依赖项包含在 build.sbt 中吗？

我正在尝试在 intellij 中使用 scala 2 11 7 构建一个项目我已经设置了scalaVersion to 2 11 7 但是当我检查外部库时我可以看到scala compiler 2 11 0 我需要声明吗scala c
具有显式 setMaster("local") 的 Spark 作业，通过 YARN 传递给 Spark-Submit

如果我有一个 Spark 作业 2 2 0 编译为setMaster local 如果我发送该作业会发生什么spark submit master yarn deploy mode cluster 我尝试了这个看起来该作业确实在 YARN

随机推荐

如何将 stderr 和 stdout 重定向到 Ruby 脚本文件？

如何将 stderr 和 stdout 重定向到 Ruby 脚本文件 From 在 Ruby 脚本中您可以重定向stdout and stderr与IO reopen http ruby doc org core classes IO h
取决于 make 中的目录[重复]

这个问题在这里已经有答案了这是我之前问题的后续 SO 4403861 https stackoverflow com questions 4403861 error in makefile 因为建议的解决方案破坏了依赖关系使得 make
WPF 触摸应用程序（部分）在 .NET Framework 4.7 上冻结

Update 微软承认了这个问题 https connect microsoft com VisualStudio Feedback Details 3139882 Gepost 门 Microsoft op 13 10 2017 om 1
两个未排序小数组的交集算法

我正在寻找一种在非常特定的条件下对两个小型未排序数组进行交集的算法数组项的类型只是整数或类整数类型在相当长的时间内大约 30 40 一个或两个数组可能为空数组通常非常小通常为 1 3 个项目我预计不会超过 10 个交集函数会被
在 Java 中如何将 String 转换为 int？

我怎样才能转换String值对int type 1234 1234 String myString 1234 int foo Integer parseInt myString 如果你看一下Java 文档 https docs oracle
使用 Json.Net 解析 JSON 数组

我正在使用 Json Net 来解析数组我想做的是将名称值对从数组中取出并在解析 JObject 时将它们分配给特定变量这是我在数组中得到的内容 General At this time we do not have any fre
为什么scala不允许在trait中定义lazy val？

我尝试用a来定义一个特质lazy val trait MyTrait lazy val something Int object SomeThing extends MyTrait override lazy val something I
获取一个字节中 4 个最低有效位的最快方法是什么（C++）？

我正在谈论这个如果我们有字母 A 十进制为 77 十六进制为 4D 我正在寻找最快获得D的方法我想了两个办法给定 x 是一个字节 x lt lt 4 x gt gt 4 x 16 还有其他办法吗哪一个更快简洁很好解释更好 x 0
如何更新表以添加主键并使用递增的 ID 更新所有现有行？

我导入了一个包含 20 000 行数据的表但我忘记在其上放置主键以便每一行都有一个唯一的键我希望第一行从 ID 1 开始一直递增到最后一行最后在 ID 20000 处结束如何使用单个查询更新所有行我正在使用MySQL 已尝试使
MS SQL Server 2008：获取接下来 8 周的开始日期和结束日期

我是 SQL 新手任何人都可以给我查询这种情况我需要显示从今天的日期到接下来 8 周的一周的开始日期和结束日期例如如果我选择今天的日期它应该显示开始日期结束日期 17 03 2012 2012年3月23日 2012 年 3 月
自动将 Woocommerce 订阅状态更改为“暂停”而不是“活动”

在 Woocommerce 中当订单仍在处理时我希望自动将所有 Woocommerce 订阅暂停而不是活动一旦我将订单标记为已完成订阅应更改为有效我已经尝试了我能想到的一切如果有人知道如何做到这一点请告诉我我正
在 MySQL 中，“开销”是什么意思，它有什么不好，以及如何修复它？

简单的问题但它已经困扰我一段时间了 MySQL 中的开销是什么我应该担心吗单击优化表真的可以修复它吗看来开销是数据库用于运行某些查询的临时磁盘空间因此您只需担心开销是否真的很高您可以将优化表与硬盘驱动器碎片整理进行比
Str.lastIndexOf("\") 给出错误[重复]

这个问题在这里已经有答案了我想从字符串中删除最后一次出现的这个特殊字符我尝试使用字符串函数例如 String word str substring str lastIndexOf 但每次我都会收到一个错误要求添加额外的报价同时我
Git：如何从单个 git 提交中获取 +/-（插入和删除）的总数

我有一个 git 提交需要获取插入和删除的总数 I know git show
管理员（仅）用户注册，Flask-Security

我目前正在使用 Flask Security 包括 Flask WTForms Flask SQLalchemy 和 Flask Login 为 Web 应用程序构建登录我已经能够相当轻松地设置大部分登录流程包括忘记密码但是我想让用户
DataImportHandler 和部分更新

是否可以在 Solr 4 中使用 DataImportHandler 进行部分更新我是否应该能够使用像下面这样的 data config xml 并在不同的时刻导入两个实体并获取包含这两个数据的完整文档
npm run 脚本的命名参数

我想将命名参数传递给 npm run 脚本这样我就可以执行如下操作 scripts say hello echo greeting ls npm run hello greeting hello 我希望它然后将 hello 代替 gree
Jinja2 带有组件的模板？块？模板？

有一个小问题要问jinja2模板化我想创建一个可重用的模板来包含然后覆盖块宏不会让我轻松地编写 HTML 垃圾作为参数不是吗假设我想多次重复使用包含并且在我想要动态分配的块中使用大量 HTML 垃圾我该怎么做呢我猜肯定不是用宏
Perl OLE32 MSSQL dateadd 函数结果出现“光标类型已更改”错误

以下 sql select DATEADD day DATEDIFF day 2 GETDATE 20 00 00 as A 在 Microsoft sql 查询中运行得非常好然而在 perl 中它抱怨以下错误描述 Microsoft
当我在 scala 中使用全局映射变量而不广播时会发生什么

在 scala 中当我在 scala 中使用全局映射变量而不进行广播时会发生什么例如如果我使用变量collect 例如collectAsMap 看来它是一个全局变量我可以在所有地方使用它RDD mapValues 函数无需显式广播它

当我在 scala 中使用全局映射变量而不广播时会发生什么

当我在 scala 中使用全局映射变量而不广播时会发生什么 的相关文章

随机推荐

热门标签

当我在 scala 中使用全局映射变量而不广播时会发生什么的相关文章