Apache Spark 中的混洗与非混洗合并

2024-04-30

在将 RDD 写入文件之前执行以下转换时，它们之间有什么区别？

合并（1，随机播放= true）
合并（1，随机播放=假）

代码示例：

val input = sc.textFile(inputFile)
val filtered = input.filter(doSomeFiltering)
val mapped = filtered.map(doSomeMapping)

mapped.coalesce(1, shuffle = true).saveAsTextFile(outputFile)
vs
mapped.coalesce(1, shuffle = false).saveAsTextFile(outputFile)

它与collect()相比如何？我完全知道 Spark 保存方法将使用 HDFS 样式的结构来存储它，但是我对收集（）和混洗/非混洗合并（）的数据分区方面更感兴趣。

coalesce(n, shuffle = true)这也相当于repartition(n)可能有，取决于什么mapping或您在父 RDD 中拥有的任何其他处理登录名，这对您的处理方式有相当大的影响job施行。

一般来说，当父分区中的数据分布均匀并且您没有大幅减少分区数量时，您应该避免使用shuffle使用时coalesce.

但是，在您的情况下，这会大大减少分区数量，并且根据文档 https://spark.apache.org/docs/latest/api/scala/index.html#org.apache.spark.rdd.RDD@coalesce(numPartitions:Int,shuffle:Boolean,partitionCoalescer:Option%5Borg.apache.spark.rdd.PartitionCoalescer%5D)(implicitord:Ordering%5BT%5D):org.apache.spark.rdd.RDD%5BT%5D

然而，如果你正在进行剧烈的合并，例如至 numPartitions = 1, 这可能会导致您的计算发生在比您喜欢（例如，在 numPartitions = 1 的情况下一个节点）。为了避免这种情况，你可以通过 shuffle = true 。这将添加一个随机播放步骤，但意味着当前的上游分区将并行执行（无论什么当前的分区是）

鉴于此，现在您需要正确评估并做出选择

洗牌潜在的大量数据but在父分区中进行计算在平行下
将所有分区收集为一个没有完全改组（当然仍然会有数据移动）但是在内部进行计算单一任务

例如，考虑以下片段，这些片段与您可能拥有的实际逻辑相去甚远，但可以让您了解正在发生的事情

// fast
sc.parallelize(0 to 1000000, 10)
  .mapPartitions(it => {Thread.sleep(5000); it.map(_.toString)})
  .coalesce(1, shuffle = true)
  .toDF.write.text("shuffleTrue")

// slow
sc.parallelize(0 to 1000000, 10)
  .mapPartitions(it => {Thread.sleep(5000); it.map(_.toString)})
  .coalesce(1, shuffle = false)
  .toDF.write.text("shuffleFalse")

在我的集群上shuffle = true显示总时间大约为5秒完成10个任务，在每个父分区上并行执行计算逻辑。另一个与shuffle = false大致有50 秒完成单个任务中的所有计算在一名执行人身上。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Spark 中的混洗与非混洗合并的相关文章

如何在 Scala 2.11 中查找封闭源文件的名称

在编译时如何在 scala 2 11 中检索当前源文件编写代码的位置的名称这是一种实际有效的方法 val srcFile new Exception getStackTrace head getFileName println sr
当泛型类型与无界通配符一起使用时，不考虑类型参数绑定

在我的项目中我有一个这样的星座 trait F trait X A lt F def test x X X lt F x Trait X有一个类型参数其上限为F 根据我的理解类型X and X lt F 应该是等价的但scalac2
Scala 中的随机列表[重复]

这个问题在这里已经有答案了我对 scala 中的随机播放列表有疑问使用scala util Random 例如我有 val a cyan val b magenta val c yellow val d key val color Ra
pyspark 将 twitter json 流式传输到 DF

我正在从事集成工作spark streaming with twitter using pythonAPI 我看到的大多数示例或代码片段和博客是他们从Twitter JSON文件进行最终处理但根据我的用例我需要所有字段twitter J
Spark：查找前 n 个值的高性能方法

我有一个很大的数据集我想找到具有 n 个最高值的行 id count id1 10 id2 15 id3 5 我能想到的唯一方法是使用row number没有分区就像 val window Window orderBy desc coun
实现只有一个居民的类型的价值

感谢 MilesSabin 的answer https stackoverflow com a 32157259 867671我可以编写类型级别的斐波那契序列 sealed trait Digit case object Zero exte
HDFS：使用 Java / Scala API 移动多个文件

我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件例如我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
解决 sbt 中 jar 加载冲突的问题

当两个特定的 sbt 插件启动时我在 sbt 启动时收到以下错误加在一起到其构建定义中的项目这些 sbt 插件之一是规模化jdbc https github com scalikejdbc scalikejdbc另一个是my own h
使用 apply 方法的泛型类型的 Scala 工厂？

假设我有以下特征它定义了一个接口并采用几个类型参数 trait Foo A B implementation details not important 我想使用伴随对象作为该特征的具体实现的工厂我还想强制用户使用Foo接口而不是子类所
@tailrec为什么这个方法不编译为“包含不在尾部位置的递归调用”？

tailrec private def loop V key String V key match case gt loop key 此方法无法编译并抱怨它包含不在尾部位置的递归调用有人可以向我解释一下发生了什么事吗这个错误消息对我来
数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
如何使方法通用而不出现“未找到匹配的形状”

除了编写大量样板文件之外我不知道如何克服这个找不到匹配的形状错误要点中说明的基本思想是我有一个非常基本的方法版本有效但非常具体然后是一个采用mapper参数并且更通用也可以工作但特定于一种特定类型然后是第三个版本它采
为什么同样的算法在 Scala 中运行比在 C# 中慢得多？以及如何让它更快？

该算法根据序列中每个成员的变体创建序列的所有可能变体 C 代码 static void Main string args var arg new List
ScalaTest v3：为什么需要实现convertToLegacyEqualizer

Using 斯卡拉测试3 0 0 http www scalatest org install环境 Scala 2 11 8 sbt 0 13 5 IntelliJ 14 1 4 build sbt 只有 NOTE not using or
在泛型方法中返回原始集合类型

假设我们想要创建一个像这样的函数minBy返回集合中同等极简主义的所有元素 def multiMinBy A B Ordering xs Traversable A f A gt B val minVal f xs minBy f xs f
Scala 为了在 JVM 上运行做出了哪些妥协？

Scala 是一种很棒的语言但我想知道如果它有自己的运行时如何改进 IE 由于 JVM 的选择做出了哪些设计选择我所知道的两个最重要的妥协是类型擦除 http java sun com docs books tutorial ja
Apache Spark 两个 RDD 之间的差异

假设我有这个示例作业在带有 Java API 的 Groovy 中 def set1 def set2 0 upto 10 set1 lt lt it 8 upto 20 set2 lt lt it def rdd1 context pa
如何解决使用 Spark 从 S3 重新分区大量数据时从内存中逐出缓存的表分区元数据的问题？

在尝试从 S3 重新分区数据帧时我收到一个一般错误 Caused by org apache spark SparkException Job aborted due to stage failure Task 33 in stage 1
“为 Apache Hadoop 2.7 及更高版本预构建”是什么意思？

Apache Spark 下载页面上的 pre built for Apache Hadoop 2 7 and later 是什么意思这是否意味着spark中HDFS必须有库如果是这样其他存储系统例如 Cassandra s3 HB
SBT Scaladoc 配置

我正在尝试在 SBT 中配置 Scaladoc 特别是标题输出目录和类路径我通过将以下内容添加到 build sbt 来定义标题 scalacOptions in Compile doc Opts doc title Scala Too

随机推荐

如何修复 git 中的“警告：忽略名称损坏的引用”？

我正在 OSX 上工作在特定的存储库中每当我在输入 git 命令后按 Tab 键自动完成 git diff clicks tab 我现在看到大量警告 warning ignoring ref with broken name refs
Python，Tkinter：如何使用线程防止 tkinter gui 主循环崩溃

嗨我有一个小的 python gui 界面有两个按钮开始启动计数器和停止假设停止计数器计数器是一个无限循环因为我不希望它结束除非第二个按钮是点击问题是当第一个按钮的功能仍在运行时无法单击第二个按钮我读到我需要使用线程并
有没有办法设置 iOS Safari 过度滚动/弹性滚动区域的样式？

在 iOS Safari 中当您滚动到网页底部时您可以通过尝试再次滚动来将页面抬起我认为这是为了向用户保证他们已经到达页面末尾默认情况下该区域是空的白色的有没有办法用 CSS 来设置这个区域的样式我想添加背景图片只是为了
防止系统字体缩放 - Jetpack Compose

我正在尝试限制应用程序免受系统字体缩放的影响我已经尝试了很多解决方案但没有一个有帮助他们中的大多数人都告诉我们使用 dp 而不是 sp 来确定文本大小但在撰写中如果我是正确的我们只能使用 sp 因为它需要一个文本单元有没有正确
Airbrake 抛出错误“pybrake - 错误 - strconv.ParseInt：解析“None”：无效语法”

我正在尝试按照中描述的步骤在 Django 项目中使用 Airbrake 记录器https github com airbrake pybrake django integration https github com airbrake p
如何配置 Webpack 5 包以使用全局 jQuery？

我有一个正在加载 jQuery 的网页其中有一个指向 CDN 的脚本标记我正在将 jQuery 加载到全局范围内并且在整个站点中都有少量 JS 使用它这一切都工作正常我想继续以这种方式加载 jQuery 除此之外我使用 Webp
Nest.js Google Login(passport.js) 与 SPA 前端(React)

在我的全栈项目 Nest js React 中我使用护照谷歌实现了谷歌登录如下所示 import Controller Get Req UseGuards from nestjs common import AppService fro
无法使用 Hilt 注入 workmanager 构造函数

我正在开发一个 Android 应用程序我尝试将 hilt 与 workmanager 构造函数一起使用但它不起作用并给出了此错误 2020 08 18 19 01 09 989 18125 18759 com E WM WorkerF
共享首选项更新值未反映在服务中

我的应用程序在应用程序启动时调用服务在应用程序中我正在更新给定键值对的值 SharedPreferences Editor editor getSharedPreferences getString R string shared pr
如何使用 xpcom 更改 Firefox 代理设置

我有一个在本地主机 127 0 0 1 上运行的代理服务器并且我有累了必须培训用户如何在 Firefox 中切换代理以绕过被阻止的网站我决定写一个插件我想知道如何使用xpcom告诉 Firefox 使用某个代理例如对于 http 请
在 OpenCV 中对 RGB 图像进行阈值处理

我有一个彩色图像我想在 OpenCV 中设置阈值我想要的是如果任何 RGB 通道低于某个值则将所有通道中的值设置为零即黑色因此我使用 opencv 阈值函数 cv Mat frame thresholded read fram
iphone - 可以在 Grand Central Dispatch 的辅助线程上使用 usleep 吗？

我正在使用 Grand Central Dispatch 将一个块添加到队列不是主队列该块有一个循环并且在循环的每次通过之间需要 0 02 秒的小延迟我在用 dispatch async myOwnQueue begin loop
HttpClient 不报告从 Web API 返回的异常

我在用着HttpClient调用我的 MVC 4 Web api 在我的 Web API 调用中它返回一个域对象如果出现任何问题 HttpResponseException将被抛出到服务器并带有自定义消息 System Web Htt
UserControl 不在 HitTestResult 中吗？

我定义了一个用户控件
将枚举类型绑定到文本框

我将 textbox text 值绑定到枚举类型我的枚举看起来像这样 public enum Type Active Selected ActiveAndSelected 我不想完成的是在文本框上显示活动模式而不是活动等等可以这
如何使用 G++ MinGW 将 Psapi.lib 添加到 Eclipse 中的 TARGETLIBS

我正在尝试实现这个示例进程枚举器程序来自 MSDN https msdn microsoft com en us library windows desktop ms682623 v vs 85 aspx 我收到许多未解析符号的错误包括
HttpContext.Current.Request.UserHostAddress 为空

在我的开发机器中HttpContext Current Request UserHostAddress一片空白为什么我怎样才能打开它如果是代理客户端如何获取 Ips 列表 WCF 服务与 ASP net 4 windows 7 Th
如果另一个工具条位于同一个工具条面板上，则将工具条向左移动一点会创建一个新行

当我将一个工具条与同一个工具条面板中的另一个工具条拖动到左侧可能只是为了将其放在角落时我正在拖动的工具条会跳到新行就好像我已将其向下移动一样解释起来相当棘手所以这里有几个图表图 A 我将工具条向左移动然后意外地向左移
JavaScript 变量作用域

我遇到了 JavaScript 全局变量称为 TimeStamp 未在加载时定义的问题至少我认为这就是问题所在我从这里开始定义时间戳 document ready function AddTest var TimeStamp nul
Apache Spark 中的混洗与非混洗合并

在将 RDD 写入文件之前执行以下转换时它们之间有什么区别合并 1 随机播放 true 合并 1 随机播放假代码示例 val input sc textFile inputFile val filtered input filter

Apache Spark 中的混洗与非混洗合并

Apache Spark 中的混洗与非混洗合并 的相关文章

随机推荐

热门标签

Apache Spark 中的混洗与非混洗合并的相关文章