哪些 Spark 转换会导致 Shuffle？

2024-02-04

我很难在 Spark 文档中找到导致随机播放的操作和不会导致随机播放的操作。在这个列表中，哪些会导致洗牌，哪些不会？

映射和过滤器则不然。但是，我不确定其他人的情况。

map(func)
filter(func)
flatMap(func)
mapPartitions(func)
mapPartitionsWithIndex(func)
sample(withReplacement, fraction, seed)
union(otherDataset)
intersection(otherDataset)
distinct([numTasks]))
groupByKey([numTasks])
reduceByKey(func, [numTasks])
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])
sortByKey([ascending], [numTasks])
join(otherDataset, [numTasks])
cogroup(otherDataset, [numTasks])
cartesian(otherDataset)
pipe(command, [envVars])
coalesce(numPartitions)

实际上，无需文档就可以非常容易地找到这一点。对于这些函数中的任何一个，只需创建一个 RDD 并调用调试字符串，下面是一个示例，您可以自己完成其余的操作。

scala> val a  = sc.parallelize(Array(1,2,3)).distinct
scala> a.toDebugString
MappedRDD[5] at distinct at <console>:12 (1 partitions)
  MapPartitionsRDD[4] at distinct at <console>:12 (1 partitions)
    **ShuffledRDD[3] at distinct at <console>:12 (1 partitions)**
      MapPartitionsRDD[2] at distinct at <console>:12 (1 partitions)
        MappedRDD[1] at distinct at <console>:12 (1 partitions)
          ParallelCollectionRDD[0] at parallelize at <console>:12 (1 partitions)

正如你所看到的distinct创建随机播放。找出这种方式而不是文档也特别重要，因为在某些情况下，某些功能需要或不需要洗牌。例如，连接通常需要洗牌，但如果您连接两个 RDD，则来自同一个 RDD Spark 的分支有时可以消除洗牌。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Java

python

scala

apachespark

哪些 Spark 转换会导致 Shuffle？的相关文章

如何通过 Android 按钮单击运行单独的应用程序

我尝试在 Android 应用程序中添加两个按钮以从单独的两个应用程序订单系统和库存系统中选择一个应用程序如图所示我已将这两个应用程序实现为两个单独的 Android 项目当我尝试运行此应用程序时它会出现直到正确选择窗口但是当按
在 Clojure 中解压缩 zlib 流

我有一个二进制文件其内容由zlib compress在Python上有没有一种简单的方法可以在Clojure中打开和解压缩它 import zlib import json with open data json zlib wb as
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
无法在 Java/Apache HttpClient 中处理带有垂直/管道栏的 url

例如如果我想处理这个网址 post new HttpPost http testurl com lists lprocess action LoadList 401814 1 Java Apache 不允许我这么做因为它说竖线是非法的
查找 Pandas DF 行中的最短日期并创建新列

我有一个包含多个日期的表有些日期将为 NaN 我需要找到最旧的日期所以一行可能有 DATE MODIFIED WITHDRAWN DATE SOLD DATE STATUS DATE 等因此对于每一行一个或多个字段中都会有一个日期
从 Flask 运行 NPM 构建

我有一个 React 前端我想在与我的 python 后端 API 相同的源上提供服务我正在尝试使用 Flask 来实现此目的但我遇到了 Flask 找不到我的静态文件的问题我的前端构建是用生成的npm run build in s
如何查找或安装适用于 Python 的主题 tkinter ttk

过去 3 个月我一直在制作一个机器人仅用代码就可以完美运行现在我的下一个目标是为它制作一个 GUI 但是我发现了一些障碍主要的一个是能够看起来不像一个 30 年前的程序我使用的是 Windows 7 我仅使用 Python 3 3
Play.application() 的替代方案是什么

我是 Play 框架的新手我想读取conf文件夹中的一个文件所以我用了Play application classloader getResources Data json nextElement getFile 但我知道 play P
是否需要关闭没有引用它们的文件？

作为一个完全的编程初学者我试图理解打开和关闭文件的基本概念我正在做的一项练习是创建一个脚本允许我将内容从一个文件复制到另一个文件 in file open from file indata in file read out file
使用另一个数据帧在数据帧中创建子列

我对 python 和 pandas 很陌生在这里我有一个以下数据框 did features offset word JAPE feature manual feature 0 200 0 aa 200 200 0 200 11 bf
如何让 Emma 或 Cobertura 与 Maven 一起报告其他模块中源代码的覆盖率？

我有一个带有 Java 代码的多模块 Maven 设置我的单元测试在其中一个模块中测试多个模块中的代码当然这些模块具有相互依赖性并且在测试执行之前根据需要编译所有相关模块中的代码那么如何获得整个代码库覆盖率的报告注意我不是问
Python bug - 或者我的愚蠢 - 扫描字符串文字时 EOL

我看不出以下两行之间有显着差异然而第一个解析而后者则不解析 In 5 n Axis of Awesome In 6 n Axis of Awesome File
如何在Java中对对象数组进行字段级别排序以进行等级比较？

In Java Class StudentProgress String Name String Grade CTOR goes here main class main method StudentProgress arrayofObje
如何处理 StaleElementReferenceException

我正在为鼠标悬停工作我想通过使用 for 循环单击每个链接来测试所有链接的工作条件在我的程序中迭代进行一次而对于下一次迭代它不起作用并显示 StaleElementReferenceException 如果需要请修改代码 pub
如何访问 Spark Streaming 应用程序的统计端点？

从 Spark 2 2 0 开始 API 中有新的端点用于获取有关流作业的信息我在 EMR 集群上运行 Spark 在集群模式下使用 Spark 2 2 0 当我到达流作业的端点时它给我的只是错误消息没有附加到的流侦听器我已经深入研
Django 管理器链接

我想知道是否有可能如果可以的话如何将多个管理器链接在一起以生成受两个单独管理器影响的查询集我将解释我正在研究的具体示例我有多个抽象模型类用于为其他模型提供小型的特定功能其中两个模型是DeleteMixin 和GlobalMix
源值 1.5 的错误已过时，将在未来版本中删除

我使用 scala maven plugin 来编译包含 scala 和 java 代码的项目我已经将源和目标设置为1 7 但不知道为什么maven仍然使用1 5 这是我在 pom xml 中的插件
如何从namedtuple实例列表创建pandas DataFrame（带有索引或多索引）？

简单的例子 from collections import namedtuple import pandas Price namedtuple Price ticker date price a Price GE 2010 01 01 30
将对象从手机共享到 Android Wear

我创建了一个应用程序在此应用程序中您拥有包含 2 个字符串姓名和年龄和一个位图头像的对象所有内容都保存到 sqlite 数据库中现在我希望可以在我的智能手表上访问这些对象所以我想实现的是你可以去启动启动应用程序并向左和向
IndexError - 具有匀称形状的笛卡尔 PolygonPatch

我曾经使用 shapely 制作一个圆圈并将其绘制在之前填充的图上这曾经工作得很好最近我收到索引错误我将代码分解为最简单的操作但它甚至无法执行最简单的循环 import descartes import shapely geome

随机推荐

如何将 AJAX 成功变量存储为 AJAX 之外的变量？

我使用 AJAX 来获取我命名为变量 myPubscore 的数据现在我尝试将 myPubscore 发送到另一个 js 文件 myPubscore 在 Ajax 中打印得很好但是当我在 sendResponse 之前打印时我收到事
如何从数组中获取最多代表的对象

我有一个包含一些对象的数组并且有几个相似的对象例如水果苹果橙子苹果香蕉香蕉橙子苹果苹果从该数组中获取最多代表的对象的最有效方法是什么在这种情况下它将是 apple 但是您将如何有效地计算它呢不要重新发明轮子在
google.load 导致 dom/screen 为空

我正在尝试异步添加谷歌可视化但遇到了问题我已将范围缩小到导致问题的 google load 当 google load 部分 js 运行时我得到一个空的屏幕 dom 任何人都知道我做错了什么我也尝试过使用 google setOnL
推送秘密变更集

这可能看起来很矛盾我知道秘密变更集应该是私有的但是如果我想备份这些秘密变更集怎么办我并行处理一些分支有时我想推送一个分支但不想推送其他分支为了实现这一目标我在不同的克隆中工作但我讨厌那样所以现在 Mercurial 有阶段
全局授权过滤器不适用于 Swagger UI Asp.net Web Api

我正在实施招摇的用户界面 https swagger io tools swagger ui 对于我的 Asp net WEB Api 项目我使用默认值System Web Http AuthorizeAttribute 我已将其注册到我
同一虚拟机中已存在另一个未命名的 CacheManager (ehCache 2.5)

这就是我运行 junit 测试时发生的情况 Another CacheManager with same name cacheManager already exists in the same VM Please provide uniq
让 foreach() 和 ggplot2 和谐相处

我有一组调查数据我想生成按受访者所在国家地区分组的特定变量的图到目前为止我编写的生成绘图的代码是 countries lt isplit drones drones v3 foreach country countries dopa
将 MapKit 用户坐标转换为屏幕坐标时遇到问题

好吧这实际上是一个线程中的三个不同的问题 1 我正在使用 void viewDidLoad super viewDidLoad mapView setFrame CGRectMake 100 100 520 520 mapView set
在不知道 Clojure 中的键的情况下，如何将映射解构为键值对？

假设我有一张这样的地图 a 1 b 2 c 3 我想像这样映射它注意非工作伪代码 mapcat fn key key a value value a println key key a n value value a 如果不先获取函数的
uvicorn 在 AWS Fargate 上 1-2 分钟后关闭

我在 AWS Fargate 上使用 Python 3 10 1 和应用程序负载均衡器部署了 FastAPI 0 81 0 uvicorn 0 18 3 服务器在我的本地 Docker 中无限期地运行如预期但是在 AWS 上应用程序总
如何在 Laravel 5 中导入 symfony 进程类？

我想知道如何在 laravel 5 中导入 symfony 进程类我在 laravel 的控制台中使用了它但显示错误未找到进程类 use Symfony Component Process Process 这样你就可以使用 Pro
Java 对象序列化性能技巧

我必须将一棵巨大的对象树 7 000 个序列化到磁盘中最初我们用 Kodo 将这棵树保存在数据库中但它会进行成千上万的查询才能将这棵树加载到内存中并且会占用本地宇宙可用时间的很大一部分我为此尝试了序列化并且确实获得了性能改进
将 Json 对象导出到文本文件

我正在尝试编写一个 Json 对象 JsonExport 并且想将其内容写入文本文件我正在使用 max4live 将数据从 Audio DAW 导出到 Json 以便导出到服务器但之后我希望在文本文件中看到整个 Json 对象 var
如何仅使用日期从 DATETIME 列中进行选择？

我的表上有一个 DATETIME 列用于存储创建记录的时间我只想选择在特定日期创建的记录如果我尝试 SELECT FROM myTable WHERE postedOn 2012 06 06 即使表中有很多行它也不返回任何行post
我们如何在 Angular 4 中获取 HttpClient 状态代码

嗨 Angular 新手我面临着获取 HTTP 状态代码的问题该代码位于 HTTP 模块中我可以使用轻松获取响应代码响应状态但是当我使用HttpClient模块我无法获取response status 它显示找不到状态那么我怎样
C：负数和余数背后的数学

这似乎是处理 Remainder Mod 时被问到的第一件事而我对此有点碰壁我正在用一本教科书和一堆 C 代码自学编程鉴于我没有真正的教练说不不它实际上是这样工作的我想我应该在这里尝试一下不过我还没有找到数学部分的结论性答
如何在 clojure 中创建可执行文件？

我一直在使用 Clojure Box 在 REPL 环境中学习 clojure 如何制作可执行文件 jar 我想知道这样的事情是否可能在记事本上编写 clojure 代码并将其命名为project clj 编译项目 clj 获取可执行文件
构建此 Linq-to-Events 拖放代码的最佳方法是什么？

我正在尝试处理拖放交互其中涉及鼠标按下鼠标移动和鼠标向上这是我的解决方案的简化重现按下鼠标时创建一个椭圆并将其添加到画布上鼠标移动时重新定位椭圆以跟随鼠标鼠标松开时会更改画布的颜色以便清楚地看出您正在拖动哪一个 var
如何克服 grails 服务中的 StaleObjectStateException

我引入了一个 TransactionService 我在控制器中使用它来执行乐观事务它应该尝试执行给定的事务关闭如果失败则回滚如果失败再试一次它基本上看起来像这样 class TransactionService transac
哪些 Spark 转换会导致 Shuffle？

我很难在 Spark 文档中找到导致随机播放的操作和不会导致随机播放的操作在这个列表中哪些会导致洗牌哪些不会映射和过滤器则不然但是我不确定其他人的情况 map func filter func flatMap func mapP

哪些 Spark 转换会导致 Shuffle？

哪些 Spark 转换会导致 Shuffle？ 的相关文章

随机推荐

热门标签

哪些 Spark 转换会导致 Shuffle？的相关文章