哪些 Spark 转换会导致 Shuffle?

2024-02-04

我很难在 Spark 文档中找到导致随机播放的操作和不会导致随机播放的操作。在这个列表中,哪些会导致洗牌,哪些不会?

映射和过滤器则不然。但是,我不确定其他人的情况。

map(func)
filter(func)
flatMap(func)
mapPartitions(func)
mapPartitionsWithIndex(func)
sample(withReplacement, fraction, seed)
union(otherDataset)
intersection(otherDataset)
distinct([numTasks]))
groupByKey([numTasks])
reduceByKey(func, [numTasks])
aggregateByKey(zeroValue)(seqOp, combOp, [numTasks])
sortByKey([ascending], [numTasks])
join(otherDataset, [numTasks])
cogroup(otherDataset, [numTasks])
cartesian(otherDataset)
pipe(command, [envVars])
coalesce(numPartitions)

实际上,无需文档就可以非常容易地找到这一点。对于这些函数中的任何一个,只需创建一个 RDD 并调用调试字符串,下面是一个示例,您可以自己完成其余的操作。

scala> val a  = sc.parallelize(Array(1,2,3)).distinct
scala> a.toDebugString
MappedRDD[5] at distinct at <console>:12 (1 partitions)
  MapPartitionsRDD[4] at distinct at <console>:12 (1 partitions)
    **ShuffledRDD[3] at distinct at <console>:12 (1 partitions)**
      MapPartitionsRDD[2] at distinct at <console>:12 (1 partitions)
        MappedRDD[1] at distinct at <console>:12 (1 partitions)
          ParallelCollectionRDD[0] at parallelize at <console>:12 (1 partitions)

正如你所看到的distinct创建随机播放。找出这种方式而不是文档也特别重要,因为在某些情况下,某些功能需要或不需要洗牌。例如,连接通常需要洗牌,但如果您连接两个 RDD,则来自同一个 RDD Spark 的分支有时可以消除洗牌。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

哪些 Spark 转换会导致 Shuffle? 的相关文章

随机推荐

  • 如何将 AJAX 成功变量存储为 AJAX 之外的变量?

    我使用 AJAX 来获取我命名为变量 myPubscore 的数据 现在我尝试将 myPubscore 发送到另一个 js 文件 myPubscore 在 Ajax 中打印得很好 但是当我在 sendResponse 之前打印时 我收到 事
  • 如何从数组中获取最多代表的对象

    我有一个包含一些对象的数组 并且有几个相似的对象 例如 水果 苹果 橙子 苹果 香蕉 香蕉 橙子 苹果 苹果 从该数组中获取最多代表的对象的最有效方法是什么 在这种情况下 它将是 apple 但是您将如何有效地计算它呢 不要重新发明轮子 在
  • google.load 导致 dom/screen 为空

    我正在尝试异步添加谷歌可视化 但遇到了问题 我已将范围缩小到导致问题的 google load 当 google load 部分 js 运行时 我得到一个空的屏幕 dom 任何人都知道我做错了什么 我也尝试过使用 google setOnL
  • 推送秘密变更集

    这可能看起来很矛盾 我知道秘密变更集应该是私有的 但是如果我想备份这些秘密变更集怎么办 我并行处理一些分支 有时我想推送一个分支 但不想推送其他分支 为了实现这一目标 我在不同的克隆中工作 但我讨厌那样 所以现在 Mercurial 有阶段
  • 全局授权过滤器不适用于 Swagger UI Asp.net Web Api

    我正在实施招摇的用户界面 https swagger io tools swagger ui 对于我的 Asp net WEB Api 项目 我使用默认值System Web Http AuthorizeAttribute 我已将其注册到我
  • 同一虚拟机中已存在另一个未命名的 CacheManager (ehCache 2.5)

    这就是我运行 junit 测试时发生的情况 Another CacheManager with same name cacheManager already exists in the same VM Please provide uniq
  • 让 foreach() 和 ggplot2 和谐相处

    我有一组调查数据 我想生成按受访者所在国家 地区分组的特定变量的图 到目前为止 我编写的生成绘图的代码是 countries lt isplit drones drones v3 foreach country countries dopa
  • 将 MapKit 用户坐标转换为屏幕坐标时遇到问题

    好吧 这实际上是一个线程中的三个不同的问题 1 我正在使用 void viewDidLoad super viewDidLoad mapView setFrame CGRectMake 100 100 520 520 mapView set
  • 在不知道 Clojure 中的键的情况下,如何将映射解构为键值对?

    假设我有一张这样的地图 a 1 b 2 c 3 我想像这样映射它 注意 非工作伪代码 mapcat fn key key a value value a println key key a n value value a 如果不先获取函数的
  • uvicorn 在 AWS Fargate 上 1-2 分钟后关闭

    我在 AWS Fargate 上使用 Python 3 10 1 和应用程序负载均衡器部署了 FastAPI 0 81 0 uvicorn 0 18 3 服务器在我的本地 Docker 中无限期地运行 如预期 但是在 AWS 上 应用程序总
  • 如何在 Laravel 5 中导入 symfony 进程类?

    我想知道如何在 laravel 5 中导入 symfony 进程类 我在 laravel 的控制台中使用了它 但显示错误 未找到 进程 类 use Symfony Component Process Process 这样你就可以使用 Pro
  • Java 对象序列化性能技巧

    我必须将一棵巨大的对象树 7 000 个 序列化到磁盘中 最初 我们用 Kodo 将这棵树保存在数据库中 但它会进行成千上万的查询才能将这棵树加载到内存中 并且会占用本地宇宙可用时间的很大一部分 我为此尝试了序列化 并且确实获得了性能改进
  • 将 Json 对象导出到文本文件

    我正在尝试编写一个 Json 对象 JsonExport 并且想将其内容写入文本文件 我正在使用 max4live 将数据从 Audio DAW 导出到 Json 以便导出到服务器 但之后我希望在文本文件中看到整个 Json 对象 var
  • 如何仅使用日期从 DATETIME 列中进行选择?

    我的表上有一个 DATETIME 列 用于存储创建记录的时间 我只想选择在特定日期创建的记录 如果我尝试 SELECT FROM myTable WHERE postedOn 2012 06 06 即使表中有很多行 它也不返回任何行post
  • 我们如何在 Angular 4 中获取 HttpClient 状态代码

    嗨 Angular 新手 我面临着获取 HTTP 状态代码的问题 该代码位于 HTTP 模块中 我可以使用轻松获取响应代码响应状态 但是当我使用HttpClient模块我无法获取response status 它显示找不到状态 那么 我怎样
  • C:负数和余数背后的数学

    这似乎是处理 Remainder Mod 时被问到的第一件事 而我对此有点碰壁 我正在用一本教科书和一堆 C 代码自学编程 鉴于我没有真正的教练说 不 不 它实际上是这样工作的 我想我应该在这里尝试一下 不过 我还没有找到数学部分的结论性答
  • 如何在 clojure 中创建可执行文件?

    我一直在使用 Clojure Box 在 REPL 环境中学习 clojure 如何制作可执行文件 jar 我想知道这样的事情是否可能 在记事本上编写 clojure 代码并将其命名为project clj 编译项目 clj 获取可执行文件
  • 构建此 Linq-to-Events 拖放代码的最佳方法是什么?

    我正在尝试处理拖放交互 其中涉及鼠标按下 鼠标移动和鼠标向上 这是我的解决方案的简化重现 按下鼠标时 创建一个椭圆并将其添加到画布上 鼠标移动时 重新定位椭圆以跟随鼠标 鼠标松开时 会更改画布的颜色 以便清楚地看出您正在拖动哪一个 var
  • 如何克服 grails 服务中的 StaleObjectStateException

    我引入了一个 TransactionService 我在控制器中使用它来执行乐观事务 它应该 尝试执行给定的事务 关闭 如果失败则回滚 如果失败再试一次 它基本上看起来像这样 class TransactionService transac
  • 哪些 Spark 转换会导致 Shuffle?

    我很难在 Spark 文档中找到导致随机播放的操作和不会导致随机播放的操作 在这个列表中 哪些会导致洗牌 哪些不会 映射和过滤器则不然 但是 我不确定其他人的情况 map func filter func flatMap func mapP