当shuffle分区大于200时会发生什么（dataframe中的spark.sql.shuffle.partitions 200（默认））

2024-04-02

打乱数据的 Spark sql 聚合操作，即spark.sql.shuffle.partitions 200（默认情况下）。当 shuffle 分区大于 200 时，性能会发生什么变化。

当分区数量大于 2000 时，Spark 使用不同的数据结构进行随机簿记。因此，如果分区数量接近 2000，则将其增加到 2000 以上。

但我的问题是，当 shuffle 分区大于 200（比如说 300）时，会发生什么行为。

根据为作业分配足够资源的相对较大集群上的典型工作负载，选择数字 200 作为默认值。否则，应根据 2 个因素选择此数字 - 可用核心数量和分区大小（建议将分区保持在接近 100Mb）。选定的分区数量应该是可用核心数量的倍数，但不应该很大（通常是核心数量的 1-3 倍）。如果分区数量大于默认值，则不应更改 Spark 的行为 - 它只会增加 Spark 需要执行的任务数量。

你可以看Spark + AI 峰会 2019 的演讲 https://www.youtube.com/watch?v=daXEp4HmS-E- 它涵盖了 Spark 程序优化的许多细节，包括分区数量的选择。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

当shuffle分区大于200时会发生什么（dataframe中的spark.sql.shuffle.partitions 200（默认））的相关文章

Spark数据框中过滤的多个条件

我有一个包含四个字段的数据框其中一个字段名称是 Status 我尝试在 filter 中对数据帧使用 OR 条件我尝试了以下查询但没有运气 df2 df1 filter Status 2 Status 3 df2 df1 filter
如何查找组中第一个非空值？（使用dataset api进行二次排序）

我正在研究一个代表事件流的数据集例如从网站跟踪事件时触发所有事件都有一个时间戳我们经常遇到的一个用例是尝试查找给定字段的第一个非空值例如类似的东西最能让我们到达那里 val eventsDf spark read json jso
在Python Spark中查看RDD内容？

在 pyspark 中运行一个简单的应用程序 f sc textFile README md wc f flatMap lambda x x split map lambda x x 1 reduceByKey add 我想使用 forea
Spark - java.lang.OutOfMemoryError：请求的数组大小超出 VM 限制

我正在尝试对 Cloudera 的 Spark 2 1 0 中的数据帧进行 groupBy 操作该集群位于总 RAM 约为 512GB 的 7 节点集群上我的代码如下 ndf ndf repartition 20000 by user
如何在 Spark 中创建空数据帧

我有一组基于 Avro 的配置单元表我需要从中读取数据由于Spark SQL使用hive serdes从HDFS读取数据因此比直接读取HDFS慢很多因此我使用数据块 Spark Avro jar 从底层 HDFS 目录读取 Avr
Delta Lake 独立于 Apache Spark？

我一直在探索数据湖屋概念和 Delta Lake 它的一些功能看起来真的很有趣就在项目主页上https delta io https delta io 有一个图表显示 Delta Lake 运行在您现有的数据湖上但没有提及 Spar
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
将 Spark 数据框中的时间戳转换为日期

我见过这里如何将DataFrame中的时间戳转换为日期格式 https stackoverflow com questions 40656001 how to convert timestamp to date format in da
如何在 Apache Spark 中基于列的子集实现“ except ”？

我正在 Spark 中使用两个模式 table1 and table2 scala gt table1 printSchema root user id long nullable true item id long nullable tr
从 SparkSession.read() 获取“org.apache.spark.sql.AnalysisException：路径不存在”[重复]

这个问题在这里已经有答案了我正在尝试读取提交的文件spark submit在客户端模式下连接到yarn集群将文件放入 HDFS 不是一个选项这是我所做的 def main args Array String if args null
如何将多行标签 xml 文件转换为 dataframe

我有一个包含多个行标签的 xml 文件我需要将此 xml 转换为正确的数据帧我使用了spark xml 它只处理单行标签 xml数据如下
使用 mlib 执行 Spark-Shell，错误：对象 jblas 不是包 org 的成员

在spark shell中当我执行import org jblas DoubleMatrix 它会在 RHEL 上抛出错误对象 jblas 不是包 org 的成员实际上我用谷歌搜索了 jblas 并安装了 gfortran htt
Spark - scala - 如何检查配置单元中是否存在表

我必须使用 Spark 1 6 2 scala 检查配置单元中是否存在表如果没有我必须创建一个空数据框并将其保存为配置单元表如果存在则覆盖现有表我需要一个返回布尔值的函数基于该函数我可以做出上述决定是否创建新表或覆盖现有表 1
无法在 SBT 中运行 Apache Spark 相关单元测试 - NoClassDefFoundError

我有一个简单的单元测试使用SparkContext 我可以在 IntelliJ Idea 中运行单元测试没有任何问题但是当尝试从 SBT shell 运行相同的测试时我收到以下错误 java lang NoClassDefFoun
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
如何从字符串列中提取数字？

我的要求是从列中的评论列中检索订单号comment并且总是开始于R 订单号应作为新列添加到表中输入数据 code id mode location status comment AS SD 101 Airways hyderabad D
如何根据 Pyspark 中另一列的表达式评估有条件地替换列中的值？

import numpy as np df spark createDataFrame 1 1 None 1 2 float 5 1 3 np nan 1 4 None 0 5 float 10 1 6 float nan 0 6 floa
过滤字符串上的 Spark DataFrame 包含

我在用火花1 3 0 http spark apache org releases spark release 1 3 0 html and 火花阿夫罗1 0 0 https github com databricks spark avro
HashPartitioner 是如何工作的？

我阅读了文档HashPartitioner http spark apache org docs 1 3 1 api java index html org apache spark HashPartitioner html 不幸的是除了
如何读取一次流数据集并输出到多个接收器？

我有 Spark 结构化流作业它从 S3 读取数据转换数据然后将其存储到一个 S3 接收器和一个 Elasticsearch 接收器目前我正在做readStream一次然后writeStream format start 两次这

随机推荐

C++11 嵌套宏调用？

它在 C std 16 3 4 中说生成的预处理标记序列来自宏调用替换与源文件的所有后续预处理标记一起重新扫描以获取更多宏名称代替如果在替换列表扫描期间找到了被替换的宏的名称不包括源文件的其余预处理标记它不会被替换此外
Lua 中的“主”函数？

在 python 中通常会定义一个 main 函数以便允许脚本用作模块如果需要 def main print Hello world return 0 if name main sys exit main 在Lua中这个习语if n
用于改造响应代码处理的自定义 rx Func1

我是 rxjava 的新手所以请不要严格我请求虱子下一个 Observable
当我使用大量数据发出大量请求后，Volley 出现内存不足异常

我有一个页面查看器在每个页面内都有列表视图该列表视图将使用 Web 服务有 10 条记录因此页面查看器使用 Web 服务的三个调用来填充三个页面当前页面左侧页面和右侧页面页但在我进行了多次滑动后我得到了这个异常 java l
PostgreSQL ORDER BY 问题 - 自然排序

我有一个 PostgresORDER BY下表的问题 em code name EM001 AAA EM999 BBB EM1000 CCC 要将新记录插入表中我选择最后一条记录SELECT FROM employees ORDER BY
mongo 数据库中的可尾游标超时

我正在尝试用 ruby 创建一个 oplog 观察器到目前为止我想出了下面的一个小脚本 require rubygems require mongo db Mongo Connection new localhost 5151 db l
glsl 双精度顶点缓冲区

如果我创建一个双精度顶点缓冲区例如 GLuint vertBuffer spanBuffer spanCount patchSize program already setup glUseProgram program glEnableC
无法使用“adb shell settings put”设置 location_providers_allowed 的值

我正在尝试使用以下命令打开位置 adb shell settings put secure location providers allowed gps wifi network adb reboot 但它既不改变变量的值允许的位置提供者重
Antlr3：无法匹配词法分析器规则中使用的解析器规则中的标记

我在 Antlr3 中的词法分析器规则为 HYPHEN TOKEN HYPHEN CHARS CHARS a z 解析器规则如下 exp CHARS some complex expression parser rule exp HYPHE
使用梯形图程序将 TCP/IP 消息从 PLC 发送到 PC

考虑以下梯形图程序该程序检查连接是否已启用 A202 00 然后从 PLC 向 PC 发送消息文档 Omron CX Programmer 严重缺乏对程序约定的解释我不明白的是从一个节点向另一个节点发送消息我应该需要指定接收者 I
限制“鼠标滚轮”增量每次滚动触发一次

我使用下面的代码向不同方向滚动两个 div 但我很好奇是否可以限制滚动以便每次滚动只触发一次而不是不断滚动并将我的函数发送到无限循环 page left page right bind mousewheel function even
Eclipse 插件：java.lang.NoClassDefFoundError

如你看到的 I added jni4net j 0 8 6 0 jar到我参考的图书馆但我仍然收到java lang NoClassDefFoundError例外 java lang NoClassDefFoundError net sf
PhoneStateListener onSignalStrengthsChanged 停止在 Service 中调用

我正在编写包含两个元素的简单应用程序服务和活动活动仅用于启动和停止服务服务用途PhoneStateListener获取有关当前 CellID LAC 和 RSSI 信号强度的信息并将其记录到文件中当手机未休眠时一切正常我注意到
mod_pagespeed magento

有人在 magento 商店中使用过 mod pagespeed 吗它会破坏任何东西吗比如自定义优化等很有兴趣使用它但苦于资源的运气你的帖子让我感兴趣所以我玩了 mod pagespeed 我没有做任何详细的测试或测量我的总体
Android ADT插件问题

当我尝试执行 ADT 插件步骤并需要一些帮助时我遇到了这个问题错误如下 Cannot complete the install because of a conflicting dependency Software being ins
如何在IE9中访问Event.target？

HTML DOM 对象模型定义了一个Event object with a target财产 https stackoverflow com a 10637046 12597 查看MSDN 微软文档target财产 http msdn mi
Xcode 上 Boost 的线程组

在我的项目中遇到错误后我尝试使用 C 在 Xcode 4 2 上运行一个小型测试程序 include
如何使用宏在 foreach 内生成多个 Makefile 目标/规则？神秘的行为

我正在使用 GNU make 3 81 这是一个演示该问题的测试 makefile define BOZO a 1 b c touch a 1 endef foreach i 1 2 3 call BOZO i 这里的想法是使用宏模板 BO
为什么使用 Xcode 4.2 的 iPad 3 上的 [[UIScale mainScreen] 比例] 为 1？

在我的 iPad 3 上测试时 UIScreen mainScreen scale 1 0 我的理解是这应该是2 0 我在 Snow Leopard 上使用 iOS 5 1 SDK 和 Xcode 4 2 据我所知这不是官方支持的配置
当shuffle分区大于200时会发生什么（dataframe中的spark.sql.shuffle.partitions 200（默认））

打乱数据的 Spark sql 聚合操作即spark sql shuffle partitions 200 默认情况下当 shuffle 分区大于 200 时性能会发生什么变化当分区数量大于 2000 时 Spark 使用不同的数据

当shuffle分区大于200时会发生什么（dataframe中的spark.sql.shuffle.partitions 200（默认））

当shuffle分区大于200时会发生什么（dataframe中的spark.sql.shuffle.partitions 200（默认）） 的相关文章

随机推荐

热门标签

当shuffle分区大于200时会发生什么（dataframe中的spark.sql.shuffle.partitions 200（默认））的相关文章