spark 参数调优3-Shuffle Behavior

2023-11-08

spark参数调优系列目录地址：

https://blog.csdn.net/zyzzxycj/article/details/81011540

③ Shuffle Behavior

spark.reducer.maxSizeInFlight

默认48m。从每个reduce任务同时拉取的最大map数，每个reduce都会在完成任务后，需要一个堆外内存的缓冲区来存放结果，如果没有充裕的内存就尽可能把这个调小一点。。相反，堆外内存充裕，调大些就能节省gc时间。

spark.reducer.maxBlocksInFlightPerAddress

限制了每个主机每次reduce可以被多少台远程主机拉取文件块，调低这个参数可以有效减轻node manager的负载。（默认值Int.MaxValue）

spark.reducer.maxReqsInFlight

限制远程机器拉取本机器文件块的请求数，随着集群增大，需要对此做出限制。否则可能会使本机负载过大而挂掉。。（默认值为Int.MaxValue）

spark.reducer.maxReqSizeShuffleToMem

shuffle请求的文件块大小超过这个参数值，就会被强行落盘，防止一大堆并发请求把内存占满。（默认Long.MaxValue）

spark.shuffle.compress

是否压缩map输出文件，默认压缩 true

spark.shuffle.spill.compress

shuffle过程中溢出的文件是否压缩，默认true，使用spark.io.compression.codec压缩。

spark.shuffle.file.buffer

在内存输出流中每个shuffle文件占用内存大小，适当提高可以减少磁盘读写 io次数，初始值为32k

spark.shuffle.memoryFraction

该参数代表了Executor内存中，分配给shuffle read task进行聚合操作的内存比例，默认是20%。

cache少且内存充足时，可以调大该参数，给shuffle read的聚合操作更多内存，以避免由于内存不足导致聚合过程中频繁读写磁盘。

spark.shuffle.manager

当ShuffleManager为SortShuffleManager时，如果shuffle read task的数量小于这个阈值（默认是200），则shuffle write过程中不会进行排序操作，而是直接按照未经优化的HashShuffleManager的方式去写数据，但是最后会将每个task产生的所有临时磁盘文件都合并成一个文件，并会创建单独的索引文件。

当使用SortShuffleManager时，如果的确不需要排序操作，那么建议将这个参数调大一些，大于shuffle read task的数量。那么此时就会自动启用bypass机制，map-side就不会进行排序了，减少了排序的性能开销。但是这种方式下，依然会产生大量的磁盘文件，因此shuffle write性能有待提高。

spark.shuffle.consolidateFiles

如果使用HashShuffleManager，该参数有效。如果设置为true，那么就会开启consolidate机制，会大幅度合并shuffle write的输出文件，对于shuffle read task数量特别多的情况下，这种方法可以极大地减少磁盘IO开销，提升性能。

如果的确不需要SortShuffleManager的排序机制，那么除了使用bypass机制，还可以尝试将spark.shuffle.manager参数手动指定为hash，使用HashShuffleManager，同时开启consolidate机制。

spark.shuffle.io.maxRetries

shuffle read task从shuffle write task所在节点拉取属于自己的数据时，如果因为网络异常导致拉取失败，是会自动进行重试的。该参数就代表了可以重试的最大次数。如果在指定次数之内拉取还是没有成功，就可能会导致作业执行失败。

对于那些包含了特别耗时的shuffle操作的作业，建议增加重试最大次数（比如60次），以避免由于JVM的full gc或者网络不稳定等因素导致的数据拉取失败。在实践中发现，对于针对超大数据量（数十亿~上百亿）的shuffle过程，调节该参数可以大幅度提升稳定性。

spark.shuffle.io.retryWait

同上，默认5s，建议加大间隔时长（比如60s），以增加shuffle操作的稳定性。

spark.io.encryption.enabled + spark.io.encryption.keySizeBits + spark.io.encryption.keygen.algorithm

io加密，默认关闭

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

Hadoop

spark 参数调优3-Shuffle Behavior 的相关文章

Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
为什么组合器输入记录的数量比映射的输出数量多？

Combiner 在 Mapper 之后 Reducer 之前运行它将接收给定节点上的 Mapper 实例发出的所有数据作为输入然后它将输出发送到Reducers 因此组合器输入的记录应小于映射输出的记录 12 08 29 13 38
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
Sqoop mysql错误-通信链路故障

尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
Oozie SSH 操作

Oozie SSH 操作问题 Issue 我们正在尝试在集群的特定主机上运行一些命令我们为此选择了 SSH Action 我们面对这个 SSH 问题已经有一段时间了这里真正的问题可能是什么请指出解决方案 logs AUTH FAILE
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
将日期字符串转换为“MM/DD/YY”格式

我刚刚看到这个例子我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray
在映射器的单个输出上运行多个减速器

我正在使用地图缩减实现左连接功能左侧有大约 6 亿条记录右侧有大约 2300 万条记录在映射器中我使用左连接条件中使用的列来创建键并将键值输出从映射器传递到减速器我遇到性能问题因为两个表中的值数量都很高的映射器键很少例如分别
非 hdfs 文件系统上的 hadoop/yarn 和任务并行化

我已经实例化了 Hadoop 2 4 1 集群并且发现运行 MapReduce 应用程序的并行化方式会有所不同具体取决于输入数据所在的文件系统类型使用 HDFS MapReduce 作业将生成足够的容器以最大限度地利用所有可用内存
无法在 Hadoop Map-Reduce 作业中加载 OpenNLP 句子模型

我正在尝试将 OpenNLP 集成到 Hadoop 上的 Map Reduce 作业中从一些基本的句子分割开始在地图函数中运行以下代码 public AnalysisFile analyze String content InputS
Spark 和 Python 使用自定义文件格式/生成器作为 RDD 的输入

我想问一下 Spark 中输入的可能性我可以看到从http spark apache org docs latest programming guide html http spark apache org docs latest pro
java.lang.ClassNotFoundException：找不到类 org.apache.hadoop.fs.azurebfs.SecureAzureBlobFileSystem

我是 Spark 和 Kubernetes 世界的新手我使用 docker image tool sh 实用程序使用与 Hadoop 3 2 捆绑在一起的官方 Spark 3 0 1 构建了 Spark docker 映像我还为 Jup
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
java.io.IOException: EnsureRemaining: 仅剩余 0 个字节，尝试读取 1

我在 giraph 中的自定义类方面遇到一些问题我制作了 VertexInput 和 Output 格式但总是收到以下错误 java io IOException ensureRemaining Only bytes remaining
如何按行扩展数组值！！使用 Hive SQL

我有一个有 4 列的表其中一列项目类型是 ARRAY 其他是字符串 ID items name loc id1 item1 item2 item3 item4 item5 Mike CT id2 item3 item7 item4 i

随机推荐

高效能，一键批量剪辑，AI智剪让创作更轻松

在今天的数字化时代视频制作已经成为各种行业和领域的必备技能然而视频剪辑过程往往繁琐且耗时大大降低了我们的工作效率幸运的是随着人工智能技术的发展我们有了新的解决方案 AI智剪软件 AI智剪软件如同其名字一样使用人工智能技术进
计算机组成原理--基于Logisim的8位可控加减法器实验的应用（超详细/设计/实验/作业/练习）

目录课程名计算机组成原理内容作用设计实验作业练习学习基于Logisim的8位可控加减法器实验一前言二环境与设备三内容四结果与分析课程名计算机组成原理内容作用设计实验作业练习学习基于Lo
【计算机视觉】BYOL 讲解

BYOL 论文信息标题 Bootstrap your own latent A new approach to self supervised Learning 作者 Jean Bastien Grill 期刊 NeurIPS 2020
微软正式提供Visual Studio 2013正式版下载（附直接链接汇总）

转自 http www iruanmi com visual studio 2013 微软已经向MSDN订阅用户提供了Visual Studio 2013正式版镜像下载不过非MSDN用户可以在微软的Visual Studio 2013官方
猜数字游戏（比大小）

import random Sn random randint 0 100 函数返回n 生成一个在范围内的整数例子 0 lt n lt 100 也可以用random random的函数 Gn int input 输入猜的数 N 1 whi
2019安恒杯一月新春贺岁赛writeup

WEB babyGo 提交你找到的字符串的md5值考点 php反序列化 POP链构造
字典树：Trie树（持续更新）

字典树 Trie树持续更新今天开始学习字典树顺便做做笔记等多刷几道题再来更新一波经验一基本介绍 1 什么是字典树字典树又称单词查找树前缀树键树是一种树形结构是一种哈希树的变种 2 基本性质 1 根节点不包含字符除根
第十三届蓝桥杯单片机组—PCF8591使用

蓝桥杯 PCF8591使用 00 了解PCF8591 01 PCF8591手册主要部分解读控制字节 02 程序部分 ADC部分程序 DAC部分程序 03 总结 00 了解PCF8591 蓝桥杯的PCF8591是ADC DAC驱动芯片大家
python 中定义的函数如何在main中调用_python中main函数的用法

什么场景下会有main函数当该python脚本被作为模块 module 引入 import 时其中的main 函数将不会被执行 main函数的作用 name main 是Python的main函数入口并非说加入这句才能使用pytho
js插件汇总

1 NProgress显示顶部进度条 nprogress js 2 Decimal 浮点数运算的精度 decimal js 3 jquery画小图插件 jquery sparkline js 4 侧边栏导航 sidebar nav js B
apache模块开发 request_rec结构体中变量的值

request rec结构体中用很多成员变量这里只输出了char和int两种类型的值 source 1 include httpd h 2 include http config h 3 include http protocol h 4
STM32-(16)：Systick 系统时钟

上一篇 STM32 15 如何用ID号保护自己的劳动成果下一篇 STM32 17 SPI与数码管数码管 Systick的两大作用 1 可以产生精确延时原先的Delay只是盲等 2 可以提供给操作系统一个单独的心跳时钟节拍通常实现
2021你有想尝试过副业吗？不如来学习3D游戏建模

从2020 2021 我们会害怕害怕经历这次疫情自己会失业但是同时也想保住一份工作不知如果去做那到底要不要先去找一条后路去做呢起码还能给自己一条活路可是往往试着用哪一条活路反而更多的是一事无成我主业是一个3D模型模型师
继承。。。

继承上节回顾 static 静态的作用可以用来修饰成员变量 gt 静态变量类变量静态变量它是随着类的加载而加载它被这个类的所有对象共享普通成员变量实例变量它是随着对象的创建而产生在不同的对象之间是相互独立的可以用来修
java中的IO整理

写在前面本文章基本覆盖了java IO的全部内容文章以例子为主因为讲解内容的java书很多了我觉的学以致用才是真代码是写出来的不是看出来的最后欢迎大家提出意见和建议案例1 创建一个新文件 1 2 3 4 5 6
linux安装nginx+php

在centos服务器下 mkdir docker cd docker mkdir nginx mkdir php mkdir www 2 拉取镜像 docker pull nginx docker pull php 7 4 fpm dock
CentOS 7 分区方案

通常系统盘都会选择性能较好SSD 一般在500G左右这里就以500G硬盘为例以下为CentOS 自动分区方案分区应该按照实际服务器用途而定自动分区方案将 home 空间分配太多了多数情况下并不适用必须存在的分区分区是必须存在的
如何卸载、删除Anaconda？

Anaconda这么好用为啥要删呢当然是我之前装得乱七八糟导致现在心情不好我要把它全部删掉 ok 开始删除思路首先利用anaconda clean清理包清理配置文件然后直接用安装目录下的卸载程序卸载即可一 anaconda
算法分析基础

问题如何比较不同算法的性能分析算法的运行时间算法分析的原则归纳基本操作如运算赋值比较统一机器性能假设基本操作代价均为1 统一机器性能后算法运行时间依赖于问题输入规模与实例相同输入规模实例影响运行最好情况不常出现
spark 参数调优3-Shuffle Behavior

spark参数调优系列目录地址 https blog csdn net zyzzxycj article details 81011540 Shuffle Behavior spark reducer maxSizeInFlight 默认

spark 参数调优3-Shuffle Behavior

spark 参数调优3-Shuffle Behavior 的相关文章

随机推荐

热门标签