Spark常用参数解释

2023-11-19

Spark的默认配置文件位于堡垒机上的这个位置: $SPARK_CONF_DIR/spark-defaults.conf，用户可以自行查看和理解。

需要注意的是，默认值优先级最低，用户如果提交任务时或者代码里明确指定配置，则以用户配置为先。用户再理解参数含义的基础上，可根据具体任务情况调整参数（修改提交参数--conf值，不是spark-defaults.conf文件）。

以下常用参数配置均可以通过 --conf XXX=Y 方式使用，其他参数以及介绍请参考 Configuration - Spark 3.2.1 Documentation

参数名称	建议值	解释
spark.master	yarn	使用哪种资源调度器，一般使用yarn。本地调试可以用local
spark.submit.deployMode	cluster	driver程序运行位置，调试可以用client，线上任务建议cluster。
spark.driver.cores	4	driver最大使用cpu(线程)数
spark.driver.memory	4-10g	driver申请内存大小
spark.executor.memory	3. Spark任务调优技巧	单个executor申请堆内内存大小
spark.python.worker.memory	spark.executor.memory/2	一般使用默认值即可
spark.yarn.executor.memoryOverhead	3072	单个executor申请堆外内存大小，一般使用默认值即可
spark.executor.cores	3. Spark任务调优技巧	单个 executor最大并发task数
spark.executor.instances	3. Spark任务调优技巧	executor数
spark.speculation	默认值false	推测执行机制默认为false（关闭），如果遇到作业偶尔卡住可以尝试开启。
spark.default.parallelism	3. Spark任务调优技巧	控制默认RDD的partithion数，读取hdfs文件时partition数以blocksize和是否合并输入为准。
spark.sql.shuffle.partitions	3. Spark任务调优技巧	执行sql或sql类算子时shuffle分区数，数据量大时应提高此值。
spark.pyspark.python	python2/python3/python3.5	指定pyspark使用的python版本（如果使用docker镜像，请先确认镜像里是否有对应版本，平台基础镜像只有python2）
spark.log.level	默认值info	ALL, TRACE, DEBUG, INFO, WARN, ERROR, FATAL, OFF，不区分大小写。
spark.sql.hive.mergeFiles	默认值false	开启会自动合spark-sql产生的并小文件
spark.hadoop.jd.bdp.streaming.monitor.enable	默认值false	是否开启streaming作业batch积压告警功能，默认为false，可通过 --conf spark.hadoop.jd.bdp.streaming.monitor.enable=true 开启
spark.hadoop.jd.bdp.batch.threshold	默认值10	streaming作业batch积压告警阈值，默认值为10，用户可根据需求调整，例如： --conf spark.hadoop.jd.bdp.batch.threshold=20
spark.hadoop.jd.bdp.user.define.erps	默认使用平台配置的告警组	对于类似streaming作业batch积压等仅需用户关注的指标，用户可自定义告警组，例如： --conf spark.hadoop.jd.bdp.user.define.erps="baibing12\|maruilei" （注意：可配置多人，相邻erp用竖线\|分隔）
spark.isLoadHivercFile spark.sql.tempudf.ignoreIfExists	默认false	是否加载所有hive udf(只支持spark-sql下使用,不支持spark-submit、pyspark)。(HiveTask里面已经打开，用户无需多余设置)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

Spark常用参数解释的相关文章

spark性能优化调优指导性文件

1 让我们看一下前面的核心参数设置 num executors 10 20 executor cores 1 2 executor memory 10 20 driver memory 20 spark default parallelis
数据倾斜

数据倾斜发生时的现象 1 绝大多数task执行得都非常快但个别task执行的极慢 2 原本能正常执行的Spark作业某天突然爆出OOM 内存溢出异常观察异常栈是我们写的业务代码造成的数据倾斜发生的原理在进行shuffle的时候
任务长期不释放和占用单节点持续的cpu，导致hivesever2本身内存泄漏造成

任务长期不释放和占用单节点持续的cpu 导致hivesever2本身内存泄漏造成产生的原因在于查询过于复杂或者数据量过大当有复杂的查询或处理大量数据的请求时 HiveServer2可能会出现高负载这可能涉及大量的计算 IO操作或涉及
SparkStreaming知识总结

一流式计算的概述 1 1 什么是流式计算 1 数据流与静态数据的区别数据流指的就是不断产生的数据是源源不断不会停止静态数据指的就是存储在磁盘中的固定的数据 2 流式计算的概念就是对数据流进行计算由于数据是炼苗不断的产生的所以
Spark（七）——累加器和广播变量

5 累加器通过在驱动器中调用SparkContext accumulator initialValue 方法创建出存有初始值的累加器返回值为org apache spark Accumulator T 对象其中 T 是初始值 ini
11.Linux下Spark的安装配置以及spark-shell的启动和 Spark集群环境搭建

本案例软件包链接 https pan baidu com s 1zABhjj2umontXe2CYBW DQ 提取码 1123 若链接失效在下面评论我会及时更新目录 1 安装Spark 1 先用xftp将安装包传到home hadoo
Kafka传输数据到Spark Streaming通过编写程序java、scala程序实现操作

一案例说明现有一电商网站数据文件名为buyer favorite1 记录了用户对商品的收藏数据数据以 t 键分割数据内容及数据格式如下二前置准备工作项目环境说明 Linux Ubuntu 16 04 jdk 7u75 lin
大数据--pyspark远程连接hive

上一篇文章介绍了python连接hive的过程通过地址端口号访问到hive并对hive中的数据进行操作这一篇文章介绍一下怎么通过windows本地pyspark 本地部署好的spark 远程虚拟机的hive 完成本地pyspark对h
SparkSQL HiveSQL 常用正则表达式

SparkSQL HiveSQL 常用正则表达式目录 SparkSQL HiveSQL 常用正则表达式 1 匹配汉字 2 匹配手机号码 3 匹配身份证 4 SparkSQL HiveSQL 常用正则函数 5 SparkSQL 分组聚合
spark算子执行位置研究，driver端？executor端？

参考资料 https cloud tencent com developer article 1545723 前言 spark算子的执行位置 driver端还是executor端这些之前其实没有注意过最近在学流处理发现这个还是很重要
Spark SQL 之 Temporary View

Spark SQL 之 Temporary View spark SQL的 temporary view 是支持原生SQL 的方式之一 spark SQL的 DataFrame 和 DataSet 均可以通过注册 temporary vie
基于Spark的电商用户行为实时分析可视化系统（Flask-SocketIO）

基于Spark的电商用户行为实时分析可视化系统 Flask SocketIO 项目简介该项目已上线蓝桥课程有需要的可凭邀请码 UB5mdLbl 学习哦有优惠课程地址 https www lanqiao cn courses 2629
记一次Spark打包错误：object java.lang.Object in compiler mirror

使用maven compile和package 一直报错scala reflect internal MissingRequirementError object scala runtime in compiler mirror not f
Spark学习(文件读取路径）

在不同的启动模式下加载文件时的路径写法是不一样的对于local模式下默认就是读取本地文件而在standlone或者yarn client 或者cluster模式下默认读的都是hdfs文件系统这几种模式下很难读取本地文件这是很显
sparkstreamming 消费kafka(2)

spark streaming提供了两种获取方式一种是同storm一样实时读取缓存到内存中另一种是定时批量读取这两种方式分别是 Receiver base Direct 一 Receiver base Spark官方最先提供了基于R
sparkstreamming 消费kafka(1)

pom
Spark 配置

文章目录 1 Spark 配置 1 1 Spark 属性 1 1 1 动态加载Spark属性 1 1 2 查看Spark属性 1 2 环境变量 2 重新指定配置文件目录 3 继承Hadoop集群配置 4 定制的Hadoop Hive配置 1
Spark SQL 项目：实现各区域热门商品前N统计

一需求1 1 需求简介这里的热门商品是从点击量的维度来看的计算各个区域前三大热门商品并备注上每个商品在主要城市中的分布比例超过两个城市用其他显示 1 2 思路分析使用 sql 来完成碰到复杂的需求可以使用 udf 或 udaf查
2023_Spark_实验二十九：Flume配置KafkaSink

实验目的掌握Flume采集数据发送到Kafka的方法实验方法通过配置Flume的KafkaSink采集数据到Kafka中实验步骤一明确日志采集方式一般Flume采集日志source有两种方式 1 Exec类型的Source 可
阿里技术官亲笔力作：Kafka限量笔记，一本书助你掌握Kafka的精髓

前言分布式堪称程序员江湖中的一把利器无论面试还是职场皆是不可或缺的技能而Kafka 这款分布式发布订阅消息队列的璀璨明珠其魅力之强大无与伦比对于Kafka的奥秘我们仍需继续探索要论对Kafka的熟悉程度恐怕阿里的大佬们

随机推荐

HTTP协议简介，数据安全如何保证http传输安全性，http与https区别

目前大多数网站和app的接口都是采用http协议但是http协议很容易就通过抓包工具监听到内容甚至可以篡改内容为了保证数据不被别人看到和修改可以通过以下几个方面避免重要的数据要加密比如用户名密码我们需要加密这样即使被抓包监
git不能提交子文件夹？

空目录无法add 在最里面的目录下加上随便加上一个txt就可以了
《编写高质量代码：改善Java程序的151个建议》读书笔记

编写高质量代码改善Java程序的151个建议秦小波 67个笔记前言本书附带有大量的源码下载地址见华章网站www hzbook com 建议11 养成良好习惯显式声明UID SerialVersionUID 也叫做流标识符 Str
机器学习课程总结3--基本卷积神经网络+评价指标+目标检测与Yolo网络

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档目录一基本卷积神经网络 1 AlexNet 2 VGG 16 3 残差网络二常用数据集与评价指标 1 数据集 2 评价指标三目标检测 YOLO 1 1 目标检测问
Python实现评分函数算法——打造高效智能评估系统

Python实现评分函数算法打造高效智能评估系统在众多的机器学习应用场景中评估模型表现的工作至关重要评分函数算法对于评估预测结果的好坏以及对于相应优化算法的使用具有非常重要的作用本文将介绍如何使用Python实现评分函数算法并
C语言经典100例题（31）--请输入星期几的第一个字母来判断一下是星期几，如果第一个字母一样，则继续判断第二个字母。

目录题目问题分析代码测试如果错误分析题目请输入星期几的第一个字母来判断一下是星期几如果第一个字母一样则继续判断第二个字母问题分析 1 星期日 Sunday 缩写Sun 2 星期一 Monday 缩写Mon 3 星期二 T
Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models

本文是LLM系列文章针对 Recursively Summarizing Enables Long Term Dialogue Memory in Large Language Models 的翻译递归总结在大型语言模型中实现长期对话记
Node.js程序如何访问MySQL数据库?

mysql 访问数据库程序运行的时候数据都是在内存中的当程序终止的时候通常都需要将数据保存到磁盘上无论是保存到本地磁盘还是通过网络保存到服务器上最终都会将数据写入磁盘文件而如何定义数据的存储格式就是一个大问题如果我们自己来
-day26 必备SQL和表关系及授权

day26 必备SQL和表关系及授权课程目标掌握开发中最常见的SQL语句和表关系及授权相关知识点课程概要必备SQL 8个必备表关系授权 1 必备SQL语句上一节讲解了最基础SQL语句增删改查其实在日常的开发中还有很多必备的
【linux】图文并茂，让你轻松掌握Linux基本指令

目录一前提二在root身份下管理用户 1 whoami 判断身份 2 创建用户 3 销毁用户三文件增删移动指令 1 pwd 查看路径 2 ls 打开当前目录 3 touch 创建文件 4 nano 打开文件 5 ls l
电脑文件误删除如何恢复?

每个人在日常工作中都会频繁使用电脑毕竟工作量都是有一定的要求的这促使我们在使用电脑的同时要定期的清理电脑上的文件但这很有可能会让你出现误删除文件毕竟当你在清理磁盘或者桌面文件时可能忘记了这个文件的作用未点击进去就删除了那么小
vue3 + router-view + keepalive parentComponent.ctx.deactivate is not a function

vue3中keepAlive的用法与vue2中存在区别 vue3中的用法
vim如何选中多行后批量缩进

vim如何选中多行后批量缩进 1 shift v 选中行 2 使用进行缩进
大厂经典Jenkins+DevOps面试题整理汇总

1 传统网站部署流程 2 使用jenkins后网站的部署流程 3 谈谈你对CI CD的认识这个问题在面试中也经常被问到主要考察几个方面你对新技术的了解你们公司是如何落地的来我们公司是否可以借鉴三个概念持续集成CI 代码合并构
div标签的contenteditable属性实现input效果以及控制input的聚焦失焦

在触屏移动端网页中聊天室类型的输入框很常见但是很多都是自定义样式的直接改造input标签会很麻烦给div标签设置contenteditable属性可以达到input标签的效果还能轻松的自定义样式利用input事件和v text
漫画：什么是分布式事务？

点击上方程序员小灰选择置顶公众号有趣有内涵的文章第一时间送达第二天假如没有分布式事务在一系列微服务系统当中假如不存在分布式事务会发生什么呢让我们以互联网中常用的交易业务为例子上图中包含了库存和订单两个独立的微服务每个
poj1463

1
基于minikube的k8s单机环境部署ThingsBoard

1 minikube安装k8s单机版 https blog csdn net qq 39879126 article details 121587678 2 安装ThingsBoard 下载 https github com thingsb
Qt动画框架设计飞入-消失特效

用Qt动画框架设计飞入消失特效 Qt动画框架很强大只要你想得到它就有可能帮你实现这一次我将抽取上一个演示程序的部分来进行介绍这一部分我命名为飞入消失特效主要用在文字的显示方面从这点上说很像PowerPoint上面特效的一
Spark常用参数解释

Spark的默认配置文件位于堡垒机上的这个位置 SPARK CONF DIR spark defaults conf 用户可以自行查看和理解需要注意的是默认值优先级最低用户如果提交任务时或者代码里明确指定配置则以用户配置为先用户再

Spark常用参数解释

Spark常用参数解释 的相关文章

随机推荐

热门标签

Spark常用参数解释的相关文章