Spark 源码阅读一-启动脚本

2023-11-18

Spark Complile

// Because spark 1.5 need maven version:3.3.3 ,so i track the branch-1.4
git branch -a
git checkout --track origin/branch-1.4
git tag 
git checkout v1.4.1

//Building for Scala 2.11 
./dev/change-version-to-2.11.sh 

export MAVEN_OPTS="-Xmx2g -XX:MaxPermSize=512M -XX:ReservedCodeCacheSize=512m"

// edit ~/sql/catalyst/pom.xml replace quasiquotes_2.10 artifactId name
mvn clean package -DskipTests -Pscala-2.11 -Pyarn -Phadoop-2.4 -Dhadoop.version=2.5.0-cdh5.2.0
// some other option  -Psbt -Pjava8-tests -Phive-thriftserver -Ptest-java-home 

// Building a Runnable Distribution
./make-distribution.sh --name custom-spark --tgz -DskipTests -Pscala-2.11 -Pyarn -Phadoop-2.4 -Dhadoop.version=2.5.0-cdh5.2.0

Note

If you compile error in hive-thrift module, add the following dependency in the pom

<dependency>
      <groupId>jline</groupId>
      <artifactId>jline</artifactId>
      <version>0.9.94</version>
    </dependency>

Configuration

examples

spark.master                     spark://master:7077
spark.master                     yarn-client
spark.eventLog.enabled           true
spark.eventLog.dir               hdfs://dmp.zamplus.net:9000/logs/spark
spark.serializer                 org.apache.spark.serializer.KryoSerializer
spark.driver.memory              2g
spark.executor.extraJavaOptions  -XX:+PrintGCDetails -XX:+PrintGCTimeStamps

spark.yarn.jar                    hdfs://dmp.zamplus.net:9000/libs/spark-assembly-1.4.1-hadoop2.4.0.jar

Helps

Spark website:
- Configuration:http://spark.apache.org/docs/latest/configuration.html
Other documents:

Spark default Configuration

executors
- –num-executors (default : 2)
- –executor-cores (default : 1)
memory
- –driver-memory 4g
- –executor-memory 2g
Java OPTS
- -verberos:gc -XX;+PrintGCDetails -XX:+PrintGCTimeStamps
- spark.driver.extraJavaOptions -XX:PermSize=128M -XX:MaxPermSize=256M ( same as –driver-java-options in the command line)
spark.serializer
- default : org.apache.spark.serializer.KryoSerializer
- -

[TODO]

I don’t know when i use spark-shell script ,I must add a parameter -Dspark.master=spark://dmp.zamplus.net:7077. This really pullzed me.

Startup script execution

$SPARK_HOME/bin/spark-shell
$SPARK_HOME/bin/spark-submit --class org.apache.spark.repl.Main
$SPARK_HOME/bin/spark-class org.apache.spark.deploy.SparkSubmit --class org.apache.spark.repl.Main
$JAVA_HOME/java -cp $SPARK_HOME/lib/spark-assembly-1.4.1-hadoop2.4.0.jar org.apache.spark.launcher.Main org.apache.spark.deploy.SparkSubmit --class org.apache.spark.repl.Main
$JAVA_HOME/java-cp$SPARK_HOME/conf/:$SPARK_HOME/lib/spark-assembly-1.4.1-hadoop2.4.0.jar:$SPARK_HOME/lib/datanucleus-api-jdo-3.2.6.jar:$SPARK_HOME/lib/datanucleus-core-3.2.10.jar:$SPARK_HOME/lib/datanucleus-rdbms-3.2.9.jar:/home/wankun/hadoop/etc/hadoop/-Xms2g -Xmx2g -XX:MaxPermSize=256morg.apache.spark.deploy.SparkSubmit--classorg.apache.spark.repl.Mainspark-shell

Notes

The output cmds is separated by ‘\0’.

FAQ

Invalid initial heap size: -Xms2g
Error: Could not create the Java Virtual Machine.
Error: A fatal exception has occurred. Program will exit.

This error is because of error configuration in spark-default.properties . Two space after the spark.driver.memory parameter.

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

Spark 源码阅读一-启动脚本的相关文章

数据倾斜

数据倾斜发生时的现象 1 绝大多数task执行得都非常快但个别task执行的极慢 2 原本能正常执行的Spark作业某天突然爆出OOM 内存溢出异常观察异常栈是我们写的业务代码造成的数据倾斜发生的原理在进行shuffle的时候
Spark广播变量与累加器

在之前的文章中我介绍了flink广播状态从而了解了flink广播状态实际上就是将一个流广播到下游所有算子之中在本文中我将介绍spark中类似的概念为了方便理解先放张spark应用程序架构图 1 普通spark变量实际上如果我们
SparkStreaming知识总结

一流式计算的概述 1 1 什么是流式计算 1 数据流与静态数据的区别数据流指的就是不断产生的数据是源源不断不会停止静态数据指的就是存储在磁盘中的固定的数据 2 流式计算的概念就是对数据流进行计算由于数据是炼苗不断的产生的所以
spark-shell 加载本地文件报错 java.io.FileNotFoundException

学习spark shell 时候发现一个问题从本地文件加载数据生成RDD 报错文件找不到原因 spark shell 如果启动了集群模式真正负责计算的executor会在该executor所在的 worker节点上读取文件并不是
大数据面试题Spark篇（1）

目录 1 spark数据倾斜 2 Spark为什么比mapreduce快 3 hadoop和spark使用场景 4 spark宕机怎么迅速恢复 5 RDD持久化原理 6 checkpoint检查点机制 7 checkpoint和持久化的区别
cdh下spark2-yarn运行sparkstreaming获取kafka数据使用spark-streaming-kafka-0-10_2.11报错解决

报错问题 20 07 15 17 20 51 INFO utils AppInfoParser Kafka version 0 9 0 kafka 2 0 0 20 07 15 17 20 51 INFO utils AppInfoPars
Spark中的基本概念

Spark中的基本概念 1 基本概念 1 1 RDD 弹性分布式数据集 1 2 DAG 有向无环图 1 3 Partition 数据分区 1 4 NarrowDependency 窄依赖 1 5 ShuffleDependency 宽依赖
学习大数据spark——心得体会

总结与体会 1 项目总结本次项目实现了Spark 单机模式Python版的安装介绍了与Spark编程有关的一些基本概念特别对RDD的创建转换和行动操作做了比较详细的说明对从RDD 到DataFrame的实现进行了案例训练包括
SparkSQL HiveSQL 常用正则表达式

SparkSQL HiveSQL 常用正则表达式目录 SparkSQL HiveSQL 常用正则表达式 1 匹配汉字 2 匹配手机号码 3 匹配身份证 4 SparkSQL HiveSQL 常用正则函数 5 SparkSQL 分组聚合
广电用户画像分析之根据用户行为数据进行筛选与标签添加

在数据处理和分析领域我们经常需要根据用户的行为数据进行筛选和标签添加以便更好地理解用户行为和偏好在本篇博客中我们将介绍两个示例展示如何根据用户的收视行为数据和订单信息进行数据处理和分析前情提要数据集分析广电用户画像分析之探索
dolphinschedule使用shell任务结束状态研究

背景配置的dolphin任务使用的是shell shell里包含了spark submit 如下截图 dolphin shell 介绍完毕开始说明现象有天有人调整了集群的cdp配置 executor cores max 1 我之前这
spark算子执行位置研究，driver端？executor端？

参考资料 https cloud tencent com developer article 1545723 前言 spark算子的执行位置 driver端还是executor端这些之前其实没有注意过最近在学流处理发现这个还是很重要
Spark 从入门到放弃（一）Spark基础概念

一 Spark基础概念 1 Application Spark应用程序 application 应用其实就是用spark submit提交的程序一个application通常包含三部分从数据源比方说HDFS 取数据形成RDD 通过R
学习笔记-Spark环境搭建与使用

一 20 04 Ubuntu安装清华源ISO源 https mirrors tuna tsinghua edu cn ubuntu releases 20 04 下载链接 https mirrors tuna tsinghua edu c
大数据手册(Spark)--Spark基本概念

文章目录 Spark 基本概念 Hadoop 生态 Spark 生态 Spark 基本架构 Spark运行基本流程弹性分布式数据集 RDD Spark安装配置 Spark基本概念 Spark基础知识 PySpark版 Spark机器学习
通过yarn提交作业到spark,运行一段时间后报错。

加粗样式
sparkstreamming 消费kafka(1)

pom
python+django基于Spark的国漫画推荐系统可视化大屏分析

国漫推荐信息是现如今社会信息交流中一个重要的组成部分本文将从国漫推荐管理的需求和现状进行分析使得本系统的设计实现具有可使用的价做出一个实用性好的国漫推荐系统使其能满足用户的需求并可以让用户更方便快捷地国漫推荐国漫推荐系统的设计开
2023_Spark_实验二十九：Flume配置KafkaSink

实验目的掌握Flume采集数据发送到Kafka的方法实验方法通过配置Flume的KafkaSink采集数据到Kafka中实验步骤一明确日志采集方式一般Flume采集日志source有两种方式 1 Exec类型的Source 可
Spark 中 BroadCast 导致的内存溢出(SparkFatalException)

背景本文基于 Spark 3 1 1 open jdk 1 8 0 352 目前在排查 Spark 任务的时候遇到了一个很奇怪的问题在此记录一下现象描述一个 Spark Application Driver端的内存为 5GB 一直

随机推荐

HarmonyOS开发详解（五）——鸿蒙高级组件数据动态绑定案例实践

本文将专门花一篇来讲述ListContainer和PageSlider ListContainer主要是参考官方例子 PageSlider在原有官方例子上进行了一些升级改造原有例子添加固定的文字通过改造动态读取本地json内容和本地图片
UDP传送和接受结构体结构的消息--Qt

前言最近的项目用到UDP接收结构体以为和普通的传送字符串的一样没想到我还是太天真要能够接收或者传送结构体一个很重要的知识点是结构体字节对齐废话不多说小课堂开始了结构体对齐参考https www cnblogs com c
嵌入式小白学习--STM32F103C8T6基于HAL库移植uC-COSIII系统

本次将介绍基于HAL库的uC COSIII移植以及通过uC COSIII系统实现三个任务的同时进行目录 Part1 要求总述 Part2 uC COSIII的原理介绍 Part3 移植过程 3 1 工程建立 3 2 移植过程 Part4
VsCode系列（三）：添加Vue.js智能提示-插件

VsCode添加Vue js智能提示插件在这篇文章中将为大家介绍如何为VsCode添加Vue js智能提示的方法开始添加vetur 首先我们需要先下载并安装汉化Vs Code 可以看我之前的文章 VsCode下载安装及汉化并打开VS
【git】强制使用远程分支(git pull -f ?)

git reset hard origin your branch 参考 https stackoverflow com questions 1125968 how do i force git pull to overwrite loca
【windows】windows核心编程读书笔记

关于Unicode编码微软对对U n i c o d e支持的情况 Windows 2000既支持U n i c o d e 也支持A N S I 因此可以为任意一种开发应用程序 Windows 98只支持A N S I 只能为A N S
华为OD机试 - 最长的指定瑕疵度的元音子串（Java ）

最长的指定瑕疵度的元音子串题目描述开头和结尾都是元音字母 aeiouAEIOU 的字符串为元音字符串其中混杂的非元音字母数量为其瑕疵度比如 a aa 是元音字符串其瑕疵度都为0 aiur 不是元音字符串结尾不是元音字符 abir
六、STL容器：mySTL

6 mySTL 6 1 复数类模板 complex lt gt include Complex h Test complextest cpp 6 2 容器 6 2 1 顺序容器 vector lt gt list lt gt deque l
【CV】第 1 章：人工神经网络基础

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
ubuntu不能上网解决方法

可能会是Network Manager 有BUG引起的解决方法如下首先卸载掉Network Manager sudo apt get remove network manager 然后手动配置网卡在终端输入 sudo gedit
Shell之字符串、数组、内置命令、运算符

文章目录 Shell字符串变量 Shell字符串变量格式介绍字符串的3种格式字符串的3种格式区别获取字符串的长度小结字符串拼接方式 Shell字符串变量字符串截取案例小结 Shell索引数组变量 Shell索引数组变量定
神经网络的梯度下降法--基于手写数字识别神经网络（二）

仅供个人学习使用学习资料来源于 3Blue1Brown官方账号上一节讲了神经网络的结构本节主要讲神经网络是怎样进行学习主要涉及两个内容 1 梯度下降的思想 Gtadient descent 2 隐含层神经元的真实目的一梯度计算
C++报错无效的预处理命令include_C语言：全局变量在多个c文件中公用的方法！

用C语言编写程序的时候我们经常会遇到这样一种情况希望在头文件中定义一个全局变量然后包含到两个不同的c文件中希望这个全局变量能在两个文件中共用举例说明项目文件夹project下有main c common c和common h三个
strapi的使用（一）

一 strapi strapi是一个基于nodejs的CMS 内容管理系统服务基于koa2 可以通过可视化页面简单的操作数据库建表修改数据配置权限等等前端可以根据RESTful API 设计规范请求strapi默认配置的接口获取到
单片机设计_单路测温系统（AT89C51、DS18B20温度传感器、LCD1602）

单片机测温系统想要更多项目私wo 一简介此系统主要由AT89C51 DS18B20温度模块和LCD1602组成大致的原理是DS18B20温度采集到的数据传送给AT89C51的P3 3 INT1 外部中断1 最后通过LCD1602显示
让开发人员偷懒的正则表达式

正则表达式是一种基于特殊模式符号系统的文本处理系统简而言之它为程序员提供了轻松处理和验证字符串的能力它代表了DRY Don t Repeat Yourself 原则的实现在几乎所有支持的语言中正则表达式模式根本不会改变形式在后端
github部署本地

github的java项目部署到本地通过idea 1 注册github 如果你没有github的账号那需要注册一个注册github可以参考 https zhuanlan zhihu com p 103268406 当然由于githu
SSM项目-基于Java+Mysql的大学生奖助学金发放管理系统(附论文+源码)

大家好我是职场程序猿感谢您阅读本文欢迎一键三连哦当前专栏 Java毕业设计精彩专栏推荐安卓app毕业设计微信小程序毕业设计演示视频 ssm112大学生奖助学金发放管理系统演示源码下载地址 https download cs
HCNP Routing&Switching之MAC安全

优质资源分享学习路线指引点击解锁知识定位人群定位 Python实战微信订餐小程序进阶级本课程是python flask 微信小程序的完美结合从项目搭建到腾讯云部署上线打造一个全栈订餐系统 Python量化交易实战入门级手
Spark 源码阅读一-启动脚本

Spark Complile Help Links Because spark 1 5 need maven version 3 3 3 so i track the branch 1 4 git branch a git checkout