Spark 3.0.3 源码阅读及 idea 调试环境搭建

2023-11-01

目录

1, 源码下载:

2, 源码解压并编译:

3, 使用 Idea 打开或导入

4, idea 调试环境设置

1, 源码下载:

Downloads | Apache Spark

2, 源码解压并编译:

编译前建议在环境变量中添加以下参数

export MAVEN_OPTS="-Xmx2g -XX:ReservedCodeCacheSize=1g"

tar -zxvf spark-3.0.3.tgz

cd spark-3.0.3

mvn -Pyarn -Phive -Phive-thriftserver -Dhadoop.version=3.3.0 -DskipTests clean package -X

hadoop版本需指定为你安装的hadoop版本
为了让Spark能跑在yarn上，需要指定-Pyarn参数
如果需要与Hive集成则必须执指定-Phive和-Phive-thriftserver

3, 使用 Idea 打开或导入

如果 pom中出现以下标红, 可先忽略

4, idea 调试环境设置

Master 设置

设置 application conf

尝试启动 Master

无其他任何反应

在 master 中打断点

最终发现异常

java.lang.ClassNotFoundException: com.google.common.cache.CacheLoader

查询可知为CacheLoader类的编译范围不正确引起的，需要修改对应的引用依赖的编译范围：

之后出现新报错

java.lang.NoClassDefFoundError: org/w3c/dom/ElementTraversal

修改对应的引用依赖的编译范围：

启动 Master 成功:

Master 启动于spark://10.160.36.152:7077

WebUI 启动于http://10.160.36.152:8080

Worker 设置

设置 application conf

添加 Worker 配置如下

--webui-port 8081 spark://10.160.36.152:7077

启动 Worker 成功

至此, 环境搭建成功

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据技术栈

spark

Spark 3.0.3 源码阅读及 idea 调试环境搭建的相关文章

Spark集群安装部署

目录一环境准备二安装步骤三使用Standalone模式四使用Yarn模式一环境准备由于Spark仅仅是一种计算机框架不负责数据的存储和管理因此通常都会将Spark和Hadoop进行统一部署由Hadoop中的HD
分类算法之朴素贝叶斯

1 朴素贝叶斯分类算法朴素贝叶斯 Naive Bayes NB 算法是基于贝叶斯定理与特征条件独立假设的分类方法该算法是有监督的学习算法解决的是分类问题是将一个未知样本分到几个预先已知类别的过程朴素贝叶斯的思想就是根据某些个先验概
Spark（七）——累加器和广播变量

5 累加器通过在驱动器中调用SparkContext accumulator initialValue 方法创建出存有初始值的累加器返回值为org apache spark Accumulator T 对象其中 T 是初始值 ini
spark创建maven工程创建scala目录并编译

背景我创建spark的maven工程的时候在java目录同级还创建了一个scala目录这就得考虑编译相关的事了解决 1 创建source folder 如下图所示直接创建就好了 2 编译带来的问题编译的时候发现一个问题就是在s
SparkSession和sparkSQL

一概述 spark 有三大引擎 spark core sparkSQL sparkStreaming spark core 的关键抽象是 SparkContext RDD SparkSQL 的关键抽象是 SparkSession Data
重新定义分析 - EventBridge 实时事件分析平台发布

对于日志分析大家可能并不陌生在分布式计算大数据处理和 Spark 等开源分析框架的支持下每天可以对潜在的数百万日志进行分析事件分析则和日志分析是两个完全不同的领域事件分析对实时性的要求更高需要磨平事件领域中从半结构化到结构化的消
学习大数据spark——心得体会

总结与体会 1 项目总结本次项目实现了Spark 单机模式Python版的安装介绍了与Spark编程有关的一些基本概念特别对RDD的创建转换和行动操作做了比较详细的说明对从RDD 到DataFrame的实现进行了案例训练包括
大数据相关常用软件下载地址集锦

文章目录每日一句正能量前言一软件下载地址如下二文档地址如下结语每日一句正能量生命中有一些人与我们擦肩了却来不及遇见遇见了却来不及相识相识了却来不及熟悉熟悉了却还是要说再见前言由于大数据开发中经常需要用到Z
Spark SQL 之 Temporary View

Spark SQL 之 Temporary View spark SQL的 temporary view 是支持原生SQL 的方式之一 spark SQL的 DataFrame 和 DataSet 均可以通过注册 temporary vie
Spark Job写文件个数的控制以及小文件合并的一个优化

文章目录背景说明通过引入额外Shuffle对写入数据进行合并 EnsureRepartitionForWriting Rule CoalesceShufflePartitions Rule OptimizeShuffleWithLoca
大数据spark开发入门教程

大数据是互联网发展的方向大数据人才是未来的高薪贵族随着大数据人才的供不应求大数据人才的薪资待遇也在不断提升如果你也想进入大数据行业也想学习大数据技术大数据讲师认为可以先从spark技术开始一 Spark是什么 Spark是一
spark-submit 报错 Initial job has not accepted any resources

spark submit 报这样的错误 WARN scheduler TaskSchedulerImpl Initial job has not accepted any resources check your cluster UI to
Hudi和Kudu的比较

与Kudu相比 Kudu是一个支持OLTP workload的数据存储系统而Hudi的设计目标是基于Hadoop兼容的文件系统如HDFS S3等重度依赖Spark的数据处理能力来实现增量处理和丰富的查询能力 Hudi支持Increme
Flume之：二、企业开发案例

Flume之二企业开发案例文章目录 Flume之二企业开发案例三企业开发案例 1 监控端口数据官方案例 2 实时读取本地文件到HDFS案例 3 实时读取目录文件到HDFS案例 4 flume监控Kafka gt Spark知识
数据中台-让数据用起来-6

文章目录第六章数据开发数据价值提炼工厂 6 1 数据计算能力的4种类型 6 1 1 批计算 6 1 2 流计算 6 1 3 在线查询 6 1 4 即席分析 6 2 离线开发 1 作业调度 2 基线控制 3 异构存储 4 代码校验 5
spark groupByKey和groupBy，groupByKey和reduceByKey的区别

1 groupByKey Vs groupBy 用于对pairRDD按照key进行排序 author starxhong object Test def main args Array String Unit val sparkConf n
sparkstreamming 消费kafka(1)

pom
spark SQL基础教程

1 sparkSQL入门 sparksql专门用于处理结构化的数据而RDD还可以处理非结构化的数据 sparksql的优点之一是sparkfsql使用统一的api读取不同的数据第二个优点是可以在语言中使用其他语言例如python 另外
JAVA 安装与简单使用

JAVA简易安装下载安装环境变量进入变量界面设置变量验证JAVA环境运行Java程序个人站 ghzzz cn 还在备案很快就能访问了下载安装第一步当然是从官网下载安装java了网上有很多的教程这里简单的写一下在这里
阿里技术官亲笔力作：Kafka限量笔记，一本书助你掌握Kafka的精髓

前言分布式堪称程序员江湖中的一把利器无论面试还是职场皆是不可或缺的技能而Kafka 这款分布式发布订阅消息队列的璀璨明珠其魅力之强大无与伦比对于Kafka的奥秘我们仍需继续探索要论对Kafka的熟悉程度恐怕阿里的大佬们

随机推荐

java中四大作用域

Java的四大作用域为 PageContext ServletRequest HttpSession ServletContext 下面一起了解一下Java的四大作用域吧首先按照作用范围来算是PageContext jsp页面
路由器从外向内访问（端口转发）及从内向外访问（NAT）的配置

路由器从外向内访问端口转发及从内向外访问 NAT 的配置描述需求最近工作上有一个需求大致意思就是解决路由器内外访问的问题这个问题可以分成两部分一个是外部设备如服务器能主动访问路由器局域网内的主机另一个就是内部的主机需要能
Java基础-反射

反射的基本作用关键反射是在运行时获取类的字节码文件对象然后可以解析类中的全部成分反射的核心思想和关键就是得到编译后的字节码 class 文件对象反射的第一步获取Class类对象如此才可以解析类的全部成分获取Class类的对
（四）PointPillars论文的MMDetection3D代码解读——网络结构篇

四 PointPillars论文的MMDetection3D代码解读网络结构篇 PointPillars 是一个来自工业界的模型整体的思想是基于图片的处理框架直接将点云从俯视图的视角划分为一个个的立方柱体 Pillars 从而构成了伪
php no route to host,解决重启后zerotier无法远程连接，显示”no route to host”

解决重启后zerotier无法远程连接显示 no route to host 第一步禁用桌面环境桌面环境重启时经常会无原无故卡住导致远程连不上 systemctl set default graphical target 第二步
ubuntu 20.04 安装make_ext4fs

制作文件系统发现 sudo make ext4fs command not found 解决方法 sudo apt install android sdk ext4 utils sudo apt install e2fsprogs sudo
使用纯C语言定义通用型数据结构的方法和示例

文章目录前言以实现优先队列来描述实现思想基本类型的包装类型比较函数演示总结前言最近一段时间在复习数据结构和算法用的C语言不得不说不学个高级语言再回头看C语言根本不知道C语言的强大和完美不过相比之下也有许多不便利的地方
历时30个小时更新到了25905.1000 版本 23H2
【Vue3】之vuex的安装与配置

安装 yarn add vuex 4 或 npm install save vuex 4 创建新建store js store js import createStore from vuex export default createSt
Pyinstaller 使用说明

安装 cmd pip install pyinstaller 也可以自己下载安装包解压后通过执行python setup py install 使用 pyinstaller F myPython py 或者用python pyinstal
用IDEA创建第一个SpringBoot程序，并开发一个JSON接口

1 打开idea主界面选择 Create New Project 2 在弹出的页面中我们选择左侧的 Spring Initializr jdk版本选择自己安装的版本 PS jdk版本要1 8以上哦 3 下一个页面在Group栏输入组织名
IDEA代码覆盖率测试

代码覆盖率测试 1 使用idea自带的代码覆盖率工具 1 创建test文档右击将 test 目录设置为测试文档 2 选中需要测试的类按Ctrl shift T 创建测试类并选中要测试的方法在测试案例中编写测试代码点击Edit C
小程序分包实现

目录一使用场景二操作方式 1 建立分包文件夹 2 文件构建 3 文件配置三总结一使用场景微小程序分包常用于代码量较大的小程序发布时会受到大小限制二操作方式 1 建立分包文件夹在项目根目录下创建分包文件夹此处我创建
L1-8 乘法口诀数列

本题要求你从任意给定的两个 1 位数字 a1 和 a2 开始用乘法口诀生成一个数列 an 规则为从 a1 开始顺次进行每次将当前数字与后面一个数字相乘将结果贴在数列末尾如果结果不是 1 位数则其每一位都应成为数列的一项输入格式
ad电阻原理图_光敏电阻的基础知识介绍

39G电子技术电路电子元件等全套资料免费领干货下载十天学会单片机完整版 100个实例 PPT 点击上方红字即可获取一光敏电阻光敏电阻是用硫化隔或硒化隔等半导体材料制成的特殊电阻器表面还涂有防潮树脂具有光电导效应二特
TCP 拥塞窗口原理

学过网络相关课程的都知道TCP中有两个窗口滑动窗口在我们的上一篇文章中有讲接收方通过通告发送方自己的可以接受缓冲区大小这个字段越大说明网络吞吐量越高从而控制发送方的发送速度拥塞窗口也就是本文要讲的概念一个连接的TCP双
element-plus elplus el-tree三种图标自定义并且点击图标展开收起点击文字获取数据

前言公司需求需要实现如下样式的树形列表基于vue3 element plus 当节点展开时显示展开的文件夹图标当节点收起时显示收起的文件夹最后一级显示文件样式废话没有了代码如下
C规范编辑笔记(九)

往期文章 C规范编辑笔记一 C规范编辑笔记二 C规范编辑笔记三 C规范编辑笔记四 C规范编辑笔记五 C规范编辑笔记六 C规范编辑笔记七 C规范编辑笔记八正文今天我们来分享一下C规范编辑笔记第九篇话不多说我们直接来看
树莓派数据远程传输学习记录——TCP/IP协议连接OneNet云平台传输数据的方法

目录项目场景问题描述解决方案 OneNet云平台前期项目搭建准备以网络调试助手模拟树莓派建立连接并发送数据树莓派与OneNet云平台进行对接最后总结项目场景本人在进行树莓派项目开发时进行数据远程传输 4G WiFi通信过程
Spark 3.0.3 源码阅读及 idea 调试环境搭建

目录 1 源码下载 2 源码解压并编译 3 使用 Idea 打开或导入 4 idea 调试环境设置 Master 设置 Worker 设置 1 源码下载 Downloads Apache Spark 2 源码解压并编译编译前建议在环境变量

热门标签