安装spark

2023-05-16

安装spark

上传安装包文件

spark-2.1.1-bin-hadoop2.7

解压安装包

tar xvf spark-2.1.1-bin-hadoop2.7 -C /opt/module/

修改环境变量

export JAVA_HOME=/opt/module/jdk
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export HADOOP_HOME=/opt/module/hadoop-2.7.7
export SPARK_HOME=/opt/module/spark-2.1.1-bin-hadoop2.7
export HADOOP_CONF_DIR=$HADOOP_HOME/etc/hadoop

vi /root/.bashrc

export JAVA_HOME=/opt/module/jdk1.8.0_202
export PATH=$JAVA_HOME/bin:$PATH

配置文件

cd $SPARK_HOME/conf

# 改名, 去掉后面的.template后缀
mv workers.template workers

# 编辑worker文件
vim workers
# 将里面的localhost删除, 追加
master
slave1
slave2
# 功能: 这个文件就是指示了  当前SparkStandAlone环境下, 有哪些worker

配置spark-env.sh文件

export JAVA_HOME=/opt/module/jdk1.8.0_202
export SPARK_DIST_CLASSPATH=$(/opt/module/hadoop-2.7.7/bin/hadoop classpath)
## HADOOP软件配置文件目录，读取HDFS上文件和运行YARN集群
HADOOP_CONF_DIR=/opt/module/hadoop-2.7.7/etc/hadoop
YARN_CONF_DIR=/opt/module/hadoop-2.7.7/etc/hadoop
## 指定spark老大Master的IP和提交任务的通信端口
# 告知Spark的master运行在哪个机器上
export SPARK_MASTER_HOST=master
# 告知sparkmaster的通讯端口
export SPARK_MASTER_PORT=7077
# 告知spark master的webui端口
SPARK_MASTER_WEBUI_PORT=8080
# worker cpu可用核数
SPARK_WORKER_CORES=1
# worker可用内存
SPARK_WORKER_MEMORY=1g
# worker的工作通讯地址
SPARK_WORKER_PORT=7078
# worker的webui地址
SPARK_WORKER_WEBUI_PORT=8081
## 设置历史服务器
# 配置的意思是  将spark程序运行的历史日志 存到hdfs的/sparklog文件夹中
SPARK_HISTORY_OPTS="-Dspark.history.fs.logDirectory=hdfs://master:9000/sparklog/ -Dspark.history.fs.cleaner.enabled=true"

在HDFS上创建程序运行历史记录存放的文件夹:（没有不创建的话会报错）

hadoop fs -mkdir /sparklog
hadoop fs -chmod 777 /sparklog

配置spark-defaults.conf文件

# 改名
mv spark-defaults.conf.template spark-defaults.conf
# 开启spark的日期记录功能
spark.eventLog.enabled  true
# 设置spark日志记录的路径
spark.eventLog.dir   hdfs://master:9000/sparklog/
# 设置spark日志是否启动压缩
spark.eventLog.compress  true

配置log4j.properties 文件 [可选配置]

之所以改这个文件时因为spark是一个话痨这样可以修改他的输出日志减少日志的输出

# 1. 改名
mv log4j.properties.template log4j.properties

# 将第19行的INFO 改为WARN

将Spark安装文件夹分发到其它的服务器上

scp -r /opt/module/spark-2.1.1-bin-hadoop2.7 slave1:/opt/module/
scp -r /opt/module/spark-2.1.1-bin-hadoop2.7 slave2:/opt/module/

检查每台机器的环境变量

启动历史服务器

sbin/start-history-server.sh

启动spark

sbin/start-all.sh

停止服务命令

sbin/stop-all.sh

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

安装spark 的相关文章

windows下安装spark及hadoop

windows下安装spark 1 安装jdk 2 安装scala 3 下载spark spark下载地址 3 1安装spark 将下载的文件解压到一个目录注意目录不能有空格比如说不能解压到C Program Files 作者解压到了这
spark集群搭建与mysql元数据管理

找个spark集群搭建是针对于上一篇hadoop的基础上搭建的所以spark的版本也是要按照着hadoop版本进行下载 1 解压spark 修改spark的 etc profile的home目录 2 安装SCALA 并配置SCALA HO
Spark性能调优之Shuffle调优

Spark性能调优之Shuffle调优 Spark底层shuffle的传输方式是使用netty传输 netty在进行网络传输的过程会申请堆外内存 netty是零拷贝所以使用了堆外内存 shuffle过程中常出现的问题常见问题一 redu
【Spark NLP】第 3 章：Apache Spark 上的 NLP

大家好我是Sonhhxg 柒希望你看完之后能对你有所帮助不足请指正共同学习交流个人主页 Sonhhxg 柒的博客 CSDN博客欢迎各位点赞收藏留言系列专栏机器学习 ML 自然语言处理 NLP 深度学习 DL fore
Spark课程设计——电影推荐系统

题目所需数据集及相应信息描述数据集 1 用户评分数据集ratings dat 包含了大量用户的历史评分数据 2 样本评分数据集personalRatings dat 包含了少数几个用户的个性化评分数据这些数据反映了某个用户的个性化观影喜
pyspark 连接远程hive集群配置

今天本地spark连接远程hive集群直接把配置导入进去本地直接应用远程环境 1 安装spark 设置spark环境变量 2 拿到远程集群配置文件将配置文件放在spark conf 目录下 xml 一共五个文件 3 将mysql co
Spark on Kubernetes 与 Spark on Yarn 不完全对比分析

前言 Apache Spark 是目前应用最广泛的大数据分析计算工具之一它擅长于批处理和实时流处理并支持机器学习人工智能自然语言处理和数据分析应用随着 Spark 越来越受欢迎使用量越来越大狭义上的 Hadoop MR 技术栈
spark dataframe 数据类型转换

文章目录 1 spark sql数据类型数字类型日期类型复杂类型 2 spark sql和scala数据类型对比 3 spark sql数据类型转换示例代码输出 1 spark sql数据类型数字类型 ByteType 代表一个
Kafka/Spark消费topic到写出到topic

1 Kafka的工具类 1 1 从kafka消费数据的方法消费者代码 def getKafkaDStream ssc StreamingContext topic String groupId String consumerConfigs
深入理解 SQL 中的 Grouping Sets 语句

前言 SQL 中 Group By 语句大家都很熟悉根据指定的规则对数据进行分组常常和聚合函数一起使用比如考虑有表 dealer 表中数据如下 id Int city String car model String quantity
Spark 源码阅读一-启动脚本

Spark Complile Help Links Because spark 1 5 need maven version 3 3 3 so i track the branch 1 4 git branch a git checkout
Spark大数据分析与实战笔记（第一章 Scala语言基础-3）

文章目录 1 3 Scala的数据结构 1 3 1 数组数组的遍历数组转换 1 3 2 元组创建元组获取元组中的值拉链操作 1 3 3 集合 List Set Map 1 3 Scala的数据结构对于每一门编程语言来说数组 A
大数据—— Flink 的优化

目录一 Flink内存优化 1 1 Flink 内存配置二配置进程参数 2 1 场景 2 2 操作步骤三解决数据倾斜 3 1 场景描述 3 2 解决方式 3 2 1 数据源的消费不均匀调整并发度 3 2 2 数据分布不均匀四
spark内存模型

Spark 1 6 开始使用了统一内存管理模块 UnifiedMemoryManager 并引入了堆外内存 Off heap memory 1 6之前的内存管理就不进行介绍了 spark堆内和堆外内存模型的示意图注意堆外内存是依赖于wo
大数据手册(Spark)--Spark基本概念

文章目录 Spark 基本概念 Hadoop 生态 Spark 生态 Spark 基本架构 Spark运行基本流程弹性分布式数据集 RDD Spark安装配置 Spark基本概念 Spark基础知识 PySpark版 Spark机器学习
通过yarn提交作业到spark,运行一段时间后报错。

加粗样式
spark SQL基础教程

1 sparkSQL入门 sparksql专门用于处理结构化的数据而RDD还可以处理非结构化的数据 sparksql的优点之一是sparkfsql使用统一的api读取不同的数据第二个优点是可以在语言中使用其他语言例如python 另外
JAVA 安装与简单使用

JAVA简易安装下载安装环境变量进入变量界面设置变量验证JAVA环境运行Java程序个人站 ghzzz cn 还在备案很快就能访问了下载安装第一步当然是从官网下载安装java了网上有很多的教程这里简单的写一下在这里
Spark 配置

文章目录 1 Spark 配置 1 1 Spark 属性 1 1 1 动态加载Spark属性 1 1 2 查看Spark属性 1 2 环境变量 2 重新指定配置文件目录 3 继承Hadoop集群配置 4 定制的Hadoop Hive配置 1
Spark 中 BroadCast 导致的内存溢出(SparkFatalException)

背景本文基于 Spark 3 1 1 open jdk 1 8 0 352 目前在排查 Spark 任务的时候遇到了一个很奇怪的问题在此记录一下现象描述一个 Spark Application Driver端的内存为 5GB 一直

随机推荐

JavaScript

1 a 任何数值除以0都会导致错误而终止程序执行但是在JavaScript中 xff0c 会返回特殊的值 xff0c 因此不会影响程序的执行比0大的数除以0 xff0c 会得到无穷大 xff0c 所以js用infinity来x显示出来
-操作系统

1进程同步的引入背景 xff1a 在多道程序环境下 xff0c 进程是并发执行的 xff0c 不同进程之间存在这不同的相互制约关系为了协调进程之间的相互制约关系 xff0c 引入了进程同步的概念 2在有n个进程共享一个互斥段 xff0c
-网络基础

1 物理层 xff1a RJ45 CLOCK IEEE802 3 xff08 中继器集线器网关 xff09 数据链路 xff1a PPP FR HDLC VLAN MAC xff08 网桥 xff0c 交换机 xff09 网络层 xff
恒生面试准备

目录 1 flex布局 2 vue的特性有哪些 xff1f 3 Vue中父子组件的传值的方式有几种 xff1f 它们有什么数据上的限制 4 项目中用了vue组件传值的方式有哪些 5 项目中用到的组件 6 浏览器输入url到渲染网页的过程 7
同程艺龙一面

目录 1 说说HTML5 2 link标签要放到head之后 xff0c script标签要放到body标签结束之前 xff0c 为什么 3 HTML语义化重要性 4 meta中的viewport干嘛的 5 P标签中的文字如何水平垂直居中
杭州端点一面

目录 1 vue双向绑定 2 Promise了解过吗 xff1f promise all解释一些 xff0c 为什么可以链式回调 3 let和var的区别 4 深拷贝和浅拷贝区别和实现方式 5 父子组件传值 6 了解webpack吗 xff
iOS 中 cell和 label 的自适应高度

之前我们使的 cell 一直都是同样的高度或者某行固定度实际开发中经常要让 cell 根据 Model 中文本的长短动态的更改高度 1 获取文本高度计算一段文本在限定宽高内所占矩形大 iOS7计算文本度法 CGRect bou
C++获取含有中文的字符串长度

在Windows下 xff0c 中文字符在C 43 43 中的内存占用为2字节 xff0c 此时采用字符串长度获取函数得到的结果会将一个中文字符识别为两个长度 xff1a include lt stdio h gt include lt s
IOS中自定义cell大小的两种方法

第一种 xff1a 自定义cell xff0c 不用xib的 xff0c 用已经封装好的类Category m类第一步 xff1a label 的自定义高度 xff0c 用的是 xff08 封装好的方法 xff09 根据 label 中的
mysql的2003-Can‘t connect to MySQL server on ‘localhost‘(10061“Unknown error“)错误解决方法

在我们对mysql的数据库进行连接时出现2003 Can 39 t connect to MySQL server on 39 localhost 39 10061 34 Unknown error 34 的错误 xff0c 截图如下 xf
python实现朗读内容

项目描述 pyttsx3 是 Python 中的文本到语音转换库与替代库不同 xff0c 它可以脱机工作 xff0c 并且与Python 2和3兼容 pyttsx3 的官网pyttsx3 皮皮 pypi org https pypi or
python计算圆的面积

提示 xff1a 笔记希望对你有帮助文章目录前言1 事先准备2 代码书写3 代码运行总结前言提示 xff1a 本次我们的代码的是通过pycharm实现的下面让我们使用python对我们的圆的面积以及周长进行一个简单的计算 1 事先
Windows环境下edge浏览器点击下载没有反应

项目场景 xff1a 系统 xff1a windows 11 家庭中文版浏览器 xff1a Microsoft Edge版本 104 0 1293 54 正式版本 64 位问题描述 edge浏览器点击下载没有反应原因分析 xff1a
python怎么查看安装了哪些库

这里写目录标题前言方法1方法2 前言有时候我们在使用python的时候 xff0c 想知道自己安装哪些了第三方库以及第三方库的版本 xff0c 下面来介绍一下方法方法1 我们可以通过命令提示符输入相关的命令进行查看 xff0c 命令如
python 安装dmPython

文章目录前言下载达梦数据库安装dmPython模块引用模块解决方法代码演示前言使用python连接我们的连接达梦数据库下载达梦数据库达梦数据库的官网链接达梦数据库的下载链接安装dmPython模块找到达梦数据库的安装目录
python requests cookie的获取和使用

文章目录前言一 cookie是什么 xff1f 二使用步骤开始代码实现会话是什么然后写入我们的账号信息使用session访问登陆账号的url获取账号的书架上的数据完整的代码补充比较暴力的获取方式前言我们在使用爬虫中会用到很多账号
pyspark报错 org.apache.spark.SparkException: Python worker failed to connect back.

项目场景 xff1a 使用pycharm工具将spark分析完的数据存储到MySQL数据库中问题描述在程序执行过程中发生以下报错 xff1a org span class token punctuation span apache sp
python的tkinter（图形用户界面）

目录标题什么是图形用户界面 xff08 GUI xff09 Tinter函数和参数说明 xff08 常用 xff09 Lable 标签 xff1a 效果Button 按钮效果 Entry 文本框效果 Text xff08 多行文本框
K8s配置文档

xff01 xff01 xff01 xff01 xff01 xff01 如果看不懂文档点击进入视频k8s配置视频 xff01 xff01 xff01 xff01 xff01 xff01 xff01 xff01 xff01 xff01 xff
安装spark

安装spark 上传安装包文件 spark 2 1 1 bin hadoop2 7 解压安装包 span class token function tar span xvf spark 2 1 1 bin hadoop2 7 C opt m

安装spark

安装spark

安装spark 的相关文章

随机推荐

热门标签