Hadoop安装完全分布式搭建

2023-10-29

1、安装Hadoop

上传Hadoop的指定路径/root/softwares

解压安装

cd /root/softwares && tar -zxvf hadoop-2.7.3.tar.gz -C /usr/local

配置环境变量

 vim /etc/profile
# Hadoop Environment
export HADOOP_HOME=/usr/local/hadoop-2.7.3
export PATH=$PATH:$HADOOP_HOME/bin:$HADOOP_HOME/sbin

重新使环境变量生效

source /etc/profile

验证是否配置成功

hadoop version

2、案例演示：wordcount

新建一个目录，存放文本文件

mkdir ~/input

执行wordcount

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar wordcount ~/input ~/output

查看结果

cat ~/output/*

案例计算：pi

直接计算pi的结果

 hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples-2.7.3.jar pi 10 10

3、完全分布式模式

集群搭建准备

三台机器的防火墙必须是关闭的

systemctl stop firewalld
systemctl disable firewalld
systemctl stop NetworkManager
systemctl disable NetworkManager

确保三台机器的网络配置通畅（NAT模式、静态IP、主机名的配置）
确保/etc/hosts文件配置了ip和hostname的映射关系
确保配置了三台机器的免密登录认证
确保所有机器时间同步
- ```
ntpdate -u ntp.api.bz
```
jdk和Hadoop的环境变量配置

配置文件

core-site.xml

<configuration>
	<!-- 设置namenode节点 -->
	<!-- 注意: hadoop1.x时代默认端口9000 hadoop2.x时代默认端口8020 hadoop3.x时代默认端口9820 -->
	<property>
		<name>fs.defaultFS</name>
		<value>hdfs://chlinrei01:8020</value>
	</property>
<!-- hdfs的基础路径，被其他属性所依赖的一个基础路径 -->
	<property>
		<name>hadoop.tmp.dir</name>
		<value>/usr/local/hadoop-2.7.3/tmp</value>
	</property>
</configuration>

hdfs-site.xml

<configuration>
	<!-- 块的副本数量 -->
	<property>
		<name>dfs.replication</name>
		<value>3</value>
	</property>
	<!-- secondarynamenode守护进程的http地址：主机名和端口号。参考守护进程布局 -->
	<property>
		<name>dfs.namenode.secondary.http-address</name>
		<value>chlinrei02:9868</value>
	</property>
	<!-- namenode守护进程的http地址：主机名和端口号。参考守护进程布局 -->
	<property>
		<name>dfs.namenode.http-address</name>
		<value>chlinrei01:9870</value>
	</property>
</configuration>

hadoop-env.sh

export JAVA_HOME=/usr/local/jdk1.8.0_162
# Hadoop3中，需要添加如下配置，设置启动集群角色的用户是谁
export HDFS_NAMENODE_USER=root
export HDFS_DATANODE_USER=root
export HDFS_SECONDARYNAMENODE_USER=root
export YARN_RESOURCEMANAGER_USER=root
export YARN_NODEMANAGER_USER=root

分发

cd /usr/local
scp -r jdk1.8.0_162/ chlinrei02:$PWD
scp -r hadoop-2.7.3/ chlinrei02:$PWD
scp /etc/profile chlinrei02:/etc/
scp -r jdk1.8.0_162/ chlinrei03:$PWD
scp -r hadoop-2.7.3/ chlinrei03:$PWD
scp /etc/profile chlinrei03:/etc/

格式化集群

hdfs namenode -format

启动集群

start-dfs.sh

进程查看

jps

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

大数据

分布式

Hadoop安装完全分布式搭建的相关文章

如何读取 RCFile

我正在尝试将一个小的 RCFile 约 200 行数据读入 HashMap 中以进行 Map Side 连接但是在将文件中的数据变为可用状态时遇到了很多麻烦这是我到目前为止所拥有的其中大部分来自这个例子 http sumit1001
如何在 Hive 中将字符串转换为毫秒时间戳

我有一个字符串 20141014123456789 它代表一个毫秒时间戳我需要将其转换为 Hive 中的时间戳 0 13 0 而不丢失毫秒我尝试了这个但 unix timestamp 返回一个整数所以我丢失了毫秒 from unix
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
使用 Hadoop MapReduce 的计算语言学项目构想

我需要做一个关于计算语言学课程的项目是否有任何有趣的语言问题其数据密集程度足以使用 Hadoop MapReduce 来解决解决方案或算法应尝试分析并提供语言领域的一些见解但是它应该适用于大型数据集以便我可以使用 hado
Amazon MapReduce 日志分析最佳实践

我正在解析 Apache Nginx Darwin 视频流服务器生成的访问日志并按日期引用者用户代理聚合每个交付文件的统计信息每小时都会生成大量日志而且这个数字在不久的将来可能会急剧增加因此通过 Amazon Elastic
Hive - 通过聚合跨组的值来创建映射列类型

我有一个看起来像这样的表 customer category room date 1 A aa d1 1 A bb d2 1 B cc d3 1 C aa d1 1 C bb d2 2 A aa d3 2 A bb d4 2 C bb d4
HDFS容量：如何阅读“dfsadmin报告”

我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时我得到类似这样的信息简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
java.lang.IllegalArgumentException：错误的 FS：，预期：hdfs://localhost:9000

我正在尝试实现reduce side join 并使用mapfile reader来查找分布式缓存但在stderr中检查时它没有查找值它显示以下错误 lookupfile文件已经存在于hdfs中并且似乎已正确加载进入缓存如标准输出中
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
Hadoop 安全模式恢复 - 花费太长时间！

我有一个包含 18 个数据节点的 Hadoop 集群我在两个多小时前重新启动了名称节点并且名称节点仍处于安全模式我一直在寻找为什么这可能花费太长时间但找不到好的答案发帖在这里 Hadoop 安全模式恢复花费大量时间 https
Hive 中字符串数据类型是否有最大大小？

谷歌了很多但没有在任何地方找到它或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型如果是这样我在哪里可以找到我的集群可以支持的最大字符串数据类型大小提前致谢 Hive 列表的当前文档STRING作为有效的数据类
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
如何在 Hadoop 中将 String 对象转换为 IntWritable 对象

我想转换String反对IntWritableHadoop 中的对象任何过程都可以进行转换 IntWritable value new IntWritable Integer parseInt someString 并处理以下可能性par
在 Amazon EMR 上使用 java 中的 hbase 时遇到问题

因此我尝试使用作为 MapReduce 步骤启动的自定义 jar 来查询 Amazon ec2 上的 hbase 集群我的 jar 在地图函数内我这样调用 Hbase public void map Text key BytesWri
猪参考

我正在学习 Hadoop Pig 并且我总是坚持引用元素请查找下面的示例 groupwordcount group chararray words bag of tokenTuples from line token chararray

随机推荐

大数据爬取网站并分析数据

大数据爬取前程无忧校园招聘 flume hive mysql 数据可视化自己搭建的hadoop博客 1 爬取前程无忧网页和校园招聘 1 1用scrapy爬取前途无忧网站我爬了10w多条数据在存入MongoDB中 1 2 存入Mogo
JSP弹出对话框两种实现方式

JSP弹出对话框两种实现方式 1 一种是弹出一个新的窗体出来 window open test html 用于控制弹出新的窗口test html 如果test html不与主窗口在同一路径下前面应写明路径绝对路径 http 和相对路径
【NOIP 2004 提高组】合并果子

题就自己找啦各大OJ上应该都有题目题目描述在一个果园里多多已经将所有的果子打了下来而且按果子的不同种类分成了不同的堆多多决定把所有的果子合成一堆每一次合并多多可以把两堆果子合并到一起消耗的体力等于两堆果子的重量之和可以
NewMoonDog 影子狗基于JavaScript的跑酷游戏，复制就能玩

这是一款横版跑酷类游戏应为是JavaScript的所以不需要其他复杂的配置和环境点击就能运行线上试玩 http longsong games newmoon 文末有代码地址操作介绍跳跃坐下跳砍往后跑向前跑 enter 无敌
Python-pandas的基础函数

zstarling 基础进阶多表处理索引index 的用途基础 import pandas as pd list1 001 002 003 df pd Series list1 df2 df map int print df2 df
15_Numpy使用sort和argsort函数进行(行・列）排序

15 Numpy使用sort和argsort函数进行行列排序如果将NumPy函数numpy sort 应用于二维NumPy数组ndarray 则可以获得一个ndarray 其中每一行和每一列的值都按升序分别排序如果要按特定的行或列
Neo4j入门（五）删除节点的正确姿势

本文还是照例讲讲自己工作中遇到的坑本文将会讲述如何在Neo4j中正确地删除节点图数据库在删除节点的时候并不像删除属性和删除关系那样方便原因就在于删除节点时可能有关系与之相连因此需要考虑这个问题 Neo4j在删除节点时已经考虑了
centos下升级python

wget http www python org ftp python 2 6 Python 2 6 tgz tar zxvf Python 2 6 tgz cd Python 2 6 configure enable ipv6 prefi
你知道豆瓣电影是怎么评分的吗？（实战篇—手把手教你分析豆瓣电影）

点赞再看养成好习惯 Python版本3 8 0 开发工具 Pycharm 写在前面的话如果你是因为看到标题进来的那恭喜你又多了一个涨入知坑识的机会在这篇豆瓣电影Top250的分析文章中你并不会得到一个像标题那样确切的答案
java 代码导出表结构生成doc文档（支持MySQL，Oracle）

1 导入依赖
JetBrains全家桶安装配置：基于macOS M1

一 JetBrains全家桶官网下载地址 JetBrains官网安装步骤第一步第二步插件市场第三步第四步 IDE Eval Reset 插件安装第五步 Auto reset before per restart 二支持产品
QLlistwidget 自定义item 并获取 item上的内容

如上面这个界面添加一个自定义 item 第一行 1 自定义item 在item中添加一个lable 和按钮 QWidget widget1 new QWidget ui gt listWidget QHBoxLayout layout
conda安装fbprophet注意事项

注意截止目前 2022年06月19日 fbprophet支持python 3 8及已下版本安装步骤1 conda install pystan 步骤2 conda install c conda forge fbprophet 步骤3
基于TensorFlow的模型和训练的自定义方法（附源码）

文章目录自定义模型和训练 1 Define the Model 2 Define Optimizer and Loss 3 Evaluate Untrained Model 4 Define Metrics 5 Apply Gradien
万代南梦宫假面骑士时尚品牌HENSHIN by KAMEN RIDER首登中国；安宏资本宣布与资生堂达成协议

美国啤酒花供应商在比利时建立新的欧洲营运中心总部位于华盛顿雅基玛的种植商拥有的最大啤酒花供应商Yakima Chief Hops YCH 已完成在比利时最先进的存储仓库建设以更好地服务于全球酿造社区向欧洲的扩张将大大改善YCH的客户体
Redis系列 - Redis缓存更新：先更新数据库还是先更新缓存？

Redis系列 Redis缓存更新先更新数据库还是先更新缓存在更新缓存时对于更新完数据库是更新缓存呢还是删除缓存又或者是先删除缓存再更新数据库其实都会存在一定的问题 Cache Aside Pattern 旁路缓存模式这是
TCP协议(全面)

TCP协议 TCP的全称是Transmission Control Protocol 即传输控制协议 TCP工作在传输层上其职责是实现主机间进程到进程的通信其次还需要保证可靠性不是安全性换言之不能保证安全性什么是可靠性重点在前
VSCode配置python开发环境无法找到自己设置的python编译器

VSCode配置python开发环境无法找到自己设置的python编译器前言一分别安装VScode和python 二 vscode配置python环境 1 在vscode里安装官方python插件 2 修改配置文件前言听说开发py
LCT维护子树信息（子树信息LCT） LCT维护边权（边权LCT）知识点讲解

扯淡前言众所周知LCT可以支持关于点权的链修改换根 LINK CUT和查询链信息操作但是总有那么些神犇毒瘤出题人会让你在支持链修改换根 LINK和CUT操作的情况下去支持子树查询或者维护关于边权的链修改换根 LINK CU
Hadoop安装完全分布式搭建

1 安装Hadoop 上传Hadoop的指定路径 root softwares 解压安装 cd root softwares tar zxvf hadoop 2 7 3 tar gz C usr local 配置环境变量 vim etc p

Hadoop安装完全分布式搭建

1、安装Hadoop

上传Hadoop的指定路径/root/softwares

解压安装

配置环境变量

重新使环境变量生效

验证是否配置成功

2、案例演示：wordcount

新建一个目录，存放文本文件

执行wordcount

查看结果

案例计算：pi

3、完全分布式模式

集群搭建准备

配置文件

分发

格式化集群

启动集群

进程查看

Hadoop安装完全分布式搭建 的相关文章

随机推荐

热门标签

Hadoop安装完全分布式搭建的相关文章