hadoop2.6.0伪分布式环境搭建

2023-05-16

Hadoop作为分布式大数据处理框架在数据处理应用中有广泛的应用,本文介绍在Linux环境下搭建hadoop伪分布式集群,记录下自己的学习过程。

一、虚拟机准备,为了减少折腾,不建议在windows上利用cygwin来模拟linux系统,直接利用vmware新建Linux虚拟机,可以减少很多不必要的麻烦,尤其是ssh远程连接、免密钥登录等环节的设置,在虚拟机上几乎不用浪费时间。

以下截图是我安装的机器信息,最好对机器设置静态IP,不用每次重启就重新修改hosts配置文件,另外hosts文件一定要设置。
这里写图片描述

二、配置jdk

hadoop是用java语言写的,需要运行在java虚拟机上,因此需要安装jdk,这里不介绍如何安装jdk,在redhat上可以通过rpm方式安装jdk,也可以在oracle官网直接下载jdk的包,解压到指定位置就可以。另外还需要把jdk的安装路径加入到环境变量。

下图所示是我的linux虚拟机上安装的jdk和设置的环境变量
这里写图片描述

三、配置免密钥登录

默认情况下在redhat系列机器上自动就装上了ssh远程登录服务,因此不用再安装,如果需要可以使用yum install -y ssh-server来安装。ubuntu系统就使用apt-get install openssh-server.
接着生成密钥:

ssh-keygen -t rsa

输入该命令后,一路回车,会生成一个id_rsa.pub的文件,生成的密钥会在根目录下的.ssh文件夹下,将id_rsa.put文件拷贝一份为authorized_keys文件,必须要拷贝。

cd ~/.ssh
cp id_rsa.pub authorized_keys

这里写图片描述
之所以要生成密钥,主要是hadoop在启动时会远程登录节点(即使是单机模式和伪分布式模式),如果没有密钥,那么在ssh登录节点时,需要手工输入密码,这一步在单机模式下或着伪分布式模式下可以接受,但是完全分布式部署时机器数量非常大,一个个输入密码会非常麻烦,免密钥登录就是减少了输入密码的步骤,这一步至关重要。

四、配置Hadoop

这里包括Hadoop所在目录的环境变量(见第二步jdk环境配置)和Hadoop本身的配置文件(etc/hadoop目录下)。
1)core-site.xml

<configuration>
 <property>
         <name>fs.defaultFS</name>
         <value>hdfs://master:9000</value>
 </property>
 <property>
        <name>dfs.namenode.name.dir</name>
        <value>file:/home/hadoop/software/ApacheHadoop/hadoop-2.6.0/hdfs/name</value>
 </property>
</configuration>

这里写图片描述
2)hdfs-site.xml

<configuration>
 <property>
        <name>dfs.replication</name>
        <value>1</value>
 </property>
 <property>
        <name>dfs.datanode.data.dir</name>
        <value>file:/home/hadoop/software/ApacheHadoop/hadoop-2.6.0/hdfs/data</value>
 </property>
</configuration>

这里写图片描述
3)mapred-site.xml

<configuration>
 <property>
      <name>mapreduce.framework.name</name>
      <value>yarn</value>
  </property>
</configuration>

这里写图片描述
4)yarn-site.xml

<configuration>
  <property>
       <name>yarn.nodemanager.aux-services</name>
       <value>mapreduce_shuffle</value>
  </property>

  <property>
       <name>yarn.nodemanager.aux-services.mapreduce.shuffle.class</name>
       <value>org.apache.hadoop.mapred.ShuffleHandler</value>
  </property>
</configuration>

这里写图片描述
Hadoop的配置基本是按照官网的配置来的,没什么好说的。

五、数据格式化

hadoop namenode -format

这里写图片描述
如图数据格式化出现has been successfully formatted.表示格式化成功。接着就可以依次启动Hadoop的服务了。

六、启动Hadoop

进入Hadoop安装目录,先启动hdfs,后启动yarn,如果是关闭hadoop,那么刚好相反。

sbin/start-dfs.sh
sbin/start-yarn.sh

停止hadoop服务

sbin/stop-yarn.sh
sbin/stop-dfs.sh

这里写图片描述

七、检验Hadoop伪分布式集群环境

a)查看java进程jps

这里写图片描述

b)hadoop命令行检验hdfs文件系统

[root@master hadoop-2.6.0]# hadoop fs -ls /
[root@master hadoop-2.6.0]# vi student.txt
[root@master hadoop-2.6.0]# cat student.txt 
1   feiy    m   90
2   yibao   m   100
3   missma  f   99
4   feifi   m   88
[root@master hadoop-2.6.0]# hadoop fs -mkdir /usr
[root@master hadoop-2.6.0]# hadoop fs -mkdir /usr/feiy
[root@master hadoop-2.6.0]# hadoop fs -ls /usr
Found 1 items
drwxr-xr-x   - root supergroup          0 2016-11-18 01:58 /usr/feiy
[root@master hadoop-2.6.0]# hadoop fs -copyFromLocal student.txt /usr/feiy/
[root@master hadoop-2.6.0]# hadoop fs -ls /usr/feiy/
Found 1 items
-rw-r--r--   1 root supergroup         53 2016-11-18 01:59 /usr/feiy/student.txt
[root@master hadoop-2.6.0]# hadoop fs -cat /usr/feiy/student.txt
1   feiy    m   90
2   yibao   m   100
3   missma  f   99
4   feifi   m   88

以上命令依次是

  1. 查看hdfs文件系统根目录下的文件,返回为空。因为第一次操作,什么也没有。
  2. 接着在本地新建一个student.txt的文件,利用cat命令 查看到里面包含4条用tab键分割的用户信息,后面会用到。
  3. 然后在hdfs上创建了一个目录/usr
  4. 接着在/usr下创建了feiy文件夹,这两步可以合成一个命令:hadoop fs -mkdir -p /usr/feiy
  5. 接着利用copyFromLocal命令将本地文件上传到hdfs的/usr/feiy目录下,copyFromLocal可以使用put代替,效果是一样的,都比较直观,拷贝本地文件到hdfs上面。
  6. 查看该目录/usr/feiy下有什么文件(夹)
  7. 最后一条命令是查看hdfs上的student.txt文件,即为本地上传的student.txt文件。

这里写图片描述

c)浏览器查看hadoop服务(http://192.168.61.101:50070/)

服务概况
这里写图片描述
查看文件系统
这里写图片描述

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

hadoop2.6.0伪分布式环境搭建 的相关文章

  • redhat7源码编译hadoop2.6.0

    以前在32位linux机器上编译过hadoop2 6 0 这次在redhat7 64bit上再次编译hadoop2 6 0 xff0c 除必须的jdk maven protobuf需要安装之外 xff0c 还需要安装系统依赖库gcc gcc
  • ubuntu20.04server下安装hadoop2.8.5

    参考Ubuntu下Hadoop安装 xff08 全命令行版 xff09 安装环境 项目名称版本电脑硬件Huwei Matebook X Proi7 8550U 16G 512G操作系统Windows 10家庭中文版虚拟机VMware Wor
  • 命名空间图像和编辑日志

    摘自 Hadoop 权威指南 在主题下名称节点和数据节点其中提到 namenode 管理文件系统名称空间 它保持了 文件系统树以及所有文件和目录的元数据 那个树 该信息永久保存在本地磁盘上 两个文件的形式 命名空间图像和编辑日志 辅助名称节
  • Hadoop“无法为您的平台加载本机 hadoop 库”警告

    我目前正在运行的服务器上配置hadoopCentOs 当我跑步时start dfs sh or stop dfs sh 我收到以下错误 警告 util NativeCodeLoader 无法加载本机 hadoop 库 您的平台 在适用的情况
  • org.apache.spark.rpc.RpcTimeoutException:Futures 在 [120 秒] 后超时。这个超时由spark.rpc.lookupTimeout控制

    将 Spark 应用程序提交到 YARN 时 出现与容器相关的以下错误 HADOOP 2 7 3 SPARK 2 1 环境在单节点集群中运行伪分布式模式 该应用程序在本地模型中运行时可以完美运行 但是尝试使用 YARN 作为 RM 在集群模
  • 我应该在 1.x、2.2 和 0.23 中选择哪个 hadoop 版本

    您好 我是 Hadoop 新手 对版本名称非常困惑 我应该使用 1 x 强大的支持和学习资源 2 2 或 0 23 中的哪一个 我读到 hadoop 正在从 v0 23 完全迁移到 YARN link1 但与此同时 整个网络都在说 hado
  • 如何从本地 Hadoop 2.6 安装访问 S3/S3n?

    我正在尝试在本地计算机上重现 Amazon EMR 集群 为此 我安装了目前 Hadoop 的最新稳定版本 2 6 0 http ftp cixug es apache hadoop common hadoop 2 6 0 现在我想访问 S
  • 如何在 Spark 中向 Kryo 注册 InternalRow

    我想使用 Kryo 序列化运行 Spark 因此我设置spark serializer org apache spark serializer KryoSerializer and spark kryo registrationRequir
  • Hadoop - 全局排序平均值以及 MapReduce 中何时发生

    我在用Hadoop 流 JAR for 字数 我想知道我怎样才能得到全局排序 根据SO中另一个问题的回答 我发现当我们使用只需一台减速机我们可以得到全局排序 但在我的结果中numReduceTasks 1 一个减速器 它不是排序的 例如 我
  • Spark on Yarn 容器故障

    供参考 我通过在 hadoop share hadoop common 中添加 Netty 4 1 17 解决了这个问题 无论我尝试运行什么jar 包括来自https spark apache org docs latest running
  • 知道hadoop中数据节点的磁盘空间吗?

    有没有一种方法或任何命令可以让我了解每个数据节点的磁盘空间或总集群磁盘空间 我尝试了命令 dfs du h 但似乎我没有权限对许多目录执行它 因此无法获取实际的磁盘空间 From UI http namenode 50070 dfsheal
  • 无法连接到 http://localhost:50030/ - Hadoop 2.6.0 Ubuntu 14.04 LTS

    我在 Ubuntu 14 04 LTS 机器上安装了 Hadoop 2 6 0 我能够成功连接到http localhost 50070 我正在尝试连接到http locahost 50030 我的中有以下内容mapred site xml
  • Spark2 + YARN - 准备 AM 容器时出现 nullpointerException

    我正在尝试跑步 pyspark master yarn 火花版本 2 0 0 Hadoop版本 2 7 2 Hadoop 纱线 Web 界面是 成功启动 发生的情况是这样的 16 08 15 10 00 12 DEBUG Client Us
  • 将 Spark 设置为 Hive 的默认执行引擎

    Hadoop 2 7 3 Spark 2 1 0 和 Hive 2 1 1 我正在尝试将 Spark 设置为配置单元的默认执行引擎 我将 SPARK HOME jars 中的所有 jar 上传到 hdfs 文件夹 并将 scala libr
  • 如何从mapreduce中的reducer输出中删除r-00000扩展

    我能够正确重命名我的减速器输出文件 但 r 00000 仍然存在 我在我的减速器类中使用了 MultipleOutputs 这是详细信息 不确定我缺少什么或我需要做什么额外的事情 public class MyReducer extends
  • 如何使用用户提供的 Hadoop 正确配置 Spark 2.4

    我想使用 Spark 2 4 5 当前稳定的 Spark 版本 和 Hadoop 2 10 2 x 系列中当前稳定的 Hadoop 版本 此外 我需要访问 HDFS Hive S3 和 Kafka http spark apache org
  • Hadoop namenode 内存使用混乱

    我对 Hadoop namenode 内存计算有一个愚蠢的疑问 在 Hadoop 书籍 明确指南 中提到为 由于名称节点将文件系统元数据保存在内存中 因此文件系统中文件数量的限制由名称节点上的内存量决定 根据经验 每个文件 目录和块大约需要
  • Hadoop:读取ORC文件并放入RDBMS中?

    我有一个以 ORC 文件格式存储的配置单元表 我想将数据导出到 Teradata 数据库 我研究了 sqoop 但找不到导出 ORC 文件的方法 有没有办法让 sqoop 为 ORC 工作 或者有什么其他工具可以用来导出数据 Thanks
  • Namenode高可用客户端请求

    谁能告诉我 如果我使用java应用程序请求一些文件上传 下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里 我的意思是客户端如何知道哪个名称节点处于活动状态 如果您提供一些工作流程类型图或详细解释请求步骤 从开始到结束
  • 在映射器的单个输出上运行多个减速器

    我正在使用地图缩减实现左连接功能 左侧有大约 6 亿条记录 右侧有大约 2300 万条记录 在映射器中 我使用左连接条件中使用的列来创建键 并将键值输出从映射器传递到减速器 我遇到性能问题 因为两个表中的值数量都很高的映射器键很少 例如分别

随机推荐

  • windows上nacos源码编译安装

    nacos是阿里巴巴旗下的一款类似dubbo的微服务注册与发现中心 xff0c 现在很多地方都在使用这个新的框架作为微服务注册中心 nacos本质还是一个rpc框架 xff0c 但是它更强大 xff0c 它还支持配置管理 这里来学习naco
  • java通过URLClassLoader类加载器加载外部jar

    相信在实际工作中 xff0c 大家可能会遇到这种需求 xff0c 这个jar是外部的 xff0c 并没有添加到项目依赖中 xff0c 只能通过类加载器加载并调用相关方法 这种jar加载 xff0c 其实也简单 xff0c 我们通过普通的UR
  • Java服务调用系统指令、Bat脚本记录

    一 前言 在项目推进过程中偶尔会涉及到调用其它组件或脚本的需求 xff0c 本文重点介绍Java服务调用Bat脚本 系统指令 二 调用Bat脚本 根据需求生成BAT脚本内容文本 xff0c 通过文件流写入到新建的BAT文件中 xff0c 然
  • 蓝桥杯单片机开发板-数码管静态显示

    本次的博客会详细的讲解每一部分的代码 首先放本博客所涉及到的电路结构 上图为M74HC573的所控制的数码管显示电路 下图为74HC138的片选电路 电路的逻辑为 通过74HC138来控制74HC02与非门进行逻辑控制 通过74HC02的输
  • 目标检测框架yolov5环境搭建

    目前 xff0c 目标检测框架中 xff0c yolov5 是很火的 xff0c 它基于pytorch框架 xff0c 集成opencv等框架 xff0c 项目地址 xff1a https github com ultralytics yo
  • java中使用easyexcel框架自定义格式写入excel

    一般的excel示例 xff0c 都是写入列表数据到excel xff0c 格式上有表头 xff0c 内容使用List集合来填充 今天遇到的需求有点不一样 xff0c 它也是需要写入excel xff0c 但是开头的内容并不是列表 xff0
  • easyexcel内容追加与单元格合并

    这里的需求是 xff0c 如果表格不存在 xff0c 则新建表格 xff0c 并填入数据 xff0c 如果表格存在 xff0c 那么就追加内容 xff0c 并且支持单元格合并 内容追加 xff0c 需要分两种方式插入 xff0c 第一种就是
  • opencv-python加载pytorch训练好的onnx格式线性回归模型

    opencv是一个开源的图形库 xff0c 有针对java c 43 43 python的库依赖 xff0c 它本身对模型训练支持的不好 xff0c 但是可以加载其他框架训练的模型来进行预测 这里举一个最简单的线性回归的例子 xff0c 使
  • edm经验1

    edm经验 xff1a 1 lt table border 61 34 0 34 height 61 34 100 34 cellpadding 61 34 0 34 cellspacing 61 34 0 34 style 61 34 b
  • hive2.0.0安装(配合hadoop2.6.0)

    一 前提条件 安装了Hadoop2 6 0 xff0c 并且配置了相关环境变量 jdk安装 xff0c 免密登录设置 xff0c 环境变量设置 JAVA HOME JRE HOME CLASSPATH PATH 二 安装配置 1 下载hiv
  • mysql删除无主键表中重复记录(只保留一条记录)

    考虑多条语句变通的办法 mysql gt span class hljs operator span class hljs keyword select span span class hljs keyword from span x us
  • redhat7安装openstack(juno版/附所需文件)

    这种方式使用自己制作的yum源安装openstack allinone xff0c 基本一装一个准 xff0c 不会出差错 xff0c 适合初学者安装 一 使用vmware安装redhat7操作系统 百度盘地址https pan baidu
  • win7部署kafka_2.11

    kafka作为开源的分布式消息通信框架 xff0c 可以在有jvm的机器上部署 运行 这里介绍在windows7上的部署 kafka内部自带了zookeeper 如果单机简单部署 xff0c 可以不用另外下载部署zookeeper 1 下载
  • 正则表达式驼峰转中(下)划线

    一 驼峰转中划线采用正则来实现可以看如下代码 xff1a span class hljs string 34 marginTop 34 span replace a z A Z span class hljs string 34 span
  • 工作无聊?程序员上班没事做该怎么办!

    作为一名程序员 xff0c 工作强度不稳定是比较正常的 xff0c 忙的时候会埋怨 xff0c 闲的时候会发慌 合理的安排自己的工作也是程序员最基本且最重要的能力 工作不紧张的时候 xff0c 可以好好利用起来充实自己 xff0c 根据自身
  • mysql5.7.x:this is incompatible with DISTINCT

    DISTINCT关键字经常在MySQL中使用 xff0c 在mysql5 7以前的版本中一般没有什么问题 xff0c 但是在5 7以后的版本中会遇到这样的错误 Caused by java sql SQLException Expressi
  • sublime3配置Python编译器快速编译python程序

    本文介绍经常用的sublime编辑器作为PythonIDE时如何快速编译代码并得到执行结果 xff0c 前提是本机已经安装了python xff0c 并加入了环境变量 xff0c 命令行下输入python xff0c 会有如下输出 xff1
  • redhat7通过yum安装mysql5.7.17

    rhel centos系列linux操作系统自身没有mysql的源 xff0c 需要自行下载安装 本文介绍如何安装mysql5 7 x数据库 第一步 xff1a 下载源 root span class hljs variable 64 cl
  • mysql主从复制环境搭建

    所需服务器 xff1a 两台 centos7 linux虚拟机 服务器分配 server 192 168 56 201 client 192 168 56 202 说明 xff1a 使用server做主库服务器client做从库服务器 第一
  • hadoop2.6.0伪分布式环境搭建

    Hadoop作为分布式大数据处理框架在数据处理应用中有广泛的应用 xff0c 本文介绍在Linux环境下搭建hadoop伪分布式集群 xff0c 记录下自己的学习过程 一 虚拟机准备 xff0c 为了减少折腾 xff0c 不建议在windo