零基础学习hadoop到上手工作线路指导(不断更新)

2023-11-18

本帖最后由 pig2 于 2014-2-23 10:22 编辑

零基础学习hadoop,没有想象的那么困难,也没有想象的那么容易。在刚接触云计算,曾经想过培训,但是培训机构的选择就让我很纠结。所以索性就自己学习了。整个过程整理一下,给大家参考,欢迎讨论,共同学习。
从一开始什么都不懂,到能够搭建集群,开发。整个过程,只要有Linux基础,虚拟机化和java基础,其实hadoop,没有太大的困难。

首先整体说一下学习过程给大家借鉴:
首先查阅了资料,什么是hadoop,至于这方面,你可以参考这个帖子hadoop新手学习指导。对这个有了整体的认识之后开始下面内容。(新手请务必参考hadoop新手学习指导,否则后面可能看不懂)

我们知道hadoop,有单机安装,伪分布安装和分布安装。
同时hadoop的环境是Linux,所以我们还需要安装Linux系统。因为我们的习惯是使用windows,所以对于Linux上来就安装软件之类的,困难度很大。并且我们要搭建集群,需要多台硬件的,不可能为了搭建集群,去买三台电脑。

从成本和使用我们需要懂虚拟化方面的知识。这里的虚拟化其实就是我们需要懂得虚拟机的使用。因为hadoop安装在Linux中,才能真正发挥作用。所以我们也不会使用windows。

(这里补充硬件的选择:最关键的是内存,2G内存是有点卡的,4G有点勉强的,8G用起来顺畅)

基于以上内容。所以我们需要懂得
1.虚拟化
2.Linux
3.java基础

下面来详细介绍

1.虚拟化
刚开始学习,上来就安装了虚拟机wmware station,然后创建虚拟机,安装Linux。但是问题来了。虚拟机的网络难住,因为缺乏这方面的知识,所以不得不停下来,学习虚拟机的网络,该怎么搞。虚拟机网络分为三种:
1.briage
2.host-only
3.nat
这不是很简单的吗?网上资料也不少。可是事情并没有想象的那么简单,因为nat虽然能上网,但是虚拟系统无法和本局域网中的其他真实主机进行通讯。桥接模式全都需要手工配置,而且这里还需要明白自己是本机拨号上网,还是路由拨号上网。host-only创建一个与网内其他机器相隔离的虚拟系统,这个更不行。这些都不适合我们的hadoop集群。hadoop要求主机与虚拟机与外部网络(能上网),这三者都是通的,在安装的过程中,才不会遇到麻烦。
所以这就是虚拟化方面的困难。
下面总结了在虚拟化方面需要做的:


虚拟化零基础入门

此文章让你明白为什么虚拟化,虚拟化的价值

虚拟机入门二,虚拟机的三种网络模式


详细介绍了虚拟化三种网络模式

搭建集群必备虚拟化网络知识


上面了解三种网络模式,这三种网络模式该如何才能上网。

对于上面你可能了解的还不够,下面咱们论坛会员具体实践指导,可以与他们相互交流:

集群搭建:主机宽带拨号上网,虚拟机使用桥接模式,该如何ping通外网


集群搭建必备:虚拟机之一实现Host-only方式上网


集群搭建必备:nat模式设置静态ip,达到上网与主机相互通信


上面是三种不同网络模式下,如何达到,虚拟机,主机,网络三者互通。

上面的知识具备了我们开始动手:
第一步:下载软件

VMware Workstation 10.0.0简体中文正式版官方下载地址


第二步:
下载我们就需要安装和使用


新手指导windows使用虚拟机安装Linux(ubuntu):包括下载及安装指导
上面的帖子很齐全,包括wmware下载Linux桌面版下载。还有安装指导,包括下面需要讲解的Linux安装指导


VMware workstation安装linux(ubuntu)配置详解

在这里我们安装完毕虚拟机,安装完毕Linux,我们需要返回第一步,进行网络设置。但是在网络设置中,我们会遇到各种各样的困难,因为缺乏Linux知识。

同时这里补充一些虚拟化的基础知识:
虚拟网卡概述


VMware虚拟机网络设置方法


虚拟机(Linux操作系统)三种网络模式切换遇到的问题


2.Linux
2.1、Linux基础知识


对于Linux的学习也是一个过程,因为可能你连最简单的开机和关机命令都不会,更不要谈配置网络。这里面给大家提供刚开始学习所查阅的资料和经验总结。
首先我们需要使用一些命令,进行网络配置,但是在网络配置中,这里面又必须懂得虚拟机的一些知识,所以前面的虚拟机知识需要掌握扎实一些。
对于网络配置:

集群搭建:主机宽带拨号上网,虚拟机使用桥接模式,该如何ping通外网


集群搭建必备:虚拟机之一实现Host-only方式上网


集群搭建必备:nat模式设置静态ip,达到上网与主机相互通信

其实还是上面三个,但是我们会遇到各种不会的命令,即使能查到命令,我们也不能使用。为什么会这样,因为各种有的命令,是需要使用安装包的。我们在配置网络过程中,同样会遇到各种各样的奇怪的配置。在我们的Linux的系统,不能找到文件。这里只举ubuntu。网络配置文件/etc/network/interfaces。我们配置完毕之后,有各种网络重启方式:
  1. /etc/init.d/networking  restart
复制代码
这是一种网络重启方式,但是有时候并不管用。

那么这时候我们遇到困难了,刚接触命令不起作用,该怎么办?
  1. ifconfig eth0 down
复制代码
  1. ifconfig eth0 up
复制代码
(这里同样需要明白,我这里使用的是eth0上网的,如果你使用的是eth1,就需要替换成eth1)

上面的两个命令能达到同样的效果。

在举一例:
我们需要配置网络文件,在很多网络配置是使用下面的命令的
  1. vim /etc/network/interfaces
复制代码
但是我们看到下面错误
  1. The program vim can be found in the following package:
  2. vim
  3. vim -gnome
  4. vim-tiny
  5. vim-gtk
  6. vim-nox
  7. Try:sudo apt-get install <select package>
复制代码
这和我们看到的配置完全不一样。这是因为我们安装Linux之后,并没有安装vim包。所以我们又遇到了困难。如果你熟悉Linux的话,这个根本不是问题。
  1. vi /etc/network/interfaces
复制代码
上面命令迎刃而解。一个vim,一个vi。在我们刚接触这些肯定云里雾里,所以你需要首先有成就感,然后在慢慢接触。下面都是经过实践的内容,也算是经验,大家可以参考。

云技术基础:学习hadoop使用零基础linux(Ubuntu)笔记

搭建集群必知:Linux常用命令及修改文件总结(不断更新)    

Linux网络接口ifconfig命令及认识网络接口lo

linux入门详细介绍


虚拟机安装linux网络配置资料大全


解决遇到Linux网络配置,从熟悉网络配置文件入手(大体了解即可)


linux入门大全:包括零基础入门,Linux详细介绍


Linux重启方式init 0 init1 init 3 init 5 init 6 这几个启动级别都代表什么意思?

Ubuntu常用命令总结及修改DNS的多种方法总结

Linux关机各种关机命令总结


Linux基础必懂:eth0,eth1,eth2,lo是什么意思?

此篇文章帮助认识网卡,判断网卡是否启动,对于网络的也算是常识。

--------------------------------------------------------------------------------------------------------------------------------------------


linux中pwd命令详解
这是了解你所处路径的,起到辅助的作用。


linux之vi编辑器
此篇文章较为关键,因为经常用到,而且需要熟悉
编辑模式
命令模式
如何保存,如何退出等各种操作





linux yum命令详解


Linux下chkconfig命令详解
熟悉他的作用就是能够查看软件安装是否成功


2.1、Linux安装hadoop

上面切记浮躁,因为这也是上面一到两个月的总结。我们不可能一天两天就能完成。所以上面需要我们经过最起码完全一周的时间。我们熟悉了Linux命令,熟悉了网络知识。后面我们进行的快多了。

部署集群,首先需要安装java,然后安装hadoop。

首先我们还是从零基础开始。

我们需要下载和本地电脑相匹配的jdk,是32位的下载32位,是64位的下载64位。这里我们从最简单的入手。在这过程中,可能遇到问题的是环境变量的配置,造成命令不能识别。而这里你需要学习新的Linux知识。不过如果前面你已经配置完网络,有了这个基础,在学习新的知识,压力明显变小了。

下面给大家分享一下,在Linux中如何安装Java和hadoop。

Hadoop安装过程:Hadoop单机环境搭建权威指南(ubuntu) 


安装完毕,我们该怎么用,该怎么测试安装成功。

集群安装完毕,该如何测试和使用集群-hadoop单机



通过上面帖子,我们很容易安装完成,如果是刚熟悉Linux,需要补充下面知识,才能顺利完成。

linux中Java jdk环境变量的含义


linux(ubuntu)安装Java jdk环境变量设置总结


Linux中source命令学习


linux文件目录特殊符号的含义,总结以备以后查询


--------------------------------------------------------------------------------------------------------------------------------------------

今天在写点内容,以上咱们已经会安装集群了,那么我们就需要进入开发了。开发零基础,该如何,咱们提供了相关的内容分别介绍下面文章
学习hadoop----java零基础学习线路指导视频(1)
这一篇我们使用什么开发工具,甚至考虑使用什么操作系统。然后就是Java基础知识篇,包括变量、函数等。

学习hadoop---Java初级快读入门指导(2)
第一篇是属于思想篇,那么这一篇属于实战篇,通过不同的方式,交给你怎么编写第一个小程序。

Java零基础:一步步教你如何使用eclipse创建项目及编写小程序实例
由于上面没有真正抽象出eclipse的使用,所以这里专门介绍了使用eclipse如何创建项目,及如何编写小程序实例


java基础:eclipse编程不得不知道的技巧
eclipse基本知识会了之后,我们在项目,这些技巧相当有用,而且经常用到


hadoop开发方式总结及操作指导
这是第三篇,我们上面熟悉之后,就可以开发hadoop。但是因为hadoop是属于分布式,所以如果对Java越是熟悉,可能产生的问题就会越多。这里总结了hadoop的开发方式。


---------------------------------------------------------------------------------------------------------------------------------------------


如果到了这个地方。后面的内容你可以在看看视频。
hadoop新手入门视频
hadoop10G云计算和北风网三套视频教程外加炼术成金和云计算视频(免费分享)
Hadoop传智播客七天hadoop(3800元)视频,持续更新


通过以上视频,搭建环境和开发环境都没有问题。以后有时间咱们可以再次展开和讨论。












本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

零基础学习hadoop到上手工作线路指导(不断更新) 的相关文章

  • HDFS容量:如何阅读“dfsadmin报告”

    我使用的是 Hadoop 2 6 0 当我运行 hdfs dfsadmin report 时 我得到类似这样的信息 简化 Configured Capacity 3 TB Present Capacity 400GB DFS Remaini
  • Spark 2.0 弃用了“DirectParquetOutputCommitter”,没有它如何生活?

    最近 我们从 HDFS 上的 EMR gt S3 上的 EMR 启用了一致视图的 EMRFS 迁移 我们意识到 Spark SaveAsTable 镶木地板格式 写入 S3 的速度比 HDFS 慢约 4 倍 但我们发现使用 DirectPa
  • Hive如何存储数据,什么是SerDe?

    当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据 执行 INSERT 或 CTAS 时 请参阅第 441 页上的 导入数据 表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
  • Hive(查找连续 n 列中的最小值)

    我在 Hive 中有一个表 有 5 列 即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作 上表中的 4 列表示用户执行第一个
  • Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

    我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
  • Hive 中字符串数据类型是否有最大大小?

    谷歌了很多 但没有在任何地方找到它 或者这是否意味着只要允许集群 Hive 就可以支持任意大字符串数据类型 如果是这样 我在哪里可以找到我的集群可以支持的最大字符串数据类型大小 提前致谢 Hive 列表的当前文档STRING作为有效的数据类
  • 在 Hive 中分解一行 XML 数据

    我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中 我们正在尝试检索数据级别 并将其标准化或分解为单行进行处理 你知道 就像表格一样 已经尝试过分解功能 但没有得到我们想要的 示例 XML
  • Hive ParseException - 无法识别“结束”“字符串”附近的输入

    尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
  • Hive查询快速查找表大小(行数)

    是否有 Hive 查询可以快速查找表大小 即行数 而无需启动耗时的 MapReduce 作业 这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的 对新手问题表示歉
  • Sqoop mysql错误-通信链路故障

    尝试运行以下命令 sqoop import connect jdbc mysql 3306 home credit risk table bureau target dir home sqoop username root password
  • 将日期字符串转换为“MM/DD/YY”格式

    我刚刚看到这个例子 我该如何解决这个问题 Hive 元存储包含一个名为 Problem1 的数据库 其中包含一个名为 customer 的表 customer 表包含 9000 万条客户记录 90 000 000 每条记录都有一个生日字段
  • Namenode高可用客户端请求

    谁能告诉我 如果我使用java应用程序请求一些文件上传 下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里 我的意思是客户端如何知道哪个名称节点处于活动状态 如果您提供一些工作流程类型图或详细解释请求步骤 从开始到结束
  • 如何将Hive数据表迁移到MySql?

    我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例 但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例 这是我在 DynamoDB
  • 如何通过Python访问Hive?

    https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
  • Hive - 线程安全的自动递增序列号生成

    我遇到一种情况 需要将记录插入到特定的 Hive 表中 其中一列需要是自动递增的序列号 即在任何时间点都必须严格遵循 max value 1 规则 记录从许多并行的 Hive 作业插入到这个特定的表中 这些作业每天 每周 每月批量运行 现在
  • 伪分布式模式下的 Hadoop。连接被拒绝

    P S 请不要将此标记为重复 Hi 我一直在尝试以伪分布式模式设置和运行 Hadoop 当我运行 start all sh 脚本时 我得到以下输出 starting namenode logging to home raveesh Hado
  • 适用于 Hadoop 的 DynamoDB 输入格式

    我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据 我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它 我对 Dynamo DB 不熟悉 所以我猜测
  • HDFS:使用 Java / Scala API 移动多个文件

    我需要使用 Java Scala 程序移动 HDFS 中对应于给定正则表达式的多个文件 例如 我必须移动所有名称为 xml从文件夹a到文件夹b 使用 shell 命令我可以使用以下命令 bin hdfs dfs mv a xml b 我可以
  • hive - 在值范围之间将一行拆分为多行

    我在下面有一张表 想按从开始列到结束列的范围拆分行 即 id 和 value 应该对开始和结束之间的每个值重复 包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
  • Hive:如何分解嵌入 CSV 文件中的 JSON 列?

    从 CSV 文件 带有标题和管道分隔符 中 我得到了以下两个内容 其中包含一个 JSON 列 内部有一个集合 如下所示 第一种情况 使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918

随机推荐

  • 【Java日志】你真的知道怎么使用Java日志API吗?

    你真的知道怎么使用Java日志API吗 一 背景 二 Java日志API错误使用示例 1 占位符的错误使用示例 2 异常日志的错误使用示例 三 推荐一个学习Java日志的项目 一 背景 在平时的开发过程中 常常看到一些编码不规范的打印日志的
  • Flask读取RTSP视频流,及其简单的一个案例

    Flask读取RTSP视频流 及其简单的一个案例 此章节包括通过是使用Flask可以实时地显示RTSP视频流 代码确实非常简单 源于Github 主要为为Nvidia Deepstream极致细节 3 Deepstream Python R
  • 华为怎么显示返回按键_华为怎么把返回那三个键调出来

    华为怎么把返回那三个键调出来 其实这个方法一点都不难 1 首先在华为nova3的桌面找到 设置 并点击进入 2 点击打开 系统 3 在系统菜单下 点击进入 系统导航 4 点击勾选 屏幕内虚拟导航栏 即可打开虚拟导航 不勾选即可直接关闭虚拟导
  • vscode配置快捷键注释模板

    文章目录 前言 一 打开配置项 1 首选项编辑配置 2 新建代码片段 3 配置注释文件名 二 新建代码注释模板 三 注释使用 前言 本篇文章可以在vscode中配置快捷键显示代码的信息注释 如作者 描述 创建时间等 一 打开配置项 1 首选
  • SD卡中FAT32文件格式快速入门(图文详细介绍)

    说明 MBR Master Boot Record 主引导记录 DBR DOS Boot Record 引导扇区 FAT File Allocation Table 文件分配表 硬件 本文SD卡为Kingston 4GB FAT32格式 簇
  • 【Python】 Pandas数据导入与导出

    数据读取 import pandas as pd data pd read csv data csv 读取数据文件 print data 数据索引与查看 x data loc x 读取表头为 x 的那一列的数据 print x y data
  • 如何自学现代计算机科学(转)

    简介 这里收集了很多学习资源 都是关于一些适合本科生学习的计算机科学 话题 Topics 这里仅仅只提供 话题 列表 而不会提供诸如知识点剖析 练习题等内容 如果你对某一个话题特别感兴趣 想深入研究一下 但又买不起文中提到的书籍 实体书 那
  • 使用docker搭建FastDFS文件系统

    使用docker搭建FastDFS文件系统 1 拉取fastdfs镜像 docker search fastdfs 这里要选择 delron fastdfs 镜像 docker pull delron fastdfs 2 启动容器 2 1
  • 车祸相关公开数据集(免费下载)

    Vehicle Collisions 纽约市机动车与人相撞 背景描述 这是 2021 年在纽约发生的人与机动车碰撞事故的数据 仅过滤掉超过 1 000 美元的受伤或死亡案件 总结了事件的日期和时间 受伤的位置以及警方对事件的描述 数据说明
  • Dubbo源码分析-Spring与Dubbo整合原理与源码分析(二)

    Spring与Dubbo整合的整体流程 基于apache dubbo 2 7 15 因为dubbo有较多的兼容以前的代码比如 DubboReference 以前就有两个版本 Reference 和 com alibaba dubbo con
  • list 分组_学习笔记系列_10_数据聚合与分组操作

    开篇导包 一 数据聚合 df groupby 详解 DataFrame 参数 by 用作分组的条件对象 mapping function label or list of labels axis 轴方向 0 or index 1 or co
  • Golang笔记:UDP基础使用与广播

    文章目录 目的 基础说明 作为服务器使用 作为客户端使用 广播 总结 目的 UDP是比较基础常用的网络通讯方式 这篇文章将介绍Go语言中UDP基础使用的一些内容 本文中使用 Packet Sender 工具进行测试 其官网地址如下 http
  • 大数据常见错误解决方案(转载)

    1 用 bin spark shell启动spark时遇到异常 java net BindException Can t assign requested address Service sparkDriver failed after 1
  • java代理

    静态代理 import java util logging Level import java util logging Logger 定义接口 代理类和被代理类都要实现这个接口 interface IHello public void h
  • KALI中Arping的使用方法(2023)

    一 介绍 ARP协议是 Address Resolution Protocol 地址解析协议 的缩写 在同一以太网中 通过地址解析协议 源主机可以通过目的主机的IP地址获得目的主机的MAC地址 arping程序就是完成上述过程的程序 arp
  • 【YOLOv5-6.x】解决加入CA注意力机制不显示FLOPs的问题

    1 问题描述 问题源自之前写的一篇博客 魔改YOLOv5 6 x 中 加入ACON激活函数 CBAM和CA注意力机制 加权双向特征金字塔BiFPN 尝试在YOLOv5的backbone中加入Coordinate Attention 虽然加入
  • 程序员应了解的那些事(5)C++迭代器之iterator_traits/iterator_category

    lt 1 gt traits 所谓traits 可以理解为 萃取机 作用就是 你丢给他什么东西 他会给你拿出你想要的特性 迭代器的特性 iterator traits lt gt lt 2 gt 迭代器的属性迭代器是沟通算法和容器的桥梁 一
  • 小程序获取链接中的参数

    onLoad function options if options null options undefined options sharetype null options sharetype gt 0 console log opti
  • 【Android入门到项目实战-- 7.3】—— 如何调用手机摄像头和相册

    目录 一 调用摄像头拍照 二 打开相册选择照片 学完本篇文章可以收获如何调用手机的摄像头和打开手机相册选择图片功能 一 调用摄像头拍照 先新建一个CameraAlbumTest项目 修改activity main xml 代码如下 按钮打开
  • 零基础学习hadoop到上手工作线路指导(不断更新)

    本帖最后由 pig2 于 2014 2 23 10 22 编辑 零基础学习hadoop 没有想象的那么困难 也没有想象的那么容易 在刚接触云计算 曾经想过培训 但是培训机构的选择就让我很纠结 所以索性就自己学习了 整个过程整理一下 给大家参