idea操作hadoop

2023-05-16

cd /opt/software
tar -zcvf hadoop313.tar.gz
sz hadoop313.tar.gz
以管理员身份解压 D:\software\hadoop313
hadoop.dll------>C:\windows\system32
winutils.exe------>D:\software\hadoop313/bin
windows中hadoop环境变量配置
	HADOOP_HOME		D:\software\hadoop313
	path   			%HADOOP_HOME%/bin;%HADOOP_HOME%/sbin;
	HADOOP_USER_NAME	root
配置windows环境下 linux的hostname ip映射
	windows/system32/driver/etc/hosts
		192.168.75.202 singlefang
sheel 退出安全模式  
	hadoop dfsadmin -safemode leave

写一个空的maven 自己写pom.xml

<groupId>cn.kgc</groupId>
    <artifactId>hd02</artifactId>
    <version>1.0</version>

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>
        <hadoop.version>3.1.3</hadoop.version>
        <log4j.version>1.2.17</log4j.version>
        <slf4j.version>2.0.0-alpha1</slf4j.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>log4j</groupId>
            <artifactId>log4j</artifactId>
            <version>${log4j.version}</version>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>${slf4j.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>2.3.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>2.3</version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest><!--执行jar包的启动类,入口-->
                            <main-class>cn.kgc.hd.bbb.ReduceJoinJob</main-class><!--陪主类-->
                        </manifest>
                    </archive>
                </configuration>
                <executions><!--可执行-->
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase><!---->
                        <goals>
                            <goal>single</goal><!--单例-->
                        </goals>
                    </execution>
                </executions>
            </plugin>

        </plugins>
    </build>

将 hadoop313/etc/hadoop/4个site文件 拖拽到resources 中 另加 文件log4j.properties

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=log/hd.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

提前将文件上传到hadoop服务器上

hdfs dfs -put 文件 /文件分类/小文件分类

写文件ReduceJoinJob

package cn.kgc.hd.mapjoin;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.FloatWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.net.URI;

public class MapJoinJob {
    public static void main(String[] args) {
        Configuration conf = new Configuration(true);
        conf.set("mapreduce.app-submission.cross-platform","true");
        Job job = null;
        try {
            Path pathOut = new Path("/test/avgScore");
            FileSystem fs = FileSystem.get(conf);
            if (fs.exists(pathOut)) {
                fs.deleteOnExit(pathOut);
                System.out.println(pathOut.getName() + "removed");
            }
            fs.close();
            job = Job.getInstance(conf,"mapJoinJob");
            job.setJarByClass(MapJoinJob.class);
            job.setJar("target/hd02-1.0-jar-with-dependencies.jar");
            job.setMapperClass(ClaAvgMapper.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(IntWritable.class);

            job.setReducerClass(ClaAvgReducer.class);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(FloatWritable.class);


            job.addCacheFile(URI.create("/test/class/class.log"));
            FileInputFormat.addInputPath(job,new Path("/test/score/score.log"));
            FileOutputFormat.setOutputPath(job,pathOut);


            job.waitForCompletion(true);
        } catch (IOException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            e.printStackTrace();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        }
    }
}

写文件ScoreMapper

package cn.kgc.hd.bbb;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class ScoreMapper extends Mapper<LongWritable, Text, Text, Text> {
    Text keyOut = new Text();
    Text valueOut = new Text();
    final String NUM_REGEX = "^\\d+$";

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] ps = value.toString().trim().split(",");
        //ps[0]为班级编号
        keyOut.set(ps[0]);
        //如果ps[]长度为2,则为class表,所以将ps[1]的值加上C_前缀
        if (ps.length == 2){
            valueOut.set("C_" + ps[1]);
            //若ps[]长度不为2,则为student2表或stuScore表
        }else {
            //若ps[2]正则匹配为数字则为stuScore表,加上S_前缀,即S_98_75,否则为student2表加上U_前缀,即U_31_江睿思
            valueOut.set((ps[2].matches(NUM_REGEX) ? "S" : "U") + "_" + ps[1] + "_" + ps[2]);
        }
        context.write(keyOut,valueOut);
    }
}

写文件ScoreReducer

package cn.kgc.hd.bbb;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class ScoreReducer extends Reducer<Text, Text, Text, Text> {
    Text valueOut = new Text();
    Text keyOut = new Text();

    //同一个班的信息都进values
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        String className = null;
        //<班级编号,学生姓名>
        Map<String,String> idName = new HashMap<>();
        //<学生学号,所有成绩>
        Map<String, List<Integer>> idScore = new HashMap<>();
        for (Text value : values) {
            //按_拆分
            String[] ps = value.toString().trim().split("_");
            switch (ps[0]){
                //班级
                case "C":
                    className = ps[1];
                    break;
                //成绩
                case "S":
                    int score = Integer.parseInt(ps[2]);
                    if (idScore.containsKey(ps[1]))
                        idScore.get(ps[1]).add(score);
                    else {
                        List<Integer> list = new ArrayList<>();
                        list.add(score);
                        idScore.put(ps[1],list);
                        //idScore.put(ps[1],new ArrayList<>(Arrays.asList(score)));
                    }
                    break;
                //学生
                case "U":
                    idName.put(ps[1],ps[2]);
                    break;
            }
        }
        keyOut.set(className);
        if (idName.isEmpty()){
            valueOut.set("NO_STUDENT");
            context.write(keyOut,valueOut);
            return;
        }
        if (idScore.isEmpty()){
            valueOut.set("NO_SCORE");
            context.write(keyOut,valueOut);
            return;
        }
        StringBuilder builder = new StringBuilder();
        int count;
        float avg;
        for (Map.Entry<String,String> e : idName.entrySet()){
            String stuId = e.getKey();
            String stuName = e.getValue();
            count = 0;
            avg = 0;
            if (!idScore.containsKey(stuId)) continue;
            for (Integer score : idScore.get(stuId)) {
                avg += score;
                count++;
            }
            avg /= count;
            builder.append(stuName);
            builder.append(":");
            builder.append(avg);
            builder.append(",");
        }
        builder.deleteCharAt(builder.length() - 1);
        valueOut.set(builder.toString());
        context.write(keyOut,valueOut);
    }
}

修改pom主类信息:

<manifest><!--执行jar包的启动类,入口-->
                            <main-class>cn.kgc.hd.bbb.ReduceJoinJob</main-class><!--陪主类-->
                        </manifest>

打胖包
clear backage 复制胖包地址 粘贴

job.setJar("target/hd02-1.0-jar-with-dependencies.jar");

运行主类
ctrl+shift_F10
检查结果

hdfs dfs -cat 输出路径/*
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

idea操作hadoop 的相关文章

随机推荐

  • WSL-Ubuntu使用xfce4桌面环境

    安装WSL Ubuntu xff0c 参考我的另外一篇手工在非系统盘安装WSL xff08 Ubuntu xff09 安装软件MobaXterm运行MobaXterm xff0c 创建一个新的Session xff1a 安装桌面环境 xff
  • 无人驾驶:Term-1-p2-traffic-sign-classifier

    简介 Term 1第二节课是进行交通标志分类 xff0c 数据集主要来自于German Traffic Sign xff0c 包含了42种交通标志 xff0c 通过深度学习网络进行分类 环境准备 python 2 7numpyscikit
  • linux error note

    undefined reference to 96 wrong size cmpxchg 39 reason gcc 版本不兼容 xff0c 更换新版试试 在开发板和LINUX间用NFS挂载已成功 xff0c 但文件却看不到 xff1f r
  • PC终端执行开发板上的图形界面程序时出错:Gtk-WARNING **: cannot open display:

    场景 root span class hljs variable 64 NanoPi2 span span class hljs symbol home fa Documents opencv demo span span class hl
  • iOS label显示HTML(富文本)代码 (解析)并实现高度自适应

    网络解析后 有一个HTML字符串 需要在label显示 xff08 一般是要求显示的内容有颜色 字体 背景颜色的变化 xff09 如果不做处理 显示的就是HTML代码内容 处理方法如下 已知网络请求得到一个HTML 字符串 self HTM
  • ORACLE11G实战演练--数据库安装篇(一)

    作为一个主要职责为DBA的开发人员 xff0c 基本上部门内所有的数据库问题 xff0c 小到安装 sql开发 xff0c 大到系统恢复 优化 xff0c 每天遇到的大大小小的问题非常多 每次遇到问题的时候 xff0c 有时候凭借经验 xf
  • ssh no matching key exchange method found错误

    我在使用ubuntu2021 ssh 登录另一个系统时出现如下报错 xff1a Unable to negotiate with span class token number 192 168 span 2 1 port span clas
  • elasticsearch批量删除索引

    查看索引 在elasticsearch节点上使用curl XGET 39 http XX XX X XX 9200 cat shards 39 查看索引 root 64 192 168 x x scripts curl XGET 39 ht
  • git clone --mirror -q git://github.com/adobe-webplatform/eve.git

    解决办法 xff1a git全局添加一个属性 git config global url 34 https 34 insteadOf git 然后 xff0c 重新npm install
  • 理解npm包管理机制

    推荐文章 https segmentfault com q 1010000004114972 ea 61 496109 https blog csdn net azl397985856 article details 103982369
  • 面试题:使用promise实现并发请求限制(最优解)

    问题 xff1a 有 8 个图片资源的 url xff0c 已经存储在数组 urls 中 xff0c 而且已经有一个函数 function loadImg xff0c 输入一个 url 链接 xff0c 返回一个 Promise xff0c
  • PHP八大设计模式

    PHP命名空间 可以更好地组织代码 xff0c 与Java中的包类似 Test1 php span class php span class hljs preprocessor lt php span span class hljs key
  • putty 报server unexpectedly closed network connection错误

    由于IP变了 xff0c 再用putty访问组内的服务器时 xff0c 竟然总是出错 xff0c 报server unexpectedly closed network connection错误 我公司的服务器是centos7 xff0c
  • echarts主题属性设置

    theme 61 span class hljs comment 全图默认背景 span backgroundColor span class hljs string 39 rgba 0 0 0 0 39 span span class h
  • echarts和highchart的区别

    echarts 先大体了解一下echarts的历史 xff1a echarts是百度公司前端开发的一个图表库 支持柱状图 饼状图 k线图 map图 热导向图 折线图 主要采用canvas画图 highchart highcharts是国外的
  • Cannot resolve module 'fs'

    可能很多人都会遇到这个问题 xff0c 反正我的话已经遇到两次了 xff0c 上一次解决的时候没有记录解决办法 xff0c 这次又遇到了 xff0c 而且国内搜索引擎是搜不到这个问题的解决办法的 xff0c 所以写个博客记录一下吧 xff0
  • 调整浏览器滚动条样式

    我们知道浏览器自带滚动条很丑 xff0c 有时影响整个页面到美观 xff0c 尤其在页面内嵌一个滚动列表 xff0c 显得奇丑无比 xff0c 下面我们根据如下代码调节滚动条样式 span class token punctuation s
  • 空指针的查找经验

    对象为空不会空指针 而对象的属性方法为空就会报空指针异常 那么我们来看一个出空指针的例子 从报错行开始 每一个参数都输出 发现都有参数 ctrl 43 左键 进入每一个非jdk内部的方法查看 发现在map方法中 Map lt String
  • centos 8 将普通用户添加到sudoers

    centos 系统并没有将普通用户默认添加到sudoers用户组 xff0c 所以在centos xff08 6 xff0c 7 xff0c 8 xff09 中普通用户是无法使用sudo的 xff0c 可是为了系统安全 xff0c 特别如果
  • idea操作hadoop

    cd span class token operator span opt span class token operator span software tar span class token operator span zcvf ha