idea操作hadoop

2023-05-16

cd /opt/software
tar -zcvf hadoop313.tar.gz
sz hadoop313.tar.gz
以管理员身份解压 D:\software\hadoop313
hadoop.dll------>C:\windows\system32
winutils.exe------>D:\software\hadoop313/bin
windows中hadoop环境变量配置
	HADOOP_HOME		D:\software\hadoop313
	path   			%HADOOP_HOME%/bin;%HADOOP_HOME%/sbin;
	HADOOP_USER_NAME	root
配置windows环境下 linux的hostname ip映射
	windows/system32/driver/etc/hosts
		192.168.75.202 singlefang
sheel 退出安全模式  
	hadoop dfsadmin -safemode leave

写一个空的maven 自己写pom.xml

<groupId>cn.kgc</groupId>
    <artifactId>hd02</artifactId>
    <version>1.0</version>

    <properties>
        <project.build.sourceEncoding>UTF-8</project.build.sourceEncoding>
        <maven.compiler.source>1.8</maven.compiler.source>
        <maven.compiler.target>1.8</maven.compiler.target>
        <hadoop.version>3.1.3</hadoop.version>
        <log4j.version>1.2.17</log4j.version>
        <slf4j.version>2.0.0-alpha1</slf4j.version>
    </properties>

    <dependencies>
        <dependency>
            <groupId>log4j</groupId>
            <artifactId>log4j</artifactId>
            <version>${log4j.version}</version>
        </dependency>
        <dependency>
            <groupId>org.slf4j</groupId>
            <artifactId>slf4j-log4j12</artifactId>
            <version>${slf4j.version}</version>
        </dependency>
        <dependency>
            <groupId>org.apache.hadoop</groupId>
            <artifactId>hadoop-client</artifactId>
            <version>${hadoop.version}</version>
        </dependency>
    </dependencies>

    <build>
        <plugins>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-compiler-plugin</artifactId>
                <version>2.3.2</version>
                <configuration>
                    <source>1.8</source>
                    <target>1.8</target>
                </configuration>
            </plugin>
            <plugin>
                <groupId>org.apache.maven.plugins</groupId>
                <artifactId>maven-assembly-plugin</artifactId>
                <version>2.3</version>
                <configuration>
                    <descriptorRefs>
                        <descriptorRef>jar-with-dependencies</descriptorRef>
                    </descriptorRefs>
                    <archive>
                        <manifest><!--执行jar包的启动类,入口-->
                            <main-class>cn.kgc.hd.bbb.ReduceJoinJob</main-class><!--陪主类-->
                        </manifest>
                    </archive>
                </configuration>
                <executions><!--可执行-->
                    <execution>
                        <id>make-assembly</id>
                        <phase>package</phase><!--包-->
                        <goals>
                            <goal>single</goal><!--单例-->
                        </goals>
                    </execution>
                </executions>
            </plugin>

        </plugins>
    </build>

将 hadoop313/etc/hadoop/4个site文件拖拽到resources 中另加文件log4j.properties

log4j.rootLogger=INFO, stdout
log4j.appender.stdout=org.apache.log4j.ConsoleAppender
log4j.appender.stdout.layout=org.apache.log4j.PatternLayout
log4j.appender.stdout.layout.ConversionPattern=%d %p [%c] - %m%n
log4j.appender.logfile=org.apache.log4j.FileAppender
log4j.appender.logfile.File=log/hd.log
log4j.appender.logfile.layout=org.apache.log4j.PatternLayout
log4j.appender.logfile.layout.ConversionPattern=%d %p [%c] - %m%n

提前将文件上传到hadoop服务器上

hdfs dfs -put 文件 /文件分类/小文件分类

写文件ReduceJoinJob

package cn.kgc.hd.mapjoin;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.FileSystem;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.FloatWritable;
import org.apache.hadoop.io.IntWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;
import java.net.URI;

public class MapJoinJob {
    public static void main(String[] args) {
        Configuration conf = new Configuration(true);
        conf.set("mapreduce.app-submission.cross-platform","true");
        Job job = null;
        try {
            Path pathOut = new Path("/test/avgScore");
            FileSystem fs = FileSystem.get(conf);
            if (fs.exists(pathOut)) {
                fs.deleteOnExit(pathOut);
                System.out.println(pathOut.getName() + "removed");
            }
            fs.close();
            job = Job.getInstance(conf,"mapJoinJob");
            job.setJarByClass(MapJoinJob.class);
            job.setJar("target/hd02-1.0-jar-with-dependencies.jar");
            job.setMapperClass(ClaAvgMapper.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(IntWritable.class);

            job.setReducerClass(ClaAvgReducer.class);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(FloatWritable.class);


            job.addCacheFile(URI.create("/test/class/class.log"));
            FileInputFormat.addInputPath(job,new Path("/test/score/score.log"));
            FileOutputFormat.setOutputPath(job,pathOut);


            job.waitForCompletion(true);
        } catch (IOException e) {
            e.printStackTrace();
        } catch (InterruptedException e) {
            e.printStackTrace();
        } catch (ClassNotFoundException e) {
            e.printStackTrace();
        }
    }
}

写文件ScoreMapper

package cn.kgc.hd.bbb;

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;

public class ScoreMapper extends Mapper<LongWritable, Text, Text, Text> {
    Text keyOut = new Text();
    Text valueOut = new Text();
    final String NUM_REGEX = "^\\d+$";

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] ps = value.toString().trim().split(",");
        //ps[0]为班级编号
        keyOut.set(ps[0]);
        //如果ps[]长度为2，则为class表，所以将ps[1]的值加上C_前缀
        if (ps.length == 2){
            valueOut.set("C_" + ps[1]);
            //若ps[]长度不为2，则为student2表或stuScore表
        }else {
            //若ps[2]正则匹配为数字则为stuScore表，加上S_前缀，即S_98_75，否则为student2表加上U_前缀，即U_31_江睿思
            valueOut.set((ps[2].matches(NUM_REGEX) ? "S" : "U") + "_" + ps[1] + "_" + ps[2]);
        }
        context.write(keyOut,valueOut);
    }
}

写文件ScoreReducer

package cn.kgc.hd.bbb;

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.ArrayList;
import java.util.HashMap;
import java.util.List;
import java.util.Map;

public class ScoreReducer extends Reducer<Text, Text, Text, Text> {
    Text valueOut = new Text();
    Text keyOut = new Text();

    //同一个班的信息都进values
    @Override
    protected void reduce(Text key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        String className = null;
        //<班级编号，学生姓名>
        Map<String,String> idName = new HashMap<>();
        //<学生学号，所有成绩>
        Map<String, List<Integer>> idScore = new HashMap<>();
        for (Text value : values) {
            //按_拆分
            String[] ps = value.toString().trim().split("_");
            switch (ps[0]){
                //班级
                case "C":
                    className = ps[1];
                    break;
                //成绩
                case "S":
                    int score = Integer.parseInt(ps[2]);
                    if (idScore.containsKey(ps[1]))
                        idScore.get(ps[1]).add(score);
                    else {
                        List<Integer> list = new ArrayList<>();
                        list.add(score);
                        idScore.put(ps[1],list);
                        //idScore.put(ps[1],new ArrayList<>(Arrays.asList(score)));
                    }
                    break;
                //学生
                case "U":
                    idName.put(ps[1],ps[2]);
                    break;
            }
        }
        keyOut.set(className);
        if (idName.isEmpty()){
            valueOut.set("NO_STUDENT");
            context.write(keyOut,valueOut);
            return;
        }
        if (idScore.isEmpty()){
            valueOut.set("NO_SCORE");
            context.write(keyOut,valueOut);
            return;
        }
        StringBuilder builder = new StringBuilder();
        int count;
        float avg;
        for (Map.Entry<String,String> e : idName.entrySet()){
            String stuId = e.getKey();
            String stuName = e.getValue();
            count = 0;
            avg = 0;
            if (!idScore.containsKey(stuId)) continue;
            for (Integer score : idScore.get(stuId)) {
                avg += score;
                count++;
            }
            avg /= count;
            builder.append(stuName);
            builder.append(":");
            builder.append(avg);
            builder.append(",");
        }
        builder.deleteCharAt(builder.length() - 1);
        valueOut.set(builder.toString());
        context.write(keyOut,valueOut);
    }
}

修改pom主类信息:

<manifest><!--执行jar包的启动类,入口-->
                            <main-class>cn.kgc.hd.bbb.ReduceJoinJob</main-class><!--陪主类-->
                        </manifest>

打胖包
clear backage 复制胖包地址粘贴

job.setJar("target/hd02-1.0-jar-with-dependencies.jar");

运行主类
ctrl+shift_F10
检查结果

hdfs dfs -cat 输出路径/*

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

IDEA

Hadoop

idea操作hadoop 的相关文章

猪如何过滤不同的对（对）

我是猪的新手我有一个 Pig 脚本它在两个元素之间生成制表符分隔的对每行一对例如 John Paul Tom Nik Mark Bill Tom Nik Paul John 我需要过滤掉重复的组合如果我使用 DISTINCT 我会
获取 emr-ddb-hadoop.jar 将 DynamoDB 与 EMR Spark 连接

我有一个 DynamoDB 表需要将其连接到 EMR Spark SQL 才能对该表运行查询我获得了带有发行标签 emr 4 6 0 和 Spark 1 6 1 的 EMR Spark Cluster 我指的是文档使用 Spark 分
Namenode高可用客户端请求

谁能告诉我如果我使用java应用程序请求一些文件上传下载操作到带有Namenode HA设置的HDFS 这个请求首先去哪里我的意思是客户端如何知道哪个名称节点处于活动状态如果您提供一些工作流程类型图或详细解释请求步骤从开始到结束
hadoop中reducer的数量

我正在学习hadoop 我发现减速器的数量非常令人困惑 1 reducer的数量与partition的数量相同 2 reducer 的数量是 0 95 或 1 75 乘以节点数每个节点的最大容器数 3 减速机数量设定为mapred re
如何通过Python访问Hive？

https cwiki apache org confluence display Hive HiveClient HiveClient Python https cwiki apache org confluence display Hi
带有安全 Kafka 抛出的 Spark 结构化流：无权访问组异常

为了在我的项目中使用结构化流我正在 hortonworks 2 6 3 环境上测试 Spark 2 2 0 和 Kafka 0 10 1 与 Kerberos 的集成我正在运行下面的示例代码来检查集成我能够在 Spark 本地模式下的
MiniDFSCluster UnsatisfiedLinkError org.apache.hadoop.io.nativeio.NativeIO$Windows.access0

做时 new MiniDFSCluster Builder config build 我得到这个异常 java lang UnsatisfiedLinkError org apache hadoop io nativeio NativeIO
运行时异常：java.lang.NoSuchMethodException：tfidf$Reduce.()

如何解决这个问题 tfidf是我的主类为什么运行jar文件后会出现这个错误 java lang RuntimeException java lang NoSuchMethodException tfidf Reduce
如何创建 HIVE 表来读取分号分隔值

我想创建一个 HIVE 表该表将以分号分隔的值读取但我的代码不断给出错误有没有人有什么建议 CREATE TABLE test details Time STRING Vital STRING sID STRING PARTITION
我可以在没有 Hadoop 的情况下使用 Spark 作为开发环境吗？

我对大数据和相关领域的概念非常陌生如果我犯了一些错误或拼写错误我很抱歉我想了解阿帕奇火花 http spark apache org 并使用它仅在我的电脑中在开发测试环境中由于Hadoop包含HDFS Hadoop分布式文件系统
InvalidRequestException（为什么：empid 如果包含 Equal，则不能被多个关系限制）

这是关于我从 Apache Spark 查询 Cassandra 时遇到的问题 Spark 的正常查询工作正常没有任何问题但是当我使用关键条件进行查询时出现以下错误最初我尝试查询复合键列族它也给出了与下面相同的问题由以下原因引
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output
hive - 在值范围之间将一行拆分为多行

我在下面有一张表想按从开始列到结束列的范围拆分行即 id 和 value 应该对开始和结束之间的每个值重复包括两者 id value start end 1 5 1 4 2 8 5 9 所需输出 id value current
Hive：如何分解嵌入 CSV 文件中的 JSON 列？

从 CSV 文件带有标题和管道分隔符中我得到了以下两个内容其中包含一个 JSON 列内部有一个集合如下所示第一种情况使用没有名称的 JSON 集合 ProductId IngestTime ProductOrders 918
Spark on Hive SQL 查询错误 NoSuchFieldError: HIVE_STATS_JDBC_TIMEOUT

针对 Hive 2 1 0 提交 Spark 1 6 0 SQL 应用程序时出现错误 Exception in thread main java lang NoSuchFieldError HIVE STATS JDBC TIMEOUT a
HBase、Hadoop：如何估计 HBase 表或 Hadoop 文件系统路径的大小？

我有多个 HBase 表如何估计在 java 中使用的表的大致大小一种方法是你必须使用java客户端访问hdfs 通常在 hbase文件夹所有表格信息将在场 Hadoop 外壳你可以检查使用hadoop fs du h path
当我将文件存储在 HDFS 中时，它们会被复制吗？

我是 Hadoop 新手当我使用以下方式存储 Excel 文件时hadoop fs putcommoad 它存储在HDFS中复制因子为3 我的问题是是否需要3份并分别存储到3个节点中这是 HDFS 工作的漫画 https docs
在蜂巢中出现错误

当我连接到 ireport 时如果说在 hive shell 中显示表则会出现此错误元数据错误 java lang RuntimeException 无法实例化 org apache hadoop hive metastore Hiv
Hadoop-reducer 如何获取数据？

据我所知映射器为每个减速器生成 1 个分区减速器如何知道要复制哪个分区假设有 2 个节点运行用于字数统计程序的映射器并且配置了 2 个缩减器如果每个映射节点生成 2 个分区并且两个节点中的分区都可能包含相同的单词作为键那么减速
与文件名中的冒号“：”作斗争

我有以下代码用于加载大量 csv gz 并将它们转储到其他文件夹中并将源文件名作为一列 object DailyMerger extends App def allFiles path File List File val parts

随机推荐

WSL-Ubuntu使用xfce4桌面环境

安装WSL Ubuntu xff0c 参考我的另外一篇手工在非系统盘安装WSL xff08 Ubuntu xff09 安装软件MobaXterm运行MobaXterm xff0c 创建一个新的Session xff1a 安装桌面环境 xff
无人驾驶：Term-1-p2-traffic-sign-classifier

简介 Term 1第二节课是进行交通标志分类 xff0c 数据集主要来自于German Traffic Sign xff0c 包含了42种交通标志 xff0c 通过深度学习网络进行分类环境准备 python 2 7numpyscikit
linux error note

undefined reference to 96 wrong size cmpxchg 39 reason gcc 版本不兼容 xff0c 更换新版试试在开发板和LINUX间用NFS挂载已成功 xff0c 但文件却看不到 xff1f r
PC终端执行开发板上的图形界面程序时出错：Gtk-WARNING **: cannot open display:

场景 root span class hljs variable 64 NanoPi2 span span class hljs symbol home fa Documents opencv demo span span class hl
iOS label显示HTML(富文本)代码 (解析)并实现高度自适应

网络解析后有一个HTML字符串需要在label显示 xff08 一般是要求显示的内容有颜色字体背景颜色的变化 xff09 如果不做处理显示的就是HTML代码内容处理方法如下已知网络请求得到一个HTML 字符串 self HTM
ORACLE11G实战演练--数据库安装篇（一）

作为一个主要职责为DBA的开发人员 xff0c 基本上部门内所有的数据库问题 xff0c 小到安装 sql开发 xff0c 大到系统恢复优化 xff0c 每天遇到的大大小小的问题非常多每次遇到问题的时候 xff0c 有时候凭借经验 xf
ssh no matching key exchange method found错误

我在使用ubuntu2021 ssh 登录另一个系统时出现如下报错 xff1a Unable to negotiate with span class token number 192 168 span 2 1 port span clas
elasticsearch批量删除索引

查看索引在elasticsearch节点上使用curl XGET 39 http XX XX X XX 9200 cat shards 39 查看索引 root 64 192 168 x x scripts curl XGET 39 ht
git clone --mirror -q git://github.com/adobe-webplatform/eve.git

解决办法 xff1a git全局添加一个属性 git config global url 34 https 34 insteadOf git 然后 xff0c 重新npm install
理解npm包管理机制

推荐文章 https segmentfault com q 1010000004114972 ea 61 496109 https blog csdn net azl397985856 article details 103982369
面试题：使用promise实现并发请求限制（最优解）

问题 xff1a 有 8 个图片资源的 url xff0c 已经存储在数组 urls 中 xff0c 而且已经有一个函数 function loadImg xff0c 输入一个 url 链接 xff0c 返回一个 Promise xff0c
PHP八大设计模式

PHP命名空间可以更好地组织代码 xff0c 与Java中的包类似 Test1 php span class php span class hljs preprocessor lt php span span class hljs key
putty 报server unexpectedly closed network connection错误

由于IP变了 xff0c 再用putty访问组内的服务器时 xff0c 竟然总是出错 xff0c 报server unexpectedly closed network connection错误我公司的服务器是centos7 xff0c
echarts主题属性设置

theme 61 span class hljs comment 全图默认背景 span backgroundColor span class hljs string 39 rgba 0 0 0 0 39 span span class h
echarts和highchart的区别

echarts 先大体了解一下echarts的历史 xff1a echarts是百度公司前端开发的一个图表库支持柱状图饼状图 k线图 map图热导向图折线图主要采用canvas画图 highchart highcharts是国外的
Cannot resolve module 'fs'

可能很多人都会遇到这个问题 xff0c 反正我的话已经遇到两次了 xff0c 上一次解决的时候没有记录解决办法 xff0c 这次又遇到了 xff0c 而且国内搜索引擎是搜不到这个问题的解决办法的 xff0c 所以写个博客记录一下吧 xff0
调整浏览器滚动条样式

我们知道浏览器自带滚动条很丑 xff0c 有时影响整个页面到美观 xff0c 尤其在页面内嵌一个滚动列表 xff0c 显得奇丑无比 xff0c 下面我们根据如下代码调节滚动条样式 span class token punctuation s
空指针的查找经验

对象为空不会空指针而对象的属性方法为空就会报空指针异常那么我们来看一个出空指针的例子从报错行开始每一个参数都输出发现都有参数 ctrl 43 左键进入每一个非jdk内部的方法查看发现在map方法中 Map lt String
centos 8 将普通用户添加到sudoers

centos 系统并没有将普通用户默认添加到sudoers用户组 xff0c 所以在centos xff08 6 xff0c 7 xff0c 8 xff09 中普通用户是无法使用sudo的 xff0c 可是为了系统安全 xff0c 特别如果
idea操作hadoop

cd span class token operator span opt span class token operator span software tar span class token operator span zcvf ha

idea操作hadoop

idea操作hadoop 的相关文章

随机推荐

热门标签