MapReduce的Job提交流程

2023-11-10

编写一个简单的WordCount程序
Mapper

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;

import java.io.IOException;
import java.util.Arrays;

public class WordCountMapper extends Mapper<LongWritable, Text, Text, LongWritable> {
    LongWritable v = new LongWritable(1);
    Text k = new Text();

    @Override
    protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
        String[] words = value.toString().split(" ");
        Arrays.asList(words).forEach(word -> {
            k.set(word);
            try {
                context.write(k,v);
            } catch (IOException e) {
                e.printStackTrace();
            } catch (InterruptedException e) {
                e.printStackTrace();
            }
        });
    }
}

Reducer

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;

import java.io.IOException;
import java.util.Arrays;

public class WordCountReducer extends Reducer<Text, LongWritable, Text, LongWritable> {

    LongWritable v = new LongWritable();

    @Override
    protected void reduce(Text key, Iterable<LongWritable> values, Context context) throws IOException,
            InterruptedException {
        long sum = 0;
        for (LongWritable value : values) {
            sum += value.get();
        }
        v.set(sum);
        context.write(key,v);
    }
}

Driver

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;

import java.io.IOException;

public class WordCountDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        job.setJarByClass(WordCountDriver.class);
        job.setMapperClass(WordCountMapper.class);
        job.setReducerClass(WordCountReducer.class);

        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(LongWritable.class);

        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(LongWritable.class);

        FileInputFormat.setInputPaths(job, new Path(""));
        FileOutputFormat.setOutputPath(job, new Path(""));
        boolean ret = job.waitForCompletion(true);
        System.exit(ret ? 0 : 1);

    }
}

job.waitForCompletion(true);
       submit();
       		connect();
            	new Cluster(getConfiguration())
               		initialize(jobTrackAddr, conf);
                		clientProtocol = provider.create(conf);(LocalJobRunner、YARNRunner)
       submitter.submitJobInternal(Job.this, cluster);
       		Path jobStagingArea = JobSubmissionFiles.getStagingDir(cluster, conf);
       		JobID jobId = submitClient.getNewJobID();
       		copyAndConfigureFiles(job, submitJobDir);
       		int maps = writeSplits(job, submitJobDir);
       		writeConf(conf, submitJobFile);

主要步骤代码跟踪：
1、
在这里插入图片描述
2、连接集群
2.1：new 了一个Cluster对象

2.2：初始化

2.3创建了一个clientProtocol对象

2.4：ClientProtocolProvider有；两种模式client和yarn

3.提交job

3.1：获取一个stage目录，这个目录yarn模式下实在hdfs上创建的
在这里插入图片描述
3.1.1

3.1.2

3.1.3：创建的stage目录如下（此次local模式演示，所以stage是在本地，yarn模式下实在hdfs上创建，目录）

3.2：获取jobId

3.2.1：jobId

3.3：copy一些文件和jar包到stage目录下

3.4：计算切片，生成切片规划文件
在这里插入图片描述
3.4.1：

3.4.2

3.4.3：从这里可以看出可以自定义inputformat带自定义生成切片的规则（默认FileintputFormat）

3.5：写文件到stage目录下

writeConf方法执行完成之后的stage目录

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

maoreduce job提交流程

MapReduce

MapReduce的Job提交流程的相关文章

JobControl 和 JofConf.setMapperClass() 错误

我正在尝试使用JobControl将多个Mappers和Reducers连接在一起但调用时遇到以下错误JobConf setMapperClass setMapperClass java lang Class
Yarn 迷你集群容器日志目录不包含 syslog 文件

我已经基于 CDH 5 1 0 的 hadoop 2 3 0 设置了带有 1 个节点管理器 4 个本地目录和 4 个日志目录等的 YARN MapReduce 迷你集群它看起来或多或少起作用我未能实现的是从容器进行系统日志记录我看到容
解析数百万个小 XML 文件

我有 1000 万个小 XML 文件 300KB 500KB 我在 Mapreduce 中使用 Mahaout 的 XML 输入格式来读取数据并使用 SAX 解析器进行解析但处理速度非常慢使用输入文件的压缩 lzo 有助于提高性能吗
Hadoop中数据是如何分割的

Hadoop是否根据程序中设置的mapper数量来分割数据也就是说有一个大小为 500MB 的数据集如果 Mapper 的数量为 200 个假设 Hadoop 集群允许同时存在 200 个 Mapper 那么每个 Mapper 是否
在 Google App Engine 中使用 mapreduce 的简单反例

我对 GAE 中 MapReduce 支持的当前状态有些困惑根据文档http code google com p appengine mapreduce http code google com p appengine mapreduce
CouchDB 视图：MapReduce 中可以接受多少处理？

我一直在尝试使用 CouchDB 进行 MapReduce 一些示例显示了映射归约函数中可能存在的一些繁重逻辑在一种特殊情况下他们在映射内执行 for 循环在发出您选择的文档之前 MapReduce 是否会在每个可能的文档上运行如果
在spark中设置textinputformat.record.delimiter

在 Spark 中可以设置一些 hadoop 配置设置例如 System setProperty spark hadoop dfs replication 1 这有效复制因子设置为 1 假设是这种情况我认为这种模式在常规 hado
MapReduce：ChainMapper 和 ChainReducer

我需要将 MapReduce jar 文件拆分为两个作业以获得两个不同的输出文件每个文件来自两个作业的每个减速器我的意思是第一个作业必须生成一个输出文件该文件将作为链中第二个作业的输入我在 hadoop 版本 0 20 中读到了一
security.UserGroupInformation：MR 的 PrivilegedgedActionException 错误

每当我尝试执行映射缩减作业以写入 Hbase 表时我都会在控制台中收到以下错误我正在从用户帐户运行 MR 作业错误 security UserGroupInformation PriviledgedActionException 为
流数据和 Hadoop？（不是 Hadoop 流）

我想使用 MapReduce 方法分析连续的数据流通过 HTTP 访问因此我一直在研究 Apache Hadoop 不幸的是 Hadoop 似乎希望以固定大小的输入文件开始作业而不是在新数据到达时将其传递给消费者事实确实如此还是我
MongoDB 从两个数组计算值、排序和限制

我有一个存储浮点数组的 MongoDB 数据库假设以下格式的文档集合 id 0 vals 0 8 0 2 0 5 有一个查询数组例如带有值 0 1 0 3 0 4 我想计算集合中所有元素的距离例如差异之和对于给定的文档和查询它
Hive 左外连接长期运行

Hortonworks HDP 2 3 0 Hive 0 14 Table T1 partition on col1 no bucket ORC 应用程序 1 2 亿行和 6GB 数据大小Table T2 partition on col2
PHP MongoDB映射减少数据库断言失败

我第一次使用 PHP MongoDB 进行 Map Reduce 运行 MapReduce 命令时遇到错误 My code map function emit this topic id re date this date posted r
为什么 Hadoop 中正确的缩减数量是 0.95 或 1.75？

hadoop 文档指出正确的归约次数似乎是 0 95 或 1 75 乘以 mapred tasktracker reduce tasks maximum 0 95 所有的减少都可以立即启动并开始地图完成时传输地图输出用1 75更快节
使用 CouchDB 视图替换 SQL 中的多个联接

我正在为我的应用程序实现过滤功能但在 CouchDB 上编写视图时遇到问题在 SQL 中这将是一个具有多个连接的语句如何替换 CouchDB 中的多重连接本文涵盖单连接 http www cmlenz net archives 2
FAILED 错误：java.io.IOException：所有收集器的初始化失败

我在运行 MapReduce WordCount 作业时遇到一些错误错误 java io IOException 所有收集器的初始化失败的最后一个收集器中的错误是 class wordcount wordmapper at org a
两个相等的组合键不会到达同一个减速器

我正在使用 MapReduce 框架用 Java 制作 Hadoop 应用程序我仅使用文本键和值进行输入和输出在减少最终输出之前我使用组合器进行额外的计算步骤但我有一个问题钥匙没有进入同一个减速器我在组合器中创建并添加键值对
Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
MongoDB：在没有并行性的情况下使用 MapReduce 有什么意义？

Quoting http www mongodb org display DOCS MapReduce MapReduce Parallelism http www mongodb org display DOCS MapReduce Ma
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti

随机推荐

LeetCode高频算法刷题记录10

文章目录 1 旋转图像中等 1 1 题目描述 1 2 解题思路 1 3 代码实现 2 组合总和中等 2 1 题目描述 2 2 解题思路 2 3 代码实现 3 回文链表简单 3 1 题目描述 3 2 解题思路 3 3 代码实现 4 字符
基于YOLOv5的血细胞识别和计数

VOC格式标注转为yolov5格式原数据格式是xml文件对目标细胞注释现在需要将这种注释转换为yolov5所需的格式即每个图像对应一个txt文件文件中存储该图像中全部细胞的类别和坐标一行存储一个细胞的信息如下图编写脚本进行注释
[Unity]各种Debug方法笔记

无论是萌新还是Dalao 遇到Bug总是难免的拒绝反驳所以一些好的Debug方法就显得尤为重要这篇文章既写给自己也给看到文章的大家一个参考内容主 quan 要 bu 是脚本的Debug方法 ps 如有出错漏记得以我能看到的方式指出
COCO数据处理(二)根据自己提取的类的json文件生成对应的mask二值图并画在原图上

文章目录 COCO数据集根据json文件生成mask二值图文件目录目录说明代码一生成mask图代码二将mask图画在原图上效果图 COCO数据集根据json文件生成mask二值图文件目录目录说明 data coco a
java中JDBC当中请给出一个DataSource的HelloWorld例子

马克 to win 在前面的jdbc的Helloworld程序当中我们用DriverManager来获取数据库连接事实上通过这种方法获取数据库连接是比较耗费计算机资源的当然了这也是没有办法的事儿就像我们买贵书必须花大价钱一样
【Android】App开发-布局篇

UI的开发离不开各个组件的精准布局在我们学习了控件之后控件篇我们就需要对这些控件进一一排布让它们在各个指定的位置目录 LinearLayout线性布局 RelativeLayout布局 FrameLayout布局 TableLay
【Python爬虫】将爬下来的数据保存到redis数据库里面

redis库中的Redis类对Hash数据类型操作的常用方法方法名具体说明 hset name key value 哈希中添加一个键值对 hmset name mapping 设置哈希中的多个键值对 hmget name keys ar
逻辑架构和物理架构

逻辑架构和物理架构理论上划分了5种架构视图分别是逻辑架构开发架构运行架构物理架构数据架构逻辑架构逻辑架构关注的是功能包含用户直接可见的功能还有系统中隐含的功能或者更加通俗来描述逻辑架构更偏向我们日常所理解的分层
HTML学习（二）HTML基础

以这个为例 h1 我的第一个标题 h1 p 我的第一个段落 p DOCTYPE 前用来申明这是一个html 这里的html不区分大小写 HTML标题 HTML 标题 Heading 是通过 h1 h6 标签来定义的 h1 1级标题 h1 H
R语言优雅地修改列名称

R语言优雅地修改列名称在R语言中修改数据框 DataFrame 或矩阵 Matrix 的列名称是一项常见的任务通过优雅地修改列名称可以提高代码的可读性和可维护性在本文中我将介绍几种优雅的方法来修改列名称并提供相应的源代码示例
GPU计算

文章目录 GPU计算 1 GPU和CPU的区别 2 GPU的主要参数解读 3 如何在pytorch中使用GPU 4 市面上主流GPU的选择 GPU计算 1 GPU和CPU的区别设计目标不同 CPU基于低延时 GPU基于高吞吐 CPU 处理
95-34-025-Context-AbstractChannelHandlerContext

文章目录 1 概述 2 继承体系 3 类签名 4 关键字段 5 构造方法 6 ChannelRead事件 6 1 findContextInbound 7 invokeHandler 1 概述 2 继承体系
tensorrt转换模型进行了哪些操作

对于网络layer graph进行的操作消除输出未使用的层消除相当于无操作的操作卷积偏置和ReLU运算的融合具有足够相似参数和相同源张量的运算聚合例如 GoogleNet v5的初始模块中的1x1卷积 inception结构中同
DW9718AF.c

Copyright C 2015 MediaTek Inc This program is free software you can redistribute it and or modify it under the terms of
ERP系统总体解决方案附下载地址

企业资源计划即 ERP Enterprise Resource Planning 由美国 Gartner Group 公司于1990年提出企业资源计划是 MRP II 企业制造资源计划下一代的制造业系统和资源计划软件除了MRP II
大数据学习框架及指南

Hadoop生态圈一采集数据从哪里来主要包括flume等一存储海量的数据怎样有效的存储主要包括hdfs Kafka 二计算海量的数据怎样快速计算主要包括MapReduce Spark storm等三查询海量数据怎
数据结构与算法笔记2（线性表）

1 线性表 1 1线性表是一种逻辑关系见绪论 1 2定义是具有相同类型的n个元素的有限序列其中n为表长 n 0时为空表关键词相同类型一般处理的数据元素都是相同类型比如一个人那么都是人而不会把人与车放在一起关键词有限序列
Java泛型知识点整理

Java泛型知识点整理 Java泛型泛型提供了编译时类型安全检测机制该机制允许程序员在编译时检测到非法的类型泛型的本质是参数化类型也就是说所操作的数据类型被指定为一个参数比如我们要写一个排序方法能够对整型数组字符串数组甚至其他
ConcurrentHashMap为什么是线程安全的？

1 ConcurrentHashMap的原理和结构我们都知道Hash表的结构是数组加链表就是一个数组中每一个元素都是一个链表有时候也把会形象的把数组中的每个元素称为一个桶在插入元素的时候首先通过对传入的键 key 进行一个哈希
MapReduce的Job提交流程

编写一个简单的WordCount程序 Mapper import org apache hadoop io LongWritable import org apache hadoop io Text import org apache ha

MapReduce的Job提交流程

MapReduce的Job提交流程 的相关文章

随机推荐

热门标签

MapReduce的Job提交流程的相关文章