Hadoop Mapreduce编程之Reduce端join实现

2023-11-04

1.数据准备

movies.dat 数据格式： // movieid::moviename::movietype

ratings.dat 数据格式： // userid::movieid::rating::timestamp

2.Mapper端开发

1）定义必要的变量

private String filename="";
IntWritable mk=new IntWritable();
Text mv=new Text();

2）通过重写setup方法获取切片的文件名

@Override
protected void setup(Context context) throws IOException, InterruptedException {
    FileSplit inputSplit = (FileSplit) context.getInputSplit(); // 获取文件切片
    filename = inputSplit.getPath().getName();   //获取文件名
}

3) map方法—根据每个文件的文件名不同来标识不同表

@Override
protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
    String[] lines = value.toString().split("::");
    if(filename.equals("movies.dat")){ // movieid::moviename::movietype
        mk.set(Integer.parseInt(lines[0].trim()));
        mv.set("M"+lines[1]+"\t"+lines[2]);
    }else{// 文件名为ratings.dat
        mk.set(Integer.parseInt(lines[1].trim()));// userid::movieid::rating::timestamp
        mv.set("R"+lines[0]+"\t"+lines[2]+"\t"+lines[3]);
    }
    context.write(mk,mv);
}

3.Reducer端开发

public class RatingReduce extends Reducer<IntWritable, Text,IntWritable,Text> {
    Text mv=new Text();
    @Override
    protected void reduce(IntWritable key, Iterable<Text> values, Context context) throws IOException, InterruptedException {
        List<String> mlist=new ArrayList<>();
        List<String> rlist=new ArrayList<>();
        for (Text value : values) {
            String info =value.toString();
            if(info.startsWith("M")){
                mlist.add(info.substring(1));
            }else {
                rlist.add(info.substring(1));
            }
        }
        // 开始拼接
        for (String movie : mlist) {
            for (String rating : rlist) {
                String res=movie+"\t"+rating;
                mv.set(res);
                context.write(key,mv);
            }
        }
    }
}

4.Driver端开发

public class RatingDriver {
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        System.setProperty("HADOOP_USER_NAME","hadoop");
        Configuration conf=new Configuration();
        conf.set("fs.defaultFS","hdfs:/mkmg/");
        Job job = Job.getInstance(conf);

        job.setJarByClass(RatingDriver.class);

        job.setMapperClass(RatingMapper.class);
        job.setReducerClass(RatingReduce.class);

        job.setMapOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(Text.class);

        job.setOutputKeyClass(IntWritable.class);
        job.setMapOutputValueClass(Text.class);

        FileInputFormat.setInputPaths(job,new Path("D://movie/ratings.dat"),new Path("D://movie/movies.dat"));
        FileSystem fs=FileSystem.get(conf);
        Path out=new Path("D://movie_out");
        if(fs.exists(out)){
            fs.delete(out,true);
        }
        FileOutputFormat.setOutputPath(job,out);

        job.waitForCompletion(true);
    }
}

5.结论总结

/**
 * reduce端join的缺陷：-----适合大表和大表关联
 *      1）数据倾斜---分区分布不均匀
 *      2）因为reduce端采用的集合，数据量大的时候，可能会产生OOM
 *      3）reducetask本身并行度不高,导致性能比较低----经验值是：DataNode数量*0.95
 */

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Apache Hadoop

MapReduce

reduce join实现

Hadoop Mapreduce编程之Reduce端join实现的相关文章

MapReduce 上的Reduce 函数显示不正确的结果——为什么？

我有一个数据结构来跟踪不同城市的人们 in db persons name John city Seattle name Bill city Portland 我想运行一个地图缩减来获取每个城市有多少人的列表所以结果将如下所示 id Se
Mapfile 作为 MapReduce 作业的输入

我最近开始使用 Hadoop 在使用 Mapfile 作为 MapReduce 作业的输入时遇到问题以下工作代码在 hdfs 中编写一个名为 TestMap 的简单 MapFile 其中包含三个 Text 类型的键和三个 BytesWri
将 Mongo 中的某些字段从字符串转换为数组

我有一个文档集合其中标签字段从空格分隔的标签列表切换为单个标签数组我想将以前的空格分隔字段更新为像新传入数据一样的数组我也遇到了 type 选择器的问题因为它将类型操作应用于单个数组元素即字符串因此按类型过滤只会返回所有内容
在spark中设置textinputformat.record.delimiter

在 Spark 中可以设置一些 hadoop 配置设置例如 System setProperty spark hadoop dfs replication 1 这有效复制因子设置为 1 假设是这种情况我认为这种模式在常规 hado
MongoDB 根据 _id 统计每分钟新文档数

我想创建每分钟存储多少新文档的统计数据由于具有标准 ObjectID 的 id 字段已经包含文档创建的时间戳我认为应该可以以某种方式使用它在 Stackoverflow 上我发现了以下映射归约代码可以在有用于创建数据的专用字段时完
Apache Pig：无法运行我自己的pig.jar 和pig-withouthadoop.jar

我有一个运行 Hadoop 0 20 2 和 Pig 0 10 的集群我有兴趣向 Pig 的源代码添加一些日志并在集群上运行我自己的 Pig 版本我做了什么使用 ant 命令构建项目有pig jar和pig without had
Spark 在 Hbase 的 InputSplit 期间给出空指针异常

我正在使用 Spark 1 2 1 Hbase 0 98 10 和 Hadoop 2 6 0 从 hbase 检索数据时出现空点异常找到下面的堆栈跟踪 sparkDriver akka actor default dispatcher 2
security.UserGroupInformation：MR 的 PrivilegedgedActionException 错误

每当我尝试执行映射缩减作业以写入 Hbase 表时我都会在控制台中收到以下错误我正在从用户帐户运行 MR 作业错误 security UserGroupInformation PriviledgedActionException 为
PHP MongoDB映射减少数据库断言失败

我第一次使用 PHP MongoDB 进行 Map Reduce 运行 MapReduce 命令时遇到错误 My code map function emit this topic id re date this date posted r
使用 MongoDB 的 MapReduce 选择不同的多个字段

我想在 MongoDB 上执行这个 SQL 语句 SELECT DISTINCT book author from library 到目前为止 MongoDB 的 DISTINCT 一次仅支持一个字段对于多个字段我们必须使用 GROUP
使用 CouchDB 视图替换 SQL 中的多个联接

我正在为我的应用程序实现过滤功能但在 CouchDB 上编写视图时遇到问题在 SQL 中这将是一个具有多个连接的语句如何替换 CouchDB 中的多重连接本文涵盖单连接 http www cmlenz net archives 2
Hadoop YARN 作业陷入映射 0% 并减少 0%

我正在尝试运行一个非常简单的作业来测试我的 hadoop 设置所以我尝试使用 Word Count Example 它陷入了 0 所以我尝试了一些其他简单的作业并且每个作业都陷入了困境 52191 0003 14 07 14 23 55
远程执行hadoop作业时出现异常

我正在尝试在远程 hadoop 集群上执行 Hadoop 作业下面是我的代码 Configuration conf new Configuration conf set fs default name hdfs server 9000 c
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
MongoDB：在没有并行性的情况下使用 MapReduce 有什么意义？

Quoting http www mongodb org display DOCS MapReduce MapReduce Parallelism http www mongodb org display DOCS MapReduce Ma
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
遍历 ArrayWritable - NoSuchMethodException

我刚刚开始使用 MapReduce 并且遇到了一个奇怪的错误我无法通过 Google 回答该错误我正在使用 ArrayWritable 制作一个基本程序但是当我运行它时在Reduce过程中出现以下错误 java lang Runti
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
适用于 Hadoop 的 DynamoDB 输入格式

我必须使用 Hadoop mapreduce 处理保留在 Amazon Dynamodb 中的一些数据我在互联网上搜索 Dynamo DB 的 Hadoop InputFormat 但找不到它我对 Dynamo DB 不熟悉所以我猜测
MongoDB - 使用聚合框架或 MapReduce 来匹配文档中的字符串数组（配置文件匹配）

我正在构建一个可以比作约会应用程序的应用程序我有一些结构如下的文档 db profiles find pretty id 1 firstName John lastName Smith fieldValues favouriteColou

随机推荐

计算机msvcp120.dll丢失的解决方法

计算机msvcp120 dll丢失的解决方法相信困扰着不少小伙伴 msvcp120 dll系统文件是电脑重要的文件丢失或者被损坏的话很多软件跟游戏都会无法运行需要怎么修复呢小编今天就把教程分享给大家修复教程如下首先是打开电脑浏
el-dialog 对话框显示怎么往上调一调或者往下调调显示
Python股票历史数据预处理（一）

Python股票历史数据预处理一在进行量化投资交易编程时我们需要股票历史数据作为分析依据下面介绍如何通过Python获取股票历史数据并且将结果存为DataFrame格式处理后的股票历史数据下载链接为 http download c
layui中form.val()使用，不起作用的原因

在使用layui中 form表单数据的获取和渲染时绕不开的话题在layui中form数据的渲染有个方法 form val 但是在使用的过程中很容易陷入误区下面我就来为大家介绍如何解决form val 不显示的问题 let obj tit
error An unexpected error occurred: “https://registry.yarnpkg.com/axios: con 解决方案

error An unexpected error occurred https registry yarnpkg com axios con 今天用在跑一个项目的时候发现了这个错误看着像是网络连接不上发现这里是用的Dokcerfile
向ACCESS中的"时间/日期"字段中插入DateTime.Now时出现“标准表达式中数据类型不匹配。”错误的解决办法

在使用下面的代码向Access数据库中添加数据的时候如果是日期字段则会出现标准表达式中数据类型不匹配的错误这可能是C 中的日期类型无法直接转换成Access中的日期类型OleDbType DBDate所致 string Conne
Maximum Sum Subarray of Size K--滑动窗口题型

滑动窗口题型滑动窗口类型的题目经常是用来执行数组或是链表上某个区间窗口上的操作比如找最长的全为1的子数组长度滑动窗口一般从第一个元素开始一直往右边一个一个元素挪动当然了根据题目要求我们可能有固定窗口大小的情况也有窗口的大
电脑副业能做什么？一台电脑能做的副业

现在很多人都想在工作之余开展一些副业特别是今年经济形势不好更让很多人明白了有一份副业的重要性这样可以在自己没有工作的时候还能有一份收入那么有哪些副业可以在网络上做呢如果你只有一台电脑的话可以做哪些副业呢 1 自媒体悟空问答或
Docker常用命令超细介绍，Java校招面试指南

2 3 docker pull 前面我们介绍了 search命令可以从docker hub上搜索到相关的镜像接下来看看我们通过docker pull 来下载镜像 docker pull 镜像名称 TAG 通过镜像加速下载还是比较快的 2
解决下载github-production-release-asset-2e65be.s3.amazonaws.com上release文件慢的问题

1 问题去github下载BloomRPC工具进行测试grpc 果然一如既往的慢想到把github转到码云进行下载奈何我要下载的是release的文件有两个代下地址 GitHub代下载服务永久免费这个最近貌似挂了试试下面那个
java 之反射（结合Class理解）

反射机制使静态语言java变为准动态语言 Reflection 反射机制允许程序在执行期借助于Reflection API取得任何类的内部信息并能直接操作任意对象的内部属性及方法反射方式实例化对象 getClass 方法得到完整的
Keil MDK环境下FreeModebus移植踩坑记录

Keil MDK环境下FreeModebus移植踩坑记录文章目录 Keil MDK环境下FreeModebus移植踩坑记录 armcc arm compiler v5 环境实验一实验二 armclang arm compiler v6
NFTScan 与 Atem Network 在 NFT 数据领域达成战略合作

近日 Web3 基础设施 NFTScan 浏览器与 Atem Network 协议达成战略合作伙伴关系双方已在 NFT 数据领域展开深度了合作 Atem Network 是一个 Web3 社交平台用户可以通过 NFT 创建连接和拥有自
蓝桥杯-刷题统计

问题描述小明决定从下周一开始努力刷题准备蓝桥杯竞赛他计划周一至周五每天做 aa 道题目周六和周日每天做 bb 道题目请你帮小明计算按照计划他将在第几天实现做题数大于等于 nn 题输入格式输入一行包含三个整数 a ba b
联想笔记本BIOS设置中文详解

对于很多新装系统的小伙伴们可能很多都不是太懂BIOS中都是干什么用的小编这里给大家详细介绍一下联想笔记本的主板BIOS设置跟别的笔记本或许有些不同但大体相差不多和大家分享一下 BIOS介绍中文解释就是基本输入输出系统其实它是固
python关于初始化和实例化之----log日志打印两次的问题综述

我在写appium desktop自动化框架的时候我发现在我运行demo的时候日志会运行两次我查了一堆资料也没有发现我错在哪里一开始我以为是 init 的问题我检查了 init 方法发现他们属于同一对象没有多余的对象二然
5g信号频率是多少赫兹_我家WiFi也有“5G”，这是5G信号吗？

大家都知道5G吧 5G是最近很火热的名词大家都知道它和手机有关系有些小伙伴在用手机和电脑连WiFi的时候也能看到一些WiFi名字后面跟着一个 5G 这个 5G 是平时说的那个5G吗答案是否 5G是 5th generation m
服务器拷贝文件工具,windows命令行下也有好工具（四）－拷贝文件到多台服务器...

做系统管理员经常需要从本机向多台服务器拷贝文件或者从多台服务器向本机拷贝文件如果使用windows界面要一次次的点击鼠标进行操作太麻烦了在linux下可以使用scp命令用一个脚本就可以解决当然每次都要输入口令也可以命令行带
[Python]网络爬虫 urllib爬虫案例

urllib爬虫案例爬取公众号文章中的图片第1步确定公众号文章的地址以微信公众号 Python小屋里的一篇文章为例文章标题为报告PPT 163页基于Python语言的课程群建设探讨与实践地址为 https mp weixi
Hadoop Mapreduce编程之Reduce端join实现

1 数据准备 movies dat 数据格式 movieid moviename movietype ratings dat 数据格式 userid movieid rating timestamp 2 Mapper端开发 1 定义必要的变

Hadoop Mapreduce编程之Reduce端join实现

1.数据准备

2.Mapper端开发

1）定义必要的变量

2）通过重写setup方法获取切片的文件名

3) map方法—根据每个文件的文件名不同来标识不同表

3.Reducer端开发

4.Driver端开发

5.结论总结

Hadoop Mapreduce编程之Reduce端join实现 的相关文章

随机推荐

热门标签

Hadoop Mapreduce编程之Reduce端join实现的相关文章