Hadoop 单表关联

2023-05-16

  前面的实例都是在数据上进行一些简单的处理,为进一步的操作打基础。单表关联这个实例要求从给出的数据中寻找到所关心的数据,它是对原始数据所包含信息的挖掘。下面进入这个实例。

1.实例描述

  实例中给出child-parent表,要求输出grandchild-grandparent表。

  样例输入:

  file:

  child parent
  Tom Lucy
  Tom Jack
  Jone Lucy
  Jone Jack
  Lucy Mary
  Lucy Ben
  Jack Alice
  Jack Jesse
  Terry Alice
  Terry Jesse
  Philip Terry
  Philip Alma
  Mark Terry
  Mark Alma

  样例输出:

  

 

2.设计思路

  分析这个实例,显然需要进行单表连接,连接的是左表的parent列和右表的child列,且左表和右表是同一个表。连接结果中除去连接的两列就是所需要的结果----grandchild,grandparent表。要用MapReduce实现这个实例,首先要考虑如何实现表的自连接,其次就是连接列的设置,最后是结果的整理。考虑到MapReduce的shuffle过程会将相同的key值放在一起,所以可以将Map结果的key值设置成待连接的列,然后列中相同的值自然就会连接在一起了。再与最开始的分析联系起来:要连接的是左表的parent列和右表的child列,且左表和右表是同一个表,所以在Map阶段将读入数据分割成child和parent之后,会将parent设置成key,child设置成value进行输出,作为左表;再将同一对child和parent中的child设置成key,parent设置成value进行输出,作为右表。为了区分输出中的左右表,需要在输出的value中再加上左右表信息,比如在value的String最开始处加上字符1表示左表,字符2表示右表。这样在Map的结果中就形成了左表和右表,然后在shuffle过程中完成连接。在Reduce接收到的连接结果中,每个key的value-list就包含了grandchild和grandparent关系。取出每个key的value-list进行解析,将左表中的child放入一个数组,右表中的parent放入一个数组,然后对两个数组求笛卡尔积就是最后的结果了。

3.程序代码:


import java.io.IOException;
import java.util.Iterator;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.util.GenericOptionsParser;


public class STjoin {

    public static int time = 0;
    // Map 将输入分割成child和parent,然后正序输出一次作为右表,反序输出一次作为左表,需要
    // 注意的是在输出的value中必须加上左右表区别标志
    public static class Map extends Mapper<Object, Text, Text, Text>{
        @Override
        protected void map(Object key, Text value,Mapper<Object, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {
            // super.map(key, value, context);
            String childname = new String();
            String parentname = new String();
            String relationtype = new String();
            String line = value.toString();
            int i=0;
            while(line.charAt(i)!=' '){
                i++;
            }
            String [] values = {line.substring(0,i),line.substring(i+1)};
            if(values[0].compareTo("child") !=0 ){
                childname = values[0];
                parentname = values[1];
                relationtype = "1";          //  左右表区分标志
                context.write(new Text(values[1]), new Text(relationtype+"+"+childname+"+"+parentname));   // 左表
                relationtype = "2";
                context.write(new Text(values[0]), new Text(relationtype+"+"+childname+"+"+parentname));   // 右表
            }
        }
    }
    
    public static class Reduce extends Reducer<Text, Text, Text, Text>{
        @Override
        protected void reduce(Text key, Iterable<Text> values,Reducer<Text, Text, Text, Text>.Context context)
                throws IOException, InterruptedException {
            //  super.reduce(arg0, arg1, arg2);
            if(time==0){    // 输出表头
                context.write(new Text("grandchild"), new Text("grandparent"));
                time++;
            }
            int grandchildnum = 0;
            String grandchild[] = new String[10];
            int grandparentnum = 0;
            String grandparent[] = new String[10];
            Iterator ite = values.iterator();
            while(ite.hasNext()){
                String record = ite.next().toString();
                int len = record.length();
                int i = 2;
                if(len == 0) continue;
                char relationtype = record.charAt(0);
                String childname = new String();
                String parentname = new String();
                //  获取value-list中value的child
                while(record.charAt(i)!='+'){
                    childname = childname + record.charAt(i);
                    i++;
                }
                i = i+1;
                //  获取value-list中value的parent
                while(i<len){
                    parentname = parentname+record.charAt(i);
                    i++;
                }
                // 左表,取出child放入grandchild
                if(relationtype == '1'){
                    grandchild[grandchildnum] = childname;
                    grandchildnum++;
                }else {  // 右表,取出parent放入grandparent
                    grandparent[grandparentnum] = parentname;
                    grandparentnum++;
                }
            }
            //  grandchild 和 grandparent 数组求笛卡尔积
            if(grandparentnum !=0 && grandchildnum !=0){
                for(int m=0;m<grandchildnum;m++){
                    for(int n=0; n<grandparentnum;n++){
                        context.write(new Text(grandchild[m]), new Text(grandparent[n]));  // 输出结果
                    }
                }
            }
        }
    }
    
    public static void main(String[] args) throws IOException, ClassNotFoundException, InterruptedException {
        Configuration conf = new Configuration();
        String[] otherArgs = new GenericOptionsParser(conf,args).getRemainingArgs();
        if(otherArgs.length!=2){
            System.out.println("Usage:wordcount <in> <out>");
            System.exit(2);
        }
        Job job = new Job(conf,"sing table join");
        job.setJarByClass(STjoin.class);
        job.setMapperClass(Map.class);
        job.setReducerClass(Reduce.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(Text.class);
        FileInputFormat.addInputPath(job,new Path(otherArgs[0]));
        FileOutputFormat.setOutputPath(job, new Path(otherArgs[1]));
        System.exit(job.waitForCompletion(true)?0:1);
    }

}  

 

  

转载于:https://www.cnblogs.com/xiaoyh/p/9329894.html

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop 单表关联 的相关文章

  • pip install xxxx报错(一大堆红色exception)【解决】

    安装个distribute或nose或lpthw web或virtualenv 都可能出现下面问题 root 64 kali pip install distribute Collecting distribute Exception Tr
  • 防火墙关闭后不能ping通的解决办法

    修改被ping服务器的防火墙设置 xff1a 开始 控制面板 防火墙 高级 入站规则 文件和打印机共享 回显请求 ICMPv4 In 右键 启用 一共有两个 转载于 https www cnblogs com zhjx0521 p 1041
  • cmake设置mfc编译项目

    cmake minimum required VERSION 3 0 项目名 set PROJ NAME DCMLIB project PROJ NAME 设置变量 set CMAKE ALLOW LOOSE LOOP CONSTRUCTS
  • css 调转180度:transform: rotate(180deg);

    css 调转180度 xff1a transform rotate 180deg 转载于 https www cnblogs com shark1100913 p 8961298 html
  • OpenStack虚拟机冷迁移与热迁移

    一 虚拟机迁移分析 openstacvk虚拟机迁移分为冷迁移和热迁移两种方式 1 1冷迁移 xff1a 冷迁移 cold migration xff0c 也叫静态迁移 关闭电源的虚拟机进行迁移 通过冷迁移 xff0c 可以选择将关联的磁盘从
  • ubuntu下安装谷歌浏览器

    deb 是 Debian Linux 的安装格式 xff0c 在 ubuntu 中同样可以使用 要安装 deb 安装包 xff0c 需要使用 dpkg这个终端命令 xff0c 命令格式如下 xff1a sudo dpkg i lt pack
  • 更改root与vnc密码,配置vnc

    更改root密码 登录到root用户下 passwd 更改vnc密码 vncpasswd 配置vnc vi etc sysconfig vncservers 找到vncservers 61 34 1 myusername 34 这个字符串
  • linux vnc端口修改,vncserver端口的修改

    vnc的默认端口是5901 xff0c 这个说法是不对的 vnc并不是只有一个端口 先看看这个配置 VNCSERVERS 61 34 1 oracle 2 root 34 VNCSERVERARGS 1 61 34 geometry 800
  • winform布局格式

    一 默认布局 可以加panel xff0c 也可以不加 xff1b 通过鼠标拖动控件的方式 xff0c 根据自己的想法布局 拖动控件的过程中 xff0c 会有对齐的线 xff0c 方便操作 xff1b 也可选中要布局的控件 xff0c 在工
  • 事件(信号量、邮箱、消息队列)

    对于共享数据 xff0c 单纯通过加锁来保护在代码实现上这并不是很困难的 真正困难的地方是辨认出需要共享的数据和临界区 xff01 这里有一个很好的经验 xff1a 如果有其他的执行线程可以访问这些数据 xff0c 那么就要给这些数据加锁
  • Hadoop通过API访问HDFS

    1 version 1 通过Hadoop API访问HDFS 64 throws IOException 64 Test public void readFileByAPI throws IOException 获取hadoop配置信息 C
  • 对新课程的学习与期望

    我希望这门课可以让我熟练的掌握网站开发的知识 xff0c 我希望学完这门课后我可以创建出一个我网站 xff0c 我计划每周在这门课上花费13个小时 xff0c 每个礼拜的周一到周五的晚上花两个小时学习高级网站开发 转载于 https www
  • Neutron系列 : Neutron OVS OpenFlow 流表 和 L2 Population(8)

    问题导读 xff1a 1 怎样使用arp responder xff1f 2 怎样搭建l2pop环境 xff1f 3 ARP Responder arp responder 的原理不复杂 Neutorn DB 中保存了所有的端口的 MAC
  • SDN控制器ONOS的学习过程[mininet]

    命令语法 这个符号代表现在处于 Linux 的shell 交互下 xff0c 需要使用的是 Linux 命令mininet gt 这个符号表示现在处于 Mininet 交互下 xff0c 需要使用的是 Mininet 的命令 xff03 这
  • 什么是网络操作系统?网络操作系统具有哪些基本功能?

    网络操作系统是网络上各计算机能方便而有效地共享网络资源 xff0c 为网络用户提供所需的各种服务的软件和有关规程的集合 网络操作系统与通常的操作系统有所不同 xff0c 它除了应具有通常操作系统应具有的处理机管理 存储器管理 设备管理和文件
  • [教程] 【原创】媒体扫描耗电的彻底解决办法(申精)

    http bbs gfan com android 6740350 1 1 html 原创处女贴 xff0c 呵呵 研究换4 1 2也有段时间了 xff0c 4 1 2各方面功能均让我挺满意的 xff0c 用着也蛮顺手的 偶尔上论坛 xff
  • Error Domain=PlugInKit Code=13 打开相册模拟器卡顿

    问题描述 xff1a discovery errors encountered while discovering extensions Error Domain 61 PlugInKit Code 61 13 34 query cance
  • Arch Linux中通过AUR安装Redis Desktop Manager失败

    笔者在安装Redis Desktop Manager时出现了Failed to connect to chromium googlesource com port 443 Connection timed out错误 xff0c 具体见文末
  • 远程linux桌面灰屏,解决配置Ubuntu中vnc远程显示灰屏

    解决配置Ubuntu中vnc远程显示灰屏 a 缺失图形化工具 b vnc xstartup 权限不对 1 Ubuntu 16 04 安装 VNC 及 Mate 桌面环境 https www htcp net 880 html Fluxbox
  • linux客户端连接iscsi,配置ISCSI客户端(LINUX)redhat5-iSCSI-INITIATOR

    ISCSI 4的客户端装上去后会有 etc iscsi conf 配置文件 xff0c 直接按照模板参数修改就可以了 在ISCSI6的客户端配置方式有些变化 xff0c 这让我搞了一下午 xff0c 也参考的51CTO某技术大师的博客 xf

随机推荐

  • 《OVN Logical Flows and ovn-trace》翻译

    在本篇文章中 xff0c 我将解释什么是Logical Flow以及如何使用ovn trace去更好地理解它们 同时 xff0c 我也会用一些例子来解释 xff0c 为什么使用Logical Flow这种抽象模型能让新特性的添加变得出乎意料
  • fluent中UDF环境变量问题的三种解决方法

    方法一 xff1a 这种方式最简便 xff0c 首选这种 xff0c 但是有时会因为不明原因而不好使 xff0c 我自己电脑刚开始用这种方式是行得通的 xff0c 但是后来中途装过很多乱七八糟的软件 xff0c 估计环境变量改乱了 xff0
  • svn status '~'

    svn status 出现 39 39 时 提交会显示错误 xx xx svn 39 containing working copy admin area is missing Item is versioned as one kind o
  • 浏览器缓存原理

    为什么要使用web缓存 xff1f Web缓存存在于服务器和客户端之间 Web缓存密切注视着服务器 客户端之间的通信 xff0c 监控请求 xff0c 并且把请求输出的内容 xff08 例如html页面 图片和文件 xff09 另存一份 x
  • 开发问题记录 - Failed to connect to raw.githubusercontent.com port 443 after 3 ms: Connection refused

    文章目录 前言开发环境问题描述问题分析解决方案总结最后 前言 这是个经常能遇到的问题 xff0c 不管是安装Homebrew还是安装RVM又或者是安装其他的 xff0c 都少不了它 开发环境 macOS 12 6 问题描述 执行命令后的报错
  • ROS CAN总线设备接入(二)can总线数据提取和以ros topic形式发布

    简介 基于前ROS CAN总线设备接入 xff08 一 xff09 xff0c 我们成功实现了对于libpcan库的使用 xff0c 本次将实现对于can总线的初始化以及对于can总线上有效数据提取 xff0c 并将其以topic形式发布到
  • Linux 开启VNCSERVER

    尽管我们可以使用 SSH连接远程通过字符界面来操作Linux xff0c 但是对于更多熟悉图形人来说是很不方便的 xff0c 因此开启Linux的远程桌面还是很有必要的 目前有两种比较流 行的方式 xff1a XDM X display m
  • Maven WAR overlay

    Overlays are used to share common resources across multiple web applications 1 自己项目结构 pom xml 96 src 96 main java 96 com
  • 【K8S学习笔记】Part3:同一Pod中多个容器间使用共享卷进行通信

    本文将展示如何使用共享卷 xff08 Volume xff09 来实现相同Pod中的两个容器间通信 注意 xff1a 本文针对K8S的版本号为v1 9 xff0c 其他版本可能会有少许不同 0x00 准备工作 需要有一个K8S集群 xff0
  • 摄像头PIN脚功能作用

    摄像头PIN脚功能作用 xff0c Camera硬件系统分析 9 f E 43 E2 b N j4 M2 U a q9 A T c amp O amp C x 43 l5 l q lt ignore js op gt 2015 8 19 1
  • mysql数据库基础知识总结

    这里把自己学的mysql数据库的知识总结一下 xff0c 当是给自己复习一遍 xff0c 也是方便以后查询 安装和配置mysql就不说了 xff0c 可以借鉴这位博友的安装过程 https www cnblogs com by330326
  • 软件质量特性及其子特性列表

    软件质量特性及其子特性列表 质量特性 详细 质量子特性 详细 功能性 与一组功能及其指定的性质有关的一组属性 这里的功能是指满足明确或隐含的需求的哪些功能 适合性 与规定任务能否提供一组功能及这组功能的适合程度有关的软件属性 准确性 与能否
  • android ndk开发之 extern "C" 编译出错

    感叹 xff1a 神一般的eclipse xff01 首先 我这么写 extern 34 C 34 void func 代码爆红 xff1a xff08 error expected identifier or before string
  • for(let i in data){}

    let obj 61 o 34 o 34 o1 34 o1 34 span style color 000000 span for let i in obj setTimeout function console log i 转载于 htt
  • flask框架基本使用

    目录 x1f340 前言 x1f340 安装 x1f340 导入 x1f340 Hello World1 flask项目文件目录2 python文件内容示例 x1f340 路由处理 x1f340 配置1 修改app文件名 xff0c 文件夹
  • Hive 系列(四)—— Hive 常用 DDL 操作

    一 Database 1 1 查看数据列表 code show databases code 1 2 使用数据库 code USE database name code 1 3 新建数据库 语法 xff1a code CREATE DATA
  • SQL调用webApi

    有些时候对一些接口的调用放在数据库比放在程序里更好控制 xff0c 我这边用到的场景就是 xff0c 更具状态变化去调用 xff0c 我处理的方法就是放在 触发器里面 xff0c 只要状态数据变化就触发 xff0c 这样 xff0c 我就不
  • 第二种方式读取并显示HDFS中的内容

    1 讀取HDFS内容的java客戶端代碼 xff1a 1 package Hdfs 2 3 import java io InputStream 4 import java net URI 5 6 import org apache had
  • 更新镜像

    更新镜像这一概念 xff0c 会有两个完全不一样的概念 xff0c 需要先说清楚 1 更新FPGA的配置 这种方案对应Xilinx的bit文件下载和Intel Altera 的sof文件下载 xff0c 更新的是FPGA的配置 xff0c
  • Hadoop 单表关联

    前面的实例都是在数据上进行一些简单的处理 xff0c 为进一步的操作打基础 单表关联这个实例要求从给出的数据中寻找到所关心的数据 xff0c 它是对原始数据所包含信息的挖掘 下面进入这个实例 1 实例描述 实例中给出child parent