Hadoop序列化案例

2023-11-13

Hadoop序列化案例

统计每一个手机号耗费的总上行流量、总下行流量、总流量

数据：

1	13736230513	192.196.100.1	www.baidu.com	2481	24681	200
2	13846544121	192.196.100.2			264	0	200
3 	13956435636	192.196.100.3			132	1512	200
4 	13966251146	192.168.100.1			240	0	404
5 	18271575951	192.168.100.2	www.ali.com	1527	2106	200
6 	84188413	192.168.100.3	www.465456.com	4116	1432	200
7 	13590439668	192.168.100.4			1116	954	200
8 	15910133277	192.168.100.5	www.hao123.com	3156	2936	200
9 	13729199489	192.168.100.6			240	0	200
10 	13630577991	192.168.100.7	www.shouhu.com	6960	690	200
11 	15043685818	192.168.100.8	www.baidu.com	3659	3538	200
12 	15959002129	192.168.100.9	www.kgc.com	1938	180	500
13 	13560439638	192.168.100.10			918	4938	200
14 	13470253144	192.168.100.11			180	180	200
15 	13682846555	192.168.100.12	www.qq.com	1938	2910	200
16 	13992314666	192.168.100.13	www.gaga.com	3008	3720	200
17 	13509468723	192.168.100.14	www.qinghua.com	7335	110349	404
18 	18390173782	192.168.100.15	www.sogou.com	9531	2412	200
19 	13975057813	192.168.100.16	www.baidu.com	11058	48243	200
20 	13768778790	192.168.100.17			120	120	200
21 	13568436656	192.168.100.18	www.alibaba.com	2481	24681	200
22 	13568436656	192.168.100.19			1116	954	200

Bean对象：

import org.apache.hadoop.io.Writable;
import java.io.DataInput;
import java.io.DataOutput;
import java.io.IOException;

/*
1.定义类实现writable接口
2.重写序列化与反序列化方法
3.空参构造
4.重写toString（）；
 */
public class FlowBean implements Writable {
    private long upFlow;
    private long downFlow;
    private long sumFlow;

    @Override
    public void write(DataOutput out) throws IOException {
        out.writeLong(upFlow);
        out.writeLong(downFlow);
        out.writeLong(sumFlow);
    }

    @Override
    public void readFields(DataInput in) throws IOException {
        this.upFlow = in.readLong();
        this.downFlow = in.readLong();
        this.sumFlow = in.readLong();
    }

    //重写sumFlow的set方法
    public void setSumFlow() {
        this.sumFlow = this.upFlow + this.downFlow;
    }
}

Mapper:

import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Mapper;
import java.io.IOException;

public class FlowMapper extends Mapper<LongWritable, Text, Text, FlowBean> {
    private Text outK = new Text();
    private FlowBean outV = new FlowBean();

    @Override
    protected void map(LongWritable key, Text value, Mapper<LongWritable, Text, Text, FlowBean>.Context context) throws IOException, InterruptedException {
        //获取一行
        String line = value.toString();
        //切割
        String[] split = line.split("\t");
        //提前想要的数据，手机号，流量,由于文档中有数据是空，不能使用数值下标的方式提取数据
        //使用split.length-x的方法提取，x具体情况具体分析
        String phone = split[1];
        String up = split[split.length - 3];
        String down = split[split.length - 2];
        //封装
        outK.set(phone);
        outV.setUpFlow(Long.parseLong(up));
        outV.setDownFlow(Long.parseLong(down));
        outV.setSumFlow();
        //写出
        context.write(outK,outV);
    }
}

Reducer:

import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Reducer;
import java.io.IOException;

public class FlowReducer extends Reducer<Text, FlowBean, Text, FlowBean> {
    private FlowBean outV = new FlowBean();

    @Override
    protected void reduce(Text key, Iterable<FlowBean> values, Reducer<Text, FlowBean, Text, FlowBean>.Context context) throws IOException, InterruptedException {
        //遍历集合累加
        long totalUp = 0;
        long totalDown = 0;
        for (FlowBean value : values) {
            totalUp += value.getUpFlow();
            totalDown += value.getDownFlow();
        }
        //封装
        outV.setUpFlow(totalUp);
        outV.setDownFlow(totalDown);
        outV.setSumFlow();
        ///写出
        context.write(key, outV);
    }
}

JobDriver:

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import java.io.IOException;

public class FlowDriver {
    public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException {
        //获取Job
        Configuration conf = new Configuration();
        Job job = Job.getInstance(conf);
        //设置jar包路径
        job.setJarByClass(FlowDriver.class);
        //关联mapper
        job.setMapperClass(FlowMapper.class);
        job.setMapOutputKeyClass(Text.class);
        job.setMapOutputValueClass(FlowBean.class);
        //关联reducer
        job.setReducerClass(FlowReducer.class);
        job.setOutputKeyClass(Text.class);
        job.setOutputValueClass(FlowBean.class);
        //设置输入输出路径
        FileInputFormat.setInputPaths(job,new Path("file:///e:/temp1/read2"));
        Path path = new Path("file:///e:/temp1/output");
        if (path.getFileSystem(conf).exists(path)){
            path.getFileSystem(conf).delete(path,true);
        }
        FileOutputFormat.setOutputPath(job,path);
        job.waitForCompletion(true);
    }
}

输出结果：

13470253144	180	180	360
13509468723	7335	110349	117684
13560439638	918	4938	5856
13568436656	3597	25635	29232
13590439668	1116	954	2070
13630577991	6960	690	7650
13682846555	1938	2910	4848
13729199489	240	0	240
13736230513	2481	24681	27162
13768778790	120	120	240
13846544121	264	0	264
13956435636	132	1512	1644
13966251146	240	0	240
13975057813	11058	48243	59301
13992314666	3008	3720	6728
15043685818	3659	3538	7197
15910133277	3156	2936	6092
15959002129	1938	180	2118
18271575951	1527	2106	3633
18390173782	9531	2412	11943
84188413	4116	1432	5548

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Hadoop

大数据

MapReduce

Hadoop序列化案例的相关文章

HBase：创建多个表或包含多个列的单个表？

什么时候创建多个表而不是创建具有大量列的单个表才有意义据我了解表通常只有几个列族 1 2 每个列族可以支持 1000 多个列当 HBase 似乎在单个表中可能存在大量列时表现良好时什么时候创建单独的表才有意义在回答问题本身之前让
删除 Pig 输出中的括号和逗号

目前我的输出如下 130 1 131 1 132 1 133 1 137 1 138 2 139 1 140 1 142 2 143 1 我想要这样 130 1 131 1 132 1 我的代码如下 A LOAD user links sm
使用 Hive 自定义输入格式

Update 好吧事实证明以下不起作用的原因是因为我使用的是较新版本的InputFormat API import org apache hadoop mapred这是旧的与import org apache hadoop mapredu
Hive：转换“yyyy-MM-dd'T'HH:mm:ss.SSS'Z'”中缺少秒数的字符串日期时间

我使用以下代码将字符串日期时间变量转换为日期时间但转换后的字符串缺少 SSS 部分使用的代码 cast FROM UNIXTIME UNIX TIMESTAMP oldtime yyyy MM dd T HH mm ss SSS Z y
org.apache.hadoop.security.AccessControlException：尝试在 EC2 上使用 Hadoop Java API 通过 s3n URI 访问 S3 存储桶时权限被拒绝

Scenario 我创建一个名为 my role 的 AWS IAM 角色将 EC2 指定为可信实体即使用信任关系策略文档 Version 2012 10 17 Statement Sid Effect Allow Principal
如何为 HDFS 递归列出子目录？

我在 HDFS 中递归创建了一组目录如何列出所有目录对于普通的 UNIX 文件系统我可以使用以下命令来做到这一点 find path type d print 但我想为 HDFS 得到类似的东西递归列出目录内容hadoop dfs
在 Hive 中获取空值使用 REGEX 创建和加载查询

我有一个日志文件我需要在其中使用 REGEX 存储数据我尝试了下面的查询但加载了所有 NULL 值我已经检查了 REGEXhttp www regexr com http www regexr com 它对我的数据工作正常 CRE
Hive如何存储数据，什么是SerDe？

当查询表时 SerDe 将将文件中的字节中的一行数据反序列化为 Hive 内部使用的对象来操作该行数据执行 INSERT 或 CTAS 时请参阅第 441 页上的导入数据表的 SerDe 将将 Hive 的一行数据的内部表示序列化为
Hadoop setInputPathFilter错误

我正在使用 Hadoop 0 20 2 无法更改并且我想向我的输入路径添加一个过滤器数据如下 path1 test a1 path1 test a2 path1 train a1 path1 train a2 我只想处理所有文件trai
如何使用新的 Hadoop API 来使用 MultipleTextOutputFormat？

我想编写多个输出文件如何使用 Job 而不是 JobConf 来执行此操作创建基于密钥的输出文件名的简单方法 input data type key value cupertino apple sunnyvale banana cupe
Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
无法从 JAR 文件加载主类

我有一个 Spark scala 应用程序我尝试显示一条简单的消息 Hello my App 当我编译它时sbt compile并运行它sbt run没关系我成功显示了我的消息但他显示了错误像这样 Hello my applicat
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
Hive查询快速查找表大小（行数）

是否有 Hive 查询可以快速查找表大小即行数而无需启动耗时的 MapReduce 作业这就是为什么我想避免COUNT I tried DESCRIBE EXTENDED 但这产生了numRows 0这显然是不正确的对新手问题表示歉
在 mongo 中，如何使用 Map Reduce 来按最近排序来获取组

我看到的 MapReduce 示例使用了诸如 count 之类的聚合函数但是使用 MapReduce 来获取每个类别中前 3 个项目的最佳方法是什么我假设我也可以使用 group 函数但很好奇因为他们声明分片环境不能使用 group
是否值得购买 Mahout in Action 以跟上 Mahout 的速度，或者还有其他更好的来源吗？

我目前是一个非常随意的用户阿帕奇马胡特 http mahout apache org 我正在考虑购买这本书象夫在行动 http www manning com owen 不幸的是我很难理解这本书的价值并且认为它是一本曼宁早期访问计划 h
Hadoop安装问题：

我跟着this http www bogotobogo com Hadoop BigData hadoop Install on ubuntu single node cluster phpHadoop 安装教程不幸的是当我运行全部启动
Spark 上的 Hive 2.1.1 - 我应该使用哪个版本的 Spark

我在跑蜂巢2 1 1 Ubuntu 16 04 上的 hadoop 2 7 3 根据Hive on Spark 入门 https cwiki apache org confluence display Hive Hive on Spark

随机推荐

使用D3.js实现框选节点并进行多节点拖动

最近再使用d3 js关系图形展示时需要选中多节点并进行拖动一开始并不知道D3提供了此API 下面是我结合项目业务整理的框选操作的重点方面的应用这是d3提供的api 使用鼠标或触摸选择一维或二维区域可参考示例 https blockb
Unity 使用 Dotween 的 Sequence 制作UI动画并且可重复利用

目录前言一 DOTween是什么二使用步骤 1 导入DOTween 2 配置DOTween 3 使用代码编写动画 4 代码API解释总结前言 DOTween可以制作简易的UI动画避免创建大量的Animator 本篇文章介绍一下
Spring Boot + k8s 最佳实践

前言 K8s Spring Boot实现零宕机发布健康检查滚动更新优雅停机弹性伸缩 Prometheus监控配置分离镜像复用配置健康检查健康检查类型就绪探针 readiness 存活探针 liveness 探针类型 ex
书店管理系统

设计一个书店管理系统能完成书店的日常管理工作要求完成的基本功能 1 进货入库记录 2 销售出货记录 3 图书信息查询可通过书名作者等途径查询某本图书的详细信息含书名作者出版社页数最新入库时间库存量价格等 4 自动预警提
时间和日期

Boost使用的timer和data timerj进行对应和时间日期相关的出来文档 timer包含三个组件分别为timer progress timer以及对应的progress display timer timer可以测量运行时间 t
ROS系统基本功能的使用详解（基本指令/节点/服务/启动文件/动态参数）

ROS系统基本功能的使用详解一创建工作空间二创建与编译ROS功能包三 ROS的基本命令 3 1 节点 3 2 主题 3 3 服务 3 4 参数服务器四节点的创建与运行 4 1 创建源文件 4 2 修改CMakeLists tx
域名+七牛云+PicGo+pypora

域名七牛云 PicGo pypora 前提准备域名自己的域名七牛云免费注册申请10G空间够用 picGo 地址 pypora 自行下载 GO 七牛云注册 gt 登录 gt 控制台找到对象存储新建自己空间绑定域名添加域名自
STM32使用SPI通信驱动2.4G无线射频模块发送数据

目录 SPI介绍 SPI接口原理 SPI工作原理 SPI特征引脚配置结构体库函数 SPI配置过程 SPI h SPI c NRF24L01无线射频模块 NRF24L01厂家驱动代码移植 NRF24L01 h NRF24L01 c ma
分析一个别人的qt+opengl例子

Qt5 OpenGL学习笔记用Qt封装的QOpenGL系列绘制有颜色有深度的三角形最近学习OpenGL 虽然说Qt可以使用原生OpenGL的API 但是Qt也提供了封装的QOpenGL系列我用原生的和封装的分别实现了一次简单渲染都是
竞赛基于卷积神经网络的乳腺癌分类深度学习医学图像

文章目录 1 前言 2 前言 3 数据集 3 1 良性样本 3 2 病变样本 4 开发环境 5 代码实现 5 1 实现流程 5 2 部分代码实现 5 2 1 导入库 5 2 2 图像加载 5 2 3 标记 5 2 4 分组 5 2 5 构建
Python Web系列学习2-Django

1 django admin Django项目管理工具建立一个Django项目用 django admin startproject xxx 生成的站点目录结构为 2 进入站点目录建立一个应用 python manage py star
Qt基础篇：Qt读取路径下所有文件或指定类型文件(含递归、判断是否为空、创建路径)

文件路径的拆解 QFileInfo fileinfo QString file full ui gt m AlgorithmFilePathLineEdit gt text qDebug lt lt file full 输出1 filein
Java框架体系架构的知识，分享一点面试小经验

前言当前我们都会说SpringBoot是Spring框架对约定优先于配置理念的最佳实践的产物一个典型的SpringBoot应用本质上其实就是一个基于Spring框架的应用而如果大家对Spring框架已经了如指掌那么在我们一步步揭
Python实现截图——附完整源码

Python实现截图附完整源码为了能在日常工作中方便地截取并保存屏幕截图我们可以利用Python编写一段代码实现这个功能本文将介绍基于Windows平台下的Python截图实现方法包括如何使用Python的Pillow模块以及py
YOLO8添加facial landmark和Head Pose的评价逻辑

目录 TOC 目录前言一如何在val py中添加NME的逻辑二在val py中添加Angle Eorror的逻辑 1 引入库三将AFLW2000转为yolo格式 1 参考ultralyticsFaceMark process3
JAVA开发环境JDK安装及配置

一安装JDK 获取JDK的安装包 1 通过官网下载 2 打开安装包开始安装JDK和JRE 1 打开JDK安装包 2 点击下一步开始JDK安装 3 更改安装路径接下来以我的电脑为例安装到E盘其他盘同理 4 将文件夹路径改到E盘新建的文
用js动态创建svg

吃水不忘挖井人 svg基础教程https www bilibili com video BV1Pt411y7V6 p 1 要实现的效果 svg文件的写法
【LSTM回归】基于粒子群优化注意力机制的长短时记忆神经网络PSO-attention-LSTM实现数据回归预测附matlab代码

作者简介热爱科研的Matlab仿真开发者修心和技术同步精进 matlab项目合作可私信个人主页 Matlab科研工作室个人信条格物致知更多Matlab完整代码及仿真定制内容点击智能优化算法神经网络预测雷达通信无线传感器
MySQL之分表分库分区

数据库分表可以解决单表海量数据的查询性能问题分库可以解决单台数据库的并发访问压力问题分表分表分为水平分表和垂直分表水平分表原理分表策略通常是用户ID取模如果不是整数可以首先将其进行hash获取到整水平分表遇到的问题 1 跨表
Hadoop序列化案例

Hadoop序列化案例统计每一个手机号耗费的总上行流量总下行流量总流量数据 1 13736230513 192 196 100 1 www baidu com 2481 24681 200 2 13846544121 192 196

Hadoop序列化案例

Hadoop序列化案例 的相关文章

随机推荐

热门标签

Hadoop序列化案例的相关文章