基于MapReduce的手机上网流量统计分析

2023-11-11

Hadoop简介：适合大数据的分布式存储与计算平台。
运行在Hadoop之上的大型服务器集群：
这里写图片描述
数据情况：（摘取部分）

字段描述：时间戳、手机号码、AP mac、AP mac、访问的网址、网址种类、上行数据包、下行数据包、流量、访问状态。
手机上网流量统计结果：(先展示统计部分结果)

MapReduce程序开发步骤：
1、maper函数的编写
2、reducer函数的编写
3、MapReduce程序驱动的编写
mapper函数、reducer函数、驱动具体编写步骤：
map函数编写的基本原则是:MapReduce每读一行文本就调用一次我们的map函数,拿到日志中的一行数据,切分各个字段,从中抽选出我们需要的字段.然后封装成键值对进行处理.简单来说map函数的逻辑就是读行局部处理.

reduce函数编写的基本原则是MapReduce每传递一组数据


package IT;

import java.io.IOException;

import org.apache.hadoop.conf.Configuration;
import org.apache.hadoop.conf.Configured;
import org.apache.hadoop.fs.Path;
import org.apache.hadoop.io.LongWritable;
import org.apache.hadoop.io.Text;
import org.apache.hadoop.mapreduce.Job;
import org.apache.hadoop.mapreduce.Mapper;
import org.apache.hadoop.mapreduce.Reducer;
import org.apache.hadoop.mapreduce.lib.input.FileInputFormat;
import org.apache.hadoop.mapreduce.lib.input.TextInputFormat;
import org.apache.hadoop.mapreduce.lib.output.FileOutputFormat;
import org.apache.hadoop.mapreduce.lib.output.TextOutputFormat;
import org.apache.hadoop.mapreduce.lib.partition.HashPartitioner;
import org.apache.hadoop.util.Tool;
import org.apache.hadoop.util.ToolRunner;

public class FlowCount  extends Configured implements Tool
{
        public static String path1="";
        public static String path2="";
        public int run(String[] arg0) throws Exception
        {
            path1=arg0[0];
            path2=arg0[1];
            Job job = new Job(new Configuration(),"FlowCount");
            job.setJarByClass(FlowCount.class);//jar包
            //编写驱动
            FileInputFormat.setInputPaths(job, new Path(path1));
            job.setInputFormatClass(TextInputFormat.class);
            job.setMapperClass(MyMapper.class);
            job.setMapOutputKeyClass(Text.class);
            job.setMapOutputValueClass(LongWritable.class);
            job.setNumReduceTasks(1);
            job.setPartitionerClass(HashPartitioner.class);
            job.setReducerClass(MyReducer.class);
            job.setOutputKeyClass(Text.class);
            job.setOutputValueClass(LongWritable.class);
            FileOutputFormat.setOutputPath(job, new Path(path2));
            job.setOutputFormatClass(TextOutputFormat.class);
            //向yarn平台提交任务
            job.waitForCompletion(true);
            return 0;
        }
        public static void main(String[] args) throws Exception
        {
            ToolRunner.run(new FlowCount(), args);
        }
       public static class MyMapper extends Mapper<LongWritable, Text, Text, LongWritable>
       {
            protected void map(LongWritable k1, Text v1,Context context)throws IOException, InterruptedException
            {
                 String[] splited = v1.toString().split("\t");
                 String str1 = splited[1];//获取手机号
                 String str2 = splited[8];//获取单行流量
                 Text k2 = new Text(str1);
                 LongWritable v2 =  new LongWritable(Long.parseLong(str2));
                 context.write(k2, v2);
            }
       }
       public static class MyReducer extends Reducer<Text, LongWritable, Text, LongWritable>
       {
            protected void reduce(Text k2, Iterable<LongWritable> v2s,Context context)throws IOException, InterruptedException
            {
                long sum = 0L; 
                for (LongWritable v2 : v2s)
                {
                     sum +=v2.get();
                }
                Text k3 = k2;
                LongWritable v3 =  new LongWritable(sum);
                context.write(k3, v3);
            }
       }
}

2、导出jar包
这里写图片描述

最终通过eclipse导出jar包：

3、在linux文件系统中通过shell命令将流量数据上传到HDFS中

4、在linux中运行jar包，即运行MapReduce程序

5、MapReduce程序运行完之后核实内置计数器进行校验

6、通过shell命令查看运行结果
这里写图片描述
综上：当给定我们一个业务后，如何用MapReduce实现某个业务?
1>给的原始数据相当于告诉了我们键值对

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

基于MapReduce的手机上网流量统计分析的相关文章

Hive（查找连续 n 列中的最小值）

我在 Hive 中有一个表有 5 列即电子邮件 a first date b first date c first date d first date a b c d 是用户可以执行的 4 个不同操作上表中的 4 列表示用户执行第一个
错误：java.io.IOException：错误值类：类 org.apache.hadoop.io.Text 不是类 Myclass

我的映射器和减速器如下但我遇到了某种奇怪的异常我不明白为什么它会抛出这种异常 public static class MyMapper implements Mapper
Sqoop Import --password-file 功能在 sqoop 1.4.4 中无法正常工作

我使用的是hadoop 1 2 1 sqoop版本是1 4 4 我正在尝试运行以下查询 sqoop import connect jdbc mysql IP 3306 database name table clients target d
Hadoop：处理大型序列化对象

我正在开发一个应用程序来使用 Hadoop 框架处理和合并几个大型 java 序列化对象顺序 GB 大小 Hadoop 存储将文件块分布在不同的主机上但由于反序列化需要所有块都存在于单个主机上因此它会极大地影响性能我该如何处理这
HDP 3.1.0.0-78 升级后无法使用 ResourceManager UI 终止 YARN 应用程序

我最近将 HDP 从 2 6 5 升级到 3 1 0 它运行 YARN 3 1 0 并且我无法再使用旧的 8088 cluster apps 或新的 8088 从 YARN ResourceManager UI 终止应用程序 ui2 ind
将多个前缀行过滤器设置为扫描仪 hbase java

我想创建一台扫描仪它可以为我提供带有 2 个前缀过滤器的结果例如我想要其键以字符串 x 开头或以字符串 y 开头的所有行目前我知道只能使用一个前缀方法如下 scan setRowPrefixFilter prefixFiltet 在
在 Hive 中分解一行 XML 数据

我们将 XML 数据作为名为 XML 的单个字符串列加载到 Hadoop 中我们正在尝试检索数据级别并将其标准化或分解为单行进行处理你知道就像表格一样已经尝试过分解功能但没有得到我们想要的示例 XML
Spark MLLib 存在问题，导致概率和预测对于所有内容都相同

我正在学习如何将机器学习与 Spark MLLib 结合使用目的是对推文进行情感分析我从这里得到了一个情感分析数据集 http thinknook com wp content uploads 2012 09 Sentiment Ana
Hive ParseException - 无法识别“结束”“字符串”附近的输入

尝试从现有 DynamoDB 表创建 Hive 表时出现以下错误 NoViableAltException 88 at org apache hadoop hive ql parse HiveParser IdentifiersParser
在 mongo 中，如何使用 Map Reduce 来按最近排序来获取组

我看到的 MapReduce 示例使用了诸如 count 之类的聚合函数但是使用 MapReduce 来获取每个类别中前 3 个项目的最佳方法是什么我假设我也可以使用 group 函数但很好奇因为他们声明分片环境不能使用 group
Python - Map/Reduce - 如何在使用 DISCO 计数单词示例中读取 JSON 特定字段

我正在按照 DISCO 示例来计算文件中的单词数将单词数作为 Map Reduce 作业 http discoproject org doc disco start tutorial html 我对此工作没有任何问题但是我想尝试从包含
使用 Hadoop 映射两个数据集

假设我有两个键值数据集数据集A和B 我们称它们为数据集A和B 我想用 B 组的数据更新 A 组中的所有数据其中两者在键上匹配因为我要处理如此大量的数据所以我使用 Hadoop 进行 MapReduce 我担心的是为了在 A 和 B
Spark scala - 按数组列分组[重复]

这个问题在这里已经有答案了我对 Spark Scala 很陌生感谢你的帮助我有一个数据框 val df Seq a a1 Array x1 x2 a b1 Array x1 a c1 Array x2 c c3 Array x2 a
如果 HBase 不是运行在分布式环境中，它还有意义吗？

我正在构建数据索引这将需要以形式存储大量三元组 document term weight 我将存储多达几百万个这样的行目前我正在 MySQL 中将其作为一个简单的表来执行我将文档和术语标识符存储为字符串值而不是其他表的外键我正在重
异常：java.lang.Exception：使用 master 'yarn' 运行时，必须在环境中设置 HADOOP_CONF_DIR 或 YARN_CONF_DIR。在火花中

我是新的阿帕奇火花我已经在spark独立模式下测试了一些应用程序但我想运行应用程序yarn模式我正在windows中运行apache spark 2 1 0 这是我的代码 c spark gt spark submit2 master
如何将Hive数据表迁移到MySql？

我想知道如何将日期从 Hive 转移到 MySQL 我看过有关如何将 Hive 数据移动到 Amazon DynamoDB 的示例但没有看到有关如何将 Hive 数据移动到 MySQL 等 RDBMS 的示例这是我在 DynamoDB
mongodb - 检索数组子集

看似简单的任务对我来说是一个挑战我有以下 mongodb 结构 services TCP80 data status 1 delay 3 87 ts 1308056460 status 1 delay 2 83 ts 1308058080
如何通过sparkSession向worker提交多个jar？

我使用的是火花2 2 0 下面是我在 Spark 上使用的 java 代码片段 SparkSession spark SparkSession builder appName MySQL Connection master spark ip
Hive - 线程安全的自动递增序列号生成

我遇到一种情况需要将记录插入到特定的 Hive 表中其中一列需要是自动递增的序列号即在任何时间点都必须严格遵循 max value 1 规则记录从许多并行的 Hive 作业插入到这个特定的表中这些作业每天每周每月批量运行现在
Hive“添加分区”并发

我们有一个外部 Hive 表用于处理原始日志文件数据这些文件每小时一次并按日期和源主机名分区目前我们正在使用简单的 python 脚本导入文件这些脚本每小时触发几次该脚本根据需要在 HDFS 上创建子文件夹从临时本地存储复制

随机推荐

魔方机器人之结构篇

魔方颜色识别和魔方复原算法以及串口通信都解决完了感觉自己该松口气了吧结构可以反正仿照别人的来嘛做出来就的了事实又打了我一耳光我怎么发现我的预判总是那么的不靠谱总结就是自己没做过的东西再也不要说很简单了即使看上去简单的再也不能简
5-8 以特殊方式跟管理员打招呼

创建一个至少包含5个用户名的列表且其中一个用户名为 admin 想象你要编写代码在每位用户登录网站后都打印一条问候消息遍历用户名列表并向每位用户打印一条问候消息如果用户名为 admin 就打印一条特殊的问候消息如 Hello a
使用EasyExcel实现导入导出功能

使用EasyExcel实现导入导出功能一导出 1 使用ideal新建一个maven项目并在pom xml文件中引入EasyExcel依赖
impala 错误

问题一 impala state store unrecognized service 原因当前节点未成功安装impala server impala state store impala catalog 解决方案 yum install
ulua源码分析

对于NestClass的Type 用了2次被Cache了两次主要是因为PushType这个函数对每个Type对象不进行Cache检测总是push一个新的proxy对象
蓝桥杯省赛2021 括号序列 python

给定一个括号序列要求尽可能少地添加若干括号使得括号序列变得合法当添加完成后会产生不同的添加结果请问有多少种本质不同的添加结果两个结果是本质不同的是指存在某个位置一个结果是左括号而另一个是右括号例如对于括号序列只需要添加两个
MQTT：用Mosquitto搭建轻量级的设备接入网关

开发部署在云端的设备接入网关服务就不得不提到MQTT 使用MQTT不论是从设备到设备还是设备到云端服务的双向通讯都可以获得较好的支持 MQTT的起源和我的理解用tcpdump分析下MQTT的通讯时序这里基于mosquitto 以一组
One PUNCH Man——半监督学习

文章目录半监督学习介绍半监督SVM 基于分歧的方法半监督学习介绍我们在丰收的季节来到瓜田满地都是西瓜瓜农抱来四个西瓜说这都是好瓜然后指着地里面六个瓜说这些不好还需要再生长几天基于这些信息我们能否构建一个模型用于判别地里
优雅的玩转Fast-DDS

优雅的玩转Fast DDS 安装依赖 sudo apt install cmake g python3 pip wget git pip3 install U colcon common extensions vcstool Fast DD
Web开发权威指南笔记（二）

书 Web开发权威指南美 Chris Aquino Todd Gandee著为2nd实战项目CoffeeRun练习以及代码整理全为个人借鉴本书产出若需要转载请联系通知我请尊重原创谢谢整理了大概5天了内容比较多很多重点都整理
mysql区别

mysql区别 5 0之后与5 0之前 mysql5 0以及5 0以上的版本都存在一个系统自带的系统数据库是information schema 而5 0之前的版本不存在且5 0以下的版本是多用户单操作 information schem
如何创建NFT-独家设计

如何创建NFT 第一步下载并安装 MetaMask小狐狸钱包第二步打开官网https opensea io 点击右上角的钱包标志进行链接第三步右上角弹出钱包提示点击下一步就成功了第四步回到首页点击create按钮进入创
feign使用注意

参数使用注意参数name value属性这两个的作用是一样的指定的是调用服务的微服务名称参数url 指定调用服务的全路径经常用于本地测试如果同时指定name和url属性则以url属性为准 name属性指定的值便当做客户端的名称
c#正确用smtp.office365.com发邮件
Python自动化测试Unittest框架基本使用

Unittest 框架首先要知道这个框架是Python自带的不需要安装这个框架最重要的4 个核心 TestCase TestSuite TextTestRunner Fixture TestCase 个人总结一下这个就是用测试用例继
SpringCloud与SpringBoot的版本对应关系

在SpringCloud官网 https spring io projects spring cloud 可以看到当前 2021年11月 SpringCloud的最新GA版本是2020 0 4这一版除了2020 0 X版本外 Sprin
基于掌控板+二哈+TinyWebDB+Easy_IoT的人脸识别测温

文章目录前言一部分硬件及平台介绍 1 二哈识图 HuskyLens 2 TinyWebDB 3 Easy IoT 二操作步骤 1 二哈的使用 2 TinyWebDB的使用 3 Easy IoT的使用三硬件连接四图形化代码编写
jdk8 免登录安装

1 注册一大堆麻烦死了程序员怎么可能做被迫的事情 2 复制下载链接https www oracle com webapps redirect signon nexturl https download oracle com otn ja
解析目标文件

最近在看程序员的自我修养颇有体会故化繁为简整理书中部分内容作为学习笔记 PC平台上流行的可执行文件格式主要是windows下的PE Portable Executable 和Linux下的ELF Executable Linkab
基于MapReduce的手机上网流量统计分析

Hadoop简介适合大数据的分布式存储与计算平台运行在Hadoop之上的大型服务器集群数据情况摘取部分字段描述时间戳手机号码 AP mac AP mac 访问的网址网址种类上行数据包下行数据包流量访问状态手机上网流

基于MapReduce的手机上网流量统计分析

基于MapReduce的手机上网流量统计分析 的相关文章

随机推荐

热门标签

基于MapReduce的手机上网流量统计分析的相关文章