【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户

2023-05-16

🚀 作者：“大数据小禅”

🚀文章简介：本篇文章属于Spark系列文章，专栏将会记录从spark基础到进阶的内容
🚀 内容涉及到Spark的入门集群搭建，核心组件，RDD，算子的使用，底层原理，SparkCore，SparkSQL，SparkStreaming等，Spark专栏地址.欢迎小伙伴们订阅💪

手机流量日志处理

- - - SparkSQL简介
    - 依赖引入
    - SparkSQL快速入门案例
    - 手机流量日志数据格式与处理要求
    - 处理程序

SparkSQL简介

Spark SQL是Apache Spark的一个模块，提供了一种基于结构化数据的编程接口。它允许用户使用SQL语句或DataFrame API来查询和操作数据，同时还支持使用Spark的分布式计算引擎进行高效的并行计算。
Spark SQL支持多种数据源，包括Hive、JSON、Parquet、Avro、ORC等，这些数据源可以通过DataFrame API或SQL语句进行查询和操作。同时，Spark SQL还提供了一些高级功能，如窗口函数、聚合函数、UDF等，以满足更复杂的数据分析需求。
Spark SQL还支持将SQL查询结果写入到外部数据源，如Hive表、JSON文件、Parquet文件等。此外，Spark SQL还提供了一些工具，如Spark SQL CLI、JDBC/ODBC驱动程序等，方便用户进行交互式查询和数据分析。
使用前需要新引入对应依赖

依赖引入

使用Spark SQL需要在项目中添加以下依赖：

<dependencies>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-sql_2.12</artifactId>
        <version>3.1.2</version>
    </dependency>
    <dependency>
        <groupId>org.apache.spark</groupId>
        <artifactId>spark-core_2.12</artifactId>
        <version>3.1.2</version>
    </dependency>
</dependencies>

其中，spark-sql_2.12是Spark SQL的核心依赖，spark-core_2.12是Spark的核心依赖。注意，版本号可以根据实际情况进行调整。

如果需要使用其他数据源，如MySQL、Hive等，则需要添加相应的依赖。例如，如果需要连接MySQL数据库，则需要添加以下依赖：

<dependency>
    <groupId>org.apache.spark</groupId>
    <artifactId>spark-sql-kafka-0-10_2.12</artifactId>
    <version>3.1.2</version>
</dependency>
<dependency>
    <groupId>mysql</groupId>
    <artifactId>mysql-connector-java</artifactId>
    <version>8.0.25</version>
</dependency>

其中，spark-sql-kafka-0-10_2.12是连接Kafka数据源的依赖，mysql-connector-java是连接MySQL数据库的依赖。注意，版本号也可以根据实际情况进行调整。

以上是使用Maven进行依赖配置的方式。

SparkSQL快速入门案例

准备数据
我们假设有一个CSV文件employee.csv，包含了员工的信息，如下所示：

id,name,age,gender,salary
1,Jack,25,M,5000
2,Lucy,28,F,6000
3,Tom,30,M,8000
4,Lily,27,F,7000
5,David,32,M,9000

创建SparkSession对象
首先，我们需要创建一个SparkSession对象，它是Spark SQL的入口点。可以使用以下代码创建SparkSession对象：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder
  .appName("Spark SQL Demo")
  .getOrCreate()
//加载CSV文件
//使用SparkSession对象的read方法加载CSV文件：

val df = spark.read
  .option("header", "true")
  .option("inferSchema", "true")
  .csv("employee.csv")
//其中，header=true表示第一行是列名，inferSchema=true表示自动推断列的数据类型。

//创建临时表
//使用DataFrame的createOrReplaceTempView方法将DataFrame注册为一个临时表：

df.createOrReplaceTempView("employee")
//执行SQL查询
//使用SparkSession对象的sql方法执行SQL查询：
val result = spark.sql("SELECT * FROM employee WHERE age > 27")
这将返回所有年龄大于27岁的员工信息。

//输出结果
//使用DataFrame的show方法输出查询结果：

result.show()
//这将输出所有符合条件的员工信息。

完整代码如下：

import org.apache.spark.sql.SparkSession

val spark = SparkSession.builder
  .appName("Spark SQL Demo")
  .getOrCreate()

val df = spark.read
  .option("header", "true")
  .option("inferSchema", "true")
  .csv("employee.csv")

df.createOrReplaceTempView("employee")

val result = spark.sql("SELECT * FROM employee WHERE age > 27")

result.show()
输出结果：

+---+----+---+------+-----+
| id|name|age|gender|salary|
+---+----+---+------+-----+
|  2|Lucy| 28|     F| 6000|
|  3| Tom| 30|     M| 8000|
|  5|David| 32|     M| 9000|
+---+----+---+------+-----+

手机流量日志数据格式与处理要求

日志字段与字段说明如下
1.需要实现的需求1.按月统计流量使用量最多的用户（每个月使用流量最多的用户）
2.将结果数据持久化到硬盘

处理程序

/**
  * @Description
  * @Author xiaochan
  * @Version 1.0
  */
// 时间戳         手机号码          基站物理地址             ip        接受数 接受数据包 上行流量  下行流量  状态码
//2020-03-10	15707126156	QK-X7-7N-G2-1N-QZ:CMCC	212.188.187.220	33	     40	    67584	   81920	200
//使用量 =上+下  手机号码就是用户   RDD处理方式->((月，号码),(上行+下行))
//1.下载手机流量日志
//2.按月统计流量使用量最多的用户
//3.将结果数据持久化到硬盘
object LogPhone {
  System.setProperty("hadoop.home.dir","F:\\hadoop-2.7.3\\hadoop-2.7.3")
  def main(args: Array[String]): Unit = {
    //1.创建sparksession
    val sc = new sql.SparkSession.Builder()
      .appName("test")
      .master("local[6]")
      .config("spark.testing.memory", "471859201")
      .getOrCreate()
    // 读取输入文件
    val log = sc.sparkContext.textFile("dataset\\phone.log")
    val value = log.map(_.split("\t")).filter(arr => {
      !(arr(1) == null)
    }).map(tmp => {
      //处理日期 获取月份
      val month: String = tmp(0).split("-")(1)
      //号码
      val user = tmp(1)
      //使用流量数
      var use = tmp(6) + tmp(7)
      Log(user, use.toLong, month)
    })
    sc.createDataFrame(value).createOrReplaceTempView("log")
    //每个月流量使用做多的用户 group by行数会减少,开窗函数over()行数不会减少
    val data: DataFrame = sc.sql("select user,month,useall from " +
      "(select user,month,sum(use) over(partition by user,month order by use desc) as useall," +
      "dense_rank() over(partition by month order by use desc) as rn from log)t1 where rn=1 order by month")
    data.show()
    data.write.parquet("dataset\\output\\directory")

    sc.close()
  }
}

/**
  * @Description
  * @Author xiaochan
  * @Version 1.0
  */
case class Log(
    user: String,
    use: Long,
    month: String)

结果如下

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

spark

SparkSQL

手机流量日志处理

按月统计流量使用量最多的用户

【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户的相关文章

数据倾斜

数据倾斜发生时的现象 1 绝大多数task执行得都非常快但个别task执行的极慢 2 原本能正常执行的Spark作业某天突然爆出OOM 内存溢出异常观察异常栈是我们写的业务代码造成的数据倾斜发生的原理在进行shuffle的时候
windows下安装spark及hadoop

windows下安装spark 1 安装jdk 2 安装scala 3 下载spark spark下载地址 3 1安装spark 将下载的文件解压到一个目录注意目录不能有空格比如说不能解压到C Program Files 作者解压到了这
spark集群搭建与mysql元数据管理

找个spark集群搭建是针对于上一篇hadoop的基础上搭建的所以spark的版本也是要按照着hadoop版本进行下载 1 解压spark 修改spark的 etc profile的home目录 2 安装SCALA 并配置SCALA HO
Spark性能调优之Shuffle调优

Spark性能调优之Shuffle调优 Spark底层shuffle的传输方式是使用netty传输 netty在进行网络传输的过程会申请堆外内存 netty是零拷贝所以使用了堆外内存 shuffle过程中常出现的问题常见问题一 redu
Spark基础知识(个人总结)

声明 1 本文为我的个人复习总结并非那种从零基础开始普及知识内容详细全面言辞官方的文章 2 由于是个人总结所以用最精简的话语来写文章 3 若有错误不当之处请指出一 Spark概述 Spark模块 Core SQL Streami
SparkSession和sparkSQL

一概述 spark 有三大引擎 spark core sparkSQL sparkStreaming spark core 的关键抽象是 SparkContext RDD SparkSQL 的关键抽象是 SparkSession Data
Spark DataFrame的Join操作和withColumn、withColumnRenamed方法实践案例（Scala Demo代码）

import org apache log4j Level Logger import org apache spark sql SparkSession import org apache spark sql functions obje
深入理解 SQL 中的 Grouping Sets 语句

前言 SQL 中 Group By 语句大家都很熟悉根据指定的规则对数据进行分组常常和聚合函数一起使用比如考虑有表 dealer 表中数据如下 id Int city String car model String quantity
浅谈Hadoop体系和MPP体系

浅谈Hadoop体系和MPP体系引言如题在大数据发展至今为了应对日益繁多的数据分析处理和解决客户各种奇思妙怪想需求形形色色的大数据处理的框架和对应的数据存储手段层出不穷有老当益壮的Hadoop体系依靠Hadoop巨大的社
spark报Got an error when resolving hostNames. Falling back to /default-rack for all

一报错代码如下 21 06 01 20 13 36 INFO yarn SparkRackResolver Got an error when resolving hostNames Falling back to default rac
Spark大数据分析与实战笔记（第一章 Scala语言基础-3）

文章目录 1 3 Scala的数据结构 1 3 1 数组数组的遍历数组转换 1 3 2 元组创建元组获取元组中的值拉链操作 1 3 3 集合 List Set Map 1 3 Scala的数据结构对于每一门编程语言来说数组 A
spark-submit 报错 Initial job has not accepted any resources

spark submit 报这样的错误 WARN scheduler TaskSchedulerImpl Initial job has not accepted any resources check your cluster UI to
spark groupByKey和groupBy，groupByKey和reduceByKey的区别

1 groupByKey Vs groupBy 用于对pairRDD按照key进行排序 author starxhong object Test def main args Array String Unit val sparkConf n
大数据手册(Spark)--Spark基本概念

文章目录 Spark 基本概念 Hadoop 生态 Spark 生态 Spark 基本架构 Spark运行基本流程弹性分布式数据集 RDD Spark安装配置 Spark基本概念 Spark基础知识 PySpark版 Spark机器学习
Spark 任务调度机制

1 Spark任务提交流程 Spark YARN Cluster模式下的任务提交流程如下图所示图YARN Cluster任务提交流程下面的时序图清晰地说明了一个Spark应用程序从提交到运行的完整流程图Spark任务提交时序图提交
【硬刚大数据之学习路线篇】2021年从零到大数据专家的学习指南(全面升级版)

欢迎关注博客主页 https blog csdn net u013411339 本文由王知无原创首发于 CSDN博客本文首发CSDN论坛未经过官方和本人允许严禁转载欢迎点赞收藏留言欢迎留言交流声明本篇博客在我之前发表
Spark的常用概念总结

提示文章写完后目录可以自动生成如何生成可参考右边的帮助文档文章目录前言一基本概念 1 RDD的生成 2 RDD的存储 3 Dependency 4 Transformation和Action 4 1 Transformatio
通过yarn提交作业到spark,运行一段时间后报错。

加粗样式
spark SQL基础教程

1 sparkSQL入门 sparksql专门用于处理结构化的数据而RDD还可以处理非结构化的数据 sparksql的优点之一是sparkfsql使用统一的api读取不同的数据第二个优点是可以在语言中使用其他语言例如python 另外
python+django基于Spark的国漫画推荐系统可视化大屏分析

国漫推荐信息是现如今社会信息交流中一个重要的组成部分本文将从国漫推荐管理的需求和现状进行分析使得本系统的设计实现具有可使用的价做出一个实用性好的国漫推荐系统使其能满足用户的需求并可以让用户更方便快捷地国漫推荐国漫推荐系统的设计开

随机推荐

Idea中解决Git冲突问题及merge代码消失问题【git常用tips】

Idea中解决Git冲突问题及merge代码消失问题 1 Idea中使用git的小问题及技巧我们可以通过Idea直接从GitLab或GitHub等平台上拉取代码 File New Project from Version Control
E: Package ‘xxx‘ has no installation candidate 问题成功解决

E Package xxx has no installation candidate 问题成功解决分析首先这个问题的最主要的原因就是因为当前Linux系统的下载源中找不到相应的文件 xff0c 所以说我们需要更新下载源步骤找到记录
算法学习笔记：连通图详解

什么是连通图 xff1f 在图论中 xff0c 连通图基于连通的概念在一个无向图 G 中 xff0c 若从顶点 i 到顶点 j 有路径相连 xff08 当然从 j 到 i 也一定有路径 xff09 xff0c 则称 i 和 j 是连通的
GitHub Pages 绑定域名

域名选购域名注册商有很多 xff0c 国内的万网 xff0c 国外的 GoDaddy 等等区别在于国内域名注册后需要备案 xff0c 因为政策因素也可能随时被停用 xff0c 相对的 xff0c 国外注册域名在交流和沟通方面不如国内方便
【IDEA主题极致优化】全面优提升你的编码体验

x1f680 作者 xff1a 大数据小禅 x1f680 文章简介 xff1a 使用IDEA的主题优化插件 xff0c 给IDEA更换主题 xff0c 换一种主题 xff0c 换一种心情敲代码下面介绍如何使用IDEA主题插件进行主题更新
【数据结构与算法】选择排序的实现

x1f680 作者 xff1a 大数据小禅 x1f680 文章简介 xff1a 本篇文章使用的语言是Java xff0c 实现了选择排序选择排序 1 选择排序基本介绍2 选择排序的排序思想3 选择排序的排序过程4 选择排序代码实现 1 选
【数据结构与算法】递归全流程详细剖析 | 详解图的深度优先遍历

x1f680 作者 xff1a 大数据小禅 x1f680 文章简介 xff1a 本篇文章属于数据结构与算法系列文章 xff0c 这篇文章会对算法中的递归进行一个详细的介绍 xff0c 不仅是概念 xff0c 而是从运行过程中的每一步进行详细
【数据结构与算法】图的基本结构介绍 | 邻接表与邻接矩阵编码实战

x1f680 作者 xff1a 大数据小禅 x1f680 文章简介 xff1a 本篇文章对基本数据结构图进行了一个概述 xff0c 并使用领接矩阵与邻接表的方式来实现一个图 x1f680 个人主页 xff1a 大数据小禅图的基本结构介绍
让最近爆火的ChatGPT来谈谈，作为一个技术人该如何写好一篇技术博文

ChatGPT 是由 OpenAI 训练的一个大型语言模型专门设计用于回答用户提出的问题 xff0c 我可以提供有价值的信息 xff0c 并帮助用户解决问题下面的回答均来自ChatGPT CharGPT 如何写好一篇技术博文 xff1f
ipad和iphone切图_如何在iPhone和iPad上密码保护照片

ipad和iphone切图 Sometimes you need to protect your iPhone or iPad photos from prying eyes that might also have access to y
【基于ChatGPT的API】实现一个响应速度比官方更快的在线问答网站并通过宝塔上线全网可访问

x1f680 ChatGPT是最近很热门的AI智能聊天机器人 x1f680 用途方面相比于普通的聊天AI更加的广泛 xff0c 甚至可以帮助你改BUG xff0c 写代码 xff01 xff01 xff01 x1f680 但是由于访问限制
【基于ChatGPT+SpringBoot】打造智能聊天AI机器人接口并上线至服务器

x1f680 ChatGPT是最近很热门的AI智能聊天机器人 x1f680 本文使用SpringBoot 43 OpenAI的官方API接口 xff0c 自己实现一个可以返回对话数据的接口并上线服务器 x1f680 用途方面相比于普通的聊天
【精通Spark系列】Spark算子大合集，一文掌握spark中的常用转换与行动算子

x1f680 作者 xff1a 大数据小禅 x1f680 文章简介 xff1a 本篇文章属于Spark系列文章 xff0c 专栏将会记录从spark基础到进阶的内容 x1f680 内容涉及到Spark的入门集群搭建 xff0c 核心组件 x
【大厂算法系列】学数据结构与算法有用吗？时间与空间复杂度的定义与计算

专栏地址大厂算法系列专栏内容数组列表栈队列树哈希表字符串堆查找排序 DFS BFS 回溯贪心动态规划等力扣大厂真题算法交流 V yopa66 大厂算法为什么要学习数据结构与算法学完到底有没有用关于数据结
【大厂算法系列】编码手写顺序表相关功能，线性结构核心知识点详细剖析

章节目录什么是线性表什么是顺序表顺序表简介初始化和判空判满功能实现顺序表实现之指定位置数据的增加与遍历操作顺序表实现删除指定位置的元素与修改操作顺序表实现扩容操作顺序表使用泛型适应多种类型数据什么是线性表在第二章里我们说到
【大厂算法系列】链表实战篇，基于链表编码实现课程信息管理系统

章节目录单向链表的增加与遍历节点演示链表之单向链表实现删除与修改节点链表实现查找倒数第K个课程链表进阶之实现双向链表的增加与遍历双向链表实战删除与修改课程顺序表遗留的问题前面我们使用顺序储存结构实现的顺序表虽然查询的时候很快
【Linux内网穿透】使用SFTP工具快速实现内网穿透

文章目录内网穿透简介1 查看地址2 局域网测试连接3 创建tcp隧道3 1 安装cpolar 4 远程访问5 固定TCP地址内网穿透简介是一种通过公网将内网服务暴露出来的技术 xff0c 可以使得内网服务可以被外网访问以下是内网穿透
【SpringBoot教程】SpringBoot开发HTTP接口GET请求实战

专栏地址系列教程更新中 x1f680 专栏介绍本专栏为SpringBoot 43 Spring 43 Mybatis的系列零基础教程 xff0c 从框架的基础知识讲起 xff0c 从0开始实现一个在线教育实战项目 x1f680 源码获取
【SpringBoot教程】SpringBoot开发POST请求接口用户登录token实战，多种入参方式介绍

专栏地址系列教程更新中 x1f680 专栏介绍本专栏为SpringBoot 43 Spring 43 Mybatis的系列零基础教程 xff0c 从框架的基础知识讲起 xff0c 从0开始实现一个在线教育实战项目 x1f680 源码获取
【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户

x1f680 作者 xff1a 大数据小禅 x1f680 文章简介 xff1a 本篇文章属于Spark系列文章 xff0c 专栏将会记录从spark基础到进阶的内容 x1f680 内容涉及到Spark的入门集群搭建 xff0c 核心组件 x

【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户

手机流量日志处理

SparkSQL简介

依赖引入

SparkSQL快速入门案例

手机流量日志数据格式与处理要求

处理程序

【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户 的相关文章

随机推荐

热门标签

【Spark手机流量日志处理】使用SparkSQL按月统计流量使用量最多的用户的相关文章