大数据——基于Spark Streaming的流数据处理和分析

2023-11-03

基于Spark Streaming的流数据处理和分析

流是什么
为什么需要流处理
流处理应用场景
如何进行流处理
Spark Streaming简介
Spark Streaming流数据处理架构
Spark Streaming内部工作流程
StreamingContext
Spark Streaming快速入门
DStream
Input DStreams与接收器（Receivers）
- 内建流式数据源
DStream支持的转换算子
- 转换算子-transform
DStream输出算子
- 输出算子-foreachRDD
Spark Streaming编程实例（一）
Spark Streaming编程实例（二）
Spark Streaming编程实例（三）
Spark Streaming高级应用（一）
Spark Streaming高级应用（二）
Spark Streaming优化策略

流是什么

数据流
- 数据的流入
- 数据的处理
- 数据的流出
随处可见的数据流
- 电商网站、日志服务器、社交网络和交通监控产生的大量实时数据
流处理
- 是一种允许用户在接收到的数据后的段时间内快速查询连续数据流和检测条件的技术

为什么需要流处理

它能够更快地提供洞察力，通常在毫秒到秒之间
大部分数据的产生过程都是一个永无止境的事件流
- 流处理自然适合时间序列数据和检测模式随时间推移

流处理应用场景

股市监控
交通监控
计算机系统与网络监控
监控生产线
供应链优化
入侵、监视和欺诈检测
大多数智能设备应用
上下文感知促销和广告
…

如何进行流处理

常用流处理框架
- Apache Spark Streaming
- Apache Flink
- Confluent
- Apache Storm

Spark Streaming简介

是基于Spark Core API的扩展，用于流式数据处理
- 支持多种数据源和多种输出
高容错
可扩展
高流量
低延时

在这里插入图片描述

Spark Streaming流数据处理架构

典型架构

Spark Streaming内部工作流程

微批处理：输入->分批处理->结果集
- 以离散流的形式传入数据（DStream：Discretized Streams）
- 流被分成微批次（1-10s），每一微批都是一个RDD

StreamingContext

Spark Streaming流处理的入口
2.2版本SparkSession未整合StreamingContext，所以仍需单独创建

import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.StreamingContext._
val conf=new SparkConf().setMaster("local[2]").setAppName("kgc streaming demo")
val ssc=new StreamingContext(conf,Seconds(8))

1、一个JVM只能有一个StreamingContext启动
2、StreamingContext停止后不能再启动

在Spark-shell下，会出现如下错误提示：
org.apache.spark.SparkException:Only onc SparkContext may be running in this JVM
解决：
方法1、sc.stop //创建ssc之前，停止spark-shell自行启动的SparkContext
方法2、或者通过已有的sc创建ssc:val ssc=new StreamingContext(sc,Seconds(8))

Spark Streaming快速入门

单词统计——基于TCPSocket接收文本数据

$nc -lk 9999  //数据服务器。当ssc启动后输入测试数据，观察Spark Streaming处理结果

import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.StreamingContext._
val sparkConf = new 
//local[n]其中n>接收器的个数
SparkConf().setMaster("local[2]").setAppName("NetworkWordCount")
val ssc = new StreamingContext(sparkConf, Seconds(1))
//DStream
val lines = ssc.socketTextStream("localhost", 9999)//指定数据源
val words = lines.flatMap(_.split(" "))
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()

DStream

离散数据流（Discretized Stream）是Spark Streaming提供的高级别抽象
DStream代表了一系列连续的RDDs
- 每个RDD都包含了一个时间间隔内的数据
- DStream既是输入的数据流，也是对转换处理过的数据流
- 对DStream的转换操作即是对具体RDD操作

在这里插入图片描述

Input DStreams与接收器（Receivers）

Input DStream指从某种流式数据源（Streaming Sources）接收流数据的DStream
- 内建流式数据源：文件系统、Socket、Kafka、Flume…

每一个Input DStream（file stream除外）都与一个接收器（Receiver）相关联，接收器是从数据源提取数据到内存的专用对象

内建流式数据源

文件系统

def textFileStream(directory: String): DStream[String]

Socket

def socketTextStream(hostname: String, port: Int, storageLevel: StorageLevel): ReceiverInputDStream[String]

Flume Sink

val ds = FlumeUtils.createPollingStream(streamCtx, [sink hostname], [sink port]);

Kafka Consumer

val ds = KafkaUtils.createStream(streamCtx, zooKeeper, consumerGrp, topicMap);

DStream支持的转换算子

map,flatMap
filter
count,countByValue
repartition
union,join,cogroup
reudce,reduceByKey
transform
updateStateByKey

import org.apache.spark._
import org.apache.spark.streaming._
import org.apache.spark.streaming.StreamingContext._

val input1 = List((1, true), (2, false), (3, false), (4, true), (5, false))
val input2 = List((1, false), (2, false), (3, true), (4, true), (5, true))

val rdd1 = sc.parallelize(input1)
val rdd2 = sc.parallelize(input2)
val ssc = new StreamingContext(sc, Seconds(3))
import scala.collection.mutable
val ds1 = ssc.queueStream[(Int, Boolean)](mutable.Queue(rdd1))
val ds2 = ssc.queueStream[(Int, Boolean)](mutable.Queue(rdd2))

val ds = ds1.join(ds2)
ds.print()
ssc.start()
ssc.awaitTerminationOrTimeout(5000)
ssc.stop()

转换算子-transform

transform操作允许在DStream应用任意RDD-TO-RDD的函数

// RDD 包含垃圾邮件信息
//从Hadoop接口API创建RDD
val spamRDD = ssc.sparkContext.newAPIHadoopRDD(...)
val cleanedDStream = wordCounts.transform { rdd =>
	//用垃圾邮件信息连接数据流进行数据清理	rdd.join(spamRDD).filter( /* code... */)
	// 其它操作...
}

DStream输出算子

print()
saveAsTextFiles(prefix,[suffix])
saveAsObjectFiles(prefix,[suffix])
saveAsHadoopFiles(prefix,[suffix])
foreachRDD(func)
- 接收一个函数，并将该函数作用于DStream每个RDD上
- 函数在Driver节点上执行

输出算子-foreachRDD

//错误
dstream.foreachRDD { rdd =>
	val connection = createNewConnection() // 在driver节点执行
	rdd.foreach { record =>
		connection.send(record) // 在worker节点执行
	}
}

//正确
dstream.foreachRDD { rdd =>
	rdd.foreachPartition { partitionOfRecords =>
		val connection = createNewConnection()
		partitionOfRecords.foreach(record => 	
							connection.send(record))
	}
}

Spark Streaming编程实例（一）

需求：使用Spark Streaming统计HDFS文件的词频
关键代码

val sparkConf = new SparkConf().setAppName("HdfsWordCount").setMaster("local[2]")
val ssc = new StreamingContext(sparkConf, Seconds(2))

// 创建FileInputDStream去读取文件系统上的数据
val lines = ssc.textFileStream("/data/input") //启动后，往该HDFS目录上传文本文件并观察输出
//使用空格进行分割每行记录的字符串
val words = lines.flatMap(_.split(" "))
//类似于RDD的编程，将每个单词赋值为1，并进行合并计算
val wordCounts = words.map(x => (x, 1)).reduceByKey(_ + _)
wordCounts.print()
ssc.start()
ssc.awaitTermination()

Spark Streaming编程实例（二）

使用Spark Streaming处理带状态的数据
- 需求：计算到目前位置累计词频的个数
- 分析：DStream转换操作包括无状态转换换和有状态转换
  - 无状态转换：每个批次的处理不依赖于之前批次的数据
  - 有状态转换：当前批次的处理需要使用之前批次的数据
  - updateStateByKey属于有状态转换，可以跟踪状态的变化
- 实现要点
  - 定义状态：状态数据可以是任意类型
  - 定义状态更新函数：参数为数据流之前的状态和新的数据流数据
- 关键代码StatefulWordCount.scala

//定义状态更新函数
def updateFunction(currentValues: Seq[Int], preValues: Option[Int]): Option[Int] = {
    val curr = currentValues.sum
    val pre = preValues.getOrElse(0)
    Some(curr + pre)
}

val sparkConf = new SparkConf().setAppName("StatefulWordCount").setMaster("local[2]")
val ssc = new StreamingContext(sparkConf, Seconds(5))
ssc.checkpoint(".")
val lines = ssc.socketTextStream("localhost", 6789)
val result = lines.flatMap(_.split(" ")).map((_, 1))
val state = result.updateStateByKey(updateFunction)
state.print()
ssc.start()
ssc.awaitTermination()

在这里插入图片描述

Spark Streaming编程实例（三）

Spark Steaming整合Spark SQL
- 需求：使用Spark Streaming+Spark SQL完成WordCount
- 分析：将每个RDD转换为DataFrame

case class Word(word:String)
val sparkConf = new SparkConf().setAppName("NetworkSQLWordCount").setMaster("local[2]")
val ssc = new StreamingContext(sparkConf, Seconds(5))
val spark=SparkSession.builder.config(sparkConf).getOrCreate()
val lines = ssc.socketTextStream("localhost", 6789)
val result = lines.flatMap(_.split(" "))
result.print()

result.foreachRDD(rdd => {
      if (rdd.count() != 0) {
        import spark.implicits._
        //将RDD转换成DataFrame
        val df = rdd.map(x => Word(x)).toDF
        df.registerTempTable("tb_word")
        spark.sql("select word, count(*) from tb_word group by word").show
      }})
ssc.start()
ssc.awaitTermination()

Spark Streaming高级应用（一）

Spark Streaming整合Flume
- Flume依赖：org.apache.spark:spark-streaming -flume_2.11:2.x.x
- Flume Agent配置文件

#SparkSink——Pull方式：Spark使用Flume接收器从sink中拉取数据
simple-agent.sinks.spark-sink.type=org.apache.spark.streaming.flume.sink.SparkSink
simple-agent.sinks.spark-sink.channel=netcat-memory-channel
simple-agent.sinks.spark-sink.hostname=localhost
simple-agent.sinks.spark-sink.type=41414

Spark Streaming处理Flume数据

//Pull方式关键代码
val flumeStream=FlumeUtils.createPollingStream(ssc,"localhost",41414,StorageLevel.MEMORY_ONLY_SER_2)
flumeStream.map(x=>new String(x.event.getBody.array()).trim).flatMap(_.split(" "))
……

运行方式
- 启动Flume
- 启动Spark Streaming作业
- telne连接44444端口并发送数据

$/opt/flume/bin/flume-ng agent --name simple-agent  \
 --conf-file ./flume_push_streaming.conf -Dflume.root.logger=INFO,console &
$spark-submit  \
 --class cn.kgc.FlumePushWordCount  \
 --jars spark-streaming-flume_2.11-2.3.0.cloudera1.jar,/opt/flume/lib/flume-ng-sdk-1.8.0.jar  \
 ./sparkdemo-1.0-SNAPSHOT.jar localhost 41414
#新开终端进行测试，44444是Flume agent source连接的netcat端口
telnet localhost 44444

Spark Streaming高级应用（二）

Spark Streaming整合Kafka

import org.apache.spark.streaming.kafka010.KafkaUtils
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, LocationStrategies}
val Array(brokers, topics) = args
val sparkConf = new SparkConf().setAppName("DirectKafkaWordCount").setMaster("local[1]")
val ssc = new StreamingContext(sparkConf, Seconds(2))
val topicsSet = topics.split(",").toSet
val kafkaParams = Map[String, String]("bootstrap.servers" -> brokers)
val messages = KafkaUtils.createDirectStream[String, String](ssc,LocationStrategies.PreferConsistent,
      ConsumerStrategies.Subscribe[String, String](topicsSet,kafkaParams))
messages.map(_.value())      	// 取出value
      .flatMap(_.split(" ")) 		// 将字符串使用空格分隔
      .map(word => (word, 1))      // 每个单词映射成一个pair
      .reduceByKey(_+_)  		// 根据每个key进行累加
      .print() 				// 打印前10个数据
ssc.start()
ssc.awaitTermination()

Spark Streaming优化策略

减少批处理时间
- 数据接收并发度
- 数据处理并发度
- 任务启动开销
设置合适的批次间隔
内存调优
- DStream持久化级别
- 清除老数据
- CMS垃圾回收器
- 其他：使用堆外内存持久化RDD

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

大数据

Hadoop

spark

scala

实时大数据

大数据——基于Spark Streaming的流数据处理和分析的相关文章

数量重新分配逻辑 - 具有外部数据集的 MapGroups

我正在研究一种复杂的逻辑需要将数量从一个数据集重新分配到另一个数据集在例子中我们有Owner and Invoice 我们需要从数量中减去Invoice准确地Owner匹配在给定汽车的给定邮政编码处减去的数量需要重新分配回同一辆车出
Sqoop - 绑定到 YARN 队列

因此使用 MapReduce v2 您可以使用绑定到某些 YARN 队列来管理资源和优先级基本上通过使用 hadoop jar xyz jar D mapreduce job queuename QUEUE1 input output
更改 Spark Streaming 中的输出文件名

我正在运行一个 Spark 作业就逻辑而言它的性能非常好但是当我使用 saveAsTextFile 将文件保存在 s3 存储桶中时输出文件的名称格式为 part 00000 part 00001 等有没有办法更改输出文件名谢谢
Spark：导入UTF-8编码的文本文件

我正在尝试处理一个包含很多特殊字符的文件例如德语变音符号 o 等如下所示 sc hadoopConfiguration set textinputformat record delimiter r n r n sc textFile f
Flume将数据从MySQL迁移到Hadoop

请分享您的想法需求是将MySQL db中的数据迁移到Hadoop HBase进行分析数据应该实时或接近实时地迁移 Flume可以支持这个吗有什么更好的方法据我了解 Flume 并不是为此而设计的 Flume 基本上用于读取日志如数
在 Windows 7 64 位中删除 Spark 临时目录时出现异常

我正在尝试在 Windows 7 64 位中运行 Spark 作业的单元测试我有 HADOOP HOME D winutils winutils path D winutils bin winutils exe 我运行了以下命令 winu
Scala 中的条件未来

给定这两个 future 仅当条件为真时我才需要运行第一个 future 请参阅if y gt 2 但我有一个例外Future filter predicate is not satisfied 这是什么意思以及如何修复该示例 object
sh / Bash shell 脚本中 !# (bang-pound) 的含义是什么？

我想了解这个 Scala 脚本是如何工作的 usr bin env bash exec scala 0 object HelloWorld def main args Array String println Hello world arg
Pig 10.0 - 将元组分组并在 foreach 中合并包

我在用着Pig 10 0 我想在 foreach 中合并包假设我有以下内容visitors alias a b 1 2 3 4 a d 1 3 6 a e 7 z b 1 2 3 我想对第一个字段上的元组进行分组并将包与一组语义合并以获
使用spark-sql从oracle加载数据时如何增加默认精度和小数位数

尝试从 oracle 表加载数据其中我有几列保存浮点值有时它最多保存 DecimalType 40 20 即点后 20 位数字目前当我使用加载其列时 var local ora df DataFrameReader ora df l
对于 Scala，“无全局类型推断”是什么意思？

我读过 Scala 的类型推断不是全局的因此人们必须在方法上放置类型注释这会是本地类型推断吗我只知道一点点原因是它面向对象的本质但我不清楚是否有全局类型推断的解释以及为什么 Scala 不能让初学者可以理解 The pr
我可以使用特征中的方法重写 scala 类方法吗？

class PasswordCaseClass val password String trait PasswordTrait self PasswordCaseClass gt override def password blue val
Scala [2.11.6] 编译 Stackoverflow 错误（似乎对迄今为止发现的建议有抵抗力）

scala版本 2 11 6 我当然尝试过clean很多次以及update 不确定是否有clean deeper刷新 jar 库真正奇怪的是这种情况同时发生在两台机器上其中一台在没有执行任何特殊操作的情况下恢复了而另一台仍然没有恢复
Hadoop 推测任务执行

在Google的MapReduce论文中他们有一个备份任务我认为这与Hadoop中的推测任务是一样的推测任务是如何实现的当我启动一项推测任务时该任务是从一开始就作为较旧且缓慢的任务开始还是从较旧的任务到达的位置开始如果是这样
Play 框架：异步与同步性能

我有以下代码 def sync Action val t0 System nanoTime Thread sleep 100 val t1 System nanoTime Ok Elapsed time t1 t0 1000000 0 ms
pyspark.sql.utils.AnalysisException：u'Path不存在

我正在使用标准 hdfs 与 amazon emr 运行 Spark 作业而不是 S3 来存储我的文件我在 hdfs user hive warehouse 有一个配置单元表但当我的 Spark 作业运行时找不到它我配置了 Spar
从 Spark 访问 Hdfs 会出现令牌缓存错误 Can't get Master Kerberosprincipal for use as renewer

我正在尝试运行测试 Spark 脚本以便将 Spark 连接到 hadoop 脚本如下 from pyspark import SparkContext sc SparkContext local Simple App file sc t
使用 Scala Slick 创建组合主键

我正在尝试使用两列作为 Scala Slick 表的主键这是我的表的定义方式 class NbaPlayerBoxScoreTable tag Tag extends Table NbaPlayerBoxScore tag player
从 HDFS 传出文件

我想将文件从 HDFS 传输到另一台服务器的本地文件系统该服务器不在 hadoop 集群中而是在网络中我本可以这样做 hadoop fs copyToLocal
hive 添加分区语句忽略前导零

我在 hdfs 上有文件夹 user test year 2016 month 04 dt 25 000000 0 需要将上面的分区路径添加到test table 命令 ALTER TABLE test ADD IF NOT EXISTS

随机推荐

quartz报错Couldn’t obtain triggers for job:connection closed

运行环境 springboot2 1 1 quarz2 3 0 jdk8 war包运行在tomcat9 11 00 57 624 http nio 8082 exec 2 ERROR c k f w e GlobalExceptionHan
【华为OD统一考试B卷

在线OJ 已购买本专栏用户请私信博主开通账号在线刷题运行出现 Runtime Error 0Aborted 请忽略华为OD统一考试A卷 B卷新题库说明 2023年5月份华为官方已经将的 2022 0223Q 1 2 3 4 统一
Hexo搭建教程

小白搭建教程逢山开路遇水架桥亲测有效在搭建过程中遇到问题也可以看看我这篇博客或许有相似的问题我这里遇到并解决的问题是 npm命令报错没有权限 hexo g命令报错 duplicated mapping key hexo d命令
PC软件崩溃定位方式-windbg

本篇适用于WINDOWS的C C 编译的程序分析不适用于C java程序分析 windbg是微软的工具可以去微软官方搜索下载该工具可以调试exe 也可以导出收集dmp文件用于后续分析当前方式主要应用于启动的瞬间崩溃分析步骤启动
Python实现字符串分隔（华为机试）

目录题目描述题目分析测试用例代码传送门题目描述连续输入两组字符串请按长度为8拆分每个字符串后输出新的字符数组长度不是8整数倍的字符数组请在后面补0 输入输出示例输入 abc 123456789 输出 abc00000
点击按钮时触发防抖

当在React中点击按钮时触发防抖并传递一个ID作为参数你可以使用useRef和useCallback钩子来实现 import React useState useRef useCallback from react const But
802.11 帧格式及类型

1 帧格式下面是802 11帧的组成结构帧总寻此结构从上面的结构可以知道前俩个字节为帧控制字段控制字段的前2bit节为协议类型目前此值为 0 1 控制帧用于竞争期间的握手通信和正向确认结束非竞争期等 2 管理帧主要用于
Altium designer10---PCB添加Logo

安全之安全 security 博客目录导读目录 1 生成bmp后缀的图片画图打开调整大小生成bmp 2 生成PCB Logo PCB Logo Creator 图标生成器 Load加载 Convert转换 3 复制到所制作板子的PC
python基础八:函数

1 函数简介 1 1语法语法 def 函数名形参1 形参2 形参3 代码块函数名调用函数 1 2介绍函数是个对象 function 函数用来保存一些可执行的代码在你需要的时候可以对这些语句进行多次调用函数中保存的代码不会立即执
Sublime Text 4 汉化安装Install Package Mac 安装插件

1 下载安装包Sublime Text 4 官网选择安装包下载下载完成直接打开下载应用程序运行应用程序 2 Sublime Text 4 跳过不需要安装Install Package工具 Text 4 不需要安装Package工具
Description:Web server failed to start. Port 8080 was already in use.

APPLICATION FAILED TO START Description Web server failed to start Port 8080 was already in use Action Identify and stop
顺序表——简单实现（静态数组）

实现基于静态数组的顺序表的以下基本操作 1 初始化 2 尾插 3 尾删 4 头插 5 头删 6 读任意位置元素 7 修改任意位置元素 8 查找指定元素值的下标 9 在任意位置插入元素实现环境 Centos6 5 vim编辑器大体的思路
web前端字体居中_css文字居中怎么弄？

CSS是一种定义样式结构如字体颜色位置等的语言被用于描述网页上的信息格式化和现实的方式下面我们来看一下css设置文字居中的方法 css可以通过为文字所在标签添加text align center样式使文字居中 text align属
git冲突在eclipse、idea、sourceTree上的解决方法

一使用eclipse时情形一用户1编辑A文件并提交用户2未拉取最近代码也编辑A文件产生的冲突用户2未提交本地仓库时 1 进入同步页面注意只有一个向下箭头表示未提交本地仓库 2 拉取远程文件双击冲突文件减去编辑将右侧代码合并
IT实习技能提升第一篇

文章目录前言一 Git 1 基础配置 2 老板让去git上拉取代码 3 更改完代码后上推二 QT使用步骤 1 注册QT账号挺有必要 2 同时运行两个项目总结前言新入职的码农嵌入式软件方向提示以下是本篇文章正文内容下面案例
IOS小白入门指南

加入ios 项目已经一个多月了本篇文章主要介绍IOS开发入门的一些基础知识帮助想学习iOS开发的人更有效率地学习目录需要的计算机基础开发语言选择 IOS两种开发语言的异同 Objective C和swift的相同点二者的不同点
关于webview加载网页，返回后总是刷新页面问题解决

最近用webview发现返回上个页面总是又自动刷新页面我的需求是进入下页的时候不用缓存而返回上个页面的时候不要刷新页面回到顶部要保持在原来页面进入下页的位置首先来了解一下webview加载网页的几个模式即websetting中设置
【AI视野·今日CV 计算机视觉论文速览第211期】Wed, 2 Jun 2021

AI视野今日CS CV 计算机视觉论文速览 Wed 2 Jun 2021 Totally 63 papers 上期速览更多精彩请移步主页 Interesting YOLOS You Only Look at One Sequence 纯
冲击python二级——python的安装，IDLE的一般操作，PIP包管理使用,变量基础

现在大部分的教程都会要求直接安装Anaconda 和Pycharm 虽然pycharm是非常优秀的python IDE生产工具但是对于新手来说配置比较繁琐并不友好而且国考计算机二级只能用python自带的idle 用pip包管理安
大数据——基于Spark Streaming的流数据处理和分析

基于Spark Streaming的流数据处理和分析流是什么为什么需要流处理流处理应用场景如何进行流处理 Spark Streaming简介 Spark Streaming流数据处理架构 Spark Streaming内部工作流程

大数据——基于Spark Streaming的流数据处理和分析

基于Spark Streaming的流数据处理和分析

流是什么

为什么需要流处理

流处理应用场景

如何进行流处理

Spark Streaming简介

Spark Streaming流数据处理架构

Spark Streaming内部工作流程

StreamingContext

Spark Streaming快速入门

DStream

Input DStreams与接收器（Receivers）

内建流式数据源

DStream支持的转换算子

转换算子-transform

DStream输出算子

输出算子-foreachRDD

Spark Streaming编程实例（一）

Spark Streaming编程实例（二）

Spark Streaming编程实例（三）

Spark Streaming高级应用（一）

Spark Streaming高级应用（二）

Spark Streaming优化策略

大数据——基于Spark Streaming的流数据处理和分析 的相关文章

随机推荐

热门标签

大数据——基于Spark Streaming的流数据处理和分析的相关文章