【Spark编程基础】实验5 Spark Structured Streaming编程实践

2023-10-27

实验5 Spark Structured Streaming编程实践

实验内容和要求

0.结构化流练习任务

0.1 讲义文件源-json数据任务。按照讲义中json数据的生成及分析，复现实验，并适当分析。

（1）创建程序生成JSON格式的File源测试数据
- （讲义1000个，本实验只生成200个）

import os
import shutil
import random
import time
TEST_DATA_TEMP_DIR = '/tmp/'
TEST_DATA_DIR = '/tmp/testdata/'
 
ACTION_DEF = ['login', 'logout', 'purchase']
DISTRICT_DEF = ['fujian', 'beijing', 'shanghai', 'guangzhou']
JSON_LINE_PATTERN = '{{"eventTime": {}, "action": "{}", "district": "{}"}}\n‘

# 测试的环境搭建，判断文件夹是否存在，如果存在则删除旧数据，并建立文件夹
def test_setUp():
    if os.path.exists(TEST_DATA_DIR):
        shutil.rmtree(TEST_DATA_DIR, ignore_errors=True)
    os.mkdir(TEST_DATA_DIR) 
# 测试环境的恢复，对文件夹进行清理
def test_tearDown():
    if os.path.exists(TEST_DATA_DIR):
        shutil.rmtree(TEST_DATA_DIR, ignore_errors=True)
 
 
# 生成测试文件
def write_and_move(filename, data):
    with open(TEST_DATA_TEMP_DIR + filename,
              "wt", encoding="utf-8") as f:
        f.write(data)
 
    shutil.move(TEST_DATA_TEMP_DIR + filename,
                TEST_DATA_DIR + filename)
 

if __name__ == "__main__":
    test_setUp()
 	# 这里生成200个文件
    for i in range(200):
        filename = 'e-mall-{}.json'.format(i)
 
        content = ''
        rndcount = list(range(100))
        random.shuffle(rndcount)
        for _ in rndcount:
            content += JSON_LINE_PATTERN.format(
                str(int(time.time())),
                random.choice(ACTION_DEF),
                random	.choice(DISTRICT_DEF))
        write_and_move(filename, content)
 
        time.sleep(1)

在这里插入图片描述

（2）创建程序对数据进行统计

# 导入需要用到的模块
import os
import shutil
from pprint import pprint
 
from pyspark.sql import SparkSession
from pyspark.sql.functions import window, asc
from pyspark.sql.types import StructType, StructField
from pyspark.sql.types import TimestampType, StringType
# 定义JSON文件的路径常量（此为本地路径）
TEST_DATA_DIR_SPARK = '/tmp/testdata/'
if __name__ == "__main__":
    # 定义模式，为时间戳类型的eventTime、字符串类型的操作和省份组成
    schema = StructType([
        StructField("eventTime", TimestampType(), True),
        StructField("action", StringType(), True),
        StructField("district", StringType(), True)])
 
    spark = SparkSession \
        .builder \
        .appName("StructuredEMallPurchaseCount") \
        .getOrCreate()
 
    spark.sparkContext.setLogLevel('WARN')
    lines = spark \
        .readStream \
        .format("json") \
        .schema(schema) \
        .option("maxFilesPerTrigger", 100) \
        .load(TEST_DATA_DIR_SPARK)
 
    # 定义窗口
    windowDuration = '1 minutes'
 
    windowedCounts = lines \
        .filter("action = 'purchase'") \
        .groupBy('district', window('eventTime', windowDuration)) \
        .count() \
        .sort(asc('window')) 
	query = windowedCounts \
        .writeStream \
        .outputMode("complete") \
        .format("console") \
        .option('truncate', 'false') \
        .trigger(processingTime="10 seconds") \
        .start()
 
    query.awaitTermination()

（3）测试运行程序

0.2 讲义kafka源，2字母单词分析任务按照讲义要求，复现kafka源实验。

1. 安装kafka
- 下载安装zookeeper（新版kafka自带）
  - 下载地址：https://archive.apache.org/dist/zookeeper/
  - 安装路径：/usr/lcoal/zookeeper
- 下载安装kafka
  - 下载地址：https://kafka.apache.org/downloads
  - 解压安装路径：/usr/local/kafka
  - （idea运行大概率会报错，解决方法：）在idea终端执行命令：pip install python-kafka
1. 启动Kafka
- 在Linux系统中新建一个终端（记作“Zookeeper终端”），输入下面命令启动Zookeeper服务：
  - cd /usr/local/kafka
  - ./bin/zookeeper-server-start.sh config/zookeeper.properties
- 新建第二个终端（记作“Kafka终端”），然后输入下面命令启动Kafka服务：
  - cd /usr/local/kafka
  - ./bin/kafka-server-start.sh config/server.properties
- 新建第三个终端（记作“监控输入终端”），执行如下命令监控Kafka收到的文本：
  - cd /usr/local/kafka
  - ./bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic wordcount-topic
- 新建第四个终端（记作“监控输出终端”），执行如下命令监控输出的结果文本：
  - cd /usr/local/kafka
  - ./bin/kafka-console-consumer.sh --bootstrap-server localhost:9092 --topic wordcount-result-topic
1. 编写生产者（Producer）程序

# spark_ss_kafka_producer.py

import string
import random
import time
 
from kafka import KafkaProducer
 
if __name__ == "__main__":
    producer = KafkaProducer(bootstrap_servers=['localhost:9092'])
 
    while True:
        s2 = (random.choice(string.ascii_lowercase) for _ in range(2))
        word = ''.join(s2)
        value = bytearray(word, 'utf-8')
 
        producer.send('wordcount-topic', value=value) \
            .get(timeout=10)
 
        time.sleep(0.1)

1. 编写消费者（Consumer）程序

# spark_ss_kafka_consumer.py

from pyspark.sql import SparkSession
 
if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("StructuredKafkaWordCount") \
        .getOrCreate()
 
    spark.sparkContext.setLogLevel('WARN') 
 
    lines = spark \
        .readStream \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "localhost:9092") \
        .option("subscribe", 'wordcount-topic') \
        .load() \
        .selectExpr("CAST(value AS STRING)")
 
    wordCounts = lines.groupBy("value").count()
  
    query = wordCounts \
        .selectExpr("CAST(value AS STRING) as key", "CONCAT(CAST(value AS STRING), ':', CAST(count AS STRING)) as value") \
        .writeStream \
        .outputMode("complete") \
        .format("kafka") \
        .option("kafka.bootstrap.servers", "localhost:9092") \
        .option("topic", "wordcount-result-topic") \
        .option("checkpointLocation", "file:///tmp/kafka-sink-cp") \
        .trigger(processingTime="8 seconds") \
        .start()
 
    query.awaitTermination()

在终端中执行运行消费者程序：

0.3 讲义socket源，结构化流实现词频统计。按照讲义要求，复现socket源实验。

编写文件：StructuredNetworkWordCount.py：

# StructuredNetworkWordCount.py

# 步骤1：导入pyspark模块
from pyspark.sql import SparkSession
from pyspark.sql.functions import split
from pyspark.sql.functions import explode

# 步骤2：创建SparkSession对象
# 创建一个SparkSession对象，代码如下：
if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("StructuredNetworkWordCount") \
        .getOrCreate()
 
    spark.sparkContext.setLogLevel('WARN')

# 步骤3：创建输入数据源
# 创建一个输入数据源，从“监听在本机（localhost）的9999端口上的服务”那里接收文本数据，具体语句如下：
    lines = spark \
        .readStream \
        .format("socket") \
        .option("host", "localhost") \
        .option("port", 9999) \
        .load()

# 步骤4：定义流计算过程
# 有了输入数据源以后，接着需要定义相关的查询语句，具体如下：
    words = lines.select(
        explode(
            split(lines.value, " ")
        ).alias("word")
    )
    wordCounts = words.groupBy("word").count()

# 步骤5：启动流计算并输出结果
# 定义完查询语句后，下面就可以开始真正执行流计算，具体语句如下：
    query = wordCounts \
        .writeStream \
        .outputMode("complete") \
        .format("console") \
        .trigger(processingTime="8 seconds") \
        .start()
 
    query.awaitTermination()

启动hadoop：
- cd /opt/module/hadoop
- ./sbin/start-dfs.sh
新建一个终端（记作“数据源终端”）：
- nc -lk 9999
再新建一个终端（记作“流计算终端”）【idea运行会强制退出 ( - _ - !) _】：
- cd ~/IdeaProjects/sparkSql/
- /opt/module/spark/bin/spark-submit StructuredNetworkWordCount.py
在“数据源终端”内用键盘不断敲入一行行英文语句：

在这里插入图片描述

0.4（不选）使用rate源，评估系统性能。

代码文件spark_ss_rate.py

# spark_ss_rate.py
 
from pyspark.sql import SparkSession
 
 
if __name__ == "__main__":
    spark = SparkSession \
        .builder \
        .appName("TestRateStreamSource") \
        .getOrCreate()
 
    spark.sparkContext.setLogLevel('WARN')
 
    lines = spark \
        .readStream \
        .format("rate") \
        .option('rowsPerSecond', 5) \
        .load()
 
    print(lines.schema)
 
    query = lines \
        .writeStream \
        .outputMode("update") \
        .format("console") \
        .option('truncate', 'false') \
        .start()
 
    query.awaitTermination()

在Linux终端中执行spark_ss_rate.py

1.日志分析任务

1.1通过Socket传送Syslog到Spark日志分析是一个大数据分析中较为常见的场景。

实验原理：
- 在Unix类操作系统里，Syslog广泛被应用于系统或者应用的日志记录中。
- Syslog通常被记录在本地文件内，比如Ubuntu内为/var/log/syslog文件名，也可以被发送给远程Syslog服务器。
- Syslog日志内一般包括产生日志的时间、主机名、程序模块、进程名、进程ID、严重性和日志内容。
- 日志一般会通过Kafka等有容错保障的源发送，本实验为了简化，直接将Syslog通过Socket源发送。
实验过程：
- 新建一个终端，执行如下命令：
- tail -n+1 -f /var/log/syslog | nc -lk 9988“tail -n+1 -f /var/log/syslog”
  - 表示从第一行开始打印文件syslog的内容
  - “-f”表示如果文件有增加则持续输出最新的内容。
- 然后，通过管道把文件内容发送到nc程序（nc程序可以进一步把数据发送给Spark）。
- 如果/var/log/syslog内的内容增长速度较慢，可以再新开一个终端（计作“手动发送日志终端”），手动在终端输入如下内容来增加日志信息到/var/log/syslog内：
- logger ‘I am a test error log message.

from pyspark import SparkContext
from pyspark.streaming import StreamingContext

# 创建SparkContext和StreamingContext
sc = SparkContext(appName="SyslogAnalysis")
ssc = StreamingContext(sc, 1)

# 创建一个DStream，接收来自Socket的数据流
lines = ssc.socketTextStream("localhost", 9988)

# 在数据流上应用转换和操作
word_counts = lines.flatMap(lambda line: line.split(" ")) \
                   .map(lambda word: (word, 1)) \
                   .reduceByKey(lambda x, y: x + y)

# 输出结果到控制台
word_counts.pprint()

# 启动StreamingContext
ssc.start()
ssc.awaitTermination()

在这里插入图片描述

1.2对Syslog进行查询

由Spark接收nc程序发送过来的日志信息，然后完成以下任务：
- 统计CRON这个进程每小时生成的日志数，并以时间顺序排列，水印设置为1分钟。
- 统计每小时的每个进程或者服务分别产生的日志总数，水印设置为1分钟。
- 输出所有日志内容带error的日志。

from pyspark.sql.functions import window
from pyspark.sql import SparkSession
from pyspark.sql.functions import col
from pyspark.sql.types import StructType, StructField, StringType, TimestampType

# 创建SparkSession
spark = SparkSession.builder \
    .appName("LogAnalysis") \
    .getOrCreate()

# 定义日志数据的模式
schema = StructType([
    StructField("timestamp", TimestampType(), True),
    StructField("message", StringType(), True)
])

# 从socket接收日志数据流
logs = spark.readStream \
    .format("socket") \
    .option("host", "localhost") \
    .option("port", 9988) \
    .load()

# 将接收到的日志数据流应用模式
logs = logs.selectExpr("CAST(value AS STRING)") \
    .selectExpr("to_timestamp(value, 'yyyy-MM-dd HH:mm:ss') AS timestamp", "value AS message") \
    .select(col("timestamp"), col("message").alias("log_message"))

# 统计CRON进程每小时生成的日志数，并按时间顺序排列
cron_logs = logs.filter(col("log_message").contains("CRON")) \
    .groupBy(window("timestamp", "1 hour")) \
    .count() \
    .orderBy("window")

# 统计每小时每个进程或服务产生的日志总数
service_logs = logs.groupBy(window("timestamp", "1 hour"), "log_message") \
    .count() \
    .orderBy("window")

# 输出所有带有"error"的日志内容
error_logs = logs.filter(col("log_message").contains("error"))

# 设置水印为1分钟
cron_logs = cron_logs.withWatermark("window", "1 minute")
service_logs = service_logs.withWatermark("window", "1 minute")
error_logs = error_logs.withWatermark("timestamp", "1 minute")

# 启动流式处理并输出结果
query_cron_logs = cron_logs.writeStream \
    .outputMode("complete") \
    .format("console") \
    .start()

query_service_logs = service_logs.writeStream \
    .outputMode("complete") \
    .format("console") \
    .start()

query_error_logs = error_logs.writeStream \
    .outputMode("append") \
    .format("console") \
    .start()

# 等待流式处理完成
query_cron_logs.awaitTermination()
query_service_logs.awaitTermination()
query_error_logs.awaitTermination()

在这里插入图片描述

2.股市分析任务（进阶任务）

数据集采用dj30数据集，见教学平台。
实验说明：
- 本实验将使用两个移动均线策略，短期移动均线为10天，长期移动均线为40天。
- 当短期移动均线越过长期移动均线时，这是一个买入信号，因为它表明趋势正在向上移动。这就是所谓的黄金交叉。
- 同时，当短期移动均线穿过长期移动均线下方时，这是一个卖出信号，因为它表明趋势正在向下移动。这就是所谓的死亡交叉。
- 两种叉形如下图所示:dj30.csv包含了道琼斯工业平均指数25年的价格历史。
实验要求：
- 1.设置流以将数据输入structed streaming。
- 2.使用structed streaming窗口累计 dj30sum和dj30ct，分别为价格的总和和计数。
- 3.将这两个structed streaming (dj30sum和dj30ct)分开产生dj30avg，从而创建10天MA和40天MA的移动平均值。
- 4.比较两个移动平均线(短期移动平均线和长期移动平均线)来指示买入和卖出信号。
  - 您的输出[dj30-feeder只有一个符号的数据:DJI，这是隐含的。
  - 这个问题的输出将是[(<日期>买入DJI)，(<日期>卖出DJI)，等等]。
  - 应该是[(<日期>买入<符号>)，(<日期>卖出<符号>)，等等]的形式。

1.设置流以将数据输入structed streaming。

使用pandas进行数据处理

import pandas as pd

# 读取数据文件
data = pd.read_csv('/usr/local/data/dj30.csv')

# 选择需要的列
selected_data = data[['Long Date', 'Close']]

# 输出数据到控制台
print(selected_data)

# 保存数据到文件
selected_data.to_csv('/usr/local/data/dj.csv', index=False)

设置流以将数据输入structed streaming

from pyspark.sql import SparkSession
from pyspark.sql.functions import *
from pyspark.sql.types import *

# 创建SparkSession
spark = SparkSession.builder \
    .appName("StructuredStreamingExample") \
    .getOrCreate()

# 定义数据模式
schema = StructType([
    StructField("Long Date", StringType()),
    StructField("Close", DoubleType())
])

# 读取数据流
data_stream = spark.readStream \
    .format("csv") \
    .option("header", True) \
    .schema(schema) \
    .load("/usr/local/dj30.csv")

# 处理数据流
processed_stream = data_stream.select("Long Date", "Close")

# 输出到控制台
query = processed_stream.writeStream \
    .format("console") \
    .outputMode("append") \
    .start()

# 等待流处理完成
query.awaitTermination()

2.使用structed streaming窗口累计 dj30sum和dj30ct，分别为价格的总和和计数

3.将这两个structed streaming (dj30sum和dj30ct)分开产生dj30avg，从而创建10天MA和40天MA的移动平均值

4.比较两个移动平均线(短期移动平均线和长期移动平均线)来指示买入和卖出信号。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

作业分享交流

spark

大数据

分布式

【Spark编程基础】实验5 Spark Structured Streaming编程实践的相关文章

vue如何实现按下回车键登录

vue如何实现按下回车键登录先上效果图回车键的键值是13 这样思路就清晰了只需一个简单的if判断再调用登录事件的方法就OK了上代码 mounted var that this document onkeydown gt var ke
刷脸支付不用排队体验好效率高

便利店收银台上摆着一台支付宝的刷脸支付设备通体数码白色的纤细支架举着一个 iPad 大小的屏幕大屏上方两个黑色的小眼睛就是用来拍摄人脸的摄像头眼睛屏幕以及刷脸支付的物料一起鼓动着消费者来尝试这个颇具未来感的新支付方式点击刷脸

随机推荐

MapReduce程序样例

public class MovieClass public class MovieMapper extends Mapper
路由器数据转发过程

路由器转发IP报文的依据是路由表通过匹配路由表里的路由项来实现对IP报文的转发如图1所示当路由器收到一个IP报文的时候将报文中的目的IP地址提取出来然后与路由表中路由表项包含的目的地址进行比较如果与某路由项中的目的地址相同则认
numpy的numpy.delete()/insert()/append()函数

1 numpy delete arr obj axis None arr 输入向量 obj 表明哪一个子向量应该被移除可以为整数或一个int型的向量 axis 表明删除哪个轴的子向量若默认则返回一个被拉平的向量 a np array
判断某个数组是否包含另外一个数组

关键方法 allMatch allmatch用法简述方法allMatch Predicate p 传入一个断言型函数对流中所有的元素进行判断如果都满足返回true 否则返回false 使用allmatch判断一个数组是否包含另一个数
DNS服务器和辅助服务器的搭建

搭建的环境要求管理域 joker cn 规划一台主域名服务器 master 另一台辅助域名服务器 slave 主服务器的主机名为 joker cn IP地址为192 168 23 10 辅助域名服务器IP地址为 192 168 23 10
【娱乐大闯关】C语言实现初级迷宫小游戏

文章目录 1 头文件 2 地图编写 3 定位操作 4 定义颜色 5 输出提示框 6 输出提示信息 7 游戏人物打印 8 游戏地图打印 9 人物移动操作 10 主函数 11 执行结果今天我们来看看编程版的小迷宫本文重在了解C语言中定位
【华为OD机试真题python】上班之路【 2023 Q1 A卷

华为OD机试题目列表 2023Q1 点这里 2023华为OD机试刷题指南点这里题目描述 Jungle 生活在美丽的蓝鲸城大马路都是方方正正但是每天马路的封闭情况都不一样地图由以下元素组成 1 空地可以达到 2 路障不可达到
MySQL命令use：使用数据库

use命令可以让我们来使用数据库 use命令格式 use lt 数据库名 gt 例如如果xhkdb数据库存在尝试存取它 mysql gt use xhkdb 屏幕提示 Database changed 1 use 语句可以通告MySQL
物理内存和虚拟内存

1 概念物理内存真实的硬件设备内存条虚拟内存利用磁盘空间虚拟出的一块逻辑内存用作虚拟内存的磁盘空间被称为交换空间 Swap Space 为了满足物理内存的不足而提出的策略在很久以前还没有虚拟内存概念的时候程序寻址用的都是物
Linux vim操作

匹配特定字符串命令模式下字符串匹配完后按n匹配下一处 N匹配上一处跳到某行命令模式下数字 gg 数字 G
`算法题解` `AcWing` 4605. 最大周长

题目链接相同的题题解前提知识多边形凸多边形前提知识笛卡尔坐标系边长与边权曼哈顿距离欧几里得距离外接矩形注意题中图里的第三个图形他是多边形因为他的边是直的但是此时他已远不止4个点而我们要求的是根据4个顶点
Mybatis通用Mapper（tk.mybatis）的使用

一前言使用Mybatis的开发者大多数都会遇到一个问题就是要写大量的SQL在xml文件中除了特殊的业务逻辑SQL之外还有大量结构类似的增删改查SQL 而且当数据库表结构改动时对应的所有SQL以及实体类都需要更改这工作量和效
小明买了一箱n个苹果，很不幸的是买完时箱子里混进了一条虫子。虫子每x小时能吃掉一个苹果，假设虫子在吃完一个苹果之前不会吃另一个，那么经过y小时你还有多少个完整的苹果？

题目描述小明买了一箱n个苹果很不幸的是买完时箱子里混进了一条虫子虫子每x小时能吃掉一个苹果假设虫子在吃完一个苹果之前不会吃另一个那么经过y小时你还有多少个完整的苹果输入仅一行包括n x和y 均为整数之间用空格分隔输出仅
[网络安全自学篇] 四十五.病毒详解及批处理病毒原理分析（自启动、修改密码、定时关机、蓝屏、进程关闭）

这是作者的网络安全自学教程系列主要是关于安全工具和实践操作的在线笔记特分享出来与博友们学习希望您们喜欢一起进步前文分享了Windows远程桌面服务漏洞 CVE 2019 0708 并详细讲解该漏洞及防御措施这篇文章将讲解简单的病
SpringBoot集成mybatis

mybatis plus configuration 设成true则DO模型字段命名必须采用驼峰方式 map underscore to camel case false log impl org apache ibatis logging
C# VLC播放器

第一步 NuGet安装 Vlc 第二步窗体里添加vlc控件第三步添加VlcLibDirectoryNeeded事件事件代码 private void vlcControl1 VlcLibDirectoryNeeded object
成为一名Java架构师都需要掌握哪些技术

成为一名Java架构师都需要掌握哪些技术 Java架构师首先要是一个高级Java攻城狮熟练使用各种框架并知道它们实现的原理 jvm虚拟机原理调优懂得jvm能让你写出性能更好的代码池技术什么对象池连接池线程池 Java构架
【计算机网络】湖科大微课堂笔记 p47-49 IPv4地址的应用规划、IP数据报的发送和转发过程、静态路由配置及其可能产生的路由环路问题

文章目录 IPv4地址的应用规划小结 IP数据报的发送和转发过程小结一些例题静态路由配置及其可能产生的路由环路问题小结 IPv4地址的应用规划定长的子网掩码FLSM 变长的子网掩码VLSM 定长的子网掩码FLSM 举例说明注意
公开数据及贝叶斯网络_贝叶斯网络(Bayesian Network)可视化

一起读数据贝叶斯网络 1 贝叶斯网络简介贝叶斯网络是有向无环图的一种概率图模型它在1988年由图灵奖得主Judea Pearl提出主要用于不确定性表达和推理有向无环图由节点和边组成每条边代表了节点间的相互关系在贝叶斯网络中一
【Spark编程基础】实验5 Spark Structured Streaming编程实践

实验5 Spark Structured Streaming编程实践实验内容和要求 0 结构化流练习任务 0 1 讲义文件源 json数据任务按照讲义中json数据的生成及分析复现实验并适当分析 1 创建程序生成JSON格式的Fil

【Spark编程基础】实验5 Spark Structured Streaming编程实践

实验5 Spark Structured Streaming编程实践

实验内容和要求

0.结构化流练习任务

1.日志分析任务

2.股市分析任务（进阶任务）

【Spark编程基础】实验5 Spark Structured Streaming编程实践 的相关文章

随机推荐

热门标签

【Spark编程基础】实验5 Spark Structured Streaming编程实践的相关文章