Spark课程设计——电影推荐系统

2023-11-16

题目所需数据集及相应信息描述：
数据集：
1、用户评分数据集ratings.dat:包含了大量用户的历史评分数据。
2、样本评分数据集personalRatings.dat:包含了少数几个用户的个性化评分数据，这些数据反映了某个用户的个性化观影喜好。
3、电影数据集movies.dat:包含了每部电影的相关信息。
注意：
之后依次使用数据集1~3表示上述数据集
数据集结构如下：
1、用户ID::电影ID::评分::时间戳
2、用户ID::电影ID::评分::时间戳
3、电影ID::电影名称::电影类型

(1)movies.dat数据集部分展示：
在这里插入图片描述
（2）ratings.dat数据集部分展示：

题目要求：
1、根据数据集3，计算每年发行电影的数量，并进行可视化(柱状图)。
2、根据数据集1，计算每部电影的平均分，并进行可视化(柱状图)。
3、根据数据集1，将电影评分离散化，[0,2)为差,[2-4)为良好,[4-5)为优秀，并进行可视化（饼图）。
4、根据数据集3，统计每种类型电影的数量（若一个电影有多个分类，选择第一个），并进行可视化(饼图)。
5、根据数据集1、2，自行挑选用户（用户id），使用协同过滤算法为其推荐十部电影，无需可视化，只需运行结果。

实验思路及代码：

（1）第一小题思路（流程图）：
在这里插入图片描述
代码：

//计算每年发行电影的数量
 val rdd1 = sc.textFile("C:/Users/ch/Desktop/大学/大三阶段/spark/spark实验/课程设计/题目/实验数据集/movies.txt")
//先将每行元素按照::进行分割，然后取出包含年份的那个字段
 val rdd2 = rdd1.map(line=>line.split("::")(1))
//获取年份（使用两次反转）
 val rdd3 = rdd2.map(line=>line.reverse.take(5))
 val rdd4 = rdd3.map(line=>line.reverse.take(4))
//计算每年发行电影的数量
val rdd_result = rdd4.map(word=>(word,1)).reduceByKey(_+_)
//进行格式化
val rdd_show = rdd_result.map(line=>line._1+"年，有"+line._2+"份电影")
//将结果输出到文件夹当中
rdd_show.saveAsTextFile("C:/Users/ch/Desktop/大学/大三阶段/spark/spark实验/课程设计/题目/实验数据集/Test1")

结果展示：
在这里插入图片描述

（2）第二小题思路
在这里插入图片描述
代码：

//提取每个电影以及对应的评分，形成一个元组
val rdd3_2 = rdd3_1.map(line=>(line.split("::")(1),line.split("::")(2).toInt))
//对应rdd3_2的value进行操作，key不动
val rdd3_3 = rdd3_2.mapValues(x=>(x,1))
//将相同的电影的评分进行求平均
val rdd3_4 = rdd3_3.reduceByKey((x,y)=>(x._1+y._1,x._2+y._2)).mapValues(x=>x._1/x._2)
//将结果进行保存
rdd3_4.saveAsTextFile("C:/Users/ch/Desktop/大学/大三阶段/spark/spark实验/课程设计/题目/实验数据集/Test3")

结果展示：
在这里插入图片描述

（3）第三小题思路
在这里插入图片描述
代码：

//读取数据
val rdd2_1 = sc.textFile("C:/Users/ch/Desktop/大学/大三阶段/spark/spark实验/课程设计/题目/实验数据集/ratings.txt")
//获取评分 
val rdd2_2 = rdd2_1.map(line=>line.split("::")(2))
//将评分转化为整数
val rdd2_3 = rdd2_2.map(line=>line.toInt)
//对评分进行离散化
val rdd2_4 = rdd2_3.map(line=>if (line>=0&&line<2) "差" else if(line>=2&&line<4) "良好" else if(line>=4&&line<=5) "优秀")
//将结果进行统计
 val rdd2_5 = rdd2_4.map(line=>(line,1)).reduceByKey(_+_)
//将结果进行展示
rdd2_5.foreach(println)

结果展示：
在这里插入图片描述

（4）第四小题思路：
在这里插入图片描述
代码：

//对movies数据集进行读取
val rdd4_1 = sc.textFile("C:/Users/ch/Desktop/大学/大三阶段/spark/spark实验/课程设计/题目/实验数据集/movies.txt")
//转换成只包含类型数据的RDD
 val rdd4_2 = rdd4_1.map(line=>line.split("::")(2))
//当遇到一个电影有多个类型的时候只选取其中第一个类型
val rdd4_3 = rdd4_2.map(line=>line.split(",")(0))
//统计每种类型电影的数量
 val rdd4_4 = rdd4_3.map(line=>(line,1)).reduceByKey(_+_)
//将数据保存
 rdd4_4.saveAsTextFile("C:/Users/ch/Desktop/大学/大三阶段/spark/spark实验/课程设计/题目/实验数据集/Test4")

结果展示：
在这里插入图片描述

（5）第五小题思路：
在这里插入图片描述
代码：

//导入文件生成RDD
val rdd5_1 = sc.textFile("C:/Users/ch/Desktop/大学/大三阶段/spark/spark实验/课程设计/题目/实验数据集/ratings.txt"
)
//定义样例类，用来隐式转换
case class Rating(userId:Int,movieId:Int,rating:Float,timestamp:Long)
//反射机制推断RDD来生成DataFrame
val rdd5_2 = rdd5_1.map(line=>Rating(line.split("::")(0).toInt,line.split("::")(1).toInt,line.split("::")(2).toFloat,line.split("::")(3).toLong)).toDF()
//将数据集按4：1划分成训练集和测试集
val Array(train,test) = rdd5_2.randomSplit(Array(0.8,0.2))
//创建model
val model = new ALS().setMaxIter(10).setRegParam(0.03).setUserCol("userId").setItemCol("movieId").setRatingCol("rating")
//训练生成模型
val train_model = model.fit(train)
//模型进行测试
val test_rdd = train_model.transform(test)
//注册为临时表
test_rdd.createOrReplaceTempView("result")
//查找用户id为1的
val result_rdd = spark.sql("select userId,movieId,prediction as rating from result where userId=1")
//按照rating进行降序排列
result_rdd.sort(result_rdd("rating").desc).show()
//读取movies文件
 val movie_rdd = sc.textFile("C:/Users/ch/Desktop/大学/大三阶段/spark/spark实验/课程设计/题目/实验数据集/movies.tx
t")
//创建样例类进行隐式转换
 case class Movie(movieId:Int,name:String,movieType:String)
val movie_DF = movie_rdd.map(line=>Movie(line.split("::")(0).toInt,line.split("::")(1),line.split("::")(2))).toDF()
//将用户表进行注册
val user_movie = result_rdd.sort(result_rdd("rating").desc)
//注册为临时表
movie_DF.createOrReplaceTempView("movie")
user_movie.createOrReplaceTempView("user")
//两张表进行关联
scala> val result = spark.sql("select movieId,name from movie where movieId = 1287 or movieId=1035 or movieId=3105 or movieId=2355 or movieId=150 or movieId=1 or movieId=1961 or movieId=1028 or movieId=1029 or movieId=1270")
//结果展示(为用户1推荐的电影)
result.map(line=>"MovieId:"+line(0)+","+"MovieName:"+line(1)).show()
result.map(line=>"MovieName:"+line(1)).show()
result.show()

结果展示：
在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Spark课程设计——电影推荐系统的相关文章

如何通过谓词将序列分成两部分？

如何通过谓词将序列拆分为两个列表替代方案我可以使用filter and filterNot 或者编写我自己的方法但是没有更好的更通用内置方法吗通过使用partition方法 scala gt List 1 2 3 4 parti
Spark JDBC 仅返回带有列名的数据帧

我正在尝试使用 Spark JDBC 连接到 HiveTable 代码如下 val df spark read format jdbc option driver org apache hive jdbc HiveDriver option
如何在play 2.0模板中格式化数字/日期？

我在使用 play 2 0 模板系统时遇到了一些困难我有一个方法返回 scala 中的 Int 我想使用模式对其进行格式化我努力了 order itemCount format and order item count format
如何使用 Scala 调度获取 301 重定向中返回的 URL？

我正在使用斯卡拉dispatch http dispatch databinder net Dispatch htmlHTTP 库版本 0 10 1 我向返回 HTTP 301 永久重定向的 URL 发出请求例如 http wikipe
Scala - 获取给定年份的所有月份和日期

我需要创建一个函数以字符串日期三元组年月日的形式返回给定年份的所有日期的序列 def allDaysForYear year String get every month and day for that year 然后我会这样使
如何在使用 Json4s 序列化期间重命名字段？

如何轻松重命名 json4s 中的字段名称从他们的文档中我尝试了以下代码片段但它似乎没有重命名serial字段到id case class Person serial Int firstName String val rename F
带尖括号 (<>) 的方法

方法名称中是否可以有尖括号例如 class Foo ind1 Int ind2 Int var v new Foo 1 2 v 1 3 updates ind1 v lt 1 gt 4 updates ind2 真实情况显然比这更复杂我
使用 vs code，如何让 scala 格式工作并格式化我的代码？

我的多项目 sbt 存储库中有 scala 格式插件 addSbtPlugin org scalameta sbt scalafmt 2 3 2 所以在 sbt 控制台中如果我运行 scalafmt 它工作正常我的 build sbt 有
Scala 中的多个类型下限

我注意到tuple productIterator总是返回一个Iterator Any 想知道是否无法设置多个下限因此它可能是最低公共超类型的迭代器我尝试并搜索了一下但只发现this https stackoverflow com q
如何使用 Apache Livy 设置 Spark 配置属性？

我不知道在向 Apache Livy 提交 Spark 作业时如何以编程方式传递 SparkSession 参数这是测试 Spark 作业 class Test extends Job Int override def call jc J
计算行的排名

我想根据一个字段对用户 ID 进行排名对于相同的字段值排名应该相同该数据位于 Hive 表中 e g user value a 5 b 10 c 5 d 6 Rank a 1 c 1 d 3 b 4 我怎样才能做到这一点可以使用ra
在 Spark Dataframe 中提取数组索引

我有一个带有数组类型列的数据框例如 val df List a Array 1d 2d 3d b Array 4d 5d 6d toDF ID DATA df org apache spark sql DataFrame ID strin
将元组划分为多个元组的类型安全方法

我们有一个特征除其他外还包含execute T lt Record Seq Session gt T Seq T 方法其中Record是我们从数据库中检索的所有特征的超级特征 trait DbTrait val threadCount
Scala 如何将 Map 转换为元组的可变参数？

在 Scala Play 2 2 x 测试的背景下我有一个Map String String 我需要将其传递给接受的函数 String String 即一个可变参数 String String tuple e g val data Map
演员邮箱溢出。斯卡拉

我目前正在与 scala 的两位演员合作一 producer 产生一些数据并将其发送到parcer 生产者发送一个HashMap String HashMap Object List Int 通过消息以及this标记发件人 parcer
结构化 scala 案例类的自定义 json 序列化

我有一些用于往返 scala 案例类的工作 jackson scala 模块代码 Jackson 对于平面案例类非常有用但是当我制作一个包含其他案例类列表的案例时我似乎需要很多代码考虑 abstract class Message c
案例类和案例对象之间的区别？

我正在学习 Scala 和 Akka 并且在最近的查找中solution https stackoverflow com questions 22770927 waiting for multiple results in akka 我发现
如何使用 Scala 在 Spark 中漂亮地打印 JSON 数据帧？

我有一个数据帧我想将其作为有效的 json 写入 json 文件我当前的代码如下所示 val df DataFrame myFun df toJSON saveAsTextFile myFile json 输出的格式为如何将文件内容组
如何询问 Scala 类型参数的所有实例化是否存在证据？

给定皮亚诺数的以下类型级加法函数 sealed trait Nat class O extends Nat class S N lt Nat extends Nat type plus a lt Nat b lt Nat a match c
.java 和 .scala 类之间是否可能存在循环依赖？

假设我在 java 文件中定义了类 A 在 scala 文件中定义了类 B A 类使用 B 类 B 类使用 A 类如果我使用 java 编译器则会出现编译错误因为 B 类尚未编译如果我使用scala编译器A类将找不到有没有可以同时

随机推荐

k8s配置StatefulSet解读

什么是StatefulSet 直接参考原博客 k8s配置StatefulSet StatefulSet和Deployment一样可以保证集群中运行指定个数的pod 也支持横向扩展但每个pod都是不可互换的无论pod被怎样调度它们的标
Python学习-----无序序列1.0（字典的创建、查看、添加、修改、删除/替换）

目录前言字典是什么字典的特点 1 字典的创建 1 直接创建 2 dict 函数创建 2 字典的查询 1 get 函数 2 获取字典一组内容 3 字典键值对的添加 1 直接添加 2 setdefault 函数 4 字典的修改 updat
基础回顾5

JVM JRE JDK JVM表示java虚拟机 Java程序需要运行在虚拟机上不同平台有自己的虚拟机所以java可以实现跨平台运行 JRE表示java运行环境包括java虚拟机和一些核心类库核心类库主要是java lang包 ja
准考证打印系统关闭怎么办_自考准考证错过打印时间，怎么办？

点击上方蓝色字关注我们后台回复学历 1 5年快速拿正规名校学历后台回复优惠 2000元轻松入学升专本后台回复冲刺获取自考备考冲刺模拟卷后台回复突击 0元抢占考前突击营名额 1 准考证一般什么时候开始打印答自学考试准考证
nginx php 错误日志,nginx、php-fpm、php 错误日志的关系

nginx php fpm php 三者的配置文件中都有 error log 项指定各自错误日志的保存路径理论上它们三者的错误应该不会重合即 nginx error log 记录的是 nginx 进程自己的错误 php fpm err
Linux 帧缓冲子系统详解：LCD介绍、framebuffer驱动框架、LCD驱动源码分析

1 LCD显示屏基础知识介绍请看博客嵌入式开发 S5PV210 LCD显示器 2 内核帧缓冲子系统 2 1 功能介绍 1 帧缓冲 framebuffer 是 Linux 为显示设备提供的一个接口它把显示设备描述成一个缓冲区允许应用
简单理解进程 & 线程

文章目录线程与进程之间的区别和联系进程线程之间的理解进程进程管理 PCB 并行并发线程线程与进程之间的区别和联系进程包含线程都是为了实现并发编程的方式线程比进程更轻量进程是系统分配资源的基本单位线程是系统调度执行的
python：Numpy学习（二）切片合集

前言本文根据本人自己的学习成果总结的内容难免产生纰漏如有错误望各位路过大佬指出建议按顺序食用本文效果更佳文内例子均以二维数组为例本文主要包含numpy ndarray数组的多种切片方法在阅读本文前请思考下面的问题 Q 假
大一自学Java到毕业，学会这些内容，就可以进大厂

我就是自学Java进的大厂学校很普通一个不知名的二本专业是计算机专业不过在学校学不到什么基本都是靠自学我们班进一线大厂的人有6个我就是其中一个剩下的人大部分去考研了下面这个学习安排就是我在大学自学的内容就适合时间多的大学生
动手学CV-目标检测入门教程6：训练与测试

3 6 训练与测试本文来自开源组织 DataWhale CV小组创作的目标检测入门教程对应开源项目动手学CV Pytorch 的第3章的内容教程中涉及的代码也可以在项目中找到后续会持续更新更多的优质内容欢迎如果使用我们教程的内
《软件方法》书中自测题大全-题目全文+分卷自测

已经根据最新版本内容更新了在线题库以下是软件方法 1 8章中的自测题答案不直接给出可访问每套题后面的自测链接或扫二维码自测做到全对才能知道答案知识点见软件方法 http www umlchina com book softme
Latex 字母上方箭头

字母上方右箭头 mathop A limits rightarrow A mathop A limits rightarrow A 或者 vec A
一款使用 Jetbrains IDE 开发事半功倍的工具

使用 Jetbrains 公司开发软件的小伙伴一般都用 Toolbox App 来管理自己的开发软件这个管理工具使用起来非常舒服包括安装更新还等随心所欲的回滚和降级这大大节省了维护IDE的时间和精力 IDE 管理随心打开任意项目
c++类成员初始化方式

转载自 https blog csdn net coder xia article details 7447822 常用的初始化可能如下 1 赋值初始化 class Student public Student string in name
一个主设备号是如何支持多个次设备?

1 主次设备号参考博客字符设备驱动详解主次设备号注册卸载字符设备驱动创建设备节点地址映射 2 次设备号介绍 1 在老的驱动程序里是不需要次设备号的在老版内核中注册驱动用register chrdev 函数只需要传入主设备号
自旋锁（spinlock）解释得经典，透彻

自旋锁与互斥锁有点类似只是自旋锁不会引起调用者睡眠如果自旋锁已经被别的执行单元保持调用者就一直循环在那里看是否该自旋锁的保持者已经释放了锁自旋一词就是因此而得名由于自旋锁使用者一般保持锁时间非常短因此选择自旋而不是睡眠是非常必
解决提示“Warning File ‘CMakeFilesxxxxxx.dirprogress.make‘ has modification time 2.4 s in the future”方法

问题描述今天分享一个我自己之前在使用虚拟机中使用cmake进行编译连接时候产生的一个告警提示首先看告警提示 Warning File CMakeFiles xxxxxx dir progress make has modificatio
SMT HT CMP SMP

1 多线程同时多线程 Simultaneous multithreading 简称 SMT SMT 可通过复制处理器上的结构状态让同一个处理器上的多个线程同步执行并共享处理器的执行资源可最大限度地实现宽发射乱序的超标量处理提高处理
多版本node的安装与切换详细操作

多版本node的安装与切换详细操作安装多版本node的原因方法一利用nvm进行管理 NVM 简介安装前须知卸载已安装的nodeJS nvm 的安装与使用 node 的不同版本安装及切换方法二通过配置环境变量切换node时只需
Spark课程设计——电影推荐系统

题目所需数据集及相应信息描述数据集 1 用户评分数据集ratings dat 包含了大量用户的历史评分数据 2 样本评分数据集personalRatings dat 包含了少数几个用户的个性化评分数据这些数据反映了某个用户的个性化观影喜

Spark课程设计——电影推荐系统

Spark课程设计——电影推荐系统 的相关文章

随机推荐

热门标签

Spark课程设计——电影推荐系统的相关文章