mllib 协同过滤_使用spark mllib协同过滤进行图书推荐（Java版）

2023-11-16

0. 协同过滤算法简介

协同过滤(Collaborative Filtering)，简单来说是利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息。根据关注内容的不同，协同过滤算法分为三类：

以用户为基础(User-based)的协同过滤：用相似统计的方法得到具有相似爱好或者兴趣的相邻用户，使用与推荐用户相似用户的感兴趣的项目进行推荐。

以项目为基础(Item-based)的协同过滤：“能够引起用户兴趣的项目，必定与其之前评分高的项目相似”，透过计算项目之间的相似性来代替用户之间的相似性。

以模型为基础(Model-based)的协同过滤：用历史数据得到一个模型，再用此模型进行预测。

mllib中实现了以模型为基础的协同过滤，使用als算法训练模型。

1. 数据源

book-crossing dataset：

其中包含三个文件

评分数据文件："User-ID";"ISBN";"Book-Rating"

图书数据文件："ISBN";"Book-Title";"Book-Author";"Year-Of-Publication";"Publisher";"Image-URL-S";"Image-URL-M";"Image-URL-L"

用户数据文件：“User-ID”;"Location";"Age"

2. 数据预处理

MLlib的ALS算法实现有一个小缺点：它要求user和item的ID必须是数值型，并且是32位非负整数。评分文件中userid为int类型，而ISBN为string类型，需要将其先转换为 int类型。这里我们采用将BX-Books中的所有图书一一对应到从1开始的自增id，使用hashmap保存映射关系，而后将BX-Book-Ratings中的ISBN映射到自增id上。在对数据进行映射的过程中发现，评分集中有ISBN未在图书表中出现，将此类型条目删除构成新的评分文件。

public static void processing() throws IOException {

ArrayList books = new ArrayList<>();

ArrayList ratings = new ArrayList<>();

CsvReader reader = new CsvReader("data/BX-Books.csv",';');

reader.readHeaders();

while (reader.readRecord()) {

books.add(reader.getValues());

}

reader.close();

reader = new CsvReader("data/BX-Book-Ratings.csv",';');

reader.readHeaders();

while (reader.readRecord()) {

ratings.add(reader.getValues());

}

reader.close();

//将isbn与自增int进行映射

HashMap map = new HashMap<>();

for(int i = 0 ; i < books.size() ; i++) {

map.put(books.get(i)[0],i+1);

}

//将isbn映射到int

FileWriter fileWriter = new FileWriter("data/book-rating.txt");

for(String[] rating:ratings) {

//当ISBN存在时

if(map.containsKey(rating[1])) {

fileWriter.write(rating[0].replaceAll("\"","")+";");

fileWriter.write(map.get(rating[1])+";");

fileWriter.write(rating[2].replaceAll("\"","")+"\n");

}

fileWriter.close();

}

3. 模型训练及推荐结果获取

创建一个类读取评分文件，在数据集中随机选取80%数据作为训练集，20%数据作为测试集。设置模型参数如最大迭代次数，正则项及冷启动策略等。全部参数如下：

numBlocks is the number of blocks the users and items will be partitioned into in order to parallelize computation (defaults to 10).

rank is the number of latent factors in the model (defaults to 10).

maxIter is the maximum number of iterations to run (defaults to 10).

regParam specifies the regularization parameter in ALS (defaults to 1.0).

implicitPrefs specifies whether to use the explicit feedback ALS variant or one adapted for implicit feedback data (defaults to false which means using explicit feedback).

alpha is a parameter applicable to the implicit feedback variant of ALS that governs the baseline confidence in preference observations (defaults to 1.0).

nonnegative specifies whether or not to use nonnegative constraints for least squares (defaults to false).public class Recommend {

public static class Rating implements Serializable {

private int userId;

private int bookId;

private float rating;

public Rating() {}

public Rating(int userId, int bookId, float rating) {

this.userId = userId;

this.bookId = bookId;

this.rating = rating;

}

public int getUserId() {

return userId;

}

public int getBookId() {

return bookId;

}

public float getRating() {

return rating;

}

public static Rating parseRating(String str) {

String[] fields = str.split(";");

if (fields.length != 3) {

throw new IllegalArgumentException("Each line must contain 3 fields");

}

int userId = Integer.parseInt(fields[0]);

int bookId = Integer.parseInt(fields[1]);

float rating = Float.parseFloat(fields[2]);

return new Rating(userId, bookId, rating);

}

public static void main(String[] args) {

SparkSession spark = SparkSession

.builder()

.appName("JavaALSExample")

.getOrCreate();

JavaRDD ratingsRDD = spark

.read().textFile("data/book-rating.txt").javaRDD()

.map(Rating::parseRating);

Dataset ratings = spark.createDataFrame(ratingsRDD, Rating.class);

Dataset[] splits = ratings.randomSplit(new double[]{0.8, 0.2});

Dataset training = splits[0];

Dataset test = splits[1];

ALS als = new ALS()

.setMaxIter(10)

.setRegParam(0.01)

.setUserCol("userId")

.setItemCol("bookId")

.setRatingCol("rating");

ALSModel model = als.fit(training);

// 冷启动策略

model.setColdStartStrategy("drop");

Dataset predictions = model.transform(test);

RegressionEvaluator evaluator = new RegressionEvaluator()

.setMetricName("rmse")

.setLabelCol("rating")

.setPredictionCol("prediction");

Double rmse = evaluator.evaluate(predictions);

System.out.println("Root-mean-square error = " + rmse);

// 全部用户推荐top10

Dataset userRecs = model.recommendForAllUsers(10);

// 全部图书推荐top10用户

Dataset bookRecs = model.recommendForAllItems(10);

// 部分用户推荐top10

Dataset users = ratings.select(als.getUserCol()).distinct().limit(3);

Dataset userSubsetRecs = model.recommendForUserSubset(users, 10);

// 部分图书推荐top10用户

Dataset books = ratings.select(als.getItemCol()).distinct().limit(3);

Dataset bookSubSetRecs = model.recommendForItemSubset(books, 10);

userRecs.show();

bookRecs.show();

userSubsetRecs.show(false); //不省略字符打印

bookSubSetRecs.show();

spark.stop();

}

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

mllib 协同过滤

mllib 协同过滤_使用spark mllib协同过滤进行图书推荐（Java版）的相关文章

最全的前端性能优化手段回答

前端性能优化手段参考答案前端性能优化手段从以下几个方面入手加载优化执行优化渲染优化样式优化脚本优化 1 加载优化减少HTTP请求缓存资源压缩代码无阻塞首屏加载按需加载预加载压缩图像减少Cookie 避免重定向
时序预测模型汇总

时序预测模型一自回归 AR 在 AR 模型中我们使用变量过去值的线性组合来预测感兴趣的变量术语自回归表明它是变量对自身的回归二移动平均模型 MA 与在回归中使用预测变量的过去值的 AR 模型不同 MA 模型在类似回归的模型中关注
三角函数的向量表示的原理计算

在电路中三相电源经常用复数或者是向量来表示但是与我们初高中熟知的空间向量不同这里的三相交流电是一种时间向量由于采用的形式是正弦形式使得其也可以用空间向量中的平行四边形原则来进行计算合成下面将介绍一下正弦量可以用向量表示的原理
生成tensorrt引擎错误记录-yolov5

warning nvinfer1 Dims type is deprecated Wdeprecated declarations note TRT DEPRECATED DimensionType type MAX DIMS lt The
c++ virtual 关键字 override 关键字

文章目录 1 什么是virtual 2 为什么需要 3 通常用在什么情形 4 延伸虚函数纯虚函数 override 关键字 9 问题汇总 9 1 非虚函数和虚函数都可以重写那区别是啥 9 2 基类虚函数纯虚函数子类有没有 over
MS5543单通道、16位、串行通信、高速ADC转换芯片

产品简述 MS5543 是一款单通道 16 位串行输入电压输出的数模转换器采用 2 7V 至 5 5V 单电源供电输出范围为 0V 至 V REF 在输出范围内保证单调性在温度范围为 40 C 至 85 C 能够提供 1LSB
linux设备驱动归纳总结（四）：3.抢占和上下文切换

xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx 上一节介绍了进程调度的一些基本概念并简单介绍了在没有抢占的情况下
生产环境使用HBase，你必须知道的最佳实践

需要关注的一些最佳实践经验 Schema设计七大原则 1 每个region的大小应该控制在10G到50G之间 2 一个表最好保持在 50到100个 region的规模 3 每个cell最大不应该超过10MB 如果超过应该有些考虑业务拆分
Java中存储金额用什么数据类型

文章目录 1 抛砖引玉 2 加减乘除 3 大小比较 4 小数位数及四舍五入规则 1 抛砖引玉在给自己做一个小的Java记账小程序的时候对金额的处理时必不可少的一开始选择的是float数据类型在数据库中存储金额的数据字段也是floa
二进制转16进制字符串和16进制字符串转二进制的C和JAVA实现

二进制转16进制字符串和16进制字符串转二进制的C语言实现二进制转16进制字符串长度会翻倍 void ByteToHexStr const unsigned char source char dest int sourceLen 16进
《Kubernetes部署篇：Ubuntu20.04基于外部etcd+部署kubernetes1.24.17集群(多主多从）》

一部署架构图 1 架构图如下所示 2 部署流程图如下所示二环境信息 1 部署规划主机名 K8S版本系统版本内核版本 IP地址备注 k8s master 63 1 24 17 Ubuntu 20 04 5 LTS 5 15 0
【QT】判断鼠标按键

代表按键类型的枚举变量 enum Qt MouseButton Qt NoButton 0x00000000 Qt AllButtons 0x07ffffff Qt LeftButton 0x00000001 Qt RightButton
12306验证码识别 --- 2017-12

1 附件中包含12306查询验证码识别客户端和所需要测试的样本图片 2 模型正确率95 以上 3 操作方式 3 1 解压里面的Client zip 找到里面的user client exe可执行文件 3 2 点击里面的browse按钮进行选
unity基本知识点2

一把图片打包成图集 1 全选图片把texture type改成sprite 2DandUI Packing Tag是打包标签给想打包的图片写上统一的标签才可打包 2 edit project setting editor里inspec
测试人:“躺平?不可能的“, 盘点测试人在职场的优势

之前有这么一个段子有人喜欢创造世界他们做了程序员有人喜欢拯救世界他们做了测试员近几年测试工程师在企业究竟是怎么样的发展随着企业对于用户体验的满意度越来越重视更加推动了软件测试工程师这个岗位的需求度接下来我们从4个纬度来分
Envoy源码分析之ThreadLocal

ThreadLocal机制 Envoy中的ThreadLocal机制其实就是我们经常说的线程本地存储简称TLS Thread Local Storage 顾名思义通过TLS定义的变量会在每一个线程专有的存储区域存储一份访问TLS的时候其
后台管理系统布局以及跳转，点击菜单局部刷新，右侧显示对应界面

完整版教程 https blog csdn net Lining s article details 117676170 1 整体布局如下右侧菜单的html 代码使用了Thymeleaf 模版这是左测的菜单栏左侧的所有菜单最外层是一
clang(llvm)命令调用android NDK 编译C应用

在window下载的android NDK解压后可以用如下命令安装NDK独立编译工具这样再用命令时不用带一把参数了 D Program Files python27 python make standalone toolchain p
在asp中数据库的连接

其中数据库bbs mdb有张friend 的表

随机推荐

卷积和池化matlab 实现,UFLDL新版教程与编程练习（七）：Convolution and Pooling（卷积和池化）...

UFLDL是吴恩达团队编写的较早的一门深度学习入门里面理论加上练习的节奏非常好每次都想快点看完理论去动手编写练习因为他帮你打好了整个代码框架也有详细的注释所以我们只要实现一点核心的代码编写工作就行了上手快我这里找不到新版对应这
video 全屏显示

video 全屏显示进入全屏 function FullScreen var ele document documentElement if ele requestFullscreen ele requestFullscreen else
PyTorch 08 —预训练模型（迁移学习）

一什么是预训练网络预训练网络是一个保存好的之前已在大型数据集大规模图像分类任务上训练好的卷积神经网络如果这个原始数据集足够大且足够通用那么预训练网络学到的特征的空间层次结构可以作为有效的提取视觉世界特征的模型即使新问题和新任务
go 语言中通过go get下载包比较慢，解决方法

1 先下载gopm go get v u github com gpmgo gopm 2 gopm 用法介绍查看当前工程依赖 gopm list 显示依赖详细信息 gopm list v 列出文件依赖 gopm list t file 拉
执行 conda env create -f *.yml 命令时出现 ResolvePackageNotFound:

解决办法将报错的代码注释掉在后面添加pip 用pip安装
【深度学习】基于Tensorflow的YOLOV4，已跑通程序，效果不错

完整的程序放在这里了已经跑通no bug 完整程序实现效果自己在colab上训练模型后得到的权重预测试了几个场景 B站视频链接识别校门口一号路识别海盗狗截图部分代码如下 voc annotation py import os
Dynamics 365 Online-Relevance Search

区别于Quick Find 以及Full Text Quick Find Dynamics 365 Online有了一个特有的Search功能 Relevance Search 至于为什么是Online特有是因为这个功能依赖于Azure
python中保存mysql字符串不成功问题！

在python中使用pymysql保存数据到数据库中代码如下 nowTime int time time insertSql INSERT INTO table name SET ori id s so html s baidu html
[LeetCode] Palindrome Number & Valid Palindrome - 回文系列问题

题目概述 Determine whether an integer is a palindrome Do this without extra space 题目分析判断数字是否是回文例如121 656 3443 方法有很多正着看和到着
PostgreSQL 12系统表(10)pg_locks

PostgreSQL 12系统表 10 pg locks 视图pg locks提供了数据库服务器上活动进程中保持的锁的信息名称类型引用描述 locktype text 可锁对象的类型 relation extend page tup
Vue核心插件 —— Vuex

Vuex之集成在项目目录新建store文件夹推荐项目结构安装vuex插件 npm i vuex S 在store js文件中编写入口文件代码推荐使用 export default gt return new Vuex Store
详解vue中使用echarts地图实现上钻下钻的可视化三级下钻省＞市＞县

简述功能概要最近有需求做一个数据可视化的功能会具体显示全国各地区的买家分布情况鼠标放置在地图上会显示当前城市的分布人数点击当前省份会下钻到城市地图会显示当前省市下各个城市的买家数和分布情况如果遇到没有下一级再次点击会进行返回到国
C++STL模板库——vector容器（上）

本期介绍基础的vector知识内容全部在主程序之中大家自行阅读 include
微信小程序 camera 系统相机组件

完整微信小程序 Java后端技术贴目录清单页面必看系统相机扫码二维码功能需升级微信客户端至6 7 3 需要用户授权 scope camera 2 10 0起 initdone 事件返回 maxZoom 最大变焦范围相关接口 Ca
react多重判断条件渲染相应组件

需求来了多种判断条件下判断后渲染对应的组件如果说if else堆叠那代码会又乱又没有可读性并且还要渲染对应的组件最好的思路就是用switch case语句但是又不想在render里写那就要借助react的state 是的 r
JS深拷贝实现的三种方法

对象的深拷贝会另外创建一个一模一样的对象新对象和原对象不共享内存修改新对象不会影响原对象 1 递归 function deepClone obj 定义一个变量并判断是数组还是对象 var objClone Array isArray
260道2023最新网络安全工程师面试题（附答案）

2023年过去了一大半先来灵魂三连问年初定的目标完成多少了薪资涨了吗女朋友找到了吗好了不扎大家的心了接下来进入正文由于我之前写了不少网络安全技术相关的文章和回答不少读者朋友知道我是从事网络安全相关的工作于是经常有人私信问
jeesite上传返回路径

lt form fileupload id upload3 returnPath true filePathInputId author fileNameInputId upload3Name uploadType image readon
nar神经网络_基于神经网络的预测模型

基本思想根据前几次的数据模拟下一次的数据需要数据具有周期性且周期可知 matlab代码 x 54167 55196 56300 57482 58796 60266 61465 62828 64653 65994 67207 6620
mllib 协同过滤_使用spark mllib协同过滤进行图书推荐（Java版）

0 协同过滤算法简介协同过滤 Collaborative Filtering 简单来说是利用某兴趣相投拥有共同经验之群体的喜好来推荐用户感兴趣的信息根据关注内容的不同协同过滤算法分为三类以用户为基础 User based 的协同过

mllib 协同过滤_使用spark mllib协同过滤进行图书推荐（Java版）

mllib 协同过滤_使用spark mllib协同过滤进行图书推荐（Java版） 的相关文章

随机推荐

热门标签

mllib 协同过滤_使用spark mllib协同过滤进行图书推荐（Java版）的相关文章