项目实战----基于协同过滤的电影推荐系统

2023-11-02

文章目录

一、数据整理
二、观察用户-电影矩阵
三、协同过滤推荐
- - 3.1、基于电影的协同过滤
  - 3.2、基于用户的协同过滤推荐

一、数据整理

数据及介绍
MovieLens是推荐系统常用的数据集
MovieLens数据集中，用户对自己看过的电影进行评分，分值为1-5.
MovieLens包括两个大小不同的库。适用于不同规模的算法，
小规模是943个用户对1682部电影做约10000次评分的数据
大规模的是6040个用户对3900部电影做大约100万次评分

导入数据

from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
%matplotlib inline
import numpy as np
import pandas as pd

#设置数据列名
header = ["user_id","item_id","rating","timesamp"]
src_data = pd.read_csv("./ml-100k/u.data",sep='\t',names=header)
src_data.head()

查看结构

src_data.info()
src_data.describe()

查看用户去重后的个数

src_data.user_id.nunique()

查看物品去重后的个数

src_data.item_id.nunique()
#检查事都有重复用户物品打分记录
src_data.duplicated(subset=["user_id","item_id"]).sum()
#每一个电影对应的客户数
item_id_usercnt = src_data.groupby("item_id").count()["user_id"]
item_id_usercnt

画图

import matplotlib.pyplot as plt
plt.rcParams["font.sans-serif"]=['SimHei']  # 用于正常显示中文标签
plt.rcParams['axes.unicode_minus']=False  # 用来正常显示负号


plt.title('每个物品对应的用户数量')
plt.xlabel("评价的客户数/人")
plt.ylabel("被评论的电影数")
plt.hist(item_id_usercnt.values)

###每个物品对应的用户数，（10分位，20分位，30分位。。。。100分位）
np.arange(0,1.1,step=0.1)
item_id_usercnt.quantile(q=np.arange(0,1.1,step=0.1))

#每个用户评价电影的个数
user_id_usercnt = src_data.groupby('user_id').count()["item_id"]
user_id_usercnt.values

import matplotlib.pyplot as plt
#画图
plt.hist(user_id_usercnt.values)
user_id_usercnt.quantile(q=np.arange(0,1.1,step=0.1))

二、观察用户-电影矩阵

n_users = src_data.user_id.nunique()
n_items = src_data.item_id.nunique()
print(n_users)
print(n_items)

构建用户-电影评分矩阵

src_data_matrix = np.zeros((n_users,n_items)) 
# print(src_data_matrix)    产生一个类似的全是0元素的矩阵

#src_data.itertuples()###将DataFrame转为元组##############
for line in src_data.itertuples():
#     print(line)
    src_data_matrix[line[1]-1,line[2]-1] = line[3]   #将电影和评分数给line【3】
#     print(line[3])
src_data_matrix

src_data.itertuples

判断矩阵的稀疏性

sparsity = round(len(src_data_matrix.nonzero() \
					[1])/float(n_users*n_items),3)
sparsity #非常稀疏

三、协同过滤推荐

3.1、基于电影的协同过滤

#使用sklearn.metrics.pairwise中的cosine
from sklearn.metrics.pairwise import pairwise_distances
item_similarity_m = pairwise_distances(src_data_matrix.T,metric="cosine")
item_similarity_m.shape

数据探索
1、电影相似矩阵

#非0值得比例
round(np.sum(item_similarity_m>0)
      /float(item_similarity_m.shape[0]
             *item_similarity_m.shape[1]),3)
#相似矩阵为对称矩阵
item_similarity_m[0:5,0:5].round(2)

#因为是对称的，分析上三角，得到分位数
item_similarity_m_triu = np.triu(item_similarity_m,k=1)
item_sim_nonzero = np.round(item_similarity_m_triu[item_similarity_m_triu.nonzero()],3)
np.percentile(item_sim_nonzero,np.arange(0,101,10))

#相似度得分比较大，相似度没有区分性
"""
#知识点：上三角np.triu
arr = np.linspace(1,9,9).reshape(3,3)
np.triu(arr,k=1)
"""

#########预测

# 得到预测矩阵P
user_item_prediction = src_data_matrix.dot(item_similarity_m)/ np.array([np.abs(item_similarity_m).sum(axis=1)])
user_item_prediction

# 只取预测数据集中有评分的数据集，进行评估
from sklearn.metrics import mean_squared_error
from math import sqrt
prediction_flatten = user_item_prediction[src_data_matrix.nonzero()] 
user_item_matrix_flatten = src_data_matrix[src_data_matrix.nonzero()]
sqrt(mean_squared_error(prediction_flatten, user_item_matrix_flatten))

# 测试数据集构建
test_data_matrix = np.zeros((n_users, n_items))
for line in src_data.itertuples():
    test_data_matrix[line[1]-1, line[2]-1] = line[3]

# 预测矩阵
item_prediction = src_data_matrix.dot(item_similarity_m) / np.array([np.abs(item_similarity_m).sum(axis=1)])     

# 只取预测数据集中有评分的数据集
from sklearn.metrics import mean_squared_error
from math import sqrt
prediction_flatten = item_prediction[test_data_matrix.nonzero()] 
test_data_matrix_flatten = test_data_matrix[test_data_matrix.nonzero()]
sqrt(mean_squared_error(prediction_flatten, test_data_matrix_flatten))

2、单模型结果提升



# 相似度算法指定为欧氏距离
item_similarity_m = pairwise_distances(src_data_matrix.T, metric='euclidean')
item_similarity_m

from sklearn.model_selection import train_test_split
train_data, test_data = train_test_split(src_data, test_size=0.2)

3.2、基于用户的协同过滤推荐

#导入模块
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"
import numpy as np
import pandas as pd
header = ['user_id', 'item_id', 'rating', 'timestamp']
src_data = pd.read_csv('ml-100k/u.data', sep='\t', names=header)
src_data.head()

# 用户、物品数统计
n_users = src_data.user_id.nunique()
n_items = src_data.item_id.nunique() 
# 训练集、测试集分离
from sklearn.model_selection import train_test_split
train_data, test_data = train_test_split(src_data, test_size=0.3)

# 训练集 用户-物品矩阵
train_data_matrix = np.zeros((n_users, n_items))
for line in train_data.itertuples():
    train_data_matrix[line[1]-1, line[2]-1] = line[3]

1、用户相似度矩阵

#采用余弦距离
from sklearn.metrics.pairwise import pairwise_distances
user_similarity_m = pairwise_distances(train_data_matrix,metric="cosine")

2、数据探索
2.1、用户相似矩阵

#物品相似矩阵，行列
user_similarity_m.shape

#非0 比例
#round四舍五入
round(np.sum(user_similarity_m>0)/float(user_similarity_m.shape[0]
                                        *user_similarity_m.shape[1]),3)

# 相似矩阵为对称矩阵
user_similarity_m[0:5, 0:5].round(2)


#现在我们分析上三角，得到等分位数
user_similarity_m_triu = np.triu(user_similarity_m,k=1)
item_sim_nonzero2 = np.round(user_similarity_m_triu[
            user_similarity_m_triu.nonzero()
            ],3)
np.percentile(item_sim_nonzero2,np.arange(0,101,10))

"""
##############可以看出相似度得分都偏大，相似度没有区分性
"
# 得到预测矩阵P
mean_user_rating = train_data_matrix.mean(axis=1)
ratings_diff = (train_data_matrix - mean_user_rating[:, np.newaxis])   #升维度
user_prediction = mean_user_rating[:, np.newaxis] + \
    user_similarity_m.dot(ratings_diff) / \
    np.array([np.abs(user_similarity_m).sum(axis=1)]).T

2.2、训练数据

from sklearn.metrics import mean_squared_error
from math import sqrt
prediction_flatten = user_prediction[train_data_matrix.nonzero()] 
train_data_matrix_flatten = train_data_matrix[train_data_matrix.nonzero()]
sqrt(mean_squared_error(prediction_flatten, train_data_matrix_flatten))

2.3、测试集预测

# 测试数据集构建
test_data_matrix = np.zeros((n_users, n_items))
for line in test_data.itertuples():
    test_data_matrix[line[1]-1, line[2]-1] = line[3]

2.4、只取预测数据集中有评分的数据集

from sklearn.metrics import mean_squared_error
from math import sqrt
prediction_flatten = user_prediction[test_data_matrix.nonzero()] 
test_data_matrix_flatten = test_data_matrix[test_data_matrix.nonzero()]
sqrt(mean_squared_error(prediction_flatten, test_data_matrix_flatten))

3、提升

#####相似度算法指定为欧氏距离
user_similarity_m = pairwise_distances(train_data_matrix, \
									metric='euclidean')
train_data, test_data = train_test_split(src_data, test_size=0.2)

###3.3、基于SVD的协同过滤

import scipy.sparse as sp
from scipy.sparse.linalg import svds

#get SVD components from train matrix. Choose k.
u, s, vt = svds(train_data_matrix, k = 20)
s_diag_matrix=np.diag(s)
svd_prediction = np.dot(np.dot(u, s_diag_matrix), vt)
u.shape
s.shape
vt.shape
s_diag_matrix.shape
svd_prediction.shape
"""
(943, 20)
(20,)
(20, 1682)
(20, 20)
(943, 1682)
"""

# 查看预测矩阵值分布
pd.Series(np.percentile(svd_prediction, np.arange(0, 101, 10))).map("{:.2f}".format)
# 查看训练数据矩阵值分布
pd.Series(np.percentile( train_data_matrix, np.arange(0, 101, 10))).map("{:.2f}".format)
# 查看训练数据矩阵非0值分布
pd.Series(np.percentile( train_data_matrix[train_data_matrix.nonzero()],\
				 np.arange(0, 101, 10))).map("{:.2f}".format)

## 预测值限定最小值和最大值
# 将预测值中小于0的值，赋值为0
svd_prediction[svd_prediction<0] = 0
# 将预测值中大于5的值，赋值为5
svd_prediction[svd_prediction>5] = 5

评估

# 只取预测数据集中有评分的数据集，进行评估
from sklearn.metrics import mean_squared_error
from math import sqrt
prediction_flatten = svd_prediction[train_data_matrix.nonzero()] 
train_data_matrix_flatten = train_data_matrix[train_data_matrix.nonzero()]
sqrt(mean_squared_error(prediction_flatten, train_data_matrix_flatten))


# 只取预测数据集中有评分的数据集
from sklearn.metrics import mean_squared_error
from math import sqrt
prediction_flatten = svd_prediction[test_data_matrix.nonzero()] 
test_data_matrix_flatten = test_data_matrix[test_data_matrix.nonzero()]
sqrt(mean_squared_error(prediction_flatten, test_data_matrix_flatten))

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

机器学习

人工智能

pandas

协同过滤推荐

项目实战----基于协同过滤的电影推荐系统的相关文章

Python Pandas：如何替换包含“？”的字符串

我有一个 Python 2 7 Pandas Dataframe 如下所示 Id Title URL Id 1 Bruce Almighty https www youtube com watch v 5VGyTOGxyVA Id 2 Su
将列表字典扁平化为数据框

我有一个列表字典说 data a 80 130 b 64 c 58 80 如何将其展平并将其转换为数据框如下所示扁平化字典的一种选择是 flattened data k str i x for k v in data items for
Pandas 将列添加到非引用数据框中

这件事让我心潮澎湃好几个小时了也许我遗漏了一些神秘的陷阱但它一定是非常违反直觉的 Trial unq 是一个两列数据帧 Trial unq2 是一个相同的副本 for 循环遍历 unique in 中的所有字符串如果 unique
Pandas 使用什么规则来生成视图和副本？

我对 Pandas 在决定数据帧中的选择是原始数据帧的副本或原始数据帧的视图时使用的规则感到困惑例如如果我有 df pd DataFrame np random randn 8 8 columns list ABCDEFGH index
当 pandas 是导入时，Cx_freeze TypeError 只能使用 numpy 依赖项将列表（不是“NoneType”）连接到列表

我正在尝试使用 cxfreeze 将以下脚本转换为可执行文件 import datetime from calendar import monthrange from tia bbg import LocalTerminal as Lt i
Pandas：根据其他列值有条件地替换值

我有一个数据框 df 如下所示 environment event time 2017 04 28 13 08 22 NaN add rd 2017 04 28 08 58 40 NaN add rd 2017 05 03 07 59 35
如何向 pandas.DataFrame 的子类添加属性？

我想向 DataFrame 的子类添加属性但出现错误 gt gt gt import pandas as pd gt gt gt class Foo pd DataFrame def init self self bar None gt
NumPy 根据另一个数组中的值对第三个数组中的每个匹配元素求和一个数组

我有两个 numpy 数组一个包含值另一个包含每个值类别 values np array 1 2 3 4 5 6 7 8 9 10 valcats np array 101 301 201 201 102 302 302 202 102
获取列的 [0, x] 元素的最小值

我需要计算一列其中值是对其他列进行矢量化运算的结果 df new col df col1 min 0 df col2 然而事实证明我不能像上面的语法一样使用 min 那么获得 pandas 列的零和给定值之间的最小值的正确方法是什么
如何使用 tweepy 仅提取主题标签中的文本？

我想为我的情感分析项目提取主题标签但是我得到了一个字典列表其中包含所有主题标签及其在推文中的索引我只想要文字我的代码 data tweepy Cursor api search q since a i until b i items
如何从分组数据创建直方图

我正在尝试根据 pandas 中的分组数据创建直方图到目前为止我已经能够创建标准线图但我不知道如何做同样的事情来获取直方图条形图我想获得泰坦尼克号事故中幸存者和未幸存者的 2 个年龄直方图看看年龄分布是否存在差异来源数据 ht
pandas 使用日期时间对象重新索引 DataFrame

是否可以重新索引 pandasDataFrame使用由日期时间对象组成的列我有一个数据框df包含以下列 Int64Index 19610 entries 0 to 19609 Data columns cntr 19610 non nul
将多索引转换为行式多维 NumPy 数组。

假设我有一个类似于以下示例的 MultiIndex DataFrame多索引文档 http pandas pydata org pandas docs stable advanced html gt gt gt df 0 1 2 3 fir
使用 matplotlib 散布条件颜色

我有以下 Pandas Dataframe 其中 a 列代表虚拟变量我想做的是给我的标记一个cmap jet 列值后面的颜色b 除非列中的值a等于 1 在本例中我希望它的颜色为灰色知道我该怎么做吗您必须标记等于 1 的值并绘制 imp
在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
以矢量化方式在另一个 DataFrame 中查找包含值子集的行

如何匹配此 DataFrame 中的值source car id lat lon 0 100 10 0 15 0 1 100 12 0 10 0 2 100 09 0 08 0 3 110 23 0 12 0 4 110 18 0 32 0
Pandas 连接问题：列重叠但未指定后缀

我有以下数据框 print df a mukey DI PI 0 100000 35 14 1 1000005 44 14 2 1000006 44 14 3 1000007 43 13 4 1000008 43 13 print df b
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
pandas 中连续数据的平行坐标图

pandas 的 parallel coordinates 函数非常有用 import pandas import matplotlib pyplot as plt from pandas tools plotting import par

随机推荐

生活中哪些地方运用计算机网络,计算机网络技术在生活中应用.doc

计算机网络技术在生活中应用计算机网络技术在生活中应用摘要近年来计算机网络技术得以飞速发展也在很大程度上改变了人们的生活方式它可以说是人类发展历程中的新突破进入二十一世纪之后社会逐渐向着网络化的方向发展计算机网络技术逐渐成
2021水流向何处

只要房价不涨不用担心钱被稀释钱不值钱说白了就是货更加值钱了货变贵了这个货可以是白菜萝卜可以是汽车也可以是房子汽车等工业品明显是更加不值钱变便宜了白菜萝卜等需要大量纯粹劳动力的货是变贵了但是人民工资水平的上涨能够更上它
springboot+mybatis+redis+thymeleaf Web项目搭建开箱即用

手动搭建了一个springboot mybatis redis thymeleaf的Web后台项目因此写篇博客记录下搭建的完整过程文章最后有完整代码地址首先简单介绍下用到的技术框架及用途 1 springboot框架项目主体结构 2
简单递归（最大公约数，阶乘）

include
Centos6.8安装glib-2.32.1

Centos6 8安装glib 2 32 1遇到的问题及解决方法 1 glib 2 32 1下载网址 http ftp gnome org pub gnome sources glib 2 32 glib 2 32 1 tar xz 2 执
OpenWrt系统安全改进<三> --- Web UI密码错误控制

OpenWrt系统安全改进 lt 二 gt 中所做的尝试是为了增强用户登录的鉴权机制密码输错三次就禁用用户一段时间 PAM可以实现对用户登录的控制但是进一步操作中发现WebUI的登录并没有支持PAM 前功尽弃了解了一下OpenWrt
jmeter 安装部署

1 软件安装 1 1 Windows安装 1 1 1 软件下载进入官网 http jmeter apache org 直接下载zip包下载后直接解压 eg我的解压路径如下 D Program Files apache jmeter 5
GitHub拉取报错remote： Support for password authentication was removed on August 13, 2021

问题描述今天从GitHub上拉取我自己的私有仓库结果报错说自21年8月13日后不在支持用户名密码方式验证如图所示解决方案通过查看别人博客原博主以及官网阅读得知可以通过创建个人访问令牌 personal access token
【附源码】Python小游戏 ——开心消消乐

目录前言开发工具环境搭建效果展示选择关卡首页游戏界面过关代码展示模块导入主函数声音类树类元素类数组类前言今天主要是给大家拿牌一个小游戏开心消消乐看看有没有小伙伴能够通过呀开发工具 Python版本 3
网络无法访问互联网是什么原因

很多用户在使用手机或电脑连接网络时明明可以正常连接但却无法访问互联网网络无法访问互联网是什么意思无法连接到互联网是指当前只可访问本地网络的资源没办法正常上外网访问网页上 QQ 微信等网络无法访问互联网是什么原因网络无法访问
Python的Logging模块

1 日志的相关概念日志是指记录系统或应用程序运行状态事件和错误信息的文件或数据在计算机系统中日志通常用于故障排除性能分析安全审计等方面日志可以记录各种信息如系统启动和关闭时间应用程序的运行状态用户登录和操作记录网络通信
6.英文字母排序 (20分)

题目内容编写一个程序当输入不超过个字符组成的英文文字时计算机将这个句子中的字母按英文字典字母顺序重新排列排列后的单词的长度要与原始句子中的长度相同并且要求只对到的字母重新排列其它字符保持原来的状态输入描述一个字符串包
python安装程序已停止工作_python.exe已经停止工作

昨天我成功地将sip pyqt4和vtk 包括python的绑定安装在64位windows7虚拟机上在但是当我执行 import vtk 操作时会弹出一个对话框 import vtk python exe已经停止工作在事件查
CGAN原理及tensorflow代码

1 首先说明一下CGAN的意义 GAN的原始模型有很多可以改进的缺点首当其中就是模型不可控从上面对GAN的介绍能够看出模型以一个随机噪声为输入显然我们很难对输出的结构进行控制例如使用纯粹的GAN 我们可以训练出一个生成器输
关于超过js的number类型最大值（9007199254740992），的解决办法

bug经过点击修改无法展示信息修改时调用queryOne 以id long 为值页面传过去的id 1480042498255640 00 在数据库中该id 148004249825564012 即错误的id 根本原因 js的numbe
DPText-DETR: 基于动态点query的场景文本检测，更高更快更鲁棒

针对场景文本检测任务近期基于DEtection TRansformer DETR 框架预测控制点的研究工作较为活跃在基于DETR的检测器中 query的构建方式至关重要现有方法中较为粗糙的位置先验信息构建导致了较低的训练效率以及性能
MATLAB 图像处理简单人脸检测(详细，你上你也行)

1 人脸检测原理框图整体思路是寻找图片中最大的连通域将其认定为人脸第一个环节均值滤波是为了减弱图像的相关细节部分以免毛刺影响后期连通域的形成二值化方便形态学处理减少运算量考虑到人脸有黑人和白人黄种人黑人肤色较深在二值化之
网络编程中的sockfd是什么？

2023年5月22日周一早上今天早上学习网络编程时遇到了sockfd这个变量于是学习了一下顺便写篇博客来记录自己的学习成功 sockfd是什么意思 sock 是socket的缩写 fd 则是file descriptor的缩写表示
人声频率范围及各频段音色效果

国际制定的数字电话机的通信标准是300 3400Hz这是 3db标准也就是说300HZ和3400HZ的传输电压幅度降低到正常的0 707倍并不是一过这两个频率电压就完全消失了现实中也做不到如此精确的滤波电路人讲话的频率主要集中在1
项目实战----基于协同过滤的电影推荐系统

文章目录一数据整理二观察用户电影矩阵三协同过滤推荐 3 1 基于电影的协同过滤 3 2 基于用户的协同过滤推荐网页版点击这里一数据整理数据及介绍 MovieLens是推荐系统常用的数据集 MovieLens数据集中