python寻找相似用户_基于用户相似性的协同过滤——Python实现

2023-10-31

#coding:utf-8

importrandom,mathfrom operator importitemgetterclassUserBasedCF:def __init__(self,trainDataFile=None,testDataFile=None,splitor='\t'):if trainDataFile!=None:

self.train=self.loadData(trainDataFile, splitor)if testDataFile!=None:

self.test=self.loadData(testDataFile, splitor)

self.simiMatrix={}defsetData(self,train,test):

self.train=train

self.test=testdef loadData(self,dataFile,splitor='\t'):

data={}for line inopen(dataFile):

user,item,record,_=line.split()

data.setdefault(user,{})

data[user][item]=recordreturndatadef recallAndPrecision(self,peersCount,topN=10):

hit=0

recall=0

precision=0for user inself.train.keys():

itemOfuser=self.test.get(user,{})

recItems=self.recommend(user,peersCount,topN)for item,pui inrecItems.items():if item initemOfuser:

hit+=1recall+=len(itemOfuser)

precision+=topN#print 'Recall:%s hit:%s allRatings:%s'%(hit/(recall*1.0),hit,precision)

return (hit / (recall * 1.0),hit / (precision * 1.0))def coverage(self,peersCount,topN=10):

recommend_items=set()

all_items=set()for user inself.train.keys():for item inself.train[user].keys():

all_items.add(item)

rank=self.recommend(user,peersCount,topN)for item,pui inrank.items():

recommend_items.add(item)return len(recommend_items)/(len(all_items)*1.0)def popularity(self,peersCount,topN=10):

item_popularity=dict()for user,items inself.train.items():for item initems.keys():if item not initem_popularity:

item_popularity[item]=1item_popularity[item]+=1ret=0

n=0for user inself.train.keys():

rank=self.recommend(user,peersCount,topN)for item,pui inrank.items():

ret+=math.log(1+item_popularity[item])

n+=1

return ret/(n*1.0)defcalUserSimilarity(self):

item_users=dict()for u,ratings inself.train.items():for i inratings.keys():

item_users.setdefault(i,set())

item_users[i].add(u)#calculate co-rated items between users

coRatedCount=dict()

itemCountOfUser=dict()for item,users initem_users.items():for u inusers:

itemCountOfUser.setdefault(u,0)

itemCountOfUser[u]+=1

for v inusers:if u==v:continuecoRatedCount.setdefault(u,{})

coRatedCount[u].setdefault(v,0)

coRatedCount[u][v]+=1/math.log(1+len(users))

userSimiMatrix=dict()for u,related_users incoRatedCount.items():

userSimiMatrix.setdefault(u,{})for v,cuv inrelated_users.items():

userSimiMatrix[u][v]=cuv/math.sqrt(itemCountOfUser[u]*itemCountOfUser[v])

self.simiMatrix=userSimiMatrixdef recommend(self,userU,peersCount,topN=10):

recItems=dict()

interacted_items=self.train[userU]'''prepare the user similarity matrix first'''

if notself.simiMatrix:

self.calUserSimilarity()for userV,simiUV in sorted(self.simiMatrix[userU].items(),key=itemgetter(1),reverse=True)[0:peersCount]:for item,ratingV4I inself.train[userV].items():if item ininteracted_items:continue

if item not inrecItems:

recItems[item]=0

recItems[item]+=simiUV*float(ratingV4I)#transform 4 stars into score 0.8

'''if len(recItems)==topN:

return recItems'''

return dict(sorted(recItems.items(),key = lambda x :x[1],reverse =True)[0:topN])deftestUserBasedCF():

cf=UserBasedCF(trainDataFile=r'E:\ResearchAndPapers\DataSet\ml-100k\u3.base',testDataFile=r'E:\ResearchAndPapers\DataSet\ml-100k\u3.test')#cf.calUserSimilarity()

print("%3s%15s%15s%15s%15s" % ('K',"precision",'recall','coverage','popularity'))for k in [5,10,20,40,80,160]:

recall,precision= cf.recallAndPrecision(peersCount =k)

coverage= cf.coverage(peersCount =k)

popularity= cf.popularity(peersCount =k)print("%3d%14.2f%%%14.2f%%%14.2f%%%15.2f" % (k,precision * 100,recall * 100,coverage * 100,popularity))def SplitData(wholeData,M,k,seed,splitor='\t'):

test={}

train={}

random.seed(seed)for line inwholeData:

user,item,score,time=line.strip().split(splitor)if random.randint(0,M)==k:

test.setdefault(user,{})

test[user][item]=scoreelse:

train.setdefault(user,{})

train[user][item]=scorereturntrain,testdeftestUserBasedCF2():

wholeData=open(r'E:\ResearchAndPapers\DataSet\ml-1m\ratings.dat')

train,test=SplitData(wholeData, 8, 5, 10, splitor='::')

cf=UserBasedCF()

cf.setData(train, test)#cf=UserBasedCF(trainDataFile=r'E:\ResearchAndPapers\DataSet\ml-100k\u5.base',testDataFile=r'E:\ResearchAndPapers\DataSet\ml-100k\u5.test')

#cf.calUserSimilarity()

print("%3s%15s%15s%15s%15s" % ('K',"precision",'recall','coverage','popularity'))for k in [5,10,20,40,80,160]:

recall,precision= cf.recallAndPrecision(peersCount =k)

coverage= cf.coverage(peersCount =k)

popularity= cf.popularity(peersCount =k)print("%3d%14.2f%%%14.2f%%%14.2f%%%15.2f" % (k,precision * 100,recall * 100,coverage * 100,popularity))if __name__=="__main__":

testUserBasedCF()#testUserBasedCF2()

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python寻找相似用户

python寻找相似用户_基于用户相似性的协同过滤——Python实现的相关文章

01-----YUV各种格式的详解

一 YUV格式有两大类 planar和packed YUV格式粗分有两大类 planar和packed 细分有三大类分别是planar和packed 再加上semi Planar 半平面格式 1 对于planar的YUV格式先连续存
spark启动流程1

1 standalone模式 1 Driver端启动SparkSubmit进程启动后开始向Master进行通信此时创建了一个对象 SparkContext 接着向Master发送任务消息 2 Master接收到任务信息后开始资源调度
WARNING L16: UNCALLED SEGMENT, IGNORED FOR OVERLAY PROCESS

WARNINGL16 UNCALLEDSEGMENT IGNOREDFOROVERLAYPROCESS SEGMENT PR COMPARE TESTLCD 说明程序中有些函数例如COMPARE 或片段以前调试过程中从未被调用过或
算法设计与分析期末复习题

算法分析与设计期末复习题一选择题 1 应用Johnson法则的流水作业调度采用的算法是 D A 贪心算法 B 分支限界法 C 分治法 D 动态规划算法 2 Hanoi塔问题如下图所示现要求将塔座A上的的所有圆盘移到塔座B上并仍按同
Python3，5行代码，生成自动排序动图，这操作不比Excel香？

5行代码生成自动排序动图 1 引言 2 代码实战 2 1 pynimate介绍 2 2 pynimate安装 2 3 代码示例 3 总结 1 引言小屌丝鱼哥听说你的excel段位又提升了小鱼你这是疑问的语气小屌丝没有吧小鱼
sql 语法总结

select case when ThamesWorld then 9999999 如果为空替换成对应的数组 when CHARINDEX ThamesWorld gt 0 then LEFT ThamesWorld charindex
Vue报错: did you register the component correctly? For .., make sure to provide the "name" option(已解决）

问题 did you register the component correctly For recursive components make sure to provid the name option 在做项目的时候引入其他组件时
【牛客刷题专栏】0x30:JZ38 字符串的排列(C语言编程题)

前言个人推荐在牛客网刷题点击可以跳转它登陆后会保存刷题记录进度重新登录时写过的题目代码不会丢失个人刷题练习系列专栏个人CSDN牛客刷题专栏题目来自牛客题库在线编程剑指offer 目录前言问题描述解法思路代码结果
Colaboratory使用Tensorboard

Colaboratory是一个好用的工具那么自然也会提供了扩展支持添加Tensorboard的callback 然后使用tensorboard的命令启动生成的文件 load ext tensorboard tensorboard log
Python-类中的变量和方法

类对象是一组相关的数据信息属性以及针对这组数据信息的操作函数的集合实例属性用self修饰的属性为实例属性这些属性通常是某个对象的属性如一个人的名字 class Student def init self name self
完美解决Typora行距问题

文章目录一步骤 1 启动开发者工具 2 通过开发者工具找到需要修改的css文件位置 3 将这个位置的数字直接修改为0 总结一步骤 1 启动开发者工具 2 通过开发者工具找到需要修改的css文件位置 3 将这个位置的数字直接修改为0
oracle使用rowid和for update修改数据的区别

在oracle进行测试数据修改时有时为了简单方便不想使用update语句来进行修改于是可以使用rowid和for update来进行数据操作 sql例子如下 select s rowid from student select fro
通过深度学习偏微分方程模型估计剩余使用寿命：使用潜变量的退化的动力学解释框架/PINN 在发动机寿命预测的应用文献总结和内容概要

PINN 在发动机寿命预测的应用文献总结内容概要一引言二物理信息神经网络PINN 三本文所提出的框架 3 1当前DL PHM所面临的三个问题 3 2 本文相应的解决方案 3 3 DNN框架 3 4 所提框架的优势 3 4 1网
1、Canopen 轻松入门

Canopen 轻松入门笔记 1 Canopen在ISO层级中的位置 2 CANopen 的预定义报文 ID 分类 2 1 网络管理 NMT 与特殊协议 Special protocols 报文 ID 分类 2 2 过程数据对象 PDO
Unity SteamVR 2.x UGUI射线交互 +物品射线点击+物品抓起（超级简单）

刚开始先查看了其他道友的方案 1 Unity使用SteamVR2 0实现基本功能瞬移抓取物品射线点击 UI交互等贪小心的博客 CSDN博客 unity steam vr 2 Steam VR 2 0 5 射线操作UGUI 射线点击物
gcc/g++搜索路径

一查看gcc g 默认include路径 1 gcc print prog name cc1plus v 2 g print prog name cc1plus v 3 echo main gcc E v 二 include搜索路径 1
论文笔记：Mind the Gap An Experimental Evaluation of Imputation ofMissing Values Techniques in TimeSeries

pVLDB 2020 1 abstract intro 这篇论文横向比较了12种 time series imputation的方法作者声称这是第一篇深入讨论这些模型的准确度效率和参数化由于不同的方法使用的编程语言不同作者用C 重新
786. 第k个数

文章目录 Question Ideas Code Question 给定一个长度为 n 的整数数列以及一个整数 k 请用快速选择算法求出数列从小到大排序后的第 k 个数输入格式第一行包含两个整数 n 和 k 第二行包含 n 个整数所
Jetbrains开发者日见闻(三)之Kotlin1.3新特性(inline class篇)

简述上接上篇文章我们深入分析了Kotlin1 3版本中的Contract契约的内容那么这篇文章将会继续把Kotlin1 3新特性研究完毕这篇文章还有个非常重要的点就是inline class 内联类关于内联类的知识除了这篇文章会有

随机推荐

[PPPOE]报文交互分析

1 简介 PPPoE PPP Over Ethernet 协议是在点到点链路上承载网络层数据包的一种链路层协议由于它能够提供用户验证易于扩充并且支持同异步通信因而获得广泛应用 PPPoE主要协议标准 RFC2516 图 PPPOE
字母顺序排序

这周做题的时候遇到了一些困难当时一直程序并没有报错但就是不知道哪错了后来通过问同学终于知道哪错了其实有的时候哪怕你多加了一个等于号而以至于程序达不到你需要的效果也是有的所以一定不要让数组运行时少一次否则有可能到后面就出错了
python自动化:系统凭据的获取与添加

在自动化流程开发中我们经常会遇到输入帐号密码的情况帐号明文还可以但是密码不想展示给他人但是不想自己去手动输入怎么办基于以上情况我们可以使用windows自带的凭据管理器进行密码存储其实我们经常用的git也存储在这里首先搜索
shader里的uv是什么

shader里的uv是什么前言先看一段shadertoy大牛写的代码 vec3 getPixel in vec2 coord float time vec2 uv coord iResolution xy uv uv 2 0 1 0 u
考研数学基础30讲

基础30讲第1讲高等数学预备知识一函数的概念与特性 1 函数 2 反函数 3 复合函数 4 函数的四种特性第1讲高等数学预备知识一函数的概念与特性 1 函数设x与y是两个变量 D是一个给定的数集若对于每个值x in D
JavaScript中的设计原则

文章目录一单一职责原则 1 运用了单一职责 SRP 的设计模式 2 何时应该分离职责 3 优缺点二最少知识原则 1 运用了最少知识原则的设计模式三开放封闭原则 1 运用了开放封闭原则的设计模式 2 接受第一次愚弄三接口和
1010 Radix (25 分)

题目题目链接题解二分数学先说几点注意事项开 LL 最高进制不是35 可以更高枚举可能的进制时存在爆LL的情况整体思路先计算出知道进制的那个数对应的十进制数二分进制找到某个进制使得另一个数对应的十进制数与已知的十进制数相
异步信号的去抖电路及同步电路

异步输入的问题如果电路有异步信号就可能使电路进入亚稳态因为异步信号可能处于时钟信号建立时间以内即是输出不确定的状态去抖电路异步信号如果是外部的机械输入比如键盘等输入信号就会产生机械性地振荡因此首先需要对此类异步信号加一个去
计算机网络-网络层

网络层 1 前言 2 网络层的作用 3 网络层数据交换 4 网络层协议及报文格式 5 ARP与RARP 6 国际控制报文协议ICMP 1 前言网络层介于传输层和数据链路层之间其主要作用是实现两个网络系统之间的数据透明传送具体包括路由选
openpyxl空值填充、分列、单元格百分比格式显示

还是之前的日报处理一个xlsx文件需求描述如下不多说上代码 import openpyxl as op import time lxwb i1 op load workbook 文件路径 5GR I1 15个对象属性空值核对 s x
【计量统计】计量经济学导论常见公式原理及习题解答

关键词 Stata 计量经济学习题解答一简单二元回归模型 y b 0 b 1
电脑计算机推荐笔记本电脑,十佳办公笔记本电脑排名，性价比高的笔记本电脑推荐...

商务人士人手必备一台办公笔记本这样在需要的时候随时都能办公当然选择笔记本最重要的是性能好要方便携带这里有十大最优质的办公笔记本推荐足够高的性价比方便你随身携带随时办公成为一位优秀的商务人士 1 华硕灵耀S4300FN 这款笔
云孚科技受邀参加第二十二届中国计算语言学大会（CCL 2023）

云孚科技 CCL 2023 中国计算语言学大会 2023年8月3日 8月6日第二十二届中国计算语言学大会 CCL 2023 在哈尔滨市成功举行本次大会由中国中文信息学会主办哈尔滨工业大学承办涵盖计算语言学领域最新技术和动向为与会专
中小型企业网络规划设计方案_实战：企业网络系统规划与设计与事项

某大中型企业有多个部门财务部人事部销售部工程部同部门之间采用二层交换网络相连不同部门之间采用VLAN路由方式互访企业有一台内部web服务器承载着内部网站方便员工了解公司的即时信息局域网路由器启用多种路由协议静态路由
禁止缩放meta标签

转载于 https www cnblogs com LiuJL p 10977907 html
[1149]RabbitMQ CPU 占用过高优化

文章目录背景问题排查 error logger 问题 erlang 调度器问题总结背景服务器上搭建的 RabbitMQ 在并发量不是很大的情况下 CPU 占用竟然达到了 40 左右这种情况第一感觉是不科学的推测应该是使用不当或
电脑上编辑文件打字时页面乱跳解决方法

问题描述在网页上编写文章执行复制粘贴或者换行等操作时会出现页面滑动的情况而光标在编辑的文案中的位置却没变原因分析设置了鼠标灵敏度解决方案步骤1 打开控制面板步骤2 在右上方输入鼠标或点击硬件与声音点击鼠标步骤3 在鼠
离散数学4_第5章关系与函数__关系矩阵

关系矩阵的定义注意这里 m n阶的矩阵是指m 行 n列的矩阵如果行列相等称为方阵
textarea 光标位置相关

textarea cursor postion 兼容 i8 通过本案例的对于文本域的处理以后就可以扩展使用了功能本文主要的内容是介绍了在文本域中光标的位置获取被选中文本的位置获取 start end 以及在光标位置插入文本或
python寻找相似用户_基于用户相似性的协同过滤——Python实现

coding utf 8 importrandom mathfrom operator importitemgetterclassUserBasedCF def init self trainDataFile None testDataFi

python寻找相似用户_基于用户相似性的协同过滤——Python实现

python寻找相似用户_基于用户相似性的协同过滤——Python实现 的相关文章

随机推荐

热门标签

python寻找相似用户_基于用户相似性的协同过滤——Python实现的相关文章