计算物品的相似度矩阵

2023-11-03

计算物品的相似度矩阵

例如现在有A、B、C、D四个用户，分别对a、b、c、d、e五个物品表达了自己喜好程度（通过评分高低来表现自己的偏好程度高低），计算物品之间的相似度矩阵
在这里插入图片描述

算法
1、建立用户物品倒排表
A a b d
B a c e
C b e
D b d e

2、构建同现矩阵
同现矩阵表示同时喜欢两个物品的用户数，根据用户物品倒排表计算出来

同现矩阵表示同时喜欢两个物品的用户数，根据用户物品倒排表计算出来
3、统计每个物品有行为的用户数
在这里插入图片描述

4、计算物品之间的相似度，得到物品之间的相似度矩阵

分母是喜欢物品i的用户数；
分子是同时喜欢物品i和物品j的用户数。

代码

class ItemCF:
    def __init__(self):
        self.user_score_dict = self.initUserScore()
        self.items_sim = self.ItemSimilarity()
    # 初始化用户评分数据
    def initUserScore(self):
        user_score_dict = {
            "A": {"a": 3.0, "b": 4.0, "c": 0.0, "d": 3.5, "e": 0.0},
            "B": {"a": 4.0, "b": 0.0, "c": 4.5, "d": 0.0, "e": 3.5},
            "C": {"a": 0.0, "b": 3.5, "c": 0.0, "d": 0.0, "e": 3.0},
            "D": {"a": 0.0, "b": 4.0, "c": 0.0, "d": 3.5, "e": 3.0},
        }
        return user_score_dict

    #  计算item之间的相似度
    def ItemSimilarity(self):
        itemSim = dict()
        # 得到每个物品有多少用户产生过行为
        item_user_count = dict()
        # 同现矩阵
        count = dict()
        for user, item in self.user_score_dict.items():
            for i in item.keys():
                item_user_count.setdefault(i, 0)
                if self.user_score_dict[user][i] > 0.0:
                    item_user_count[i] += 1
                for j in item.keys():
                    count.setdefault(i, {}).setdefault(j, 0)
                    if (
                        self.user_score_dict[user][i] > 0.0
                        and self.user_score_dict[user][j] > 0.0
                        and i != j
                    ):
                        count[i][j] += 1
         # 共现矩阵 -> 相似度矩阵
        for i, related_items in count.items():
            itemSim.setdefault(i, dict())
            for j, cuv in related_items.items():
                itemSim[i].setdefault(j, 0)
                itemSim[i][j] = cuv / item_user_count[i]
        return itemSim

if __name__ == "__main__":
    m=ItemCF()
print(m.ItemSimilarity())

运行结果
在这里插入图片描述
参考书本
项亮编著，陈义，王益审校.北京：人民邮电出版社，2016：6

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

协同过滤

计算物品的相似度矩阵的相关文章

Firefox 中的文件下载对话框

我正在使用firefox进行selenium python编程自动开始下载并保存文件我已经完成了所有操作但无法下载csv文件我的python版本是2 6 6 我的selenium版本是最新版本我也尝试使用以下链接即 fp web
在 Python 中比较浮点数是否几乎相等的最佳方法是什么？

众所周知由于舍入和精度问题比较浮点数是否相等有点繁琐例如比较浮点数 2012 年版 https randomascii wordpress com 2012 02 25 comparing floating point number
让 Django 提供可下载文件

我希望网站上的用户能够下载路径被遮挡的文件因此无法直接下载它们例如我希望 URL 是这样的 http example com download f somefile txt 在服务器上我知道所有可下载的文件都位于该文件夹中 home
熊猫加入具有不同索引级别/日期时间的数据帧？

嗨我有两个 DataFrame 如下所示 dineType menuName unique columns date y m d
打开文件路径在 python 中不起作用[重复]

这个问题在这里已经有答案了我正在编写一个数据库程序 personica 是我的测试主题我通常在文件路径的位置有一个变量但出于测试和演示的目的我只有一个字符串在我的计算机上的这个确切位置有一个文本文件顺便说一句因为我很偏执所以
如何使用 django Rest 框架保存多对多字段对象

我有博客发布标签三个模型在博客模型中我将字段 postedin 作为发布模型的外键将标签作为标签模型的许多字段模型 py class Posted models Model name models CharField Pos
使用 Python 打开新窗口时，selenium window_handles 不正确

我想使用 selenium 和 Python 在一个浏览器中打开多个选项卡并通过多个选项卡同时抓取实时投注赔率网站主页生成游戏列表但是除非您找到游戏元素并使用 click 该网站是 ajax 密集型否则无法获取游戏链接这会在同一
seaborn 箱线图的子图

我有一个像这样的数据框 import seaborn as sns import pandas as pd pylab inline df pd DataFrame a one one two two one two one one one
Python 中 eval("input()") 和 eval(input()) 之间的区别

我正在尝试以下功能 x eval input 输入为 123 x 的类型也是int 它工作正常 In 22 x eval input enter enter 123 In 24 print type x
使用 python boto3 管理 Route53 中具有多个 IP 的 A 记录

我的route53中有一条A记录后面有多个IP 例子 A record dummy xyz com 点IPs 1 1 1 1 2 2 2 2 和 3 3 3 3路由策略 Simple 我使用下面的代码来更新单个 IP 的记录 Change
如何在 Django 中像应用程序一样从配置中注册 Flask 蓝图？

如何从我的配置中注册 Flask 蓝图就像 Django 中的应用程序一样我想在配置文件中定义蓝图它将自动注册 config py BLUEPRINTS news files 实际上我一直在一个暂定名为的项目中勾勒出类似的东西臀部口袋
在解析器/子解析器的开头使用 argparse.REMAINDER

我想实现一个 arg 解析器它允许我将单元测试作为子命令之一运行盲目地将参数传递给 unittest main 例如 foo py unittest args to pass to unittest main 以及其他子命令 foo p
AppEngine 警告 - OpenBLAS 警告 - 无法确定该系统上的 L2 缓存大小

我尝试在 GC AppEngine 上部署应用程序部署过程中没有错误但应用程序无法运行仅显示加载页面日志中唯一一个奇怪的原始日志 OpenBLAS WARNING could not determine the L2 cache s
Python：Factory Boy 生成对象创建时指定长度的列表

我正在尝试使用 Factoryboy 在创建时指定长度的对象中创建一个列表我可以创建列表但由于提供的长度大小的惰性性质每次尝试创建具有指定长度的列表都会导致问题这是我到目前为止所拥有的 class FooFactory facto
Django - 渲染到字符串无法加载 CSS

我正在尝试使用 Django 1 8 render to string 通过管理命令将 html 转换为 pdf 而不是使用 View request 以下代码可以将模板转换为 pdf 但它无法将 CSS 加载到模板中 def html t
如何将 Django 数据库中的模板标签解释/渲染为 HTML

我正在尝试添加带有来自 Django 管理站点的图像的帖子但安全自动转义关闭过滤器无法解释 Django 的模板标签 My input and page look like 复制图像地址给出http 127 0 0 1 8000 7B
Hoare Partitioning算法讲解

根据许多网站给出的伪代码我写了这个Hoare分区算法它采用一个数组根据给定的主元来分区子数组的开始和结束索引它工作得很好但是有人可以解释一下逻辑它是如何做到这一点的吗这是代码 def hoare arr start end p
如何通过异常值检测方法在周期性或基于序列的数据上生成脉冲作为异常值以进行实验？

我想对一些时间序列数据进行一些实验KM https scikit learn org stable auto examples cluster plot cluster iris html sphx glr auto examples cl
Pandas 数据框可对多列和要列出的值进行字典

我有一个数据框 id key a1 1 a2 1 a3 1 a4 2 a5 2 a6 3 我想创建一本字典key作为机器号并且id列作为列表 like 1 a1 a2 a3 2 a4 a5 3 a6 我可以先使用 groupby 然后再使
在不同进程之间共享列表？

我有以下问题我编写了一个函数它将列表作为输入并为列表中的每个元素创建一个字典然后我想将这本字典附加到一个新列表中这样我就得到了一个字典列表我正在尝试为此生成多个进程我的问题是我希望不同的进程访问由其他进程更新的字典列表例如

随机推荐

vscode 更新报错，中止以后软件打不开的修复方式

前言今天打开 vscode 正准备敲代码的时候发现 vscode 提示升级于是想也不想的点了升级当然你也可以在这里手动检查程序是否升级了然后悲剧就发生了升级到一半的时候提示进行不下去了问我是否要重试或者终止当时没截图
Qt天气预报

目录环境 weather pro main cpp weather h weather cpp weatherdata h 今天未来6天数据体 weathertool h 获取城市编码工具类 ui weather h UI设计器生成的头
【批处理DOS-CMD命令-汇总和小结】-利用cmd命令生成随机数、生成指定范围的随机数

零转载链接 bat脚本的基本命令语法整合侠博客园一 cmd命令的随机数取值范围 RANDOM 系统变量只能返回 0 到 32767 之间的任意十进制数字 2的15次方等于32768 上面的0 32767实际就是15位二进制数的范围
git----pathspec ‘ ‘ did not match any file(s) known to git

一问题描述场景在前辈刚刚提交了自己的分支之后我想切换过去却发生了如下错误在这之前你得确认你本地的代码提交且push 如果你的分支上没有代码改动的话按如下操作解决二问题解决首先查看分支情况如果没有你想切换的分支名字先获
OLED拼接屏，从选购到安装，手把手教您

OLED拼接屏是一种高端的显示屏它由多个OLED屏幕拼接而成可以实现更大尺寸的显示效果在使用OLED拼接屏时需要注意一些细节下面是OLED拼接屏的教程 1 选择合适的OLED屏幕在选择OLED屏幕时需要考虑屏幕的尺寸分辨率
嘉立创元器件及封装导入AD20

第一步建一个集成库在集成库里添加原理图库和PCB元件库第二步在嘉立创软件或者网页里找到你要导入AD的元件第三歩将元件的原理图和封装分别以AD的格式导出第四步将导出的原理图和封装导入AD 第五步将原理图生成原理图库复制后粘
android studio第三方框架总结

第三方框架gradle添加 UI Material design和Support library控件 compile com android support appcompat v7 25 3 1 compile com android s
搭建一个Fabric网络

生成相关证书文件首先Fabric提供了一些工具用于生成所需的文件 cryptogen模块会根据提供的配置文件生成后续模块运行过程中需要的证书和数据文件 cryptogen常用命令 generate用于根据配置文件生成证书 showtemp
DS18B20使用说明

DS18B20 温湿度监测模块芯片介绍基础介绍引脚介绍 DS18B20是单总线协议的典型代表同时也是单总线协议最广泛的应用场景是常用的数字温度传感器其输出的是数字信号具有体积小硬件开销低抗干扰能力强精度高的特点 DS18
动态SQL,模糊查询,关联查询

一和的区别相同点这两个都是占位符用来指定传入sql的参数不同点这个是预编译的不会发生sql注入如果需要使用拼接的话可以使用sql的内置函数contact 这个是将其中的变量通过字符串拼接的方式插入到sql语句中的容易发生
CodeSmith 使用教程(10): CodeTemplateInfo 对象

通过CodeTemplateInfo对象可以获取代码模板文件本身的一些信息比如文件名源语言编码方法其支持的属性有属性名描述 CodeBehind 该模板的Code behind的文件名或者模板不使用CodeBehind时为空字符
Gromacs初探

1 Gromacs是用来干什么的分子动力学模拟是分子模拟中最接近实验条件的模拟方法能够从原子层面给出体系的微观演化过程直观地展示实验现象发生的机理与规律 gromacs就是一个用于分子动力学模拟的程序 2 Gromacs的步骤以T4
项目部署K8s中excel导出模板名乱码

问题描述线下环境测试问题部署到k8s上时导出报表1时导出时用的时报表2的模板进入镜像中查询template下的导出模板发现模板名都是问号乱码而且数量少了一个可能由于这两个模板的名字都是5个汉字导致tomcat解析时变成了
还在select 1 union select 2 union……？

要目录干啥用Union吧太长用values吧神奇引申Values用法用Union吧太长有时候要临时建个短列表 2047以内的纯数字还不错有个表也够用 select number from master spt valu
人脸识别、无人驾驶背后：是谁在造人工大脑？

NEW 关注剁手日记视频号最新视频 OPPO下一代屏下镜头技术这可能才是你想要的全面屏来源科技新知文樟稻编辑伊页转瞬之间 ILSVRC比赛又称ImageNet比赛已经停办了四年作为机器视觉领域最受追捧也是最具权威的学
【马士兵】Python基础--07（列表）

Python基础 07 文章目录 Python基础 07 列表的添加操作列表中的删除操作列表元素的修改操作对列表的排序操作列表生成式列表的添加操作列表的添加元素有四种方法列表的添加操作不改变列表的id值所以相当于没有新的列表
python 点云处理使用plyfile库写.ply文件

点云处理时关使用python读写 ply文件的博客并不多而且要么是从ply文件头部开始写起要么是csdn收费的所以这里写一个博客记录下 1 读ply文件这个很简单具体可以看官方文档代码首先安装plyfile库 pip ins
关于Oracle sql查询未走索引的问题（第二次查询比第一次查询更慢）

这段时间发现查询一个大表很慢这个表数据量大概有3亿多第一次查询发现返回数据很快即正常使用索引紧接着再次执行这语句时发现查询很慢很久才返回数据按照oracle正常sql查询来说第二次查询应该是比第一次更快才对所以这想象没有
深入浅出谈数据挖掘

作者段勇一数据挖掘的本质一般来说比较狭义的观点认为数据挖掘区别于常规数据分析的关键点在于数据挖掘主要侧重解决四类问题分类聚类关联预测关于这四类问题后文会详细阐述而常规数据分析则侧重于解决除此之外的其他数据分析问题
计算物品的相似度矩阵

计算物品的相似度矩阵例如现在有A B C D四个用户分别对a b c d e五个物品表达了自己喜好程度通过评分高低来表现自己的偏好程度高低计算物品之间的相似度矩阵算法 1 建立用户物品倒排表 A a b d B a c e C b

计算物品的相似度矩阵

计算物品的相似度矩阵

计算物品的相似度矩阵 的相关文章

随机推荐

热门标签

计算物品的相似度矩阵的相关文章