推荐系统(3)——最经典的推荐算法(协同过滤算法原理部分)

2023-11-18

一最经典的推荐算法：协同过滤推荐算法（Collaborative Filtering）

算法思想：物以类聚，人以群分

基本的协同过滤推荐算法基于以下假设：

“跟你喜好相似的人喜欢的东西你也很有可能喜欢” ：基于用户的协同过滤推荐（User-based CF）

“跟你喜欢的东西相似的东西你也很有可能喜欢 ”：基于物品的协同过滤推荐（Item-based CF）

实现协同过滤推荐有以下几个步骤：

找出最相似的人或物品：TOP-N相似的人或物品

通过计算两两的相似度来进行排序，即可找出TOP-N相似的人或物品
根据相似的人或物品产生推荐结果

利用TOP-N结果生成初始推荐结果，然后过滤掉用户已经有过记录的物品或明确表示不感兴趣的物品

关于相似度计算这里先用一个简单的思想：如有两个同学X和Y，X同学爱好[足球、篮球、乒乓球]，Y同学爱好[网球、足球、篮球、羽毛球]，可见他们的共同爱好有2个，那么他们的相似度可以用：2/3 * 2/4 = 1/3 ≈ 0.33 来表示。

二相似度计算(Similarity Calculation)

相似度的计算方法

数据分类
- 实数值(物品评分情况)
- 布尔值(用户的行为是否点击是否收藏)
欧氏距离, 是一个欧式空间下度量距离的方法. 两个物体, 都在同一个空间下表示为两个点, 假如叫做p,q, 分别都是n个坐标, 那么欧式距离就是衡量这两个点之间的距离. 欧氏距离不适用于布尔向量之间

欧氏距离的值是一个非负数, 最大值正无穷, 通常计算相似度的结果希望是[-1,1]或[0,1]之间,一般可以使用如下转化公式:

杰卡德相似度&余弦相似度&皮尔逊相关系数
- 余弦相似度
  - 度量的是两个向量之间的夹角, 用夹角的余弦值来度量相似的情况
  - 两个向量的夹角为0是,余弦值为1, 当夹角为90度是余弦值为0,为180度是余弦值为-1
  - 余弦相似度在度量文本相似度, 用户相似度物品相似度的时候较为常用
  - 余弦相似度的特点, 与向量长度无关,余弦相似度计算要对向量长度归一化, 两个向量只要方向一致,无论程度强弱, 都可以视为'相似'
- 皮尔逊相关系数Pearson
  - 实际上也是一种余弦相似度, 不过先对向量做了中心化, 向量a b 各自减去向量的均值后, 再计算余弦相似度
  - 皮尔逊相似度计算结果在-1,1之间 -1表示负相关, 1表示正相关
  - 度量两个变量是不是同增同减
  - 皮尔逊相关系数度量的是两个变量的变化趋势是否一致, 不适合计算布尔值向量之间的相关度
- 杰卡德相似度 Jaccard
  - 两个集合的交集元素个数在并集中所占的比例, 非常适用于布尔向量表示
  - 分子是两个布尔向量做点积计算, 得到的就是交集元素的个数
  - 分母是两个布尔向量做或运算, 再求元素和
- 余弦相似度适合用户评分数据(实数值), 杰卡德相似度适用于隐式反馈数据(0,1布尔值)(是否收藏,是否点击,是否加购物车)

余弦相似度

皮尔逊相关系数

计算出用户1和其它用户之间的相似度

按照相似度大小排序, K近邻如K取4:

取出近邻用户的购物清单

去除用户1已经购买过的商品

在剩余的物品中根据评分排序

物品相似度计算
- 余弦相似度对绝对值大小不敏感带来的问题
  - 用户A对两部电影评分分别是1分和2分, 用户B对同样这两部电影进行评分是4分,5分用余弦相似度计算,两个用户的相似度达到0.98
  - 可以采用改进的余弦相似度, 先计算向量每个维度上的均值, 然后每个向量在各个维度上都减去均值后,在计算余弦相似度, 用调整的余弦相似度计算得到的相似度是-0.1

物品相似度计算案例

找出物品1的相似商品

选择最近似的物品

基于用户与物品的协同过滤比较

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

算法

机器学习

大数据

随机推荐

网络安全实验室CTF练习部分题目（持续更新）

1 脚本关微笑一下过关地址 http lab1 xseclab com base13 ead1b12e47ec7cc5390303831b779d47 index php 查看源代码 include flag php smile 1 i
webpack 5 模块联邦实现微前端疑难问题解决

webpack 5 模块联邦实现微前端疑难问题解决说明 webpack 5 新增 Module Federation 模块联邦功能他可以帮助将多个独立的构建组成一个应用程序不同的构建可以独立的开发与部署借助模块联邦我们可以一定程度
什么是思维导图？6 个开源免费的思维导图软件

目录 15款思维导图工具推荐什么是思维导图 6 个开源免费的思维导图软件当前推荐 Freeplane 离线应用有免安装版本跨平台目前 2023年还在更新中下载 https sourceforge net projects fr
【CentOS7】-bash: ifconfig: 未找到命令

安装完CentOS7并配置完网络之后使用ifconfig命令进行测试出现以下情况原因分析缺少ifconfig组件那么我们可以下载相关的网络组件来解决 yum install y net tools 一波未平一波又起出现了一下问题
李飞飞深度学习与计算机视觉——KNN(KNearestNeighbor)

之前为了熟悉机器学习的东西去搞kaggle的东西然后就从Titanic入门咯结果发现并没有对机器学习的东西有深入的理解做数据挖掘的时候直接调用sklearn里面的框架根本不用去想机器学习的公式的运用和基础的实现想用SVM就直接fr
Object.defineProperty

Object defineProperty Object defineProperty obj prop descriptor obj 要在其上定义属性的对象 prop 要定义或修改的属性的名称 descriptor 将被定义或修改的属性描
登录界面测试用例设计

登录界面测试用例设计一界面测试点 1 界面的设计风格是否与UI的设计风格统一 2 界面中的文字简洁易懂 3 界面中没有错别字二用户名与密码在输入时要考虑 1 正确的用户名与正确的密码 2 正确的用户名与错误的密码 3 错误的用户名
腾讯云前端面经

腾讯云招聘一共四面第一面是你以后的同事面试主要考察基础知识第二面是以后的直属领导会考察基础原理以及和职位的匹配度三面是主管考察项目等整体四面为hr面试一面一面都比较基础涉及js vue和网络安全 1 自我介绍单纯的自
如何使用Go Module代理

简介在我们使用Go Module时 golang org x中的文件因为撞墙无法下载通过改变GOPROXY环境变量可以指定下载源地址 https mirrors aliyun com goproxy 阿里云的代理仓 https gop
QT 帮助文档使用方法

我们使用 Qt 帮助文档主要分为这么几步 1 类使用的相关介绍 2 查看所用部件类的相应成员函数功能参数返回值 3 查看部件的信号 4 查看部件的事件所对应的虚函数如何编写 1 类使用的相关介绍光标移动到类名字的地方接着按
python 爬虫调用 js 的库之 execjs

python 爬虫调用 js 的库之 execjs 针对现在大部分的网站都是使用 js 加密 js 加载的并不能直接抓取出来这时候就不得不使用一些三方类库来执行 js 语句 1 安装 pip install PyExecJS 2 运行环
你是否看到过如此有趣的AI网站？

1 营销文案 CopyAI Create Marketing Copy In Seconds 2 美化ppt设计 https www beautiful ai 3 图片修改 https hotpot ai 4 照片变视频 https www
shell 多行注释详解

在我们写 shell 脚本的时候特别在调试的时候经常需要注释多行命令但在每一行前输入显得有些麻烦基于 shell 命令的灵活性我们可以使用下面的方法方法一这是比较稳妥的作法可以采用 HERE DOCUMENT 特性实现多行
android应用程序版本管理

一版本的主要功能说明在应用程序的升级维护策略中版本是一个关键的组成部分主要体现在以下几个方面中 1 用户需要了解在他们的设备上所安装的应用程序的版本的特定信息以及已安装程序的升级版本可用的情况 2 其他应用程序作为同一个套件中
AD20铺铜显示和隐藏的设置

如果只想隐藏当前选中的铜皮那么就选中对应需要隐藏的铜然后鼠标右击在弹出的对话框中选择铺铜操作隐藏选中铺铜需要隐藏一部分铜皮即打开铺铜管理器选择菜单栏中工具铺铜铺铜管理器在弹出的铺铜管理器对话框中想将哪些铜皮去进行隐
招行卡中心服务端开发【已offer】

流程 4 2投递简历 4 9笔试 4 15一面 4 22二面 4 28offer 笔试卡中心笔试题量偏少 16道选择两道编程选择题范围很广涉及了java c 设计模式概率统计信息论与编码数据库操作系统计网等等等等知识点编
C/C++ &与&&

表示逻辑与的意思即为and 当运算符两边的表达式的结果都为true时整个运算结果才为true 否则只要有一方为false 则结果为false 比如 12 23的结果就是1 12 1 的结果是1 123 0的结果就是0 还具有短路的功能
Gdb 调试核心已转存储-调试VINS-FUSION/ORB-SLAM

GDB调试C 工程非ROS 1 通过运行可执行程序来进入gdb CMakeLists中的修改 SET CMAKE BUILD TYPE Debug SET CMAKE CXX FLAGS DEBUG ENV CXXFLAGS O0 Wall
2023-05-29 Unity 2进制5——Excel配置表工具

文章目录一 Excel 读取操作一打开 Excel 表二获取单元格信息二 Excel 表配置工具一基础知识二配置工具三演示步骤 1 ExcelTool 2 BinaryMgr 一 Excel 读取操作一打开 Ex
推荐系统(3)——最经典的推荐算法(协同过滤算法原理部分)

一最经典的推荐算法协同过滤推荐算法 Collaborative Filtering 算法思想物以类聚人以群分基本的协同过滤推荐算法基于以下假设跟你喜好相似的人喜欢的东西你也很有可能喜欢基于用户的协同过滤推荐 User base

推荐系统(3)——最经典的推荐算法(协同过滤算法原理部分)

一 最经典的推荐算法：协同过滤推荐算法（Collaborative Filtering）

二 相似度计算(Similarity Calculation)

推荐系统(3)——最经典的推荐算法(协同过滤算法原理部分) 的相关文章

随机推荐

热门标签

一最经典的推荐算法：协同过滤推荐算法（Collaborative Filtering）

二相似度计算(Similarity Calculation)