一种简单的计算item相似度算法

2023-11-20

计算item之间相似度是个有意义的工作，比如词的相似度就有很多应用场景。词相似度就有很多做法，工业上现在用得最多的可能是word2vec了，还有些算语义相似度的偏学术的办法。

这里介绍一种比较简单可行的思路，不只是算词相似度，其他类型也可以。这个方法很早以前在读书时候就知道的，基本思路也是把item表示成其他item的向量之后，再用向量进行相似度计算。

怎么表示这样的关系，就变成一个可以自由控制的开放方法，最简单的办法，用item和item之间的关联度来表示向量上对应维度的强弱。而任何关联度计算公式的核心都包含两个item同时出现(共现)的程度，共现通常自由定义。比如在文本词的应用环境中，可以用同时出现在段落、文章、甚至句子。再比如商品环境中，可以定义成一定范围内的同一个人的购物清单。

于是一个itemi可以表示成所有item的向量Vi=[0.1, 0.2, 3.1, 0, 0...] 如此格式，对itemi和j的相似度就可以用Vi和Vj的相似度来表征了，比如cosine， jaccard、皮尔逊等等。使用这样的表示的好处是可以发现真正的"相似"性，因为如果两个item a,b 真的是相似，它们很可能不会出现在一个共现场景下，例如同义词在同样的环境只会选一个，或者相同功能的商品一般人只会买一个，而不会选多个。但它们都共同的和其他item同时出现过，它们和其他item的关联很可能是稳定的，但a,b之间很少共现。

这种方法简单，但算法效率并不是太高，因为算两两关联至少是个O(n^2)的复杂度。n表示item的数量。

第一步，算两两item的关联度，需要枚举所有的共现出来，再累加；复杂度是O(n^2)，通常item都比较稀疏，还算能接受。

第二步，每个item表示成V之后，两两之间的V还要算一个相似度，其实是O(n^2) 再乘以V的维度数，应该是O(n^3)。

事实上也有一些加速的算法了，但我还没研究过，我自己想到一个加速第二步的办法。

首先，item表示成其他item关系，应该让尽可能保留强关联的维度，也就是V的大部分维度是0。

其次，把所有V表示出来成一个矩阵M，M肯定是对角线对称的。 V根据cosine的公式分子是两个向量Va Vb中交集部分，那么∑(wa * wb) 在这个M上对任意两个V 累加同行部分和同列部分是等价的。所以我们不需要对任意两个V在每个维度单独累加，而是可以累加每个V上的二元组wi * wj 而得到，最后再除以sqrt(∑(Va) * ∑(Vb))。

举个例子 a , b , c , d

a 0 0.5 0.3 0.1

b 0.5 0 0.7 0.9

c 0.3 0.7 0 0.5

d 0.1 0.9 0.5 0

这样一个矩阵，横着看算Vc和Vd的相似度，就是a,b对应两列在c,d两行求出的交集（左下角四个元素），除再以c和d各自V的大小。这个过程也等价于右上角四个元素换个方向的计算。那就是把 (c,d) 这样的元组不管在哪行出现，交集全部拿出来再进行累加就行了。这样的好处是第二步的过程和第一步完全一样了，比写一个V求相似度函数要简单、方便、效率更高，可以直接加入MR框架中。

可以看到相似度其实是一种更具体的关联度，关联度上直接挖掘未必能得出比较好解释的结果。有了相似度，就可以在这种关系上进行进一步的真正的聚类团体发现。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

一种简单的计算item相似度算法的相关文章

跨境电商三大趋势已经涌现

在过去的几年里跨境电商在推动外贸增长中发挥了至关重要的作用成为了引领行业发展的强大引擎然而随着2024年的到来跨境电商行业又站在了崭新的起点准备攀登新的发展高峰数据显示得益于经济的逐步复苏未来三年跨境电商行业预计将以16
如何快速搭建一个自营商城？（调用电商API实现快速采集商品）

一背景介绍在数字化时代电商行业蓬勃发展无数商家涌入这片蓝海对于许多有志于开拓电商业务的企业和个人来说快速搭建一个自营商城成为了迫切的需求然而传统意义上的自建商城需要投入大量的人力物力和时间这让许多初创企业和个人望而却步
番外篇-Julius AI帮你做数据分析

今天咱们聊聊如何利用AI大模型来做数据分析非常适合小白体验尤其是缺乏项目经验的同学强烈建议关注收藏也欢迎私信交流 1 站在巨人肩膀在数据分析领域 AI技术的飞速发展正引领一场革命随着大型机器学习模型的不断完善数据分析变得前所未
高翔博士Faster-LIO论文和算法解析

说明题目 Faster LIO 快速激光IMU里程计参考链接 Faster LIO 快速激光IMU里程计 iVox Faster Lio 智行者高博团队开源的增量式稀疏体素结构 Faster Lio是高翔博士在Fast系列的新作对标基
浅谈归并排序：合并 K 个升序链表的归并解法

在面试中遇到了这道题如何实现多个升序链表的合并这是 LeetCode 上的一道原题题目具体如下用归并实现合并 K 个升序链表 LeetCode 23 合并K个升序链表给你一个链表数组每个链表都已经按升序排列请你将所有链表合并到
天猫数据分析工具推荐（天猫第三方数据平台）

在电商迅速发展的大背景下做好天猫数据分析能够在多方面帮助品牌商家更好地运营店铺塑造品牌如通过数据分析了解消费者的需求购买偏好这有利于品牌商家及时调整商品结构产品推广商品宣传等等灵活制定品牌的销售策略那么天猫平台行业品牌
D - Loong and Takahashi （经典模拟绕圈）

题目 https atcoder jp contests abc335 tasks abc335 d 思想令 flag 0 1 2 3 分别代表四个方向右下左上然后判断下一步是否超过边界或者被填充过如果是就换方向最后输出代
【状态估计】电力系统状态估计中的异常检测与分类（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及详细文
排序：计数排序

一概念计数排序是非比较排序是对哈希直接定址法的变形应用二思想利用数组统计相同数据出现的次数例如整型数据m出现n次就在数组m位置记录数据为n 最后从头遍历数组打印数据即可通俗来讲就是数组下标即为数据下标所指位置的值即为数
【自适应滤波】一种接近最佳的自适应滤波器，用于突发系统变化研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
【状态估计】【卡尔曼-加权最小二乘(KEWLS)和KEWLS-KF(KKF)】采用低维线性卡尔曼滤波器将单个传感器测量外推/预测到单个估计瞬间，用于WLS多点定位方法的新方法（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码实现
2024年华为OD机试真题-小明找位置-Java-OD统一考试（C卷）

题目描述小朋友出操按学号从小到大排成一列小明来迟了请你给小明出个主意让他尽快找到他应该排的位置算法复杂度要求不高于nLog n 学号为整数类型队列规模 lt 10000 输入描述 1 第一行输入已排成队列的小朋友的学号正整
【自适应滤波】一种接近最佳的自适应滤波器，用于突发系统变化研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 3 参考文献 4 Matlab代码及文章
华为OD机试真题-分配土地-Python-OD统一考试（C卷）

题目描述从前有个村庄村民们喜欢在各种田地上插上小旗子旗子上标识了各种不同的数字某天集体村民决定将覆盖相同数字的最小矩阵形的土地的分配给为村里做出巨大贡献的村民请问此次分配土地做出贡献的村民中最大会分配多大面积输入描述第一行
矩阵基本操作

问题描述已知一个n n的矩阵方阵n lt 100 把矩阵主副对角线上的元素值加上x 然后输出这个新矩阵输入格式一行两个变量用空格隔开代表n和x 接下来的n行每行n列表示矩阵的数值用空格隔开输出格式输出新矩阵每个数字5个
毕业设计- 基于深度学习的小样本时间序列预测算法 - Attention

目录前言课题背景与意义课题实现一数据集二设计思路三相关代码示例最后前言大四是整个大学期间最忙碌的时光一边要忙着准备考研考公考教资或者实习为毕业后面临的就业升学做准备一边要为毕业设计耗费大量精力近几年各个学校
用栈实现队列（OJ中报错的处理）

用栈实现队列 ERROR AddressSanitizer myQueueFree函数中栈的释放处现了问题没有调用StackDestory而是直接free了这个是栈初始化时 capacity与malloc申请的空间大小没有匹配请你仅使
【一种新的Burton-Miller型奇异边界方法（BM-SBM）】用于声学设计灵敏度分析，2D和3D声学设计灵敏度分析的奇异边界方法研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 2D 2 2 3D
【GRNN-RBFNN-ILC算法】【轨迹跟踪】基于神经网络的迭代学习控制用于未知SISO非线性系统的轨迹跟踪（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 2 运行结果 2 1 第1部分 2 2 第2部分
最大流-Dinic算法，原理详解，四大优化，详细代码

文章目录零前言一概念回顾可略过 1 1流网络 1 2流 1 3最大流 1 4残留网络 1 5增广路

随机推荐

【C语言】文本文件读取中文汉字出现乱码问题的解决方法

include
手把手教你如何写一个三子棋/N子棋的小游戏

这里写目录标题第一步游戏进入界面第二步初始化棋盘第三步打印棋盘第四步玩家和电脑下棋第五步判断输赢三子棋或者N子棋怎么写让我们先来玩一把再来看看怎么写程序运行界面 1为玩游戏 2为清屏 0为退出游戏我们选1 然后
前端多个参数传参js

function getparm 返回当前 URL 的查询部分问号之后的部分 var urlParameters location search 声明并初始化接收请求参数的对象 var requestParameters new Obj
PPTP中的PAC 和PNS

http blog csdn net galdys article details 6682298 网络服务器 PNS 访问集线器 PAC PAC 可编程自动化控制器的概念是由ARC咨询集团的高级研究员Craig Resnick提出的在
rostcm6情感分析案例分析_基于情感词典的情感分析方法

上节课我们介绍了基于SnowNLP快速进行评论数据情感分析的方法本节课老shi将介绍基于情感词典的分析方法基于情感词典的分析方法是情感挖掘分析方法中的一种其普遍做法是首先对文本进行情感词匹配然后汇总情感词进行评分最后得到文本的情
LeetCode -- 1833. 雪糕的最大数量

使用的算法计数排序贪心算法计数排序 1 基于比较的排序算法 2 在对一定范围内的整数排序时它的复杂度为 n k 其中k是整数的范围快于任何比较排序算法当O k gt O nlog n 的时候其效率反而不如基于比较的排序基于比较
Kali Linux进阶篇：Nmap扫描网络空间存活主机技巧

课前声明 1 本分享仅做学习交流请自觉遵守法律法规 2 搜索 Kali与编程学习更多网络攻防干货一背景介绍 nmap是一个网络连接端扫描软件用来扫描网上电脑开放的网络连接端确定哪些服务运行在哪些连接端并且推断计算机运行哪个操作
Java对象的快速复制的几种方式

浅拷贝深度复制 BeanUtils copyProperties 对象的克隆是指创建一个新的对象且新的对象的状态与原始对象的状态相同当对克隆的新对象进行修改时不会影响原始对象的状态注释 clone 是object类的protect
Makefile中的include命令详解

转载地址点击打开链接关于Makefile中的include命令网上有很多介绍比较普遍的说法是 Makefile中的include命令与C语言中的include命令类似命令include file dep 即把file dep文件在
最流行的五大数据模型工具

当今的商业决策对基于天的数据依赖越来越强烈然而正确而连贯的数据流对商业用户做出快速灵活的决策起到决定性的作用建立正确的数据流和数据结构才能保证最好的结果这个过程叫做数据建模为了避免认为错误并且加快进度我们需要使用专业的软件来帮
CUBLAS变量解释（1）

变量类型 cublasOperation t 解释该类型表明输入的密集矩阵的形式其值有 CUBLAS OP N 非转置 CUBLAS OP T 转置 CUBLAS OP C 共轭转置该函数对应于BLAS FORTRAN版的变量字符
C++文本文件，二进制文件,write(),read(),map容器,seekg(),seekp(),tellg(),tellp()函数

include
百度富文本编辑器UEditor配置及功能实现详解

当前功能基于PHP 其它语言流程大抵相同大概流程 1 将docx文件上传到服务器中 2 使用PHPoffice PHPword实现将word转换为HTML 3 将HTML代码返回并赋值到编辑器中 1 编辑器配置修改 1 1 新增上传wor
ubuntu下安装Navicat

Step1 打开Navicat官网下载Navicat 网址 http www navicat com en download download html Navicat for MySQL 10 0 11 Download Downloa
SQL中IN、NOT IN的使用，以及NULL值的比较

SQL中IN以及NOT IN的使用以及NULL值的比较在LeetCode写 608 树节点题时发现使用NOT IN在比较值为空的列时存在问题记录在此 IN 和 NOT IN 在SQL中是用来指定一个列应该与其匹配的值的列表 IN
【论文阅读】learning with noisy correspondence for cross-modal matching ------ 跨模态匹配，噪声对应

注意本博客非逐字逐句翻译论文是作者阅读论文后根据自己的理解所写预知论文详情请参阅论文原文论文标题 Learning with Noisy Correspondence for Cross modal Matching 作者 Zhe
信号与系统3——傅里叶描述

信号与系统3 傅里叶描述 1 复正弦信号和线性时不变系统的频率相应 1 频率响应Frequency response 2 离散LTI系统的频率响应Frequency response of Discrete time LTI system
qml程序如何启动

1 qml主界面是Window或者是ApplicationWindow 在main cpp中可以使用 QQmlApplicationEngine engine engine load main qml 2 qml中的主界面是Rectangl
MSP430F5529库函数——模数转换模块（ADC12）软件触发

需提前观看 MSP430F5529库函数学习串口目录代码 ADC初始化部分引脚复位 ADC12 A init 函数声明 baseAddress sampleHoldSignalSourceSelect clockSourceSele
一种简单的计算item相似度算法

计算item之间相似度是个有意义的工作比如词的相似度就有很多应用场景词相似度就有很多做法工业上现在用得最多的可能是word2vec了还有些算语义相似度的偏学术的办法这里介绍一种比较简单可行的思路不只是算词相似度其他类型也可以

一种简单的计算item相似度算法

一种简单的计算item相似度算法 的相关文章

随机推荐

热门标签

一种简单的计算item相似度算法的相关文章