字符串的“相关矩阵”。名义数据的相似度

2024-05-06

这是我的数据框。 df

  store_1      store_2         store_3         store_4     

0 banana      banana           plum            banana
1 orange      tangerine        pear            orange
2 apple       pear             melon           apple
3 pear        raspberry        pineapple       plum
4 plum        tomato           peach           tomato

我正在寻找计算商店中同时出现的次数的方法（以比较它们的相似性）。

你可以尝试这样的事情

import itertools as it
corr = lambda a,b: len(set(a).intersection(set(b)))/len(a)
c = [corr(*x) for x in it.combinations_with_replacement(df.T.values.tolist(),2)]

j = 0
x = []
for i in range(4, 0, -1): # replace 4 with df.shape[-1]
    x.append([np.nan]*(4-i) + c[j:j+i])
    j+= i
pd.DataFrame(x, columns=df.columns, index=df.columns)

哪个产量

        store_1 store_2 store_3 store_4
store_1 1.0     0.4     0.4     0.8
store_2 NaN     1.0     0.2     0.4
store_3 NaN     NaN     1.0     0.2
store_4 NaN     NaN     NaN     1.0

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

python3x

pandas

DataFrame

correlation

字符串的“相关矩阵”。名义数据的相似度的相关文章

如何在Python中检查UDF函数中pyspark数据帧列的单元格值为none或NaN以实现前向填充？

我基本上是在尝试进行前向填充插补下面是代码 df spark createDataFrame 1 1 None 1 2 5 1 3 None 1 4 None 1 5 10 1 6 None session timestamp id PR
python 打开相对文件夹中所有以.txt结尾的文件

我需要打开并解析文件夹中的所有文件但我必须使用相对路径类似于 input files 我知道在 JavaScript 中你可以使用 path 库来解决这个问题我怎样才能在Python中做到这一点这样您就可以获得路径中的文件列表作为列
使用 OpenCV 进行图像模糊检测

我正在研究图像的模糊检测我已经用过拉普拉斯方法的方差在 OpenCV 中 img cv2 imread imgPath gray cv2 cvtColor img cv2 COLOR BGR2GRAY value cv2 Laplacia
简单 CAE 的问题

看起来简单的 CAE 不适用于 Carvana 数据集我正在尝试对 Carvana 数据集进行简单的 CAE 你可以下载它here https www kaggle com c carvana image masking challeng
从 R 中的因子记录创建变量

我有点迷失了我有一个如下所示的数据框 tract ageClass count 1 0 4 71 2 0 4 192 3 0 4 81 1 5 8 9 2 5 8 86 3 5 8 42 我想要这样的结果 tract 0 4 5 8 1
Web 应用程序框架：C++ 与 Python

作为一名程序员我熟悉 Python 和 C 我正在考虑编写自己的简单 Web 应用程序并且想知道哪种语言更适合服务器端 Web 开发我正在寻找一些东西它必须是直观的我认识到 Wt 存在并且它遵循 Qt 的模型我讨厌 Qt 的一件
并行磁盘 I/O

我有几个想要阅读的日志文件不失一般性假设日志文件处理如下 def process infilepath answer 0 with open infilepath as infile for line in infile if line
Python 宏：用例？

如果 Python 有一个类似于 Lisp Scheme 的宏工具比如元Python https code google com p metapython 你会如何使用它如果您是一名 Lisp Scheme 程序员您会使用宏来做什么
有什么理由不在Python中混合使用多处理和线程模块

我正在考虑使用Python来实现一个需要大量多线程的程序另一个要求是它将在桌面上运行因此拥有许多进程将使应用程序显得混乱且难以杀死在任务管理器中因此我正在考虑使用线程和多处理模块来减少进程数量据我了解 GIL 仅适用于单个进程
Django - 从时间戳获取不同的日期

我正在尝试按日期过滤用户但直到我可以找到数据库中用户的第一个和最后一个日期为止虽然我可以让我的脚本稍后过滤掉重复项但我想从一开始就使用 Django 来完成此操作distinct因为它显着减少我试过 User objects val
Python 多处理：全局对象未正确复制到子级

前几天我回答了一个关于SO的问题 https stackoverflow com q 67047533 1925388关于并行读取 tar 文件这是问题的要点 import bz2 import tarfile from multipro
使用 django-profiles 以配置文件形式编辑相关模型

我在用着Django 配置文件 http bitbucket org ubernostrum django profiles wiki Home在我的应用程序中因为它为我提供了一些简单的视图可以帮助我更快地到达我想去的地方但是我有一
在 CSV 文件的最上面一行写入

我有这个sample csv 文件 a 1 apple b 2 banana c 3 cranberry d 4 durian e 5 eggplant 并有以下代码 samplefile open sample csv rb rows s
“gi.repository.Gtk”对象没有属性“gdk”

我正在尝试使用 GTK 创建多线程需要 Gtk gdk 但我收到有关没有 gdk 属性的错误我正在使用带有 Raspbian 的 Raspberry Pi 这就是我导入 GTK 库的方式 try import pygtk pygtk r
按键合并的两个字典的值的并集

我有两本词典 d1 a x y b k l d2 a m n c p r 如何合并这两个字典以获得这样的结果 d3 a x y m n b k l c p r 当字典的值是简单类型如 int 或 str 时这有效 d3 dict i a
如何在Python中仅列出顶级目录？

我希望能够仅列出某个文件夹内的目录这意味着我不需要列出文件名也不需要其他子文件夹让我们看看一个例子是否有帮助在当前目录中我们有 gt gt gt os listdir os getcwd cx Oracle doc DLLs Doc
Python，质数检查器[重复]

这个问题在这里已经有答案了你好我正在创建一个函数来检查一个数字是否是素数但它告诉我 9 是一个素数 def eprimo num if num lt 2 return False if num 2 return True else f
在 python 中，VSCode 调试器不会单步执行外部代码。无法弄清楚如何编辑 launch.json 中的“justMyCode”

我一直在提到https code visualstudio com docs python debugging justmycode https code visualstudio com docs python debugging jus
如何找到 JAR：/home/hadoop/contrib/streaming/hadoop-streaming.jar

我正在练习有关 Amazon EMR 的复数视角视频教程我被困住了因为我收到此错误而无法继续 Not a valid JAR home hadoop contrib streaming hadoop streaming jar 请注意
Django Python - LDAP 身份验证

我目前正在研究 Django Python 我的目标是从 Ldap 目录对用户进行身份验证我确实有 python 代码来访问 ldap 目录并检索信息 Code import ldap try l ldap open ldap forum

随机推荐

Gnuplot：具有置信区间的线点

我有以下数据我想绘制一个图表显示所有 x 与线线点连接的平均值并显示所有置信区间 ci lower ci upper 我设法使用 2 个图来做到这一点 set xrange 0 1100000 set yrange 0 5000
如何用 Java 或 C# 等语言实现统一算法？

我正在读我拿到的人工智能教科书我已经解决了我的部分的最后一个作业问题以您选择的任何语言实施第 69 页概述的统一算法在第 69 页您有以下统一算法的伪代码 function unify E1 E2 begin case both E
Codeigniter - 错误 - 没有要更新的数据

我本来要更新数据库但收到错误没有要更新的数据这是我的脚本我创建了一个简单的切换来更新数据库切换使用户处于活动状态 is active 1 或非活动状态 is active 0 我遇到的问题是虽然对象从 1 更改为 0 或 0 更
如何在 Node.js 中等待

这是一个关于我认为 Node js 中的简单模式的问题这是我在 CoffeeScript 中的示例 db is open false db open gt db is open true wait gt wait until db is
如何使ggplot2图形与R中的黑白打印（复印友好）兼容？

有没有办法转换ggplot2绘制成黑白版本而不重写大部分代码以便黑白版本保持可读性例如要替换scale fill gradient with scale fill grey 或者自动进行适合复印的转换如网站http colorbre
使用带有代码分割的汇总时，有什么方法可以保留包的目录结构吗？

Context 给定这样的项目结构 src a module js b module js util js 两者都在哪里module js文件导入util js 使用以下配置 export default experimentalCodeS
自 1.4.0 版本以来，sphinx_rtd_theme 不再是硬依赖项

C Users Administrator Desktop item code serv documents api gt 制作 html 运行 Sphinx v1 6 2 加载腌制环境失败无法获取属性 WarningStream
Spring MVC 415 不支持的媒体类型

我正在使用 Spring 3 2 并尝试使用 ajax post 请求来提交 json 对象数组如果这是相关的我转义了所有特殊字符我收到的 HTTP 状态为 415 我的控制器是 RequestMapping value save p
类型特征的 _t 别名和 _v 变量模板的目的是什么？

有a lot of v and t后缀例如std is same v std invoke result t result of t以及数百万个其他此类功能 Why它们到底存在吗在任何情况下公开实施细节例如std result of
利用 SSE 和其他 CPU 扩展

在我的代码库中有几个地方对于大型数据集相同的操作会重复很多次在某些情况下处理这些需要花费相当长的时间我相信使用SSE来实现这些循环应该可以显着提高它们的性能特别是在对同一组数据执行许多操作的情况下因此一旦数据最初被读入缓存就
当键是复合键时，metaData.getPrimaryKeys() 返回单行

我在使用 SQLite 驱动程序的 JDBC 中遇到复合主键问题 The getPrimaryKeys 方法从DatabaseMetaData当我验证该键实际上是由两列组成的复合键时对象返回单行有人对如何检索主键的真实列表有任何建议替
文件路径在棒棒糖android中始终返回null

这是我从内部存储画廊获取图像时的代码在棒棒糖文件路径中返回始终为空 if requestCode PICK IMAGE if resultCode RESULT OK image successfully picked launchi
*y++ 和 ++*y 之间的区别？

我对这段代码将如何执行感到困惑假设我们有 int x 30 y z y x y 和 y 和有什么不一样该程序的输出是什么 include
重新索引存储库循环 - 不是 Maven

我的 Eclipse 继续崩溃运行一个循环显示重新索引存储库 myusername 我认为这是因为 github 但我没有检查 Maven 和 GitHub 下的 eclipse 首选项中可能导致问题的所有内容有人可以帮忙吗我的电脑一
MS Access 不支持连接表达式吗？

谁能向我解释我的查询有什么问题吗 SELECT T2 TIPOPRODUTO T2 PRODUTO T1 ESPESSURA AS LARGURA AS COMPRIMENTO AS ACABAM REVEST AS ESPECIF QUA
根据 R 中另一个数据帧中给出的条件，用 NA 替换数据帧中的多个值

使用 R 我想根据另一个数据框中包含的条件将数据框中的数值替换为 NA An example data frame with numeric values I want to change to NA based on values giv
有没有办法在 Dapper 中同时使用 MultiMapping 和 QueryMultiple？

我有一些需要一起运行的查询我可以使用查询多个特征但在这种情况下我无法找出如何使用多重映射有谁知道实现这一目标的方法吗我认为这就是您正在寻找的内容尽管如果没有您尝试执行的查询的示例很难判断 var sql Select From
在 C# 中打开的资源管理器窗口中获取文件/目录列表

我试图拉出打开的资源管理器窗口中列出的文件和目录列表与显示的顺序相同以便我可以查看它然后将焦点设置到特定项目我找到了这段代码here https stackoverflow com questions 14193388 how to
如何从 Richfaces 弹出窗口刷新父 jsf 页面

我有一个包含几个字段的 JSF 页面我跟着这个tutorial http balusc blogspot com 2011 01 jsf 20 tutorial with eclipse and html来自 BalusC 一切都很好然
字符串的“相关矩阵”。名义数据的相似度

这是我的数据框 df store 1 store 2 store 3 store 4 0 banana banana plum banana 1 orange tangerine pear orange 2 apple pear melon

字符串的“相关矩阵”。名义数据的相似度

字符串的“相关矩阵”。名义数据的相似度 的相关文章

随机推荐

热门标签

字符串的“相关矩阵”。名义数据的相似度的相关文章