如何使用相关系数矩阵进行聚类？

2023-12-23

我有一个相关系数矩阵（n*n）。如何利用相关系数矩阵进行聚类？

我可以在 SciPy 中使用链接和 fcluster 函数吗？

联动功能需求n * m矩阵（根据教程），但我想使用 n*n 矩阵。

我的代码是

corre = mp_N.corr()    # mp_N is raw data (m*n matrix)  
Z = linkage(corre, method='average')  # 'corre' is correlation coefficient matrix
fcluster(Z,2,'distance')

这段代码对吗？如果这段代码是错误的，我该如何用相关系数矩阵进行聚类？

使用相关矩阵对数据进行聚类是一个合理的想法，但必须首先对相关性进行预处理。首先，相关矩阵，由numpy.corrcoef，受机器算术误差的影响：

它并不总是对称的。
对角项并不总是恰好为 1

这些可以通过转置取平均值并用 1 填充对角线来修复：

import numpy as np
data = np.random.randint(0, 10, size=(20, 10))   # 20 variables with 10 observations each
corr = np.corrcoef(data)                         # 20 by 20 correlation matrix
corr = (corr + corr.T)/2                         # made symmetric
np.fill_diagonal(corr, 1)                        # put 1 on the diagonal

其次，任何聚类方法的输入，例如linkage，需要测量差异性的物体。相关性测量相似。所以需要进行变换，使得0相关性映射到一个大数，而1相关性映射到0。

这篇博文 http://research.stowers.org/mcm/efg/R/Visualization/cor-cluster/index.htm讨论了此类数据转换的几种方法，并建议dissimilarity = 1 - abs(correlation)。这个想法是，强负相关性也表明对象是相关的，就像正相关性一样。这是该示例的延续：

from scipy.cluster.hierarchy import linkage, fcluster
from scipy.spatial.distance import squareform

dissimilarity = 1 - np.abs(corr)
hierarchy = linkage(squareform(dissimilarity), method='average')
labels = fcluster(hierarchy, 0.5, criterion='distance')

请注意，我们不会将完整的距离矩阵输入linkage，它需要被压缩squareform first.

使用什么准确的聚类方法以及什么阈值取决于问题的上下文，没有通用规则。通常，0.5 是用于相关性的合理阈值，所以我这样做了。通过我的 20 组随机数，我最终得到了 7 个簇：编码为labels as

[7, 7, 7, 1, 4, 4, 2, 7, 5, 7, 2, 5, 6, 3, 6, 1, 5, 1, 4, 2]

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

如何使用相关系数矩阵进行聚类？的相关文章

在 pandas 中单独打印一列的原始值？

我有一个数据框 df pd DataFrame name george age 23 name anna age 26 现在我想检索乔治的年龄 df df name george age 但这会输出一些额外的信息以及原始值 0 23 Nam
使用应用程序脚本将 MS Word 文件（保存在云端硬盘中）转换为 Google 文档

我被某些事情困住了找不到解决办法有没有办法使用文件 url 或 id 将存储在 Google Drive 中的 MS Word 文件转换为 Google 文档我目前有一个电子表格其中包含文件的网址或者也可以使用 python 脚
最小二乘法拟合直线 python 代码

我有一个由 X 和 Y 坐标组成的散点图我想使用直线的最小二乘拟合来获得最佳拟合线直线最小二乘拟合是指如果 x 1 y 1 x n y n 是测量数据对则最佳直线是y A Bx 这是我的Python代码 number of poin
组和平均 NumPy 矩阵

假设我有一个任意的 numpy 矩阵如下所示 arr 6 0 12 0 1 0 7 0 9 0 1 0 8 0 7 0 1 0 4 0 3 0 2 0 6 0 1 0 2 0 2 0 5 0 2 0 9 0 4 0 3 0 2 0 1 0
在Python中以交互方式执行多行语句

我是 Python 世界的新手这是我用 Python 编写的第一个程序我来自 R 世界所以这对我来说有点不直观当我执行时 In 15 import math import random random random math sqrt
如何在Python代码中查找列号

简短问题当按上述方式调用函数时我可以找到行号here https stackoverflow com questions 3056048 filename and line number of python script 同样如何找到
NumPy 和 SciPy - .todense() 和 .toarray() 之间的区别

我想知道使用是否有什么区别优点缺点 toarray vs todense 在稀疏 NumPy 数组上例如 import scipy as sp import numpy as np sparse m sp sparse bsr mat
张量流和线程

下面是来自 Tensorflow 网站的简单 mnist 教程即单层 softmax 我尝试通过多线程训练步骤对其进行扩展 from tensorflow examples tutorials mnist import input dat
如何使用 PyMongo 在重复键错误后继续插入

如果我需要在 MongoDB 中插入尚不存在的文档 db stock update one document set document upsert True 将完成这项工作如果我错了请随时纠正我但是如果我有一个文档列表并想将它们全
将列表中的 None 替换为最左边的非 none 值

Given a None 1 2 3 None 4 None None I d like a None 1 2 3 3 4 4 4 目前我已经用以下方法强制它 def replaceNoneWithLeftmost val last Non
uri 警告中缺少端口：使用 Python OpenCV cv2.VideoCapture() 打开文件时出错

当我尝试流式传输 ipcam 时出现了如下所示的错误 tcp 000000000048c640 uri 中缺少端口警告打开文件时出错 build opencv modules videoio src cap ffmpeg impl h
根据第三个变量更改散点图中的标记样式

我正在处理多列字典我想绘制两列然后根据第三列和第四列更改标记的颜色和样式我很难改变 pylab 散点图中的标记样式我的方法适用于颜色不幸的是不适用于标记样式 x 1 2 3 4 5 6 y 1 3 4 5 6 7 m k l l
用于多个窗口的 Tkinter 示例代码，为什么按钮无法正确加载？

我正在编写一个程序应该按一下按钮即可打开一个窗口按另一个按钮关闭新打开的窗口我使用类以便稍后可以将代码插入到更大的程序中但是我无法正确加载按钮 import tkinter as tk class Demo1 tk Frame
Jupyter Notebook 中的深色模式绘图 - Python

我正在使用 Jupyter Notebook 目前正在使用 JupyterThemes 的深色日光主题我注意到我的绘图不是处于黑暗模式并且文本仍然是黑色并且在日光照射的背景上无法读取 JupyterThemes 的自述文件建议在 ipy
如何使用 django-pyodbc (ubuntu 16.04) 配置数据库设置 Django-MSSQL？

我是 Django 新手目前正在尝试使用另一个数据库来保存我的模型即MS SQL 我的数据库部署在docker容器中 903876e64b67 microsoft mssql server linux bin sh c opt mssq
具有多个主键的 SQLAlchemy 不会自动设置任何

我有一个简单的表 class test Base tablename test id Column Integer primary key True title Column String def init self title self
Python 导入非常慢 - Anaconda python 2.7

我的 python import 语句变得非常慢我使用 Anaconda 包在本地运行 python 2 7 导入模块后我编写的代码运行得非常快似乎只是导入需要很长时间例如我使用以下代码运行了一个 tester py 文件 imp
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装
在python中对列表列表执行行总和和列总和

我想用python计算矩阵的行和和列和但是由于信息安全要求我无法使用任何外部库因此为了创建矩阵我使用了列表列表如下所示 matrix 0 for x in range 5 for y in range 5 for pos in

随机推荐

c++: 函数 arg char** 与 char*[] 不同

我正在使用 g 我正在使用具有main int char 重命名以便我可以调用它我在看我应该在 C 中使用 char argv 还是 char argv https stackoverflow com questions 779910 s
温莎城堡将命名组件映射到特定属性

以下场景我们使用 Fluent API 来注册程序集中的所有组件以及具有命名键的两个组件 typeof A 另一个具有两个属性 typeof A 的类 B 应该获得注入的命名组件 Sample public class A IA publ
MYSQL 在存储过程中参数化 IN 子句变量值的最佳方法

我必须编写一个存储过程我想使用 IN 运算符为名为 colorId 的变量设置值该参数可以是整数 id 列表或没有 id 我想知道存储过程中变量的类型应该是什么其中 color id IN 1 2 3 4 谢谢您的帮助如果你发送一个
preg_split() 的正则表达式换行[重复]

这个问题在这里已经有答案了这是我的文件 0 0 5 0 5 0 6 0 7 0 2 0 5 0 2 0 1 0 5 0 5 0 1 0 2 0 7 1 5 0 5 0 0 0 5 0 5 0 5 0 2 0 5 0 1 0 5 0 6 0
CSS 网格中每行的列数可以不同吗？

grid display grid grid template columns repeat 3 1fr grid template rows 100px grid auto rows 60px grid gap 15px col back
D3 从最右边的字符开始在轴左侧对齐文本

所以我有一个 D3 条形图如下所示条形图 https i stack imgur com f3UWR png 当较小的数据条与轴的右侧重叠时就会出现问题我想沿着图轴的左侧对齐数据文本如较大的数字所示无论条形有多小 var dat
H.264 中的 VBV（视频缓冲验证器）是什么？

我不明白什么是 VBV 视频缓冲验证器以及它与 maxrate 有什么关系当我使用这个命令时 ffmpeg i input mp4 crf 21 maxrate 750k bufsize 750k codec v 0 libx264 s
如何恢复MySQL root用户的全部权限

我不小心删除了 MySQL root 用户的所有权限有什么方法可以将该用户恢复到其原始状态具有所有权限我正在使用mysql工作台6 0 请让我逐步知道解决方案因为我是 sql 新手第一次尝试 GRANT ALL ON TO roo
我可以通过 2 个键对对象列表进行排序吗？

我有以下课程精简 class DiskInstance object def init self name epoch size self name name self epoch epoch self size size 然后我定义一个
使用 awk sed 命令和 while 循环从第二个文件中删除条目

我有两个输出文件 FILE A 包含 70 000 多个独特条目 FILE B 包含我需要从 FILE B 中删除的唯一列表 FILE A TOM JACK AILEY BORG ROSE ELI FILE B内容 TOM ELI 我想从文
选择开始-结束与文本区域

我遇到了这个烦人的问题我似乎无法获取文本区域中所选文本的开始和结束索引我得到的只是未定义如下所示 myarea selectionStart return undefined 我做错什么了吗 Try myarea 0 selectio
如何在新选项卡中打开新创建的图像？

下面的代码在同一页面的底部创建图像如何将该图像显示到新选项卡窗口中而不是显示在同一页面中 success function data var image new Image image src data image jpg base64
org.springframework.web.jsf.el.SpringBeanFacesELResolver 类必须扩展 javax.el.ELResolver 类型

我正在尝试将 Spring 集成到 JSF 应用程序中 In faces config xml 我已经包括了这个
登录按钮 facebook android 不会重定向到新活动

当我运行 Android 应用程序并单击批准授予权限时它不会重定向到 MainActivity 已登录消息不会显示在目录中我已阅读 Facebook 开发人员指南并将我的代码与 Stack 上的不同主题进行了比较我看不出我做错
ios：在模型视图上推送另一个 ViewController

我有一个以模态方式呈现的视图控制器 self presentModalViewController ViewControllerA animated YES 在这个 ViewControllerA 中我有一个表视图当用户单击一个单元格时
form_for 具有多个用于提交的控制器操作

如何在 form for 提交中传递 url 我尝试使用一种表单每个按钮都指向每个控制器操作一个是搜索另一个是创建是否可以在同一个表单上有 2 个具有不同操作的提交按钮 br br
为什么 println!只适用于长度小于 33 的数组？

在 Rust 中这是有效的 fn main let a 0 32 println a 但这并没有 fn main let a 0 33 println a 编译错误 error E0277 the trait bound integer
我可以将元素绝对定位在元素的右上角吗？

我有一个表格我需要单元格在每个单元格的右上角放置一个元素我读过其他几个提出同样问题的问题但似乎都没有解决问题我读过的一种解决方案是将单元格的内部包裹在具有相对定位的 div 中但这不起作用因为即使高度和宽度设置为 100 di
什么是枚举以及它们为何有用？

今天我浏览这个网站上的一些问题发现提到了一个enum 用于单例模式 https stackoverflow com questions 4706216 java singleton instantiation关于此类解决方案所谓的线程安全
如何使用相关系数矩阵进行聚类？

我有一个相关系数矩阵 n n 如何利用相关系数矩阵进行聚类我可以在 SciPy 中使用链接和 fcluster 函数吗联动功能需求n m矩阵根据教程但我想使用 n n 矩阵我的代码是 corre mp N corr mp N is

如何使用相关系数矩阵进行聚类？

如何使用相关系数矩阵进行聚类？ 的相关文章

随机推荐

热门标签

如何使用相关系数矩阵进行聚类？的相关文章