如何在 Scikit-learn 聚合聚类中使用 Pearson 相关性作为距离度量

2024-04-24

我有以下内容data http://dpaste.com/031VZPM.txt:

State   Murder  Assault UrbanPop    Rape
Alabama 13.200  236 58  21.200
Alaska  10.000  263 48  44.500
Arizona 8.100   294 80  31.000
Arkansas    8.800   190 50  19.500
California  9.000   276 91  40.600
Colorado    7.900   204 78  38.700
Connecticut 3.300   110 77  11.100
Delaware    5.900   238 72  15.800
Florida 15.400  335 80  31.900
Georgia 17.400  211 60  25.800
Hawaii  5.300   46  83  20.200
Idaho   2.600   120 54  14.200
Illinois    10.400  249 83  24.000
Indiana 7.200   113 65  21.000
Iowa    2.200   56  57  11.300
Kansas  6.000   115 66  18.000
Kentucky    9.700   109 52  16.300
Louisiana   15.400  249 66  22.200
Maine   2.100   83  51  7.800
Maryland    11.300  300 67  27.800
Massachusetts   4.400   149 85  16.300
Michigan    12.100  255 74  35.100
Minnesota   2.700   72  66  14.900
Mississippi 16.100  259 44  17.100
Missouri    9.000   178 70  28.200
Montana 6.000   109 53  16.400
Nebraska    4.300   102 62  16.500
Nevada  12.200  252 81  46.000
New Hampshire   2.100   57  56  9.500
New Jersey  7.400   159 89  18.800
New Mexico  11.400  285 70  32.100
New York    11.100  254 86  26.100
North Carolina  13.000  337 45  16.100
North Dakota    0.800   45  44  7.300
Ohio    7.300   120 75  21.400
Oklahoma    6.600   151 68  20.000
Oregon  4.900   159 67  29.300
Pennsylvania    6.300   106 72  14.900
Rhode Island    3.400   174 87  8.300
South Carolina  14.400  279 48  22.500
South Dakota    3.800   86  45  12.800
Tennessee   13.200  188 59  26.900
Texas   12.700  201 80  25.500
Utah    3.200   120 80  22.900
Vermont 2.200   48  32  11.200
Virginia    8.500   156 63  20.700
Washington  4.000   145 73  26.200
West Virginia   5.700   81  39  9.300
Wisconsin   2.600   53  66  10.800
Wyoming 6.800   161 60  15.600

我用它来执行基于状态的层次聚类。这是完整的工作代码：

import pandas as pd 
from sklearn.cluster import AgglomerativeClustering
df = pd.io.parsers.read_table("http://dpaste.com/031VZPM.txt")
samples = df["State"].tolist()
ndf = df[["Murder", "Assault", "UrbanPop","Rape"]]
X = ndf.as_matrix()

cluster = AgglomerativeClustering(n_clusters=3, 
                               linkage='complete',affinity='euclidean').fit(X)
label = cluster.labels_
outclust = list(zip(label, samples))  
outclust_df = pd.DataFrame(outclust,columns=["Clusters","Samples"])  

for clust in outclust_df.groupby("Clusters"):
    print (clust)

请注意，在该方法中我使用euclidean距离。我想做的是使用1-Pearson correlation distance。在 R 中它看起来像这样：

dat <- read.table("http://dpaste.com/031VZPM.txt",sep="\t",header=TRUE)
dist2 = function(x) as.dist(1-cor(t(x), method="pearson"))
dat = dat[c("Murder","Assault","UrbanPop","Rape")]
hclust(dist2(dat), method="ward.D")

我怎样才能实现这一目标Scikit-learn 凝聚聚类 http://scikit-learn.org/stable/modules/generated/sklearn.cluster.AgglomerativeClustering.html？我知道有“预先计算”的亲和力参数。但不确定如何用它来解决我的问题。

您可以将自定义亲和力矩阵定义为接收数据并返回亲和力矩阵的函数：

from scipy.stats import pearsonr
import numpy as np

def pearson_affinity(M):
   return 1 - np.array([[pearsonr(a,b)[0] for a in M] for b in M])

然后，您可以将此作为亲和力函数来调用凝聚聚类（您必须更改链接，因为“ward”仅适用于欧几里德距离。

cluster = AgglomerativeClustering(n_clusters=3, linkage='average',
                           affinity=pearson_affinity)
cluster.fit(X)

请注意，由于某种原因，它似乎对您的数据效果不佳：

cluster.labels_
Out[107]: 
array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 2, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

r

pandas

scikitlearn

如何在 Scikit-learn 聚合聚类中使用 Pearson 相关性作为距离度量的相关文章

从 Cox PH 模型预测概率

我正在尝试使用 cox 模型来预测时间称为停止 3 后失败的概率 bladder1 lt bladder bladder enum lt 5 coxmodel coxph Surv stop event rx size number cl
网页抓取（R 语言？）

我想获取中间栏中的公司名称this http www consumercomplaints in bysubcategory mobile service providers page 1 html页面以蓝色粗体书写以及登记投诉者的位置
绘制“plot”而不是“scatter”时，图例选择会中断

再会这个问题是后续问题为什么图例选取仅适用于 ax twinx 而不适用于 ax https stackoverflow com q 60167378 9282844 下面提供的最小代码分别绘制了两条曲线ax1 and ax2 ax1 t
在R中绘制3x3方形网格

我得到了一个数字列表 n 9 想将它们画在一个 3 3 的正方形网格中每个网格填充相应的数字我如何在 R 中执行此操作而不安装额外的软件包例如情节非常感谢这里有一个ggplot解决方案比我预期的要难一点 Setup the dat
geom_密度匹配geom_histogram binwitdh

我想在 ggplot2 中的分布条形图上添加一条线以显示平均分布但遇到了麻烦像这样的 ggplot 调用 ggplot x aes date received geom histogram aes y count binwidth 30
Python 字典 - 在 2 个字符的字符串中查找第二个字符，该字符产生最小值

我想提交密钥的第一部分并返回该密钥的剩余部分以最小化值并从第一部分开始例如 d ab 100 ac 200 ad 500 如果我要进去 a I would like to return b min d s s for s in d i
使用sklearn进行多标签特征选择

我希望使用 sklearn 对多标签数据集执行特征选择我想要获得最终的功能集across标签然后我将在另一个机器学习包中使用它我打算使用我看到的方法here https stackoverflow com questions 1640
用于更改向量中元素顺序的闪亮小部件

在很多网站上您都有一个拖放界面来更改列表中元素的顺序我正在寻找类似的东西闪亮我希望用户能够拖放列表中的元素通过更改顺序来更改优先级现在我有一个滥用的解决方案selectizeInput 这是可行的但当选择列表变得更大时它很快就
如何在ggplot2中使用希腊符号？

我的类别需要用希腊字母命名我在用ggplot2 并且它与数据配合得很好不幸的是我无法弄清楚如何将这些希腊符号放在 x 轴上在刻度线处并使它们出现在图例中有什么办法可以做到吗更新我看了一下link https github c
R 的 dplyr 切片中的奇怪行为

打电话时slice df i 在 R 的 dplyr 包中如果我要求的行索引不存在 nrows lt i 它似乎返回除组中的第一行之外的所有行就像我调用的那样slice df 1 例如 library dplyr c1 lt c a b
Floyd-Warshall 算法：获取最短路径

假设一个图由一个表示n x n维数邻接矩阵我知道如何获得所有对的最短路径矩阵但我想知道有没有办法追踪所有最短路径 Blow是python代码实现 v len graph for k in range 0 v for i in range
管理文件字段当前 url 不正确

在 Django 管理中只要有 FileField 编辑页面上就会有一个当前框其中包含指向当前文件的超链接但是此链接会附加到当前页面 url 因此会导致 404 因为不存在这样的页面例如 http 127 0 0 1 8000
使用python中的mysql连接器正确从mysql数据库获取blob

当执行以下代码时 import mysql connector connection mysql connector connect connection params here cursor connection cursor curso
有没有任何方法可以使用 openpyxl 获取 .xlsx 工作表中存在的行数和列数？

有没有任何方法可以使用 openpyxl 获取 xlsx 工作表中存在的行数和列数在xlrd中 sheet ncols sheet nrows 将给出列数和行数 openpyxl中有这样的方法吗给定一个变量sheet 可以通过以下方式之
如何在 Python 中仅列出 zip 存档中的文件夹？

如何仅列出 zip 存档中的文件夹这将列出存档中的每个文件夹和文件 import zipfile file zipfile ZipFile samples sample zip r for name in file namelist pr
在Python中计算结构体的CRC

我有以下结构来自 C 中的 NRPE 守护程序代码 typedef struct packet struct int16 t packet version int16 t packet type uint32 t crc32 value
R markdown 引文标识符

R markdown 允许使用 YAML 元数据部分中的参考书目元数据字段指定参考书目文件例如 title Sample Document output html document bibliography bibliography bi
网页抓取 - 如何识别网页上的主要内容

给定一个新闻文章网页来自任何主要新闻来源例如时报或彭博社我想识别该页面上的主要文章内容并丢弃其他杂项元素例如广告菜单侧边栏用户评论在大多数主要新闻网站上都可以使用的通用方法是什么有哪些好的数据挖掘工具或库最好是基于Py
psutil：测量特定进程的CPU使用率

我正在尝试测量进程树的 cpu 使用率目前获取进程没有子进程的 cpu usage 就可以了但我得到了奇怪的结果 import psutil p psutil Process PID p cpu percent 还给我float g
python中匹配3个或更多相同的字符

我正在尝试使用正则表达式在字符串中查找三个或更多相同的字符例如你好不匹配噢会的我尝试过做类似的事情 re compile 1 3 a zA Z re compile w 1 5 但似乎都不起作用 w 1 2 是您正在寻找的正则表

随机推荐

Amazon S3：授予来自 IP 的匿名访问权限（通过存储桶策略）

我有一个 Amazon S3 存储桶并且希望将其可供特定计算机上的脚本使用而无需部署登录凭证所以我的计划是只允许从该机器的 IP 进行匿名访问我对亚马逊云还很陌生存储桶策略看起来是不错的选择我将以下策略添加到我的存储桶中 Ver
如何解决“允许的最大密钥长度为 900 字节”。

我有以下表结构 CREATE TABLE dbo Signature caption id nvarchar 512 NOT NULL signature id int NOT NULL 我想使用以下 alter 命令添加主键 ALTER
C# 中 System.String[*] 和 System.String[] 的区别

Edit 我知道 C 相当于For Each server As String In servers is foreach var item in servers 但是由于GetOPCServers返回对象应该将其转换为可迭代类型我正在
页面抓取以从谷歌财经获取价格

我试图通过抓取谷歌金融页面来获取股票价格我在 python 中使用 urllib 包然后使用正则表达式来获取价格数据当我让 python 脚本运行时它最初会运行一段时间几分钟然后开始抛出异常 HTTP 错误 503 服务不可用
如何设置“如果对象存在”条件？

有没有办法检查对象是否存在我不断收到需要对象错误我知道该对象不存在如果是这种情况我想绕过我的代码的一部分我不知道什么是我没有尝试过的 var codeName document getElementById testCode
如何阻塞直到BlockingQueue为空？

我正在寻找一种方法来阻止直到BlockingQueue是空的我知道在多线程环境下只要有生产者将物品放入BlockingQueue 可能会出现队列变空几纳秒后又充满项目的情况但是如果只有one生产者那么它可能希望在停止将项目放入
为 iPhone 或 Android 开发？（作为 C# 开发人员）[关闭]

就目前情况而言这个问题不太适合我们的问答形式我们希望答案得到事实参考资料或专业知识的支持但这个问题可能会引发辩论争论民意调查或扩展讨论如果您觉得这个问题可以改进并可能重新开放访问帮助中心 help reopen questi
如何使用 R 提取包含特定人名的句子

我正在使用 R 来提取包含特定人名的句子来自文本这是一个示例段落在蒂宾根他作为改革家遭到反对但在他的叔公约翰罗伊克林的推荐下他接受了马丁路德的召唤进入维滕贝格大学梅兰希顿 21 岁时成为维滕贝格的希腊语教授他研究圣经尤
根据 Python Pandas 中的描述场景和状态过滤产品

假设我在 Pandas DataFrame 中有以下产品描述我想保留满足以下条件的产品的所有产品描述对于每一个id in product descriptions 检查是否包含全部descriptions从至少 1 个场景scenar
DocumentDB IN 关键字与 Linq

您现在可以使用 DocumentDB 创建 IN 查询如下所示 SELECT FROM Families WHERE Families id IN AndersenFamily WakefieldFamily 但如果我使用 Linq 运行
Python GTTS 错误：AttributeError：“NoneType”对象没有属性“group”

我有一个项目正在进行文本到语音转换我的音频文件被存储为 mp3 但现在当我检查 Gtts api 时抛出错误我尝试搜索但找不到该错误的可行解决方案我的代码如下 def synth sent language en slow Fals
如何在 Raspberry Pi 上安装 PhantomJS 以便与 Python Selenium 一起使用？

我想使用运行 Python 脚本Selenium WebDriver with PhantomJS作为我的无头浏览器树莓派运行 Raspbian 我最初在 OS X 中编写了该脚本它运行良好但在尝试让它在树莓派上工作时我遇到了问题当
如何在 Palantir Foundry 中合并具有相同模式的多个数据集？

我有几个数据集想要在 Palantir Foundry 中合并我提前知道数据集是什么所有数据集的架构都是相同的即它们具有相同的列名称和列类型组合联合这些数据集的最佳方法是什么数据集A col1 col2 1 a 2 b 数据集
Pandas 使用列作为后缀进行透视

我有一个类似于以下示例的数据框 Id Type Value 1 Value 2 1234 A 1 2 1234 B 1 2 789 A 1 2 789 B 1 2 567 A 1 2 我想转换以获得以下内容 Id Value 1 A Val
用于反转字节顺序/更改字节顺序的命令行

我在一些脚本中尝试解析 Java 编写的一些数据DataOutputStream writeLong 由于java似乎总是写大端所以我在将字节输入到od 这是因为od总是假设字节序与您当前所在的拱门的字节序相匹配而我在一台小字节序机器上
Erlang：如何限制分配给进程的内存

我要问的是是否可以限制分配给特定进程的内存堆或堆栈以便该进程不能超过它也许类似于 process flag min heap size MinHeapSize 但针对最大堆您可以将某种进程跟踪 gen server 放在一起定期检
在 socket.io-client 中调用 IO 时出现错误，角度 8

我在我的 Angular 项目中调用 socket io client 的 IO 如下所示 import Injectable from angular core import Observable from rxjs internal O
在未压缩的 PDF 中进行集体内联编辑

我有一个很大的 PDF 20mb 160mb 未压缩我需要在其中的文本中进行查找和替换大约 1000 次这是我尝试过的 Via SVG 转换为 SVG inkscape 逐行读取 SVG 并在文件中进行替换转换回 PDF gt 输出
如何与android的静态boost库链接？

我在使用 Android ndk r5b 将 boost 库移植和链接到 android 时遇到问题我首先使用以下步骤构建 boost 库没有 mpi python 1 注释掉boost 1 46 0 libs thread build
如何在 Scikit-learn 聚合聚类中使用 Pearson 相关性作为距离度量

我有以下内容data http dpaste com 031VZPM txt State Murder Assault UrbanPop Rape Alabama 13 200 236 58 21 200 Alaska 10 000 263

如何在 Scikit-learn 聚合聚类中使用 Pearson 相关性作为距离度量

如何在 Scikit-learn 聚合聚类中使用 Pearson 相关性作为距离度量 的相关文章

随机推荐

热门标签

如何在 Scikit-learn 聚合聚类中使用 Pearson 相关性作为距离度量的相关文章