clusteranalysis

使用 scikit learn 对通过 networkx 生成的图进行谱聚类

我有一个 3000x50 特征向量矩阵我使用以下方法获得了一个相似度矩阵sklearn metrics pairwise distances作为相似度矩阵现在我用了networkx使用上一步中生成的相似度矩阵创建一个图G nx fro

clusteranalysis scikitlearn partitioning networkx spectral

计算聚类的 F 度量

谁能帮我计算一下F measure的总和吗我知道如何计算召回率和精度但不知道对于给定的算法如何计算一个 F 测量值举个例子假设我的算法创建m集群但我知道有n相同数据的聚类由另一个基准算法创建我找到了一份 pdf 但它没有用因

clusteranalysis datamining precisionrecall

贪心聚类算法速度提升

我正在尝试在 python 中实现一个非常简单的贪婪聚类算法但很难优化它的速度该算法将采用距离矩阵找到具有最多小于预定距离截止值的分量的列并将行索引具有小于截止值的分量存储为簇的成员簇的质心是列索引然后从距离矩阵中删除每个

python performance clusteranalysis

R 合并具有相似值的行

我有一个数据框行值首先从小到大排序我计算相邻行之间的行值差异组合具有相似差异例如小于 1 的行并返回组合行的平均值我可以使用 for 循环检查每一行的差异但这似乎是一种非常低效的方法还有更好的想法吗谢谢 library

r DataFrame dplyr diff clusteranalysis

不同长度的时间序列数据的聚类

我有不同系列长度的时间序列数据我想根据 DTW 距离进行聚类但找不到与之相关的 ant 库 sklearn给出直接错误而 tslearn kmeans 给出错误答案我的问题是如果我用零填充它就可以解决但我不确定这在聚类时填充时间序

TimeSeries clusteranalysis kmeans

如何选择 eps 和 minPts（DBSCAN 算法的两个参数）以获得有效的结果？

我应该使用什么例程或算法来为 DBSCAN 算法提供 eps 和 minPts 参数以获得有效的结果 DBSCAN 论文建议根据维度选择 minPts 根据 k 距离图中的肘部选择 eps 在最近的出版物中舒伯特 E 桑德 J 埃斯特 M

python clusteranalysis DBSCAN

用正确的组号标记 R 树状图分支

我正在尝试绘制树状图以便分支上的标签与聚类分析中的组号相匹配目前分支只是按照它们出现的顺序从左到右标记而不是实际的组号这是我当前的 R 代码和生成的树状图 dst lt dist Model Results method bina

r clusteranalysis dendrogram dendextend

射线聚类算法

我知道显然有点的聚类算法但我有不同的场景我有许多光线它们的起点都在 3D 球体上并且其方向矢量向内指向球体一些光线指向 A 点其他光线指向 B 点等并带有一些噪声即光线彼此不完全相交是否有一种聚类算法可以让我根据光线指向的

Algorithm clusteranalysis

如何在 scipy 层次聚类中获取非单例簇 ID

根据this http docs scipy org doc scipy reference generated scipy cluster hierarchy dendrogram html scipy cluster hierarchy

python scipy clusteranalysis hierarchicalclustering

使用杰卡德距离矩阵进行 Kmeans 聚类

我正在尝试创建 Jaccard 距离矩阵并对其执行 K 均值以给出簇 id 和簇中元素的 id 它的输入是 Twitter 推文以下是代码我无法理解如何使用 kmeans 文件中的初始种子 install packages rjson

r twitter clusteranalysis kmeans tweets

循环系统发育树上的节点标签

我正在尝试创建循环系统发育树我有这部分代码 fit lt hclust dist Data 4 method complete members NULL nclus 3 color c red blue green color list

r clusteranalysis datavisualization phylogeny apephylo

python scikit-learn 缺失数据聚类

我想对缺少列的数据进行聚类手动执行此操作我将在没有此列的情况下计算缺少列的距离使用 scikit learn 不可能出现丢失数据的情况也没有机会指定用户距离函数是否有机会对缺失数据进行聚类示例数据 n samples 1500

python scikitlearn clusteranalysis missingdata

在 python 中绘制 sklearn 集群

我使用亲和力传播获得了以下 sklearn 集群 import sklearn cluster import numpy as np sims np array 0 17 10 32 32 18 0 6 20 15 10 8 0 20 21

python matplotlib machinelearning scikitlearn clusteranalysis

K 表示使用 PySpark 进行聚类

我有一个非常大的数据框我必须使用数据框中的特定 8 列其中值要么是强烈同意同意或不同意根据这 8 列我需要创建一个新列来告诉该行属于哪个簇 1 8 最好使用 K 均值聚类这在 PySpark 中可能吗 PS 我是 PySp

python PySpark clusteranalysis

如何从一个巨大的矩阵中获得最大可能的列序列和最少可能的行NA？

我想从数据框中选择列以便得到结果连续的列序列尽可能长而带有 NA 的行数尽可能少因为之后必须删除它们我想这样做的原因是我想运行TraMineR seqsubm 自动获取转移成本矩阵按转移概率并稍后运行cluster agnes

r clusteranalysis powerset traminer sequenceanalysis

scikit-learn 中聚类超参数评估的网格搜索

我正在对大约 100 条记录未标记的样本进行聚类并尝试使用 grid search 来评估具有各种超参数的聚类算法我正在使用得分silhouette score效果很好我的问题是我不需要使用交叉验证方面GridSearchCV R

python scikitlearn clusteranalysis scoring

谱聚类

首先我必须说我是 matlab 以及这个网站的新手所以请原谅我的无知我正在尝试在 matlab 中编写一个函数该函数将使用谱聚类将一组点分成两个簇我的代码如下 function Groups TrySpectralCluster

MATLAB clusteranalysis linearalgebra eigenvector

如何总结组合列表

我有一个包含 2 个元素组合的列表如下所示 cbnl lt list c A B c B A c C D c E D c F G c H I c J K c I H c K J c G F c D C c E C c D E c C E

r list clusteranalysis

在散点图中为每个类别绘制不同的聚类标记

我有一个散点图其中绘制了 14 个簇但每 2 个簇属于同一类它们都使用相同的标记每 50 行是一个簇每 100 行是同一类的两个簇我想要做的是更改每 2 个簇或 100 行的标记数据框链接 http www mediafire

python matplotlib clusteranalysis scatterplot

计算 3D 平面的 Voronoi 图

是否有代码库可以计算 3D 平面平行四边形的 Voronoi 图我检查了 Qhull 它似乎只能处理点在它的示例中 Voro 可以处理不同大小的球体但我找不到任何多边形在这张图片中 3d 中的样本平面 https i stac

3d clusteranalysis euclideandistance Voronoi qhull