clusteranalysis

寻找簇的中心

我有以下问题进行抽象以找出关键问题我有 10 个点每个点与其他点有一定距离我想要能够找到簇的中心即与其他点的成对距离最小的点令 p j p k 表示点 j 和 k 之间的成对距离p i 是簇的中心点 iff p i s t m

Algorithm clusteranalysis datamining

如何将彼此“接近”的纬度/经度点分组？

我有一个用户提交的纬度经度点的数据库并且正在尝试将接近点分组在一起接近是相对的但目前看来约为 500 英尺起初我似乎只能按前 3 个小数位具有相同纬度经度的行进行分组大约是一个 300x300 的盒子了解当您远离赤道

sql database Geolocation LOCATION clusteranalysis

在 GPU 支持下对高维数据进行更快的 Kmeans 聚类

我们一直在使用 Kmeans 来对日志进行聚类典型的数据集有 10 mill 具有 100k 特征的样本为了找到最佳 k 我们并行运行多个 Kmeans 并选择轮廓得分最佳的一个在 90 的情况下我们最终得到的 k 介于 2 到 1

tensorflow machinelearning PySpark clusteranalysis kmeans

KMeans 对不平衡数据进行聚类

我有一组包含 50 个特征 c1 c2 c3 的数据行数超过 80k 每行包含标准化数值范围 0 1 它实际上是一个标准化的虚拟变量其中一些行只有很少的特征 3 4 即如果没有值则分配 0 大多数行大约有 10 20 个特征我使用

python clusteranalysis kmeans datascience featureengineering

哪里可以找到可靠的 K-medoid（不是 k-means）开源软件/工具？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我正在学习 K medoids 算法所以如果我提出不恰当的问题我很抱歉据我所知 K medoid

opensource clusteranalysis kmeans

使用 scikit 包在 Python 中绘制集群区域的边界

这是我处理 3 个属性 x y 值中的数据聚类的简单示例每个样本代表其位置 x y 及其所属变量我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random

python matplotlib scikitlearn clusteranalysis kmeans

R 中的聚类分析：确定最佳聚类数

如何选择最佳的聚类数量来进行 k 均值分析绘制以下数据的子集后多少个簇比较合适如何进行聚类树突分析 n 1000 kk 10 x1 runif kk y1 runif kk z1 runif kk x4 sample x1 lengt

r clusteranalysis kmeans

Scikit Learn - K-Means - 肘部 - 标准

今天我想学习一些关于 K means 的知识我已经了解该算法并且知道它是如何工作的现在我正在寻找正确的 k 我发现肘部准则作为检测正确的 k 的方法但我不明白如何将它与 scikit learn 一起使用在 scikit learn

python machinelearning scikitlearn clusteranalysis kmeans

Javascript 中的 k 均值聚类实现？ [关闭]

Closed 此问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案我需要 k means 聚类算法的 Javascript 实现我只有一维数据很少超过 100 个项目

javascript clusteranalysis kmeans

我很难理解 OPTICS 聚类算法中排序的概念

我很难理解 OPTICS 聚类算法中排序的概念如果有人对顺序给出逻辑和直观的解释并解释什么我将不胜感激res order下面的代码做了什么以及什么是可靠性图可以通过命令 plot res 获得 library dbscan set

clusteranalysis DBSCAN opticsalgorithm

哪种数据聚类算法适合检测时间序列事件中未知数量的聚类？

这是我的场景考虑在不同地点和时间发生的一组事件例如考虑有人在高空记录暴风雨期间城市中的雷击就我的目的而言闪电是瞬时的只能击中某些位置例如高层建筑还可以想象每次雷击都有一个唯一的 ID 以便以后可以参考该雷击这个城市大约有1

Algorithm languageagnostic clusteranalysis

Java机器学习库可以商用吗？ [关闭]

Closed 这个问题正在寻求书籍工具软件库等的推荐不满足堆栈溢出指南 help closed questions 目前不接受答案有谁知道我可以将其用于商业产品的优秀 Java 机器学习库吗不幸的是 Weka 和 Rapidmin

Java machinelearning clusteranalysis Classification

如何对搜索引擎关键词进行聚类？

从 Google Analytics 中我有一个长关键字列表人们在搜索引擎中使用这些关键字来查找我的网站我想找到核心关键词假设的例子 java online training learning java scala train

Java clusteranalysis keyword

如何在 k 均值中使用欧氏距离以外的不同距离公式

我正在处理纬度经度数据我必须根据两点之间的距离进行聚类现在两个不同点之间的距离是 ACOS SIN lat1 SIN lat2 COS lat1 COS lat2 COS lon2 lon1 6371 我想在 R 中使用 k 均值有什

r machinelearning clusteranalysis datamining kmeans

有效地将相似的数字分组在一起[重复]

这个问题在这里已经有答案了可能的重复一维数数组聚类 https stackoverflow com questions 11513484 1d number array clustering 我有一个数字数组例如 1 20 300 4

Algorithm Math languageagnostic statistics clusteranalysis

估计/选择 DBSCAN 的最佳超参数

我需要根据不同介词的分布找到自然出现的名词类别如施事工具时间地点等我尝试使用 k means 聚类但帮助较少效果不佳我正在寻找的类有很多重叠可能是因为类的非球状形状和 k means 中的随机初始化我现在正在使用 DBS

datamining clusteranalysis DBSCAN

将树形图导出为 R 中的表格

我想将 hclust dendrogram 从 R 导出到数据表中以便随后将其导入到另一个自制软件中 str unclass fit 提供了树状图的文本概述但我正在寻找的实际上是一个数字表我查看了 Bioconductor ctc

r clusteranalysis dendrogram hclust

使用 scikit learn 对通过 networkx 生成的图进行谱聚类

我有一个 3000x50 特征向量矩阵我使用以下方法获得了一个相似度矩阵sklearn metrics pairwise distances作为相似度矩阵现在我用了networkx使用上一步中生成的相似度矩阵创建一个图G nx fro

clusteranalysis scikitlearn partitioning networkx spectral

计算聚类的 F 度量

谁能帮我计算一下F measure的总和吗我知道如何计算召回率和精度但不知道对于给定的算法如何计算一个 F 测量值举个例子假设我的算法创建m集群但我知道有n相同数据的聚类由另一个基准算法创建我找到了一份 pdf 但它没有用因

clusteranalysis datamining precisionrecall

贪心聚类算法速度提升

我正在尝试在 python 中实现一个非常简单的贪婪聚类算法但很难优化它的速度该算法将采用距离矩阵找到具有最多小于预定距离截止值的分量的列并将行索引具有小于截止值的分量存储为簇的成员簇的质心是列索引然后从距离矩阵中删除每个

python performance clusteranalysis