kmeans

使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本

我使用 python scikit learn 库在 5000 多个样本上安装了 k 均值算法我想要将最接近聚类中心的 50 个样本作为输出我该如何执行这个任务 If km是 k means 模型到j数组中每个点的第一个质心X is

python scikitlearn kmeans

内存错误 Numpy/Python 欧几里得距离

我正在尝试使用 numpy 和 python 运行 K 均值聚类算法但如果我使用较大的 K 值任何大于 10 的值似乎都会导致错误就会不断遇到内存错误我有两个大小为 42000 784 数据集和 K 784 质心的 numpy

python NumPy memoryleaks kmeans RAM

R 中一百万个观测值的 Kmeans - 绘制集群时遇到的问题

我正在尝试对超过 100 万行执行 KMeans 聚类其中有 4 个观察值全部为数字我正在使用以下代码 kmeansdf lt as data frame rbind train V3 train V5 train V8 train

r plot machinelearning kmeans RStudio

具有相同簇大小的 K 均值算法变体

我正在寻找最快的算法用于按距离将地图上的点分组为大小相等的组这k 均值聚类算法看起来简单且有前途但不能产生同等规模的群体该算法是否有一种变体或者是否有一种不同的算法可以允许所有集群的成员数量相等也可以看看将 n 个点分组到 k

Algorithm Dictionary clusteranalysis kmeans

错误包 KlaR kmodes ：错误：列索引如果为正，则最多不得为 5，而不是 6

将 klaR kmodes 算法应用于以下数据集 gt summary raw CREDIT LIMIT CP gender IE CHILD NB IE TOT DEP NB TOTAL INCOME IE HOUSE CHARGE ma

r kmeans mode

在 Apache Spark Python 中自定义 K-means 距离公式

现在我使用 K means 进行聚类和跟踪本教程 and API 但我想使用自定义公式来计算距离那么如何使用 PySpark 在 k means 中传递自定义距离函数呢一般来说使用不同的距离度量没有意义因为 k 均值与k 中心点

apachespark kmeans apachesparkmllib apachesparkml

如何在 Python 中使用 K-Means 聚类找到最佳聚类数

我是聚类算法的新手我有一个电影数据集包含 200 多部电影和 100 多个用户所有用户都至少评价了一部电影值 1 表示好 0 表示坏如果注释者别无选择则值为空白我想根据相似的用户的评论对他们进行聚类这样的想法是将相似电影评

python clusteranalysis kmeans euclideandistance cosinesimilarity

如何设置Spark Kmeans初始中心

我正在使用 Spark ML 来运行 Kmeans 我有一堆数据和三个现有中心例如这三个中心是 1 0 1 0 1 0 5 0 5 0 5 0 9 0 9 0 9 0 那么我如何表明 Kmeans 中心是上述三个向量我看到 Kmean

K-Medoids / K-Means 算法。两个或多个簇代表之间距离相等的数据点

我一直在研究和学习基于分区的聚类算法例如 K means 和 K Medoids 我了解到与 K 均值相比 K 中心点对异常值的鲁棒性更强然而我很好奇如果在分配数据点期间两个或多个簇代表在数据点上具有相同的距离会发生什么您将把

Algorithm Distance datamining kmeans

使用 clusplot 绘制以 0 为中心坐标的聚类

我正在尝试绘制 GIS 坐标特别是东向和北向相似的英国国家网格坐标 194630000 562220000 我可以使用 Cluster 库中的 clusplot 绘制这些图 clusplot df2 k means fit cluster

r Coordinates GIS clusteranalysis kmeans

如何根据Python中最近的聚类质心逻辑将新的观察值分配给现有的Kmeans聚类？

我使用下面的代码通过 Scikit learn 创建 k means 集群 kmean KMeans n clusters nclusters n jobs 1 random state 2376 max iter 1000 n init

python scikitlearn clusteranalysis kmeans textclassification

Kmeans 对 pandas 数据框中的每个组进行聚类并分配聚类

我想通过使用 kmeans 聚类对组月的 X2 和 X3 进行聚类我需要对两个变量进行聚类另外我想根据每个簇的平均值将簇 0 簇 1 和簇 2 分配为强平均弱最高意味着强簇下面是我的示例数据集 df pd DataFrame

python pandas DataFrame clustercomputing kmeans

如何使用 R 中的 k 均值聚类技术获得与数据相对应的聚类编号？ [关闭]

很难说出这里问的是什么这个问题模棱两可含糊不清不完整过于宽泛或言辞激烈无法以目前的形式合理回答如需帮助澄清此问题以便重新打开访问帮助中心我通过 k 均值聚类方法对数据进行聚类如何在 R 中使用 k 均值聚类技术获得与数据相

r clusteranalysis kmeans

如何解决错误：storage.mode(x) <-“double”中的错误：无法强制“list”对象输入“double”

您好我正在尝试运行 som 和 kmeans 分析但我无法解决它因为有一个错误代码 storage mode x 我怎么解决这个问题 cdata lt read delim Cluster txt stringsAsFactors F

r SyntaxError clusteranalysis kmeans som

有哪些实现半监督（约束）聚类的软件包？

我想对半监督约束聚类进行一些实验特别是作为实例级成对约束必须链接或无法链接约束提供的背景知识我想知道有没有好的开源包实现半监督聚类我尝试查看 PyBrain mlpy scikit 和 Orange 但找不到任何约束聚类算法

clusteranalysis kmeans pybrain DBSCAN

具有非常大矩阵的 K 均值

我必须在一个非常大的矩阵大约 300 000x100 000 个值超过 100Gb 上执行 k 均值聚类我想知道我是否可以使用 R 软件或 weka 来执行此操作我的计算机是一台多处理器具有 8GB 内存和数百 GB 可用空间我

r clusteranalysis Weka kmeans mahout

KMeans 聚类后的聚类点 (scikit learn)

我已经使用 sklearn 使用 Kmeans 完成了聚类虽然它有一种打印质心的方法但我发现 scikit learn 没有一种方法来打印每个簇的簇点或者我到目前为止还没有看到它这很奇怪有没有一种巧妙的方法来获取每个簇的簇点我目

python scikitlearn kmeans

Spark MLLib Kmeans 来自数据帧，然后再次返回

我的目标是使用 Spark 1 3 1 MLLib 将 kmeans 聚类算法应用于非常大的数据集我已经使用 Spark 中的 hiveContext 调用了 HDFS 中的数据并且最终希望以这种方式将其放回原处以这种格式 I D c

apachespark kmeans

如何将 Row 类型转换为 Vector 以馈送到 KMeans

当我尝试将 df2 提供给 kmeans 时出现以下错误 clusters KMeans train df2 10 maxIterations 30 runs 10 initializationMode random 我得到的错误 Can

apachespark PySpark kmeans apachesparkmllib apachesparksql

Java读取wav文件

我想用 Java 读取 wav 文件并且将使用 K means 对它们进行分类我怎样才能读取Java中的wav文件并将它们分配到一个数组或类似的东西你可以建议它的想法来对它们进行分类 EDIT 我想使用 API 来读取 wav 文件

Java Audio wav kmeans