Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本
我使用 python scikit learn 库在 5000 多个样本上安装了 k 均值算法 我想要将最接近聚类中心的 50 个样本作为输出 我该如何执行这个任务 If km是 k means 模型 到j数组中每个点的第一个质心X is
python
scikitlearn
kmeans
内存错误 Numpy/Python 欧几里得距离
我正在尝试使用 numpy 和 python 运行 K 均值聚类算法 但如果我使用较大的 K 值 任何大于 10 的值似乎都会导致错误 就会不断遇到内存错误 我有两个大小为 42000 784 数据集 和 K 784 质心 的 numpy
python
NumPy
memoryleaks
kmeans
RAM
R 中一百万个观测值的 Kmeans - 绘制集群时遇到的问题
我正在尝试对超过 100 万行执行 KMeans 聚类 其中有 4 个观察值 全部为数字 我正在使用以下代码 kmeansdf lt as data frame rbind train V3 train V5 train V8 train
r
plot
machinelearning
kmeans
RStudio
具有相同簇大小的 K 均值算法变体
我正在寻找最快的算法 用于按距离将地图上的点分组为大小相等的组 这k 均值聚类算法看起来简单且有前途 但不能产生同等规模的群体 该算法是否有一种变体 或者是否有一种不同的算法可以允许所有集群的成员数量相等 也可以看看 将 n 个点分组到 k
Algorithm
Dictionary
clusteranalysis
kmeans
错误包 KlaR kmodes :错误:列索引如果为正,则最多不得为 5,而不是 6
将 klaR kmodes 算法应用于以下数据集 gt summary raw CREDIT LIMIT CP gender IE CHILD NB IE TOT DEP NB TOTAL INCOME IE HOUSE CHARGE ma
r
kmeans
mode
在 Apache Spark Python 中自定义 K-means 距离公式
现在我使用 K means 进行聚类和跟踪本教程 and API 但我想使用自定义公式来计算距离 那么如何使用 PySpark 在 k means 中传递自定义距离函数呢 一般来说 使用不同的距离度量没有意义 因为 k 均值 与k 中心点
apachespark
kmeans
apachesparkmllib
apachesparkml
如何在 Python 中使用 K-Means 聚类找到最佳聚类数
我是聚类算法的新手 我有一个电影数据集 包含 200 多部电影和 100 多个用户 所有用户都至少评价了一部电影 值 1 表示好 0 表示坏 如果注释者别无选择 则值为空白 我想根据相似的用户的评论对他们进行聚类 这样的想法是 将相似电影评
python
clusteranalysis
kmeans
euclideandistance
cosinesimilarity
如何设置Spark Kmeans初始中心
我正在使用 Spark ML 来运行 Kmeans 我有一堆数据和三个现有中心 例如这三个中心是 1 0 1 0 1 0 5 0 5 0 5 0 9 0 9 0 9 0 那么我如何表明 Kmeans 中心是上述三个向量 我看到 Kmean
K-Medoids / K-Means 算法。两个或多个簇代表之间距离相等的数据点
我一直在研究和学习基于分区的聚类算法 例如 K means 和 K Medoids 我了解到 与 K 均值相比 K 中心点对异常值的鲁棒性更强 然而 我很好奇如果在分配数据点期间 两个或多个簇代表在数据点上具有相同的距离 会发生什么 您将把
Algorithm
Distance
datamining
kmeans
使用 clusplot 绘制以 0 为中心坐标的聚类
我正在尝试绘制 GIS 坐标 特别是东向和北向相似的英国国家网格坐标 194630000 562220000 我可以使用 Cluster 库中的 clusplot 绘制这些图 clusplot df2 k means fit cluster
r
Coordinates
GIS
clusteranalysis
kmeans
如何根据Python中最近的聚类质心逻辑将新的观察值分配给现有的Kmeans聚类?
我使用下面的代码通过 Scikit learn 创建 k means 集群 kmean KMeans n clusters nclusters n jobs 1 random state 2376 max iter 1000 n init
python
scikitlearn
clusteranalysis
kmeans
textclassification
Kmeans 对 pandas 数据框中的每个组进行聚类并分配聚类
我想通过使用 kmeans 聚类对组月的 X2 和 X3 进行聚类 我需要对两个变量进行聚类 另外 我想根据每个簇的平均值将簇 0 簇 1 和簇 2 分配为 强 平均 弱 最高意味着强簇 下面是我的示例数据集 df pd DataFrame
python
pandas
DataFrame
clustercomputing
kmeans
如何使用 R 中的 k 均值聚类技术获得与数据相对应的聚类编号? [关闭]
很难说出这里问的是什么 这个问题模棱两可 含糊不清 不完整 过于宽泛或言辞激烈 无法以目前的形式合理回答 如需帮助澄清此问题以便重新打开 访问帮助中心 我通过 k 均值聚类方法对数据进行聚类 如何在 R 中使用 k 均值聚类技术获得与数据相
r
clusteranalysis
kmeans
如何解决错误:storage.mode(x) <-“double”中的错误:无法强制“list”对象输入“double”
您好 我正在尝试运行 som 和 kmeans 分析 但我无法解决它 因为有一个错误代码 storage mode x 我怎么解决这个问题 cdata lt read delim Cluster txt stringsAsFactors F
r
SyntaxError
clusteranalysis
kmeans
som
有哪些实现半监督(约束)聚类的软件包?
我想对半监督 约束 聚类进行一些实验 特别是作为实例级成对约束 必须链接或无法链接约束 提供的背景知识 我想知道有没有好的开源包实现半监督聚类 我尝试查看 PyBrain mlpy scikit 和 Orange 但找不到任何约束聚类算法
clusteranalysis
kmeans
pybrain
DBSCAN
具有非常大矩阵的 K 均值
我必须在一个非常大的矩阵 大约 300 000x100 000 个值 超过 100Gb 上执行 k 均值聚类 我想知道我是否可以使用 R 软件或 weka 来执行此操作 我的计算机是一台多处理器 具有 8GB 内存和数百 GB 可用空间 我
r
clusteranalysis
Weka
kmeans
mahout
KMeans 聚类后的聚类点 (scikit learn)
我已经使用 sklearn 使用 Kmeans 完成了聚类 虽然它有一种打印质心的方法 但我发现 scikit learn 没有一种方法来打印每个簇的簇点 或者我到目前为止还没有看到它 这很奇怪 有没有一种巧妙的方法来获取每个簇的簇点 我目
python
scikitlearn
kmeans
Spark MLLib Kmeans 来自数据帧,然后再次返回
我的目标是使用 Spark 1 3 1 MLLib 将 kmeans 聚类算法应用于非常大的数据集 我已经使用 Spark 中的 hiveContext 调用了 HDFS 中的数据 并且最终希望以这种方式将其放回原处 以这种格式 I D c
apachespark
kmeans
如何将 Row 类型转换为 Vector 以馈送到 KMeans
当我尝试将 df2 提供给 kmeans 时 出现以下错误 clusters KMeans train df2 10 maxIterations 30 runs 10 initializationMode random 我得到的错误 Can
apachespark
PySpark
kmeans
apachesparkmllib
apachesparksql
Java读取wav文件
我想用 Java 读取 wav 文件 并且将使用 K means 对它们进行分类 我怎样才能读取Java中的wav文件并将它们分配到一个数组或类似的东西 你可以建议它的想法 来对它们进行分类 EDIT 我想使用 API 来读取 wav 文件
Java
Audio
wav
kmeans
«
1
2
3
4
5
6
7
8
»