kmeans

'KMeansModel' 对象在 apache pyspark 中没有属性 'computeCost'

我正在 pyspark 中试验聚类模型我试图获得适合不同 K 值的簇的均方成本 def meanScore k df inputCol df columns 38 assembler VectorAssembler inputCols i

python apachespark PySpark clusteranalysis kmeans

kmean 需要三角不等式吗？

我想知道对于 kmeans 中使用的距离度量是否需要三角不等式 k 均值是designed for 欧几里得距离正好满足三角不等式使用其他距离函数是有风险的因为它可能会停止收敛然而原因是not三角不等式但是平均值可能不会最小化距离

machinelearning clusteranalysis Distance datamining kmeans

在 R 中设置 kmeans 的静态中心

我想根据预先确定的中心点 my center Points 对长和纬度 my long lats 列表进行分组当我跑步时 k lt kmeans as matrix my long lats centers as matrix my ce

r kmeans geosphere

在 K 均值算法 (MATLAB) 中使用绝对皮尔逊相关性作为距离

我需要使用相关距离进行一些聚类但我需要绝对皮尔逊距离而不是使用定义为 d 1 r 的内置距离相关在我的应用程序中反相关数据应该获得相同的集群 ID 现在当使用 kmeans 函数时我得到的质心高度反相关我希望通过组合它们来

MATLAB clusteranalysis datamining kmeans

k-means 使用从 minhash 生成的签名矩阵

我在文档及其木瓦上使用了 minhash 从这些文档生成签名矩阵我已经验证签名矩阵可以很好地比较已知相似文档例如关于同一运动队的两篇文章或关于同一世界赛事的两篇文章的杰卡德距离从而给出正确的读数我的问题是使用这个签名矩阵来执行

python Text clusteranalysis kmeans minhash

K表示当肘部图是平滑曲线时寻找肘部

我正在尝试使用以下代码绘制 k 的肘部 load CSDmat mydata for k 2 20 opts statset MaxIter 500 Display off IDX1 C1 sumd1 D1 kmeans CSDmat k

MATLAB clusteranalysis kmeans Variance

如何在R编程中显示同一坐标中的总数

更新2017年9月11日问题这是我在 R 中集群 kmode 的代码 library klaR setwd D kmodes data to cluster lt read csv kmodes csv header TRUE sep c

r clustercomputing clusteranalysis kmeans visualize

scikit-learn k-means：预测方法的真正作用是什么？

当我使用 scikit learn 的 k means 实现时我通常只调用fit 方法这足以获得聚类中心和标签这predict 方法用于计算标签甚至fit predict 方法是为了方便起见但如果我只能使用fit 目的是什么pre

scikitlearn kmeans

Pyspark：在数据帧的不同组上应用 kmeans

使用 Pyspark 我想将 kmeans 单独应用于数据帧组而不是立即应用于整个数据帧目前我使用 for 循环对每个组进行迭代应用 kmeans 并将结果附加到另一个表但是有很多组会很耗时有人可以帮我吗多谢 for cust

apachespark groupby PySpark kmeans

余弦距离作为 k 均值的向量距离函数

我有一个 N 个顶点的图其中每个顶点代表一个地方我还有向量每个用户一个 N 个系数中的每一个其中系数的值是在相应地点花费的持续时间以秒为单位如果没有访问该地点则为 0 例如对于图表向量 v1 100 50 0 30 0 意味

clusteranalysis datamining Distance kmeans cosinesimilarity

K-Medoids 真的比 K-Means 更擅长处理异常值吗？（举例说明相反）

K 中心点 and K Means是两种流行的分区聚类方法我的研究表明当存在异常值时 K Medoids 更擅长对数据进行聚类 source https stackoverflow com questions 21619794 what

r clusteranalysis partitioning kmeans

如何使用Python从最高到最低设置k-Means聚类标签？

我有一个包含 38 个公寓的数据集以及它们早上下午和晚上的用电量我尝试使用 scikit learn 的 k Means 实现对该数据集进行聚类并得到了一些有趣的结果 First clustering results 这一切都很好对

python Sorting NumPy scikitlearn kmeans

使用 k 均值算法进行异常值检测

我希望你能帮助我解决我的问题我正在尝试使用 kmeans 算法来检测异常值首先我执行算法并选择那些距聚类中心距离较远的对象作为可能的异常值我不想使用绝对距离而是想使用相对距离即对象到聚类中心的绝对距离与聚类中所有对象到其聚类中心

r kmeans outliers

快速 (< n^2) 聚类算法

我有 100 万个 5 维点需要将它们分组为 k 个簇其中 k 但我需要运行时间远低于 n 2 n log n 左右应该没问题我进行此聚类的原因是为了避免计算所有 n 个点的距离矩阵这需要 n 2 时间或多个小时而是我只想计算聚

Algorithm machinelearning clusteranalysis datamining kmeans

Microsoft SQL 和 R、存储过程和 k-means

我是新来的希望能帮助和得到帮助不过我正在开发新的 Microsoft Sql Server Management Studio 2016 使用其意味着与 R 集成的新功能首先我的目标是创建一个存储过程该存储过程使用 x 和 y

sqlserver r kmeans

如何使用 TensorFlow 实现 k-means？

介绍教程使用内置的梯度下降优化器非常有意义然而 k 均值不仅仅是我可以插入梯度下降中的东西看起来我必须编写自己的优化器但考虑到 TensorFlow 原语我不太确定如何做到这一点我应该采取什么方法注您现在可以获得这段代码的更

kmeans tensorflow

如何在 K - 均值算法中优化 K [重复]

这个问题在这里已经有答案了可能的重复使用 k 均值聚类时如何确定 k https stackoverflow com questions 1793532 how do i determine k when using k means c

datamining kmeans

我自己的 R 中的 K 均值算法

我是 R 编程的初学者我正在 R 中进行此练习作为编程入门我已经在 R 中实现了自己的 K 均值实现但在某一点上卡住了一段时间我需要达成共识算法迭代直到找到每个簇的最佳中心这是没有迭代的原始算法它只是从整个数据中随机选取一个数

r Algorithm kmeans

如何使用存储为 CSV 的矢量数据在 mahout 中执行 k 均值聚类？

我有一个包含数据向量的文件其中每行包含一个以逗号分隔的值列表我想知道如何使用 mahout 对这些数据执行 k 均值聚类 wiki 中提供的示例提到了创建sequenceFiles 但除此之外我不确定是否需要进行某种类型的转换才能获取

mahout kmeans