Python
Java
PHP
IOS
Android
Nodejs
JavaScript
Html5
Windows
Ubuntu
Linux
'KMeansModel' 对象在 apache pyspark 中没有属性 'computeCost'
我正在 pyspark 中试验聚类模型 我试图获得适合不同 K 值的簇的均方成本 def meanScore k df inputCol df columns 38 assembler VectorAssembler inputCols i
python
apachespark
PySpark
clusteranalysis
kmeans
kmean 需要三角不等式吗?
我想知道对于 kmeans 中使用的距离度量是否需要三角不等式 k 均值是designed for 欧几里得距离 正好满足三角不等式 使用其他距离函数是有风险的 因为它可能会停止收敛 然而原因是not三角不等式 但是平均值可能不会最小化距离
machinelearning
clusteranalysis
Distance
datamining
kmeans
在 R 中设置 kmeans 的静态中心
我想根据预先确定的中心点 my center Points 对长和纬度 my long lats 列表进行分组 当我跑步时 k lt kmeans as matrix my long lats centers as matrix my ce
r
kmeans
geosphere
在 K 均值算法 (MATLAB) 中使用绝对皮尔逊相关性作为距离
我需要使用相关距离进行一些聚类 但我需要绝对皮尔逊距离 而不是使用定义为 d 1 r 的内置 距离 相关 在我的应用程序中 反相关数据应该获得相同的集群 ID 现在 当使用 kmeans 函数时 我得到的质心高度反相关 我希望通过组合它们来
MATLAB
clusteranalysis
datamining
kmeans
k-means 使用从 minhash 生成的签名矩阵
我在文档及其木瓦上使用了 minhash 从这些文档生成签名矩阵 我已经验证签名矩阵可以很好地比较已知相似文档 例如 关于同一运动队的两篇文章或关于同一世界赛事的两篇文章 的杰卡德距离 从而给出正确的读数 我的问题是 使用这个签名矩阵来执行
python
Text
clusteranalysis
kmeans
minhash
K表示当肘部图是平滑曲线时寻找肘部
我正在尝试使用以下代码绘制 k 的肘部 load CSDmat mydata for k 2 20 opts statset MaxIter 500 Display off IDX1 C1 sumd1 D1 kmeans CSDmat k
MATLAB
clusteranalysis
kmeans
Variance
如何在R编程中显示同一坐标中的总数
更新2017年9月11日问题 这是我在 R 中集群 kmode 的代码 library klaR setwd D kmodes data to cluster lt read csv kmodes csv header TRUE sep c
r
clustercomputing
clusteranalysis
kmeans
visualize
scikit-learn k-means:预测方法的真正作用是什么?
当我使用 scikit learn 的 k means 实现时 我通常只调用fit 方法 这足以获得聚类中心和标签 这predict 方法用于计算标签 甚至fit predict 方法是为了方便起见 但如果我只能使用fit 目的是什么pre
scikitlearn
kmeans
Pyspark:在数据帧的不同组上应用 kmeans
使用 Pyspark 我想将 kmeans 单独应用于数据帧组 而不是立即应用于整个数据帧 目前 我使用 for 循环对每个组进行迭代 应用 kmeans 并将结果附加到另一个表 但是有很多组会很耗时 有人可以帮我吗 多谢 for cust
apachespark
groupby
PySpark
kmeans
余弦距离作为 k 均值的向量距离函数
我有一个 N 个顶点的图 其中每个顶点代表一个地方 我还有向量 每个用户一个 N 个系数中的每一个 其中系数的值是在相应地点花费的持续时间 以秒为单位 如果没有访问该地点则为 0 例如 对于图表 向量 v1 100 50 0 30 0 意味
clusteranalysis
datamining
Distance
kmeans
cosinesimilarity
K-Medoids 真的比 K-Means 更擅长处理异常值吗? (举例说明相反)
K 中心点 and K Means是两种流行的分区聚类方法 我的研究表明 当存在异常值时 K Medoids 更擅长对数据进行聚类 source https stackoverflow com questions 21619794 what
r
clusteranalysis
partitioning
kmeans
如何使用Python从最高到最低设置k-Means聚类标签?
我有一个包含 38 个公寓的数据集以及它们早上 下午和晚上的用电量 我尝试使用 scikit learn 的 k Means 实现对该数据集进行聚类 并得到了一些有趣的结果 First clustering results 这一切都很好 对
python
Sorting
NumPy
scikitlearn
kmeans
使用 k 均值算法进行异常值检测
我希望你能帮助我解决我的问题 我正在尝试使用 kmeans 算法来检测异常值 首先 我执行算法并选择那些距聚类中心距离较远的对象作为可能的异常值 我不想使用绝对距离 而是想使用相对距离 即对象到聚类中心的绝对距离与聚类中所有对象到其聚类中心
r
kmeans
outliers
快速 (< n^2) 聚类算法
我有 100 万个 5 维点 需要将它们分组为 k 个簇 其中 k 但 我需要运行时间远低于 n 2 n log n 左右应该没问题 我进行此聚类的原因是为了避免计算所有 n 个点的距离矩阵 这需要 n 2 时间或多个小时 而是我只想计算聚
Algorithm
machinelearning
clusteranalysis
datamining
kmeans
Microsoft SQL 和 R、存储过程和 k-means
我是新来的 希望能帮助和得到帮助 不过 我正在开发新的 Microsoft Sql Server Management Studio 2016 使用其意味着与 R 集成的新功能 首先 我的目标是创建一个存储过程 该存储过程使用 x 和 y
sqlserver
r
kmeans
如何使用 TensorFlow 实现 k-means?
介绍教程使用内置的梯度下降优化器 非常有意义 然而 k 均值不仅仅是我可以插入梯度下降中的东西 看起来我必须编写自己的优化器 但考虑到 TensorFlow 原语 我不太确定如何做到这一点 我应该采取什么方法 注 您现在可以获得这段代码的更
kmeans
tensorflow
如何在 K - 均值算法中优化 K [重复]
这个问题在这里已经有答案了 可能的重复 使用 k 均值聚类时如何确定 k https stackoverflow com questions 1793532 how do i determine k when using k means c
datamining
kmeans
我自己的 R 中的 K 均值算法
我是 R 编程的初学者 我正在 R 中进行此练习作为编程入门 我已经在 R 中实现了自己的 K 均值实现 但在某一点上卡住了一段时间 我需要达成共识 算法迭代直到找到每个簇的最佳中心 这是没有迭代的原始算法 它只是从整个数据中随机选取一个数
r
Algorithm
kmeans
如何使用存储为 CSV 的矢量数据在 mahout 中执行 k 均值聚类?
我有一个包含数据向量的文件 其中每行包含一个以逗号分隔的值列表 我想知道如何使用 mahout 对这些数据执行 k 均值聚类 wiki 中提供的示例提到了创建sequenceFiles 但除此之外 我不确定是否需要进行某种类型的转换才能获取
mahout
kmeans
«
1
2
3
4
5
6
...8
»