参数名称 |
默认值及输入类型 |
参数解释 |
algorithm |
默认:Auto 有auto、full和elkan三种选择。 |
algorithm: 优化算法的选择,有auto、full和elkan三种选择。
- full就是一般意义上的K-Means算法,
- elkan是使用的elkan K-Means算法。
- auto则会根据数据值是否是稀疏的(稀疏一般指是有大量缺失值),来决定如何选择full和elkan。如果数据是稠密的,就选择elkan K-means,否则就使用普通的Kmeans算法。
|
copy_x |
True |
主要起作用于提前计算距离的情况,如果是True,则表示在源数据的副本上提前计算距离时,不会修改源数据。 |
init |
默认值为‘k-means++’ 有三个可选值:‘k-means++’、‘random’、或者传递一个ndarray向量。 |
- (1)‘k-means++’ 用一种特殊的方法选定初始质心从而能加速迭代过程的收敛
(1)、从输入的数据点集合(要求有k个聚类)中随机选择一个点作为第一个聚类中心;(2)、对于数据集中的每一个点x,计算它与最近聚类中心(指已选择的聚类中心)的距离D(x);(3)、选择一个新的数据点作为新的聚类中心,选择的原则是:D(x)较大的点,被选取作为聚类中心的概率较大;(4)、重复2和3直到k个聚类中心被选出来
- (2)‘random’ 随机从训练数据中选取初始质心。
- (3)如果传递的是一个ndarray,则应该形如 (n_clusters, n_features) 并给出初始质心。
|
max_iter |
默认值为300 int型, |
最大迭代数。 |
n_clusters |
默认为8 int型 |
生成的聚类数, |
n_init |
默认值为10 int型 |
用不同的聚类中心初始化值运行算法的次数,最终解是在inertia意义下选出的最优结果。 |
n_jobs |
int型。 |
指定计算所用的进程数。内部原理是同时进行n_init指定次数的计算。
- -1,则用所有的CPU进行运算。
- 若值为1,则不进行并行运算
- 若值小于-1,为-2,则用到的CPU数为总CPU数减1。
|
precompute_distances |
默认值是auto auto,True,False三个参数值可选 |
是否需要提前计算距离 如果选择auto,当样本数*质心数>12兆的时候,就不会提前进行计算,如果小于则会与提前计算。提前计算距离会让聚类速度很快,但是也会消耗很多内存。 |
random_state |
默认值为numpy.RandomState 类型, 还可以选择int型 |
用于初始化质心的生成器(generator)。如果值为一个整数,则确定一个seed。 |
tol |
1e-4 |
float型,容忍的最小误差,当误差小于tol就会退出迭代,与inertia结合来确定收敛条件。 |
verbose |
默认为0 |
是否输出详细信息, |
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)