机器学习（二）：聚类算法1——K-means算法

2023-05-16

Kmeans是一种经典的聚类算法，所谓聚类，是指在没有给出目标的情况下，将样本根据某种关系分为某几类。那在kmeans中，是根据样本点间的距离，将样本n分为k个类。

K-means实现步骤：

1.首先，输入数据N并确定聚类个数K。

2.初始化聚类中心：随机选K个初始中心点。

3.计算所有样本N与K个中心点的距离，将其归到距离最近的一簇。

4.针对每一簇，计算该簇内所有样本到中心点距离的均值，最为新的中心点。

5.不断迭代，直到中心点不再改变或误差达到阈值。

还有一个与K-means算法非常类似的算法是K-medoids，步骤也与K-means一致，唯一的区别是k-means的中心是各个样本点的平均，可能是样本点中不存在的点。K-medoids的质心一定是某个样本点的值。

K-meansMATLAB实现：

1.使用MATLAB自带的函数实现

idx = kmeans(X,k)               %将数据x分为k类，返回类标签
idx = kmeans(X,k,Name,Value)    %可以指定距离、使用新的初始值重复聚类的次数或使用并行计算。
[idx,C] = kmeans(___)           %返回值可以返回中心点的坐标  
[idx,C,sumd] = kmeans(___)      %返回向量中点到质心距离的簇内总和sumd      
[idx,C,sumd,D] = kmeans(___)    %返回输入矩阵中每个点到每个质心的距离D

K-medoids自带函数实现

idx = kmedoids(X,k)
idx = kmedoids(X,k,Name,Value)
[idx,C] = kmedoids(___)
[idx,C,sumd] = kmedoids(___)
[idx,C,sumd,D] = kmedoids(___)
[idx,C,sumd,D,midx] = kmedoids(___)
[idx,C,sumd,D,midx,info] = kmedoids(___)

示例

rng('default') % For reproducibility
X = [randn(100,2)*0.75+ones(100,2);
    randn(100,2)*0.5-ones(100,2);
    randn(100,2)*0.75];
[idx,C] = kmeans(X,3);
figure
gscatter(X(:,1),X(:,2),idx,'bgm')
hold on
plot(C(:,1),C(:,2),'kx')
legend('Cluster 1','Cluster 2','Cluster 3','Cluster Centroid')

2.K-means代码实现

clear all;
clc;
% 第一组数据
mu1=[0 0 ];  %均值(是需要生成的数据的均值)
S1=[.08 0 ;0 .08];  %协方差(需要生成的数据的自相关矩阵（相关系数矩阵）)
data1=mvnrnd(mu1,S1,3200);   %产生高斯分布数据
%第二组数据
mu2=[1.5 1.5 ];
S2=[.08 0 ;0 .08];
data2=mvnrnd(mu2,S2,3200);
% 第三组数据
mu3=[-1.5 1.5 ];
S3=[.08 0 ;0 .08];
data3=mvnrnd(mu3,S3,3200);
% 显示数据
plot(data1(:,1),data1(:,2),'b.');
hold on;%不覆盖原图，要关闭则使用hold off；
plot(data2(:,1),data2(:,2),'r.');
plot(data3(:,1),data3(:,2),'g.');
grid on;%显示表格
%  三类数据合成一个不带标号的数据类
data=[data1;data2;data3];
N=3;%设置聚类数目
[m,n]=size(data);%表示矩阵data大小，m行n列
pattern=zeros(m,n+1);%生成0矩阵
center=zeros(N,n);%初始化聚类中心
pattern(:,1:n)=data(:,:);

for x=1:N
    center(x,:)=data( randi(300,1),:);%第一次随机产生聚类中心
end
while 1 %循环迭代每次的聚类簇；
    distence=zeros(1,N);%最小距离矩阵
    num=zeros(1,N);%聚类簇数矩阵
    new_center=zeros(N,n);%聚类中心矩阵
    
    for x=1:m
        for y=1:N
            distence(y)=norm(data(x,:)-center(y,:));%计算到每个类的距离
        end
        [~, temp]=min(distence);%求最小的距离
        pattern(x,n+1)=temp;%划分所有对象点到最近的聚类中心；标记为1,2,3；
    end
    k=0;
    for y=1:N
        for x=1:m
            if pattern(x,n+1)==y
                new_center(y,:)=new_center(y,:)+pattern(x,1:n);
                num(y)=num(y)+1;
            end
        end
        new_center(y,:)=new_center(y,:)/num(y);%求均值，即新的聚类中心；
        if norm(new_center(y,:)-center(y,:))<0.1%检查集群中心是否已收敛。如果是则终止。
            k=k+1;
        end
    end
    if k==N
        break;
    else
        center=new_center;
    end
end
[m, n]=size(pattern);

%最后显示聚类后的数据
figure;
hold on;
for i=1:m
    if pattern(i,n)==1
        plot(pattern(i,1),pattern(i,2),'r.');
        plot(center(1,1),center(1,2),'kp');%用小圆圈标记中心点；
    elseif pattern(i,n)==2
        plot(pattern(i,1),pattern(i,2),'g.');
        plot(center(2,1),center(2,2),'kp');
    elseif pattern(i,n)==3
        plot(pattern(i,1),pattern(i,2),'c.');
        plot(center(3,1),center(3,2),'kp');
    elseif pattern(i,n)==4
        plot(pattern(i,1),pattern(i,2),'y.');
        plot(center(4,1),center(4,2),'kp');
    else
        plot(pattern(i,1),pattern(i,2),'m.');
        plot(center(4,1),center(4,2),'kp');
    end
end

3.K-means算法Python实现

Python代码来自机器学习（二）——K-均值聚类（K-means）算法 - 1ang - 博客园

#k-means算法的实现
#-*-coding:utf-8 -*-
from numpy import *
from math import sqrt


import sys
sys.path.append("C:/Users/Administrator/Desktop/k-means的python实现")
 
def loadData(fileName):
    data = []
    fr = open(fileName)
    for line in fr.readlines():
        curline = line.strip().split('\t')
        frline = map(float,curline)
        data.append(frline)
    return data
'''
#test
a = mat(loadData("C:/Users/Administrator/Desktop/k-means/testSet.txt"))
print a
'''
#计算欧氏距离
def distElud(vecA,vecB):
    return sqrt(sum(power((vecA - vecB),2)))

#初始化聚类中心
def randCent(dataSet,k):
    n = shape(dataSet)[1]
    center = mat(zeros((k,n)))
    for j in range(n):
        rangeJ = float(max(dataSet[:,j]) - min(dataSet[:,j]))
        center[:,j] = min(dataSet[:,j]) + rangeJ * random.rand(k,1)
    return center
'''
#test
a = mat(loadData("C:/Users/Administrator/Desktop/k-means/testSet.txt"))
n = 3
b = randCent(a,3)
print b
'''
def kMeans(dataSet,k,dist = distElud,createCent = randCent):
    m = shape(dataSet)[0]
    clusterAssment = mat(zeros((m,2)))
    center = createCent(dataSet,k)
    clusterChanged = True
    while clusterChanged:
        clusterChanged = False
        for i in range(m):
            minDist = inf
            minIndex = -1
            for j in range(k):
                distJI = dist(dataSet[i,:],center[j,:])
                if distJI < minDist:
                    minDist = distJI
                    minIndex = j
            if clusterAssment[i,0] != minIndex:#判断是否收敛
                clusterChanged = True
            clusterAssment[i,:] = minIndex,minDist ** 2
        print center
        for cent in range(k):#更新聚类中心
            dataCent = dataSet[nonzero(clusterAssment[:,0].A == cent)[0]]
            center[cent,:] = mean(dataCent,axis = 0)#axis是普通的将每一列相加，而axis=1表示的是将向量的每一行进行相加
    return center,clusterAssment
'''
#test
dataSet = mat(loadData("C:/Users/Administrator/Desktop/k-means/testSet.txt"))
k = 4
a = kMeans(dataSet,k)
print a
'''

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

means

机器学习

聚类算法

机器学习（二）：聚类算法1——K-means算法的相关文章

Java学习 - 黑马（第二部分） - 随堂笔记 - 01_继承

Java学习2 黑马 xff08 第二部分 xff09 随堂笔记 01 继承 1 继承 1 1 继承概述继承是面向对象三大特征之一可以使得子类具有父类的属性和方法 xff0c 还可以在子类中重新定义 xff0c 追加属性和方法继承的格
Java学习 - 黑马（第二部分） - 随堂笔记 - 02_修饰符

Java学习黑马 xff08 第二部分 xff09 随堂笔记 02 修饰符 1 包 1 1 包的概述和使用其实就是文件夹作用 xff1a 对类进行分类管理包的定义格式格式 xff1a package 包名 xff08 多级包用分

随机推荐

Java学习 - 黑马（第二部分） - 随堂笔记 - 03_多态

Java学习黑马 xff08 第二部分 xff09 随堂笔记 03 多态 1 多态 1 1 多态概述同一个对象 xff0c 在不同时刻表现出来的不同形态举例 xff1a 猫我们可以说猫是猫 xff1a 猫 cat 61 new 猫
Java学习 - 黑马（第二部分） - 随堂笔记 - 04_抽象类

Java学习黑马 xff08 第二部分 xff09 随堂笔记 04 抽象类 1 抽象类 1 1 抽象类概述在Java中 xff0c 一个没有方法体的方法应该定义为抽象方法 xff0c 而类中如果有抽象方法 xff0c 该类必须定义为抽象
Java学习 - 黑马（第二部分） - 随堂笔记 - 05_接口

Java学习黑马 xff08 第二部分 xff09 随堂笔记 05 接口 1 接口接口就是一种公共的规范标准 xff0c 只要符合规范标准 xff0c 大家都可以通用 Java中的接口更多的体现在对行为的抽象 1 2 接口的特点接口用
Java学习 - 黑马（第二部分） - 随堂笔记 - 06_形参和返回值

Java学习黑马 xff08 第二部分 xff09 随堂笔记 06 形参和返回值形参和返回值 1 1 类名作为形参和返回值方法的形参是类名 xff0c 其实需要的是该类的对象方法的返回值是类名 xff0c 其实返回的是该类的对象 pa
Java学习 - 黑马（第二部分） - 随堂笔记 - 07_内部类

Java学习黑马 xff08 第二部分 xff09 随堂笔记 07 内部类 1 内部类 1 1 内部类概述内部类 xff1a 就是在一个类中定义一个类举例 xff1a 在一个类A的内部定义一个类B xff0c 类B就被称为内部类内部
Java学习 - 黑马（第二部分） - 随堂笔记 - 08_常用API

Java学习黑马 xff08 第二部分 xff09 随堂笔记 08 常用API 1 Math 1 1 Math类概述 Math包含执行基本数字运算的方法没有构造方法 xff0c 如何使用类中的成员呢 xff1f 通过查看帮助文档看类的
Java学习 - 黑马 - 随堂笔记 - 第二部分总目录

Java学习黑马随堂笔记第二部分总目录本内容仅为个人看视频记录的随手笔记 xff0c 部分内容可能不全面 xff0c xff0c 可以作为学习黑马程序员Java基础视频参考使用或者看完之后进行复习巩固使用 Java学习黑马 xff
Java学习 - 黑马 - 随堂笔记 - 第一部分总目录

Java学习黑马随堂笔记第一部分总目录本内容仅为个人看视频记录的随手笔记 xff0c 部分内容可能不全面 xff0c xff0c 可以作为学习黑马程序员Java基础视频参考使用或者看完之后进行复习巩固使用 Java学习黑马随堂笔
Java学习 - 黑马（第二部分） - 随堂笔记 - 09_异常

Java学习黑马 xff08 第二部分 xff09 随堂笔记 09 异常 1 异常 1 1 异常概述 package com itheima 01 import java lang reflect Method 异常 public cla
MATLAB2021b详细安装教程

1 下载软件安装包 2 安装下载安装包后打开iso文件 xff0c 若是无法打开请用解压软件打开打开MATLAB R2021b win64 xff0c 双击软件开始安装一直点击下一步 xff0c 直到步骤选择我已有我的许可证的文件密
新睿云科普：什么叫云技术？云技术是如何发展到如今的？

云技术是计算机系统资源 xff08 尤其是数据存储和计算能力 xff09 的按需可用性 xff0c 而无需用户直接进行主动管理该术语通常用于描述Internet上可供许多用户使用的数据中心在当今占主导地位的大型云通常具有从中央服务器分布
酷炫cmd命令行工具——windows terminal的详细配置

官网配置地址 xff1a An overview on Windows Terminal Microsoft Docs 目录一 Windows terminal安装与基本操作 1 Windows Terminal下载 2 不同命令行工具切
RIME中州韵输入法词库扩充（搜狗词库，QQ拼音词库，清华词库，拆字词库U模式等）

Rime输入法作为一款高度自定义的本地输入法 xff0c 词库的配置尤为重要 1 Rime输入法词库格式 Rime输入法的词库在用户配置文件夹下 xff0c 是以 dict yaml结尾的文件 2 Rime输入法词库如何调用 Rime可以扩
超全超详细Rime中州韵输入法配置指南

1 为什么选择RIME 市面上具有众多的输入法 xff0c 无论搜狗还是QQ输入法基本都大同小异 xff0c 但RIME是众多输入法中一个特殊的存在之所以特殊 xff0c 原因在于 xff0c 绝大部份输入法工具 xff0c 长什么样能
MATLAB2022a更新了，看MATLAB2022详细安装教程

MATLAB是很多学生党 xff0c 科研人需要的工具 xff0c 这款软件每年更新两次 xff0c 上半年为年份 43 a xff0c 下半年为年份 43 b xff0c 2022a如约而至这次更新包含了 5 款新产品和 11 项重要更
中国计算机设计大赛作品（附代码与设计书，答辩PPT）

1 主界面 2 目录界面 3 离散信号的产生 4 离散信号的基本变换及运算变换运算 5 离散信号的卷积运算 6 离散信号的卷积运算 7 系统稳定性分析 8 傅立叶变换 9 FIR滤波器设计 10 IIR滤波器设计 11 语音去噪处理录
更改pip镜像源的多种方法

目前可用的pip国内镜像源有下面这些 xff1a 阿里云 http mirrors aliyun com pypi simple 中国科技大学 https pypi mirrors ustc edu cn simple 豆瓣 http py
详细介绍MATLAB导入文本文件、excel等数据文件

一通过导入工具导入选择导入工具选择文件二通过函数uiimport导入 xff08 推荐 xff09 使用uiimport导入数据比较方便 xff0c 输入后会自动弹出对话框选择文件或者剪贴板内容进阶命令如下 xff1a uiim
机器学习（一）：概述

机器学习近年来发展迅速 xff0c 那什么是机器学习呢 xff1f 其实机器学习在我们每天的生活工作中都随处可见机器学习的应用比如你每天打开手机 xff0c 无论是打开短视频软件 xff0c 还是逛购物软件 xff0c 这些里面都是包含
机器学习（二）：聚类算法1——K-means算法

Kmeans是一种经典的聚类算法 xff0c 所谓聚类 xff0c 是指在没有给出目标的情况下 xff0c 将样本根据某种关系分为某几类那在kmeans中 xff0c 是根据样本点间的距离 xff0c 将样本n分为k个类 K means实

机器学习（二）：聚类算法1——K-means算法

K-means实现步骤：

K-meansMATLAB实现：

机器学习（二）：聚类算法1——K-means算法 的相关文章

随机推荐

热门标签

机器学习（二）：聚类算法1——K-means算法的相关文章