Python 机器学习8：sklearn 聚类算法

2023-05-16

1. K-Means算法是一种广泛使用的聚类算法。

from sklearn.cluster import KMeans

K-Means是聚焦于相似的无监督的算法，以距离作为数据对象间相似性度量的标准，即数据对象间的距离越小，则它们的相似性越高，则它们越有可能在同一个类。K值指的是把数据划分成多少个类别。

算法步骤：随机设置K个特征空间内的点作为初始的聚类中心。对于其他每个点计算到K个中心的距离，未知的点选择最近的一个聚类中心点作为标记类别。接着，对着标记的聚类中心之后，重新计算出每个聚类的新中心点（平均值）。如果计算得出的新中心点与原中心点一样，那么结束，否则重新进行第二步过程。

KMeans(n_clusters=8,init=‘k-means++’)

参数：

n_clusters：开始的聚类中心数量

init：初始化方法，默认为k-means++

例：用户对物品类别的喜好分类

需求：将PCA案例中用户数据特征（商品信息、订单与商品信息、用户的订单信息、商品所属具体物品类别）使用K-Means进行分类。

链接：https://pan.baidu.com/s/1THkh7j3-PH7HoZbwxVnmTg
提取码：51d7

products.csv 商品信息

order_products__prior.csv 订单与商品信息

orders.csv 用户的订单信息

aisles.csv 商品所属具体物品类别

import pandas as pd
from sklearn.decomposition import PCA
from sklearn.cluster import KMeans
import matplotlib.pyplot as plt
from sklearn.metrics import silhouette_score
# 读取四张表的数据
prior = pd.read_csv("order_products__prior.csv")
products = pd.read_csv("products.csv")
orders = pd.read_csv("orders.csv")
aisles = pd.read_csv("aisles.csv")
# 合并四张表到一张表  （用户-物品类别）
_mg = pd.merge(prior, products, on=['product_id', 'product_id'])
_mg = pd.merge(_mg, orders, on=['order_id', 'order_id'])
mt = pd.merge(_mg, aisles, on=['aisle_id', 'aisle_id'])
cross = pd.crosstab(mt['user_id'], mt['aisle'])
# 进行主成分分析
pca = PCA(n_components=0.9)
x = pca.fit_transform(cross)
# 假设用户一共分为四个类别
km = KMeans(n_clusters=4)
km.fit(x)
predict = km.predict(x)
print(predict)
# 显示聚类的结果
plt.figure(figsize=(10, 10))
# 建立四个颜色的列表
colored = ['orange', 'green', 'blue', 'purple']
colr = [colored[i] for i in predict]
plt.scatter(x[:, 1], x[:, 20], color=colr)
plt.xlabel("1")
plt.ylabel("20")
plt.show()

输出：

[3 0 3 ... 0 2 3]

聚类性能评估指标：轮廓系数

from sklearn.metrics import silhouette_score

对于每个点i为已聚类数据中的样本，bi为i到其它族群的所有样本的平均距离，ai为i到本身簇的距离平均值，最终计算出所有的样本点的轮廓系数平均值。

如果sci小于0，说明ai的平均距离大于最近的其他簇。聚类效果不好。

如果sci越大，说明ai的平均距离小于最近的其他簇。聚类效果好。

轮廓系数的值是介于 [-1,1] ，越趋近于1代表内聚度和分离度都相对较优。

计算上面用户消费案例的轮廓系数：

# 评判聚类效果，轮廓系数
print(silhouette_score(x, predict))

sklearn.metrics.silhouette_score(X, labels) 计算所有样本的平均轮廓系数

参数：

X：特征值

labels：被聚类标记的目标值

输出：

0.43602642864601127

K-Means的优点：采用迭代式算法，直观易懂并且非常实用

K-Means的缺点：容易收敛到局部最优解；需要预先设定簇的数量（解决方法分别可以是：多次聚类、K-means++）。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

sklearn

机器学习

聚类算法

Python 机器学习8：sklearn 聚类算法的相关文章

Django 中的 Rpy2 错误 - 未为“”类型的对象定义转换“py2rpy”

我以前从未使用过 R 并且正在尝试使用 rpy2 从 python 调用 R 函数它可以在独立的 python 终端上运行但不能在 Django 中运行但rpy2似乎无法将python字符串转换为r对象我正在使用同事提供的自定义库
使用应用程序脚本将 MS Word 文件（保存在云端硬盘中）转换为 Google 文档

我被某些事情困住了找不到解决办法有没有办法使用文件 url 或 id 将存储在 Google Drive 中的 MS Word 文件转换为 Google 文档我目前有一个电子表格其中包含文件的网址或者也可以使用 python 脚
类型错误：float() 参数必须是字符串或数字，而不是“列表”python

我的 Python 有问题这是我的代码 def calcola a input b float a 0 split c float a 0 split d float a 0 split e float a 0 split j float
使用 pandas 将字符串对象转换为 int/float

import pandas as pd path1 home supertramp Desktop 100 life 180 data csv mydf pd read csv path1 numcigar Never 0 1 5 Ciga
Perl 是否有相当于 Python 的 `if __name__ == '__main__'` 的功能？

有没有一种方法可以确定当前文件是否是 Perl 源中正在执行的文件在 Python 中我们使用以下结构来做到这一点 if name main This file is being executed raise NotImplemente
numpy：大量线段/点的快速规则间隔平均值

我沿着一维线有许多约 100 万个不规则间隔的点 P 这些标记线段这样如果点是 0 x a x b x c x d 则线段从 0 gt x a x a gt x b x b gt x c x c gt x d 等我还有每个段的 y
Django 不会以奇怪的错误“AttributeError: 'module' object has no attribute 'getargspec'”启动

我对 Django 的内部结构有点缺乏经验所以我现在完全陷入困境它昨天起作用了但我不记得我改变过任何重要的东西当我转身时DEBUG True任何恰好位于列表中第一个的模块上都有堆栈跟踪 Traceback most recent c
Django 模型字段默认基于另一个模型字段

我使用 Django Admin 构建一个管理站点有两张表一张是ModelA其中有数据另一个是ModelB里面什么也没有如果一个模型字段b b in ModelB为None 可以显示在网页上值为ModelA的场a b 我不知道该怎
在 iPython/pandas 中绘制多条线会生成多个图

我试图了解 matplotlib 的状态机模型但在尝试在单个图上绘制多条线时遇到错误据我了解以下代码应该生成包含两行的单个图 import pandas as pd import pandas io data as web aapl
如何正确导入主代码和模块中同时使用的模块？

假设我有一个主脚本 main py 它导入另一个 python 文件import coolfunctions另一个 import chores 现在假设 Coolfunctions 也使用家务活中的东西因此我声明import chore
为什么 __instancecheck__ 没有被调用？

我有以下 python3 代码 class BaseTypeClass type def new cls name bases namespace kwd result type new cls name bases namespace p
如何分析组合的 python 和 c 代码

我有一个由多个 python 脚本组成的应用程序其中一些脚本正在调用 C 代码该应用程序现在的运行速度比以前慢得多因此我想对其进行分析以查看问题所在是否有工具软件包或只是一种分析此类应用程序的方法有一个工具可以将 python
计算 pyspark df 列中子字符串列表的出现次数

我想计算子字符串列表的出现次数并根据 pyspark df 中包含长字符串的列创建一个列 Input ID History 1 USA UK IND DEN MAL SWE AUS 2 USA UK PAK NOR 3 NOR NZE 4
在 HDF5 (PyTables) 中存储 numpy 稀疏矩阵

我在使用 PyTables 存储 numpy csr matrix 时遇到问题我收到此错误 TypeError objects of type csr matrix are not supported in this context so
更新 SQLAlchemy 中的特定行

我将 SQLAlchemy 与 python 一起使用我想更新表中等于此查询的特定行 UPDATE User SET name user WHERE id 3 我通过 sql alchemy 编写了这段代码但它不起作用 session
沿轴 0 重复 scipy csr 稀疏矩阵

我想重复 scipy csr 稀疏矩阵的行但是当我尝试调用 numpy 的重复方法时它只是将稀疏矩阵视为对象并且只会将其作为 ndarray 中的对象重复我浏览了文档但找不到任何实用程序来重复 scipy csr 稀疏矩阵的行我
如何使用 Pandas Series 绘制两个不同长度/开始日期的时间序列？

我正在绘制每周总事件的几个熊猫系列对象系列中的数据events per week看起来像这样 Datetime 1995 10 09 45 1995 10 16 63 1995 10 23 83 1995 10 30 91 1995
如何更改matplotlib中双头注释的头大小？

Below figure shows the plot of which arrow head is very small 我尝试了下面的代码但它不起作用它说引发 AttributeError 未知属性 s k 属性错误未知属性头宽
如何从 nltk 下载器中删除数据/模型？

我在 python3 NLTK 中安装了一些 NLTK 包通过nltk download 尝试过它们但不需要它们现在想删除它们我怎样才能删除例如包large grammars来自我的 NLTK 安装我不想删除完整的 NLTK 安装
如何使用 Python 3 正确显示倒计时日期

我正在尝试获取将显示的倒计时基本上就像一个世界末日时钟哈哈有人可以帮忙吗 import os import sys import time import datetime def timer endTime datetime datet

随机推荐

C++和C语言的区别是什么？

首先C 43 43 和C语言本来就是两种不同的编程语言 xff0c 但C 43 43 确实是对C语言的扩充和延伸 xff0c 并且对C语言提供后向兼容的能力 C 43 43 这个词在中国大陆的程序员圈子中通常被读做 C加加 xff0c 而西
ubuntu18.0.4安装pip3及虚拟环境virtualenv详细教程

1 ubuntu安装pip3 该命令是修复安装及补全那些缺少的软件 xff1a sudo apt get f install 安装pip3 xff1a sudo apt get install python3 pip升级pip3 xff1a
什么是子网掩码，如何判断两个IP是不是同一网段

1 xff1a 什么是子网掩码 xff1f 子网掩码不能单独存在 xff0c 它必须结合IP地址一起使用子网掩码只有一个作用 xff0c 就是将某个IP地址划分成网络地址和主机地址两部分说的通俗的话 xff0c 就是用来分割子网和区分那
利用esp-8266实现wifi攻击

0x00 前言之前在b站上看到这个wifi模块的攻击视频感觉挺有意思 xff0c 就在某宝上入了一个拿回来玩玩 0x01 外观转接头需要自己另外买 0x03 编译程序 https anky cc esp8266 deauther wif
如何从 JavaScript 对象中删除属性？

问题描述 xff1a 给定一个对象 xff1a let myObject span class token operator 61 span span class token punctuation span span class toke
在 Git 中推送提交时消息“src refspec master does not match any”

问 xff1a 我克隆我的存储库 xff1a git clone ssh span class token operator span span class token operator span span class token oper
Qt编译、链接和运行参数的设置

Qt编译链接和运行参数的设置 Qt笔记使用 Qt Creator 集成开发环境构建和运行程序是一件非常简单的事情 xff0c 一个按钮或者一个快捷键搞定全部 xff0c 通过 Qt Creator使用教程 xff08 简明版 xff09
常用Linux命令行技巧

结果以表格形式输出 column t 比如 xff1b span class token function mount span span class token operator span column t 默认分隔符为空格 xff0c
CV往哪卷？李飞飞指出三颗「北极星」：具身智能，视觉推理和场景理解

点击下方卡片 xff0c 关注 CVer 公众号 AI CV重磅干货 xff0c 第一时间送达转载自 xff1a 新智元编辑 xff1a LRS 导读 ImageNet见证了计算机视觉发展的辉煌历程 xff0c 在部分任务性能已超越人类
Java异常处理的九个最佳实践

1 确保在Finally程序块中完成资源释放或者使用Try With语句比如对于InputStream xff0c 当我们使用完毕 xff0c 我们要确保资源被正确关闭 xff0c 比如下面我们常见的错误用法 xff0c 不要在try模块
CodeMirror使用笔记

最近因工作需要 xff0c 在项目中使用了CodeMirror代码编辑器 xff0c 以下是使用笔记首先 xff0c 看下最终的效果引入基本的需要资源 lt script src 61 34 lt 61 request getConte
JAVA注解

Java注解Annotations主要用于为目标程序提供额外补充的说明信息注解以 64 符号标识注解并不改变编译程序的行为注意可以为程序元素 xff1a 实例变量构造方法方法或者类添加元数据信息注解并不是单纯的注释 xff0c 但却可
ubuntu中GitLab的安装与配置

这里 xff0c 我们采用离线安装的方式安装GitLab 首先 xff0c 我们从清华大学开源软件镜像站中下载软件包 xff0c 用户可根据实际的服务器操作系统版本来选择不同的镜像资源 xff0c 这里我们以ubuntu为例执行命令sud
Jenkins使用笔记

本章简单记录Jenkins的使用笔记首先 xff0c 我们从官网中下载安装介质 xff0c 可以看到这里有适合各种操作系统版本的安装源介质 xff0c 简单起见 xff0c 我们直接下载一个通用的war程序包执行命令java jar j
GitLab 与 Jenkins 持续集成实践

首先 xff0c 我们简单说明下我们的部署环境 xff1a GitLab xff1a 192 168 43 61 Jenkins xff1a 192 168 43 116 Jenkins中系统设置中 xff0c 配置GitLab连接信息 x
Linux下免密认证登录失败原因总结

事件背景 A机器已经生产rsa密钥且已经将public key添加到B机器 root ssh authorized keys xff0c 但是从A机器上ssh root 64 B机器时仍然需要输入密码 xff0c 即无密码认证失败原因总结
公钥添加到authorized_keys到文件中之后仍无法免密登陆

接上一章 xff0c 关于Linux下免密登陆失败 xff0c 这里找了Stackoverflow上关于这个问题的讨论 xff1a Adding public key to ssh authorized keys does not log
Java 8 中的List排序

按字母顺序排序字符串列表 List lt String gt cities 61 Arrays asList 34 Milan 34 34 london 34 34 San Francisco 34 34 Tokyo 34 34 New D
Microservices vs SOA - 微服务与SOA

开始之前 xff0c 我们先简单看下单体架构 SOA与微服务之间的区别 xff0c 如下图所示 xff1a 简单来讲 xff0c 对于单体架构 xff0c 其就像一个超大容器 xff0c 容器内集中包含了该应用的所有软件组件 xff0c 并
Python 机器学习8：sklearn 聚类算法

1 K Means算法是一种广泛使用的聚类算法 from sklearn cluster import KMeans K Means是聚焦于相似的无监督的算法 xff0c 以距离作为数据对象间相似性度量的标准 xff0c 即数据对象间的距离

Python 机器学习8：sklearn 聚类算法

Python 机器学习8：sklearn 聚类算法 的相关文章

随机推荐

热门标签

Python 机器学习8：sklearn 聚类算法的相关文章