聚类分析：如何用通俗的话解释清楚？-科学指南针

2024-01-21

在开始我们今天的分享之前，先看一个实际业务分析场景中的例子：

某零售公司在市面上主要有30款产品，这些产品的类别、销售量和销售额的差异很大，于是该公司的业务分析师想按照一定的标准，将30个产品划分为A、B、C三个等级，以便公司进行产品战略规划，那么他应该怎么做呢？

很多人可能会想到套用波士顿矩阵，以销售量和销售额为横纵坐标轴，计算中心轴，将每个产品落入矩阵当中，就能得到大体的产品分类情况。

好像看上去没问题对不对？但是在实际情况中，很多人这样做出来的却是错误的，为什么呢？

其实这种思路是对的，但是很多人都忽略了一个最关键的问题： 应该用什么标准去衡量和判断中心轴的划分

很多人都会选择直接拉取数据的平均值作为中心轴，然而这种分类方法在实际中可能会造成数据的误判，因为类别的不同，数据之间的差异可能会呈现出族群的现象，这时候有些数据就可能会“鱼目混珠”地混入其他类别之中。

比如，我们可以举个很极限的例子，有A、B、C三个产品的销售量分别为100、50、1，很显然A、B产品为一类，C产品为一类；但是如果按照平均值151/3=50.03，划分之后A为一类，B与C划分到了一类。

怎么样，是不是很奇怪，这时就要用到我们今天要介绍的分类分析方法——聚类。

一、什么是聚类分析？

聚类原本是统计学上的概念，现在属于机器学习中非监督学习的范畴，大多都被应用在数据挖掘、数据分析的领域，简单说可以用一个词概括——物以类聚。

如果把人和其他动物放在一起比较，你可以很轻松地找到一些判断特征，比如肢体、嘴巴、耳朵、皮毛等等，根据判断指标之间的差距大小划分出某一类为人，某一类为狗，某一类为鱼等等，这就是聚类。

从定义上讲，聚类就是针对大量数据或者样品，根据数据本身的特性研究分类方法，并遵循这个分类方法对数据进行合理的分类，最终将相似数据分为一组，也就是“ 同类相同、异类相异 ”。

二、聚类不是分类

说到这里，可能有人会觉得聚类不就是分类嘛，而其实在严格意义上，聚类与分类并不是一回事，两者有着很大的差异。

分类是按照已定的程序模式和标准进行判断划分，比如我们开头提到的例子，我们直接规定把数据的平均值作为中心轴，那么我们的工作就剩下了一个： 判断每一个数据是否达到平均值 。

也就是说，在进行分类之前，我们事先已经有了一套数据划分标准，只需要严格按照标准进行数据分组就可以了。

而聚类则不同，我们并不知道具体的划分标准，要靠算法进行判断数据之间的相似性，把相似的数据放在一起，也就是说聚类最关键的工作是：探索和挖掘数据中的潜在差异和联系。

在聚类的结论出来之前，我完全不知道每一类有什么特点，一定要根据聚类的结果通过人的经验来分析，看看聚成的这一类大概有什么特点。

三、聚类的方法

知道了聚类的含义，那么我们具体要怎么对数据进行聚类呢？

聚类方法有很多，但是我们数据分析中常用的就是K-Means聚类法，这种方法很简单，也很有效，在很多分析软件上都能进行算法计算。

简答拿一个例子介绍一下K-Means聚类法的原理和过程：

1、确定分组数

K-Mcans聚类法中的K就是分组数，也就是我们希望通过聚类后得到多少个组类。比如我有下面六个数据，想要将这些数据分成两类，那么K=2 。

这个数据中心的选择是完全随机的，也就是说怎么选择都无所谓，因为这里K=2，所以我们就以A和B两个为数据中心。 2、随机选择K个值作为数据中心

为了方便理解，我们可以制作一个散点图，将A、B作为数据中心。

既然选择了数据中心，那么它们的周围一定会有很多相似数据，怎么判断这些数据与其是不是相似呢？ 3、计算其他数值与数据中心的“距离”

这里我们要引入欧氏距离的概念，通俗点说欧氏距离就是多维空间中各个点之间的绝对距离，表明两点之间的距离远近，其公式为：

如果是普通的二维数据，这个公式就直接变成了勾股定理，因此我们算出其他6个点距离A和B的距离，谁离得更近，谁与数据中心就是同一类。

第一组：A所以，我们可以看出，C-H距离B的距离都比距离A更近，所以第一次分组为：

第二组：B、C、D、E、F、G、H

4、重新选择新的数据中心

得到了第一次分组的结果，我们再重复前两个步骤，重新选择每一组数据的数据中心。

第一组只有A，所以A仍然是数据中心；
第二组有7个数值，将这个7个数值的平均值作为新的数据中心，我们将其命名为P，计算平均坐标为（5.14 ，5.14）

5、再次计算其他数据与新数据中心的距离

还是直接计算勾股定理，计算出其他数据与A和P的欧氏距离，如下：

第一组：A、B我们可以看出这里面有的距离A近，有的距离P近，于是第二次分组为：

第二组：C、D、E、F、G、H

6、再次重新选择数据中心

这里就是老规矩了，继续重复前面的操作，将每一组数据的平均值作为数据中心：

第一组有两个值，平均坐标为（0.5 ，1），这是第一个新的数据中心，命名为O
第二组有六个值，平均值为（5.8 ， 5.6），这是第二个新的数据中心，命名为Q

7、再次计算其他数据与新数据中心的距离

第一组：A、B这时候我们发现，只有A与B距离O的距离更近，其他6个数据都距离Q更近，因此第三次分组为：

第二组：C、D、E、F、G、H

经过这次计算我们发现分组情况并没有变化，这就说明我们的计算收敛已经结束了，不需要继续进行分组了，最终数据成功按照相似性分成了两组。

8、方法总结

简单来说，我们一次次重复这样的 选择数据中心-计算距离-分组-再次选择数据中心 的流程，直到我们分组之后所有的数据都不会再变化了，也就得到了最终的聚合结果。

四、实际中怎么用聚类

明白了聚类分析的思路和方法，我们怎么应用到实际中去呢？面对大量数据的时候我们该怎么办呢？其实很多分析软件中都有聚类分析的功能，比如Python、Excel等等，比如FineBI中的聚类功能，可以快速计算聚类结果。

最后要注意的一点是，聚类指标的选择要充分结合业务，加入一些无用的指标反而会影响最后的聚类结果，这个展开讲的话就太多了，留到下次分享吧。在实际分析过程中，还要注意单位换算问题，要确保这些数据的独立性和统一性，否则得出的结果没有任何的实际意义。

以上文章来源于知乎

更多科研干货教程，可以点击下面链接获取哦~

数据分析

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

科研

聚类分析：如何用通俗的话解释清楚？-科学指南针的相关文章

elsevier中elsarticle模板如何使用apa引用格式

我们知道latex的默认引用 cite 是长这样的那elsevier下面的很多期刊要求我们使用apa 美国心理学会的引用格式其是长这样的方法这个问题折磨我好久网上说使用 usepackage apacite 包可是我一在els
Matlab图形窗口大小的控制，plot窗口大小，figure大小，axis设置，实用

与imagesc搭配可以用caxis 来调整图像颜色的显示区间转载自 http blog sina com cn s blog 48c735630101iadu html Matlab中保存图像时图形窗口大小的控制zz 首先要了解的是M
用Endnote在word中插入文献出现{Xu, 1997 #407}等样式的错误的解决方法如下

1 将Instant Formatting 由Off设置为On 2 弹出的对话框点击ignore all 参考 https blog csdn net coberup article details 82525988
pip安装python库时报Failed building wheel for xxx

目录一问题描述二解决办法 1 下载并安装对应的 whl 文件 2 安装 whl 文件一问题描述如题在使用pip install xxx的方法安装python库或者是基于python的软件时报错 ERROR Failed
PyEMD安装及简单使用

0 安装命令pip install PyEMD存在问题不建议使用若用此命令安装会报以下错误 Looking in indexes http pypi doubanio com simple http mirrors aliyun c
使用citavi快速搜索论文、下载论文

第一步点击在线搜索第二步一般需要添加下需要的数据库这里我们添加常用的arxiv 第三步输入需要搜索的论文名字也可以通过作者来搜索以及选择年份等等第四步添加搜索到的论文最后打开这个pdf 点击保存一个复制这里也可以通过
一个华科研究生导师的肺腑之言（主要适用于理工科）

各位科研同志们看看吧仁者见仁智者见智总归有点用人太多不一一啦 1 作为你们的老师我现在每周工作60小时踏踏实实的60小时阅读实践思考讨论和请教周而复始其实这还不够用因为我既要独立做这边自己的课题还要协助各位完成
【PrimeTime 基本命令】

https www micro ip com drchip php mode 2 cid 17
钛及钛合金材料的性质和应用-科学指南针

一钛的性质这类气体是对金属钛十分有害的杂质即使含量甚微 0 01 0 005 也能严重影响它的力学性能钛的力学性质即通称的机械性能与纯度十分相关高纯钛具有优良的机加工性能延伸率断面收缩率均佳但强度低不适合作结构材料工业纯
SCI投稿各阶段信件实用模板，直接填空即可！初次投稿不用慌！-科学指南针

01最初投稿Cover letter模板 Dear Editors We would like to submit the enclosed manu entitled Paper Title which we wish to be con
高糖环境下，细胞的铁死亡与自噬的相爱相杀-科学指南针

导语最常见的两种细胞死亡形式是坏死和凋亡随着研究的不断深入研究者发现了其他细胞死亡方式如细胞自噬坏死性凋亡细胞焦亡铁死亡等其中细胞自噬是一种程序性的细胞死亡可以消除过度错误折叠的蛋白和受损的细胞器而铁死亡是铁依赖性
钛氧物种与钴相互作用-科学指南针

中科院与上海交通大学合作在碳化物作为载体的钴基费托合成研究中取得新进展借助透射电子显微镜等技术揭示了还原过程中碳化钛表面的钛氧物种到金属钴表面的原位迁移现象这种增强的金属载体的相互作用促进了费托合成反应活性通过透射电子显微镜可以
钛合金材料用于航空航天行业-科学指南针

每一次看到飞机都有个疑问飞机到底是啥金属材料做的装那么多人那么多货物少则几十吨多则上百吨为什么还能飞那么高实在不可思议钛合金材料怎么检测呢具体制样方法是什么呢实在讲飞机人造卫星登月舱载人飞船等航天器的制造离不开
陶瓷材料检测项目及标准-科学指南针

陶瓷原材料是用纯天然或生成化学物质历经成型和高溫煅烧做成的一类无机非金属原材料它具备高溶点高韧性高耐磨性能耐空气氧化等优势可作为构造原材料刀具材质因为陶瓷还具备一些独特的性能又可做为新型功能材料各检测组织针对陶瓷检测的新项
陶瓷基电路板切片制样-科学指南针

随着电子技术在各应用领域的逐步加深半导体正沿着大功率化高频化集成化方向发展高度的集成化封装模块要求良好的散热承载系统而传统线路板FR 4导热系数上的劣势已经成为制约电子技术发展的一个瓶颈近些年来发展迅猛的LED产业也对其承载线
致谢科学指南针 ‖ 苏州科技大学：金属卟啉修饰二氧化钛纳米片用于高效光催化二氧化碳还原

金属卟啉修饰二氧化钛纳米片用于高效光催化二氧化碳还原作者 Li Ang 高鸿毅王戈等人通讯单位苏州科技大学材料科学与工程学院和北京科技大学材料科学与工程学院 DOI 10 1021 acs inorgchem 1c02957 苏州科
XRD精修结果都包括些什么？-科学指南针

X射线粉末衍射精修在诸多文章中都有出现特别是一些无机材料体系拿到一个可精修的数据精修完成之后能给出什么结果呢一般说来能给出以下几个结果 Rietveld全谱拟合数据一般需要自己作图精修输出文件包括拟合R因子 Rexp Rwp
论文写作“the”的用法？-科学指南针

1 感觉满篇好多 the 先说一点儿统计数据和我所做东西紧密相关的7篇快报总字数14000 the 1000次平均每14个字出现一次英语中频率排名第一的 the 语料库的统计是每16个字出现一次考虑到学术写作的指代重复性高情有可
两篇毕业论文致谢同一个女朋友？哈哈哈哈！

论文查重率绝对是每个毕业党心头的一抹淡淡的忧桑想一下你很用心的准备了几个月的时间选题实验架构论述字数排版等等拿着一份修改了几十遍的文稿小心翼翼地递交系统查重审核屏幕却瞬间蹦出了一个爆炸的百分比那种心情怎么形容呢
为Word装上这3大插件，你的论文写作效率至少提升2倍！

Word可以说是当前最主流的论文写作工具之一尽管其基础功能强大但是总有一些小功能尚未集成这时候安装插件往往能够解决我们的燃眉之急今天小编给大家分享3款提升写作效率的Word插件学完赶紧用起来吧 01Office Ta Word

随机推荐

两篇毕业论文致谢同一个女朋友？哈哈哈哈！

论文查重率绝对是每个毕业党心头的一抹淡淡的忧桑想一下你很用心的准备了几个月的时间选题实验架构论述字数排版等等拿着一份修改了几十遍的文稿小心翼翼地递交系统查重审核屏幕却瞬间蹦出了一个爆炸的百分比那种心情怎么形容呢
新手也能看懂的【前端自动化测试入门】！

前言最近在网上搜索前端自动化测试相关的文档但是发现网上的文章都是偏使用没有把一些基础概念说清楚导致后续一口气遇到一些 karma Jasmine jest Mocha Chai BDD 等词汇的时候很容易一头雾水这次一方面整理一下
做大模型也有1年多了，聊聊这段时间的感悟！

自ChatGPT问世以来做大模型也有1年多了今天给大家分享这一年后的感悟过去一年应该是AI圈最万千瞩目的一年了大家对大模型 OpenAI ChatGPT AI Native Agent这些词投入了太多的关注以至于有一年的时间好像经
题解 | #每个创作者每月的涨粉率及截止当前的总粉丝量#

签约前被华子HR给恶心劝退了孝转黑理想裁应届没事吧没事吧工作强度巨大团队氛围极差勾心斗角穿小鞋职场感受流程一团天翼云校招新HC发布天翼云校招新HC发布有哪些权威的职业性格测试职业性格测试靠谱吗望父成龙快过年了别
亮点 | 有前途的高性能薄膜制备利器——脉冲激光沉积技术（PLD）

脉冲激光沉积 PLD 就是将激光聚焦于靶材上一个较小的面积利用激光的高能量密度将部分靶材料蒸发甚至电离使其能够脱离靶材而向基底运动进而在基底上沉积从而形成薄膜的一种方式脉冲激光沉积 PLD 原理整个PLD镀膜过程通常分为三个阶段
最新解决找不到vcruntime140_1.dll无法继续执行代码问题的方法

在计算机系统运行过程中时常会遇到无法找到特定动态链接库文件的情况其中vcruntime140 1 dll就是一个常见的问题焦点这个dll文件是Visual C Redistributable的重要组成部分对于许多基于此环境开发的应用
顺序表和链表基础

定义动态的顺序表 typedef int SLDataType typedef struct Seqlist SLDataType array size t size size t capacity Seqlist 在顺序表中插入数据 bo
Endnote 实战攻略！快速搞定论文里的参考文献格式-科学指南针

Endnote 是科研人写论文时最常用功能最强大的文献管理软件之一用 Endnote 写作中文论文比如中文期刊论文硕博士毕业论文可以说是每一个科研小伙伴的必修课小K今天就针对Endnote使用过程的常见问题提供详细的解决方案
java版直播商城平台规划及常见的营销模式电商源码/小程序/三级分销+商城免费搭建

鸿鹄云商 B2B2C产品概述 B2B2C平台以传统电商行业为基石鸿鹄云商支持商家入驻平台自营多运营模式积极打造全新市场全新模式企业级B2B2C电商平台致力干助力各行互联网创业腾飞并获取更多的收益从消费者出发助力企
机器学习算法实战案例：时间序列数据最全的预处理方法总结

文章目录 1 缺失值处理 1 1 统计缺失值 1 2 删除缺失值 1 3 指定值填充 1 4 均值中位数众数填充
Keep牵手OPPO继续“扩圈”，“运动科技第一股”被低估了

没了天翼云校招新HC发布深度学习面经推荐算法系列盘点一波可以投的公司华为14A还是保研华中科技大学秋招总结我的金十二银一 offer求推荐华为base上海的 npy咋办荣耀在深圳离家很近而且开的比较高华荣耀在深圳
为Word装上这3大插件，你的论文写作效率至少提升2倍！

Word可以说是当前最主流的论文写作工具之一尽管其基础功能强大但是总有一些小功能尚未集成这时候安装插件往往能够解决我们的燃眉之急今天小编给大家分享3款提升写作效率的Word插件学完赶紧用起来吧 01Office Ta Word
获取员工其当前的薪水比其manager当前薪水还高的相关信息

后悔早签三方了双非渣渣不该信金九银十凯子今年确实也卷起来了想进华为就别去华为实习鼠鼠拿了几个offer 请大家帮忙看下有点困惑百度 base北京 n 4 16 薪资可华为开奖一个月过去了 25终于找到JAVA实习算法方向推
STM32H5 Nucleo-144 board开箱

文章目录开发板资料下载目标点亮LD1 绿 LD2 黄和LD3 红三个LED灯开箱过程博主使用的是STM32CubeMX配置生成代码具体操作如下打开STM32CubeMX File gt New project 选择开发板型
【硕士论文复现】可再生能源发电与电动汽车的协同调度策略研究（Matlab代码实现）

欢迎来到本博客博主优势博客内容尽量做到思维缜密逻辑清晰为了方便读者座右铭行百里者半于九十本文目录如下目录 1 概述 1 1 上层问题 1 2 下层问题 2 运行结果
第三届能源动力与控制工程国际学术会议（EPECE 2024）

鹅厂第五周实习周记中注协公布全各省会计师事务所TOP5 华子三方秋招投递华子你需要知道的十件事兄弟们实习过年什么时候回家呢评论区的朋友们有找实习的吗我们的第2个实习生干了4个多月被老师叫回学校了来过的都说好 C C 软开岗位
企业电子招投标系统源码之电子招投标系统建设的重点和未来趋势

功能描述 1 门户管理所有用户可在门户页面查看所有的公告信息及相关的通知信息主要板块包含招标公告非招标公告系统通知政策法规 2 立项管理企业用户可对需要采购的项目进行立项申请并提交审批查看所有的立项信息主要功能包含招标
外企独角兽Cider24届校园招聘&；25、26届实习项目同步

朴朴鸽我实习校招三方婉转被撕应该何去何从五年职场人今做面试官我来揭秘大学生校招内幕全国理工类研究所offer待遇及排名汇总安徽合肥地区研发校招求职攻略合肥就业求职好公司及薪资汇总汽车领域中软件技术方向就业分析 1 整车厂
JVS低代码表单：轻松应对复杂业务数据的表单校验挑战

题解单词倒排 import sysimport rearr s input output for i in s if re match a 题解变种水仙花 include
聚类分析：如何用通俗的话解释清楚？-科学指南针

在开始我们今天的分享之前先看一个实际业务分析场景中的例子某零售公司在市面上主要有30款产品这些产品的类别销售量和销售额的差异很大于是该公司的业务分析师想按照一定的标准将30个产品划分为A B C三个等级以便公司进行产品战略规划

聚类分析：如何用通俗的话解释清楚？-科学指南针

聚类分析：如何用通俗的话解释清楚？-科学指南针 的相关文章

随机推荐

热门标签

聚类分析：如何用通俗的话解释清楚？-科学指南针的相关文章