聚类分析:如何用通俗的话解释清楚?-科学指南针

2024-01-21

在开始我们今天的分享之前,先看一个实际业务分析场景中的例子:

某零售公司在市面上主要有30款产品,这些产品的类别、销售量和销售额的差异很大,于是该公司的业务分析师想按照一定的标准,将30个产品划分为A、B、C三个等级,以便公司进行产品战略规划,那么他应该怎么做呢?

很多人可能会想到套用波士顿矩阵,以销售量和销售额为横纵坐标轴,计算中心轴,将每个产品落入矩阵当中,就能得到大体的产品分类情况。

好像看上去没问题对不对?但是在实际情况中,很多人这样做出来的却是错误的,为什么呢?

其实这种思路是对的,但是很多人都忽略了一个最关键的问题: 应该用什么标准去衡量和判断中心轴的划分

很多人都会选择直接拉取数据的平均值作为中心轴,然而这种分类方法在实际中可能会造成数据的误判,因为类别的不同,数据之间的差异可能会呈现出族群的现象,这时候有些数据就可能会“鱼目混珠”地混入其他类别之中。

比如,我们可以举个很极限的例子,有A、B、C三个产品的销售量分别为100、50、1,很显然A、B产品为一类,C产品为一类;但是如果按照平均值151/3=50.03,划分之后A为一类,B与C划分到了一类。

怎么样,是不是很奇怪,这时就要用到我们今天要介绍的分类分析方法——聚类。

一、什么是聚类分析?

聚类原本是统计学上的概念,现在属于机器学习中非监督学习的范畴,大多都被应用在数据挖掘、数据分析的领域,简单说可以用一个词概括——物以类聚。

如果把人和其他动物放在一起比较,你可以很轻松地找到一些判断特征,比如肢体、嘴巴、耳朵、皮毛等等,根据判断指标之间的差距大小划分出某一类为人,某一类为狗,某一类为鱼等等,这就是聚类。

从定义上讲,聚类就是针对大量数据或者样品,根据数据本身的特性研究分类方法,并遵循这个分类方法对数据进行合理的分类,最终将相似数据分为一组,也就是“ 同类相同、异类相异 ”。

二、聚类不是分类

说到这里,可能有人会觉得聚类不就是分类嘛,而其实在严格意义上,聚类与分类并不是一回事,两者有着很大的差异。

分类是按照已定的程序模式和标准进行判断划分,比如我们开头提到的例子,我们直接规定把数据的平均值作为中心轴,那么我们的工作就剩下了一个: 判断每一个数据是否达到平均值

也就是说,在进行分类之前,我们事先已经有了一套数据划分标准,只需要严格按照标准进行数据分组就可以了。

而聚类则不同,我们并不知道具体的划分标准,要靠算法进行判断数据之间的相似性,把相似的数据放在一起,也就是说聚类最关键的工作是:探索和挖掘数据中的潜在差异和联系。

在聚类的结论出来之前,我完全不知道每一类有什么特点,一定要根据聚类的结果通过人的经验来分析,看看聚成的这一类大概有什么特点。

三、聚类的方法

知道了聚类的含义,那么我们具体要怎么对数据进行聚类呢?

聚类方法有很多,但是我们数据分析中常用的就是K-Means聚类法,这种方法很简单,也很有效,在很多分析软件上都能进行算法计算。

简答拿一个例子介绍一下K-Means聚类法的原理和过程:

1、确定分组数

K-Mcans聚类法中的K就是分组数,也就是我们希望通过聚类后得到多少个组类。比如我有下面六个数据,想要将这些数据分成两类,那么K=2 。

这个数据中心的选择是完全随机的,也就是说怎么选择都无所谓,因为这里K=2,所以我们就以A和B两个为数据中心。 2、随机选择K个值作为数据中心

为了方便理解,我们可以制作一个散点图,将A、B作为数据中心。

既然选择了数据中心,那么它们的周围一定会有很多相似数据,怎么判断这些数据与其是不是相似呢? 3、计算其他数值与数据中心的“距离”

这里我们要引入欧氏距离的概念,通俗点说欧氏距离就是多维空间中各个点之间的绝对距离,表明两点之间的距离远近,其公式为:

如果是普通的二维数据,这个公式就直接变成了勾股定理,因此我们算出其他6个点距离A和B的距离,谁离得更近,谁与数据中心就是同一类。

第一组:A所以,我们可以看出,C-H距离B的距离都比距离A更近,所以第一次分组为:

  • 第二组:B、C、D、E、F、G、H

4、重新选择新的数据中心

得到了第一次分组的结果,我们再重复前两个步骤,重新选择每一组数据的数据中心。

  • 第一组只有A,所以A仍然是数据中心;

  • 第二组有7个数值,将这个7个数值的平均值作为新的数据中心,我们将其命名为P,计算平均坐标为(5.14 ,5.14)

5、再次计算其他数据与新数据中心的距离

还是直接计算勾股定理,计算出其他数据与A和P的欧氏距离,如下:

第一组:A、B我们可以看出这里面有的距离A近,有的距离P近,于是第二次分组为:

  • 第二组:C、D、E、F、G、H

6、再次重新选择数据中心

这里就是老规矩了,继续重复前面的操作,将每一组数据的平均值作为数据中心:

  • 第一组有两个值,平均坐标为(0.5 ,1),这是第一个新的数据中心,命名为O

  • 第二组有六个值,平均值为(5.8 , 5.6),这是第二个新的数据中心,命名为Q

7、再次计算其他数据与新数据中心的距离

第一组:A、B这时候我们发现,只有A与B距离O的距离更近,其他6个数据都距离Q更近,因此第三次分组为:

  • 第二组:C、D、E、F、G、H

经过这次计算我们发现分组情况并没有变化,这就说明我们的计算收敛已经结束了,不需要继续进行分组了,最终数据成功按照相似性分成了两组。

8、方法总结

简单来说,我们一次次重复这样的 选择数据中心-计算距离-分组-再次选择数据中心 的流程,直到我们分组之后所有的数据都不会再变化了,也就得到了最终的聚合结果。

四、实际中怎么用聚类

明白了聚类分析的思路和方法,我们怎么应用到实际中去呢?面对大量数据的时候我们该怎么办呢?其实很多分析软件中都有聚类分析的功能,比如Python、Excel等等,比如FineBI中的聚类功能,可以快速计算聚类结果。

最后要注意的一点是,聚类指标的选择要充分结合业务,加入一些无用的指标反而会影响最后的聚类结果,这个展开讲的话就太多了,留到下次分享吧。在实际分析过程中,还要注意单位换算问题,要确保这些数据的独立性和统一性,否则得出的结果没有任何的实际意义。

以上文章来源于知乎

更多科研干货教程,可以点击下面链接获取哦~

数据分析

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

聚类分析:如何用通俗的话解释清楚?-科学指南针 的相关文章

  • elsevier中elsarticle模板如何使用apa引用格式

    我们知道latex的默认引用 cite 是长这样的 那elsevier下面的很多期刊要求我们使用apa 美国心理学会 的引用格式 其是长这样的 方法 这个问题折磨我好久 网上说使用 usepackage apacite 包 可是我一在els
  • Matlab图形窗口大小的控制 ,plot窗口大小,figure大小,axis设置,实用

    与imagesc搭配可以用caxis 来调整图像颜色的显示区间 转载自 http blog sina com cn s blog 48c735630101iadu html Matlab中保存图像时 图形窗口大小的控制zz 首先要了解的是M
  • 用Endnote在word中插入文献出现{Xu, 1997 #407}等样式的错误的解决方法如下

    1 将Instant Formatting 由Off设置为On 2 弹出的对话框 点击ignore all 参考 https blog csdn net coberup article details 82525988
  • pip安装python库时报Failed building wheel for xxx

    目录 一 问题描述 二 解决办法 1 下载并安装对应的 whl 文件 2 安装 whl 文件 一 问题描述 如题 在使用pip install xxx的方法安装python库 或者是基于python的软件时 报错 ERROR Failed
  • PyEMD安装及简单使用

    0 安装 命令pip install PyEMD存在问题 不建议使用 若用此命令安装 会报以下错误 Looking in indexes http pypi doubanio com simple http mirrors aliyun c
  • 使用citavi快速搜索论文、下载论文

    第一步 点击在线搜索 第二步 一般需要添加下需要的数据库 这里我们添加常用的arxiv 第三步 输入需要搜索的论文名字 也可以通过作者来搜索 以及选择年份等等 第四步 添加搜索到的论文 最后 打开这个pdf 点击保存一个复制 这里也可以通过
  • 一个华科研究生导师的肺腑之言(主要适用于理工科)

    各位科研同志们看看吧 仁者见仁智者见智 总归有点用 人太多 不一一 啦 1 作为你们的老师 我现在每周工作60小时 踏踏实实的60小时 阅读 实践 思考 讨论和请教 周而复始 其实这还不够用 因为我既要独立做这边自己的课题 还要协助各位完成
  • 【PrimeTime 基本命令】

    https www micro ip com drchip php mode 2 cid 17
  • 钛及钛合金材料的性质和应用-科学指南针

    一 钛的性质 这类气体是对金属钛十分有害的杂质 即使含量甚微 0 01 0 005 也能严重影响它的力学性能 钛的力学性质即通称的机械性能与纯度十分相关 高纯钛具有优良的机加工性能 延伸率 断面收缩率均佳 但强度低 不适合作结构材料 工业纯
  • SCI投稿各阶段信件实用模板,直接填空即可!初次投稿不用慌!-科学指南针

    01最初投稿Cover letter模板 Dear Editors We would like to submit the enclosed manu entitled Paper Title which we wish to be con
  • 高糖环境下,细胞的铁死亡与自噬的相爱相杀-科学指南针

    导语 最常见的两种细胞死亡形式是 坏死和凋亡 随着研究的不断深入 研究者发现了其他细胞死亡方式 如细胞自噬 坏死性凋亡 细胞焦亡 铁死亡等 其中 细胞自噬是一种程序性的细胞死亡 可以消除过度错误折叠的蛋白和受损的细胞器 而铁死亡是 铁依赖性
  • 钛氧物种与钴相互作用-科学指南针

    中科院与上海交通大学合作 在碳化物作为载体的钴基费托合成研究中取得新进展 借助透射电子显微镜等技术 揭示了还原过程中碳化钛表面的钛氧物种到金属钴表面的原位迁移现象 这种增强的金属 载体的相互作用促进了费托合成反应活性 通过透射电子显微镜可以
  • 钛合金材料用于航空航天行业-科学指南针

    每一次看到飞机都有个疑问 飞机到底是啥金属材料做的 装那么多人 那么多货物 少则几十吨 多则上百吨 为什么还能飞那么高 实在不可思议 钛合金材料怎么检测呢 具体制样方法是什么呢 实在讲 飞机 人造卫星 登月舱 载人飞船等航天器的制造 离不开
  • 陶瓷材料检测项目及标准-科学指南针

    陶瓷原材料是用纯天然或生成化学物质历经成型和高溫煅烧做成的一类无机非金属原材料 它具备高溶点 高韧性 高耐磨性能 耐空气氧化等优势 可作为构造原材料 刀具材质 因为陶瓷还具备一些独特的性能 又可做为新型功能材料 各检测组织针对陶瓷检测的新项
  • 陶瓷基电路板切片制样-科学指南针

    随着电子技术在各应用领域的逐步加深 半导体正沿着大功率化 高频化 集成化方向发展 高度的集成化封装模块要求良好的散热承载系统 而传统线路板FR 4导热系数上的劣势已经成为制约电子技术发展的一个瓶颈 近些年来发展迅猛的LED产业 也对其承载线
  • 致谢科学指南针 ‖ 苏州科技大学:金属卟啉修饰二氧化钛纳米片用于高效光催化二氧化碳还原

    金属卟啉修饰二氧化钛纳米片用于高效光催化二氧化碳还原 作者 Li Ang 高鸿毅 王戈等人 通讯单位 苏州科技大学材料科学与工程学院和北京科技大学材料科学与工程学院 DOI 10 1021 acs inorgchem 1c02957 苏州科
  • XRD精修结果都包括些什么?-科学指南针

    X射线粉末衍射精修在诸多文章中都有出现 特别是一些无机材料体系 拿到一个可精修的数据 精修完成之后能给出什么结果呢 一般说来 能给出以下几个结果 Rietveld全谱拟合数据 一般需要自己作图 精修输出文件 包括拟合R因子 Rexp Rwp
  • 论文写作“the”的用法?-科学指南针

    1 感觉满篇好多 the 先说一点儿统计数据 和我所做东西紧密相关的7篇快报 总字数14000 the 1000次 平均每14个字出现一次 英语中频率排名第一的 the 语料库的统计是每16个字出现一次 考虑到学术写作的指代重复性高 情有可
  • 两篇毕业论文致谢同一个女朋友?哈哈哈哈!

    论文查重率 绝对是每个毕业党心头的一抹淡淡的忧桑 想一下 你很用心的准备了几个月的时间 选题 实验 架构 论述 字数 排版等等 拿着一份修改了几十遍的文稿 小心翼翼地递交系统查重审核 屏幕却瞬间 蹦出了一个爆炸的百分比 那种心情怎么形容呢
  • 为Word装上这3大插件,你的论文写作效率至少提升2倍!

    Word可以说是当前最主流的论文写作工具之一 尽管其基础功能强大 但是总有一些小功能尚未集成 这时候 安装插件往往能够解决我们的燃眉之急 今天小编给大家 分享3款提升写作效率的Word插件 学完赶紧用起来吧 01Office Ta Word

随机推荐