【机器学习】DBSCAN密度聚类算法(理论 + 图解)

2023-11-10

一、前言

之前学聚类算法的时候,有层次聚类、系统聚类、K-means聚类、K中心聚类,最后呢,被DBSCAN聚类算法迷上了。

为什么呢,首先它可以发现任何形状的簇,其次我认为它的理论也是比较简单易懂的。接下来的文章里会详细解读一下DBSCAN密度聚类算法。

下面贴上它的官方解释:

DBSCAN(Density-Based Spatial Clustering of Applications with Noise,具有噪声的基于密度的聚类方法)是一种基于密度的空间聚类算法。

该算法将具有足够密度的区域划分为簇,并在具有噪声的空间数据库中发现任意形状的簇,它将簇定义为密度相连的点的最大集合。

二、DBSCAN聚类算法

DBSCAN是一种基于密度的聚类算法,可以根据样本分布的紧密程度决定,同一类别的样本之间是紧密相连的,不同类别样本联系是比较少的。

DBSCAN算法需要用到参数:

  • eps( ϵ \epsilon ϵ):一种距离度量,用于定位任何点的邻域内的点
  • minPts:聚类在一起的点的最小数目,超过这一阈值才算是一个族群

DBSCAN聚类完成后会产生三种类型的点:

  • 核心点(Core)——该点表示至少有 m m m个点在距离n的范围内
  • 边界点(Border) ——该点表示在距离 n n n处至少有一个核心
  • 噪声点(Noise) ——它既不是核心点也不是边界点。并且它在距离自身 n n n的范围内有不到 m m m个点

在这里插入图片描述

三、DBSCAN算法步骤

  1. 算法通过任意选取数据集中的一个点(直到所有的点都访问到)来运行
  2. 如果在该点的“ε”半径范围内至少存在“minPoint”点,那么认为所有这些点都属于同一个聚类
  3. 通过递归地重复步骤1、步骤2 对每个相邻点的邻域计算来扩展聚类

四、算法的理解

在这里插入图片描述

上面这些点是分布在样本空间的众多样本,现在我们的目标是把这些在样本空间中距离相近的聚成一类。

我们发现 A A A点附近的点密度较大,红色的圆圈根据一定的规则在这里滚啊滚,最终收纳了 A A A附近的5个点,标记为红色也就是定为同一个簇。

其它没有被收纳的根据一样的规则成簇。

形象来说,我们可以认为这是系统在众多样本点中随机选中一个,围绕这个被选中的样本点画一个圆,规定这个圆的半径以及圆内最少包含的样本点,如果在指定半径内有足够多的样本点在内,那么这个圆圈的圆心就转移到这个内部样本点,继续去圈附近其它的样本点,类似传销一样,继续去发展下线。

等到这个滚来滚去的圈发现所圈住的样本点数量少于预先指定的值,就停止了。那么我们称最开始那个点为核心点,如 A A A,停下来的那个点为边界点,如 B B B C C C,没得滚的那个点为离群点,如 N N N)。

基于密度这点有什么好处呢?

我们知道kmeans聚类算法只能处理球形的簇,也就是一个聚成实心的团(这是因为算法本身计算平均距离的局限)。但往往现实中还会有各种形状,比如下面两张图,环形和不规则形,这个时候,那些传统的聚类算法显然就悲剧了。

于是就思考,样本密度大的成一类呗,这就是DBSCAN聚类算法。

上面提到了红色圆圈滚啊滚的过程,这个过程就包括了DBSCAN算法的两个参数,这两个参数比较难指定,公认的指定方法简单说一下:

  • 半径:半径是最难指定的 ,大了,圈住的就多了,簇的个数就少了;反之,簇的个数就多了,这对我们最后的结果是有影响的。我们这个时候K距离可以帮助我们来设定半径r,也就是要找到突变点,比如:
    在这里插入图片描述
    以上虽然是一个可取的方式,但是有时候比较麻烦 ,大部分还是都试一试进行观察,用 k k k距离需要做大量实验来观察,很难一次性把这些值都选准。
  • MinPts:这个参数就是圈住的点的个数,也相当于是一个密度,一般这个值都是偏小一些,然后进行多次尝试

五、常用评估方法:轮廓系数

这里提一下聚类算法中最常用的评估方法——轮廓系数(Silhouette Coefficient):

在这里插入图片描述

  • 计算样本i到同簇其它样本到平均距离 a i a_i ai a i a_i ai越小,说明样本i越应该被聚类到该簇(将 a i a_i ai称为样本i到簇内不相似度);
  • 计算样本 i i i到其它某簇 C j C_j Cj的所有样本的平均距离 b i j b_{ij} bij,称为样本 i i i与簇 C j C_j Cj的不相似度。定义为样本i的簇间不相似度: b i = min ⁡ ( b i 1 , b i 2 , ⋯   , b i k 2 ) b_i=\min(b_{i1},b_{i2},\cdots,b_{ik2}) bi=min(bi1,bi2,,bik2)

说明:

  • s i s_i si接近1,则说明样本i聚类合理;
  • s i s_i si接近-1,则说明样本i更应该分类到另外的簇;
  • s i s_i si近似为0,则说明样本i在两个簇的边界上。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

【机器学习】DBSCAN密度聚类算法(理论 + 图解) 的相关文章

随机推荐

  • 5种简单快速的方法解除PDF文件密码保护

    PDF 文件已经成为了我们日常工作 学习中广泛使用的文档格式之一 为了对重要的 PDF 文件进行保护 我们有时需要添加密码保护功能来防止未授权访问或修改 但是 如果您的 PDF 文件已经有了密码保护 而您需要快速访问和编辑它们 那该怎么办呢
  • QT自定义QLabel并用于显示图片

    文章目录 一 概述 二 新建项目并添加mylabel类 三 提升Label控件 四 引用并连接信号 五 效果测试 一 概述 为了实现在Label上显示图片以及获取相应的坐标 需要相应的鼠标事件 然而 默认情况下 QLabel是不支持鼠标事件
  • 个人电脑MySQL Server 安装、卸载和配置

    个人电脑MySQL Server安装和配置 本文选择的是MySQL Server 5 5的安装和配置 话不多说给大家上链接 链接 https pan baidu com s 1Pc9ncYEnuAui8sIdYBmqyQ 提取码 oy66
  • Python pip : 无法将“pip”项识别为 cmdlet、函数、脚本文件或可运行程序的名称。请检查名称的拼写,如果包括路径 ,请确保路径正确,然后再试一次。

    把python的安装目录加到path中 此电脑 我的电脑 gt 右键属性 gt 高级系统设置 gt 高级 gt 环境变量 gt 双击Path gt 新建 gt 输入python安装路径 重启 Windows Powershell 就好了 p
  • win10+python3.7下安装dlib19.17库

    配置 win10家庭版 原生python3 7 1 首先安装好VS2019 官网下载社区版 记得勾选桌面C 开发环境 接着配置环境变量 我参考的是Windows10下配置VS2017环境变量 成功后命令行输入cl 出现下面图片所示即可 2
  • unity 判断当前设备是否是模拟器(安卓)

    最近有个需求 需要判断当前设备是否是模拟器 网上查了一下 发现基本上都是使用特征字符串进行检索 类似这种 if SystemInfo deviceModel Contains Emulator SystemInfo deviceModel
  • java swing开发学生成绩管理系统

    临近期末 java实验报告 真的是很手忙脚乱 看了那么多篇 没有一篇说的比较完整的 那这篇的话就整体的说一下吧 这个是用swing开发的学生 成绩 管理系统 其中与数据库建立连接 数据库用的是SQL server 2012 java开发环境
  • Linux系统病毒木马排查清除方法

    Linux 1 检查系统日志 检查系统错误登陆日志 统计IP重试次数 last命令是查看系统登陆日志 比如系统被reboot或登陆情况 注 此时last命令也有可能变得不可靠 需要检查 2 检查系统用户 查看是否有异常的系统用户 root
  • 软件测试发现缺陷/bug如何提问题单?(附问题单模板)

    背景 一般软件测试面试的时候都会回答提问题单的问题 校招一般会问问题单都有哪些类别 社招的话会问提过哪些有价值的问题单 本文就先介绍问题单的组成和模板 举例内容软硬件都有 纯软件测试可以假想一款APP套用该模板即可 问题单的生命周期和流转可
  • ubuntu20.04更改为国内软件源

    一 图形界面操作 适用于 desktop 版本 在桌面右上角点击打开菜单 点击设置选项 在设置选项右侧下拉找到 关于 点击 Software Updates 在软件和更新界面里可以看到 下载自 我们可以进行修改 推荐选择 mirros al
  • R:列表索引

    总共有三种方法访问列表lst中的组件c 返回值是c的数据类型 lst c lst c 是双重中括号 中括号之间不能打空格 lst i i是c在lst中的数字编号 注 列表分量常常会被编号 我们总是可以用这种编号来访问分量 后面两种方法还有另
  • Apache Software Foundation Distribution Directory

    http labs renren com apache mirror
  • 负载均衡策略

    Ribbon内置了多种负载均衡策略 轮询策略 com netflix loadbalancer RoundRobinRule 随机策略 com netflix loadbalancer RandomRule 重试策略 com netflix
  • 2021年蓝桥杯省赛 C++ B组

    目录 1550 蓝桥杯2021初赛 卡片 1551 蓝桥杯2021初赛 直线 1552 蓝桥杯2021初赛 货物摆放 1553 蓝桥杯2021初赛 路径 1555 蓝桥杯2021初赛 空间 1563 蓝桥杯2021初赛 时间显示 1550
  • 内存函数详解

    目录 内存函数 1 memmcpy 2 memmove 3 memcmp 4 memset 内存函数 什么是内存操作函数 我们认识字符串操作函数 strlen strcopy等 字符操作函数 tolower等 这些函数的操作对象都需要符合一
  • mysql大致组成

    文章目录 前言 mysql大致架构 各个组件的作用 连接器 查询缓存 分析器 优化器 执行器 总结 前言 这篇文章大致介绍下mysql的组成 和各个组成部分的基本作用 并不会做深入的讲解 只是基础的介绍 以便大家对mysql组成有个大致了解
  • 【git】git push 压缩包 或者 rpm包 安装包 无法解压 gzip: stdin: not in gzip format

    1 概述 因为一个环境需要在升级的时候检测nginx是否安装 如果没有安装的话 需要进行安装 然后我就将压缩包大道代码中 然后上传到服务器的时候 发现无法解压 我在一个环境验证好的nginx包如下 root node4 nginx stab
  • 泰勒公式求极限(如何用+精度怎么确定)一文扫除泰勒公式难点

    有些复杂的极限题 里面会涵盖着各种各样的函数 这些群魔乱舞的函数加大了我们计算极限的难度 此时想 如果可以将这些函数统一成一样的形式该多好 此时 就有我们的泰勒公式了 1 泰勒公式怎么用 指数函数 三角函数 反三角函数 对数函数等函数 同时
  • 正序分解整数,把一串数字倒过来逐字输出

    问题 正序分解整数 文章目录 问题 正序分解整数 1 解决 2 初步想法 2 1 结果 2 2 问题 3 更改 3 1顺便提一嘴 3 1 2 C 库函数 pow 3 1 3描述 3 1 4声明
  • 【机器学习】DBSCAN密度聚类算法(理论 + 图解)

    文章目录 一 前言 二 DBSCAN聚类算法 三 DBSCAN算法步骤 四 算法的理解 五 常用评估方法 轮廓系数 一 前言 之前学聚类算法的时候 有层次聚类 系统聚类 K means聚类 K中心聚类 最后呢 被DBSCAN聚类算法迷上了