- 基于密度的聚类寻找被低密度区域分离的高密度区域
- 传统的密度:基于中心的方法:数据集中特定点的密度通过对该点半径之内的点计数(包括本身)来估计,关键是确定半径;根据基于中心的密度进行点分类:
- 稠密区域内的点(核心点):点的邻域由距离函数和指定半径决定;定义是该点的给定邻域内的点的个数>给定的阈值,则为核心点
- 稠密区域边缘上的点(边界点):落在某个核心点的邻域内
- 稀疏区域中的点(噪声或背景点):既非核心点也非边界点的任何点
- DBSCAN算法:任意两个距离在指定半径内的核心点放在同一个簇中,任意和核心点足够靠近的边界点也放到与核心点相同的簇中(如果一个边界点靠近不同簇的核心,那需要解决平局问题)
- 选择DBSCAN的参数:
- 指定半径:点的k个最近邻的距离;对于某个k,计算所有点的第k-距离,递增排序,发现有一部分k-距离急剧上升,这就是合适的半径
- 合适的半径下的邻域内的点数即为个数阈值
- 变密度的簇:密度的变化会让参数的阈值选择出现问题,低的话,有些高密度的簇内的点变成单点簇
- DBSCAN算法的优缺点:相对抗噪声,处理任意形状和大小的簇;问题是密度变化大,对于高维数据密度定义更困难,而且近邻计算需要计算所有点对邻近度时,算法开销大
- 簇评估:聚类分析是非监督的,所以簇评估不是聚类分析普遍使用的,或称簇确认
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)