DBSCAN聚类算法的Python可视化

2023-10-31

DBSCAN全称为“Density-Based Spatial Clustering of Applications with Noise”。我们可以利用sklearn在python中实现DBSCAN。

首先，import相关的Library。

import numpy as np
import pandas as pd
import math
import matplotlib.pyplot as plt
import matplotlib
from sklearn.cluster import DBSCAN
from sklearn.neighbors import NearestNeighbors

我们首先定义一个function来创建我们需要的数据集，数据集的dimension为2。下图为我们将要创建的数据集的可视化。这个数据集由三个圆圈组成。在我们定义的function中，r代表半径，n代表点的数量。

在这里插入图片描述

np.random.seed(42)
def PointsInCircum(r,n=100):
    return [(math.cos(2*math.pi/n*x)*r+np.random.normal(-30,30),math.sin(2*math.pi/n*x)*r+np.random.normal(-30,30)) for x in range(1,n+1)]

我们把创建的三个圆圈数据放在各自的dataframe里面，再制造一个noise数据集用来测试DBSCAN。

df1=pd.DataFrame(PointsInCircum(500,1000))
df2=pd.DataFrame(PointsInCircum(300,700))
df3=pd.DataFrame(PointsInCircum(100,300))
# Adding noise to the dataset
df4=pd.DataFrame([(np.random.randint(-600,600),np.random.randint(-600,600)) for i in range(300)])

将四个dataframe合并成一个dataframe，再进行可视化。

df = pd.concat([df1,df2])
df = pd.concat([df,df3])
df = pd.concat([df,df4])

plt.figure(figsize=(10,10))
plt.scatter(df[0],df[1],s=15,color='grey')
plt.title('Dataset',fontsize=20)
plt.xlabel('Feature 1',fontsize=14)
plt.ylabel('Feature 2',fontsize=14)
plt.show()

接着，我们利用从sklearn中import的DBSCAN。将dataframe输入DBSCAN，然后在原来的dataframe中添加一个column记录DBSCAN输出的labels，并以这些labels作为color map进行可视化。

dbscan=DBSCAN()
dbscan.fit(df[[0,1]])

df['DBSCAN_labels']=dbscan.labels_ 

# Plotting resulting clusters
plt.figure(figsize=(10,10))
colors=['purple','red','blue','green']
plt.scatter(df[0],df[1],c=df['DBSCAN_labels'],cmap=matplotlib.colors.ListedColormap(colors),s=15)
plt.title('DBSCAN Clustering',fontsize=20)
plt.xlabel('Feature 1',fontsize=14)
plt.ylabel('Feature 2',fontsize=14)
plt.show()

可视化的结果如下图：
在这里插入图片描述
我们看到整个图都是紫色，证明cluster的半径epsilon太小，DBSCAN把所有的点都当成noise了。我们可以利用KNN对epsilon进行优化。

neigh = NearestNeighbors(n_neighbors=2)
nbrs = neigh.fit(df[[0,1]])
distances, indices = nbrs.kneighbors(df[[0,1]])

# Plotting K-distance Graph
distances = np.sort(distances, axis=0)
distances = distances[:,1]
plt.figure(figsize=(20,10))
plt.plot(distances)
plt.title('K-distance Graph',fontsize=20)
plt.xlabel('Data Points sorted by distance',fontsize=14)
plt.ylabel('Epsilon',fontsize=14)
plt.show()

在这里插入图片描述
这个图中，曲线斜率最大的位置对应epsilon等于30。重新修改DBSCAN，并把minPoints设定为6。

dbscan_opt=DBSCAN(eps=30,min_samples=6)
dbscan_opt.fit(df[[0,1]])

df['DBSCAN_opt_labels']=dbscan_opt.labels_

# Plotting the resulting clusters
plt.figure(figsize=(10,10))
plt.scatter(df[0],df[1],c=df['DBSCAN_opt_labels'],cmap=matplotlib.colors.ListedColormap(colors),s=15)
plt.title('DBSCAN Clustering',fontsize=20)
plt.xlabel('Feature 1',fontsize=14)
plt.ylabel('Feature 2',fontsize=14)
plt.show()

在这里插入图片描述

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

DBSCAN聚类算法的Python可视化的相关文章

在 python 中 pickling 数据时出现内存错误

我正在尝试使用 python 中提供的 dump 命令将字典转储为 pickle 格式字典的文件大小约为 150 mb 但仅转储 115 mb 的文件时会出现异常例外情况是 Traceback most recent call last
xlsxwriter 错误：AttributeError：“工作簿”对象没有属性“add_format”

我正在使用 xlsxwriter 进行一些简单的条件格式化但是当我运行下面的代码时出现此错误 AttributeError Workbook object has no attribute add format 我已经更新了 xlsxwr
执行不区分大小写的“in”检查并检索原始元素的最简单方法？

假设 a 有一个字符串列表和一个特定字符串 particular string latitude list Id PRICE LATitude longitude 我想要实现的是执行不区分大小写的检查特定字符串是否在列表中所以现在我可以这
反转 Python 整数的位

给定一个十进制整数例如 65 如何反转 Python 中的底层位即以下操作 65 01000001 10000010 130 看来这个任务可以分为三步将十进制整数转换为二进制表示形式反转位转换回十进制第 2 步和第 3 步看起来
如何在仍然使用 unique = True 的同时允许 ModelForm 中的空字段？

目前在models py I have class ModelName models Model rowname models CharField max length 100 blank True unique True 就确保相同的值不
我应该使用 Pylons 还是 Pyramid？

我本来打算从 Django 迁移到 Pylons 但后来我遇到了 Pyramid 塔架和金字塔有什么区别我读了一些文字塔书 http pylonsbook com 目前涵盖 Pylons 0 9 7 并且想知道它是否是 Pylons 和
如何将多个 Excel 工作表转换为 csv python

我想转换所有的excel文档 xls 将工作表转换为 csv 如果 excel 文档只有一张工作表那么我将进行如下转换 wb open workbook path1 sh wb sheet by name Sheet1 csv file
python解释器自动重启而不返回答案

调用递归函数时 python解释器会自动重新启动吗我正在编写一个快速排序算法并尝试对一个大的数字数组顺序 10 4 进行排序但是当我尝试对整个数组进行排序时 python 正在重新启动即给我重新启动并且存储在内存中的所有值函
IndexError：布尔索引与维度 0 上的索引数组不匹配

在我将 Numpy 更新到 1 13 1 之前我的代码工作正常现在我收到以下错误 IndexError boolean index did not match indexed array along dimension 0 dimens
需要Python字长函数示例

我的家庭作业有点困难我本来应该编写一个函数 limitWords 将输入限制为 20 个单词如果输入超过 20 个单词则将输入截断为仅 20 个单词我使用 len text split 作为计算单词的方法因此 20 个或更少的部分
无法启动 Windows 快捷方式

我正在尝试使用 python 启动 Windows 我已经尝试了 os system subprocess call os startfile 等多种方法但总是收到错误消息指出路径不存在我知道路径是正确的因为我尝试在 CMD EXE
将 Python 列表（JSON 或其他）插入 MySQL 数据库

所以我在Python中有一堆数组数据嗯相反我有一个清单我试图将此数组存储到 MySQL 数据库中的单个单元格中我尝试使用 JSON 来序列化我的数据但也许我不明白 JSON 是如何工作的因此在连接到我的数据库后我尝试了上游
在 Windows 上使用 pycrypto 时如何修复“ImportError：无法从 Crypto.Cipher 导入名称 _AES”？

我在 Crypto 的 Cipher 模块中有 AES Python27 Lib Crypto Cipher AES 当我尝试做的时候 from Crypto Cipher import AES 我收到以下错误 Traceback most
获取SVG绘图的边界框

我想提取 SVG 绘图的边界框由于 Python 已经在系统上可用并且还用于执行其他任务因此我不想使用 JavaScript 或任何其他语言我的理解是是否可以计算单个元素的边界框但我不知道如何计算整个绘图的边界框只是所有元素的最小
Spyder 内联绘图

设置 Anaconda 2 0 0 Win 64 Spyder Anaconda 附带的 2 3 0rc 我配置图形工具 gt 首选项 gt iPython 控制台 gt 图形 gt 图形后端 gt 内联但无论我做什么图形总是在单独的
具有默认参数的Python类构造函数[重复]

这个问题在这里已经有答案了可能的重复 Python 中的最不令人惊讶可变默认参数 https stackoverflow com questions 1132941 least astonishment in python the m
从值数组中计算 sympy 表达式

我正在尝试 sympy 但遇到了一个无法解决的问题使用 scipy 我可以编写一个表达式并计算 x 值数组如下所示 import scipy xvals scipy arange 100 100 0 1 f lambda x x 2 f
如何在我的 heroku 应用程序上安装软件包？

我有一个使用 Shortuuid 的应用程序 https pypi python org pypi shortuuid 0 1 https pypi python org pypi shortuuid 0 1 当我使用 runapp py
XGBoostError：[10：10：03] /workspace/src/tree/updater_gpu_hist.cu：1407：gpu_hist 中的异常：NCCL 失败

PROJECT Nvidia 开发者项目 https developer nvidia com blog gradient boosting decision trees xgboost cuda 在 Google Colab 环境中 MY
gis计算点和多边形/边界之间的距离

我想使用 python 计算一个点到一个国家边界之间的距离shapely 它应该工作得很好 point distance poly 例如在这里展示查找多边形形状上最近点的坐标 https stackoverflow com question

随机推荐

C++：构造、析构、引用与拷贝构造

构造函数类的构造函数是类的一种特殊的成员函数它会在每次创建类的新对象时执行类的数据成员多为私有的要对它们进初始化必须用一个公有函数来进行同时这个函数应该在且仅在定义对象时自动执行一次这个函数就是构造函数它由系统自动调动用户
一个sql很多个not like的简化语句 (not like 多个值的简化语句)（原创）

我 SELECT FROM table WHERE zongbu NOT REGEXP 北京大连鞍山天津香港沈阳我 SELECT FROM cpu bidding where bid project name not REGEX
Java面试不通过？RabbitMQ你熟悉了吗？

1 rabbitmq 的使用场景有哪些跨系统的异步通信所有需要异步交互的地方都可以使用消息队列就像我们除了打电话同步以外还需要发短信发电子邮件异步的通讯方式多个应用之间的耦合由于消息是平台无关和语言无关的而且语义上也
[sitemap 索引情况提示] 根据 sitemap 的规则[0]，当前页面 [pages/index/index] 将被索引

sitemap 索引情况提示根据 sitemap 的规则 0 当前页面 pages index index 将被索引一报错信息总结一报错信息代码如下示例 sitemap 索引情况提示根据 sitemap 的规则 0 当前页
C++ 内存池 -- C++ Memory Pool

本文翻译版本出自 http blog csdn net 060 archive 2006 10 08 1326025 aspx 原文作者 DanDanger2000 原文链接 http www codeproject com cpp Mem
以太网学习（2）-- 网络协议简介

目录一协议简介二协议间报文封装与拆封三 LWIP简介四 Lwip文件说明 4 1 如何获取LWIP源码文件 4 2 LWIP文件说明 lwip目录 src目录 core目录 4 3 查看lwip的说明文档五 LWIP的三种编程
Python学习小案例-时间模块

python学习小案例时间模块 1 使用python打印当前的时间方法一方法二 2 计算两个日期之间的相差天数比如我们可以用这个代码计算我们出生到现在一共活了多少天也可以计算情侣之间在一起了多少天在这里的输入的格式位 xxxx
【gradle】Android项目中gradle执行流程

gradle文件执行流程做过Android开发的同学都知道 Android项目中存在三个gradle文件那你是否知道他们的执行流程呢请看下面这张图为了验证结论的正确性我们采用输出字符串的验证方式输出结果如下自定义gradle
查询链接服务器信息,SQL Server链接服务器

SQL Server链接服务器 SQL Server 中存在可以链接到其他服务器的选项一般情况下是用来与别的 SQL Server 数据库相连接但是有时候也可以与一个Microsoft Access数据库相连接这样的操作是通过链接服
了解如何通过Python使用SQLite数据库

SQLite is a very easy to use database engine included with Python SQLite is open source and is a great database for smal
集成项目中，拿什么保证安全感？

在一些大型集成项目中经常要面临着将企业的十几二十几个信息化系统进行整合数据进行共享因为各个企业的信息化程度不同所以项目实施起来的难易程度和工作量也大不相同在一些项目中或多或少会出现拖期的现象一些客户为此会经常质疑实施方的专业性
Seaborn系列教程（3）

seaborn lineplot 折线图解读注意数据一定是通过DataFrame中传送的函数原型 seaborn lineplot x None y None hue None size None style None data N
I-D-E-A中maven的常用指令

Maven库 http repo2 maven org maven2 Maven依赖查询 http mvnrepository com Maven常用命令 1 创建Maven的普通java项目 mvn archetype create Dg
centOS 7安装配置docker

step 1 安装必要的一些系统工具 sudo yum install y yum utils device mapper persistent data lvm2 Step 2 添加软件源信息 sudo yum config manage
mysql 存储过程 set autocommit_SET autocommit = 1和mysql中的START TRANSACTION之间...

了解数据库的事务自动提交显式和隐式处理可以使您不必从备份还原数据事务控制数据操作语句以确保它们是原子的原子意味着交易要么发生要么不发生向数据库发出事务完成信号的唯一方法是使用COMMIT或ROLLBACK语句根据ANSI
flutter rabbitmq

这样的rabbitmq可以实现和服务器交互但是由于app登录人不确定意义不大 import package dart amqp dart amqp dart dart amqp 0 2 1 Future
STM32CUBEMX_创建时间片轮询架构的软件框架

STM32CUBEMX 创建时间片轮询架构的软件框架说明 1 这种架构避免在更新STM32CUBEMX配置后把用户代码清除掉 2 利用这种时间片的架构可以使得代码架构清晰易于维护创建步骤 1 使用STM32CUBEMX创建基础工程 2
WSL2最佳实践，淘汰难用的Xshell和Finalshell

1 安装WSL2 1 1 先决条件确认Windows系统版本开启虚拟化功能 1 1 1 确认Windows系统版本必须运行 Windows 10 版本 2004 及更高版本内部版本 19041 及更高版本或 Windows 11
python的多分支结构、三目运算符、for循环、while循环、break和continue学习

一多分支结构 1 if单分支结构意思是如果xxx就xxx 语句结构 if 条件语句代码段 2 if双分支结构意思是如果xxx就xxx否则xxx 语句结构 if 条件语句代码段1 else 代码段2 3 if多分支结构根据不同
DBSCAN聚类算法的Python可视化

DBSCAN全称为 Density Based Spatial Clustering of Applications with Noise 我们可以利用sklearn在python中实现DBSCAN 首先 import相关的Library

DBSCAN聚类算法的Python可视化

DBSCAN聚类算法的Python可视化 的相关文章

随机推荐

热门标签

DBSCAN聚类算法的Python可视化的相关文章