Python 将 k-means 集群与实例关联

2023-12-20

我已阅读文档here http://scikit-learn.org/stable/modules/generated/sklearn.cluster.KMeans.html以及看着this http://fromdatawithlove.thegovans.us/2013/05/clustering-using-scikit-learn.html教程，但我仍然缺少一些关于在 scikit-learn 中使用 K-means 的基本知识：

假设我有一个这样的数据集：

|UserName| Variable1 | Variable2 | Variable3 |  Cluster |
|  bob   |    1      |     3     |    7      |          |
|  joe   |    2      |     4     |    8      |          |
|  bill  |    1      |     6     |    4      |          |

由于 K-means 采用 numpy 数组，因此我必须去掉用户名并仅使用数值变量。但是，创建集群后，如何将它们与每个单独的用户关联起来以进行进一步分析。即如何用相应的簇号填充“簇”列？

这是一个示例，假设您从文件中将数据读入列表中：

import sklearn.cluster
import numpy as np

data = [
    ['bob', 1, 3, 7],
    ['joe', 2, 4, 8],
    ['bill', 1, 6, 4],
]

labels = [x[0] for x in data]
a = np.array([x[1:] for x in data])
clust_centers = 2

model = sklearn.cluster.k_means(a, clust_centers)

模型现在包含一个元组（质心、标签、惯性）

所以像这样取回标签：

clusters = dict(zip(lables, model[1]))

并打印“one”的集群 ID：

print clusters['bob']

或者将其发送回 csv，如下所示：

for d in data:
    print '%s,%d' % (','.join([str(x) for x in d]), clusters[d[0]])

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

NumPy

scikitlearn

Python 将 k-means 集群与实例关联的相关文章

切片稀疏（scipy）矩阵

我将不胜感激任何帮助以理解从 scipy sparse 包中切片 lil matrix A 时的以下行为实际上我想根据行和列的任意索引列表提取子矩阵当我使用这两行代码时 x1 A list 1 x2 x1 list 2 一切都很好
PyQt：如何通过匿名代理使用网页

这真让我抓狂我想在 QWebPage 中显示一个 url 但我想通过匿名代理来实现 Code setting up the proxy proxy QNetworkProxy proxy setHostName 189 75 98 199
for 循环如何评估其参数

我的问题很简单 Does a for循环评估它每次使用的参数 Such as for i in range 300 python 是否会为此循环的每次迭代创建一个包含 300 个项目的列表如果是的话这是避免这种情况的方法吗 lst ra
使用 Django Rest 保存 Base64ImageField 类型会将其保存为原始图像。如何将其转换为普通图像

我的模型中有 5 个图像字段 imageS imageS imageS imageS 和 imageE 我正在尝试按以下方式保存图像图像的类型Base64ImageField images imageA imageB imageC ima
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
登录网站并使用 python 请求下载文件

我有一个带有 HTML 表单的网站登录后它会将我带到 start php 站点然后将我重定向到overview php 我想从该服务器下载文件当我单击 ZIP 文件的下载链接时链接后面的地址是 getimage php path
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Python Fabric - 未找到主机。请指定用于连接的（单个）主机字符串：

如何获取找不到主机请指定用于连接的单个主机字符串面料如何解决 def bootstrap host ec2 54 xxx xxx xxx compute 1 amazonaws com env hosts host env use
python 中的 Johansen 协整检验

我找不到任何有关在处理统计和时间序列分析 pandas 和 statsmodel 的 Python 模块中执行 Johansen 协整检验的功能的参考有谁知道是否有一些代码可以执行时间序列之间的协整测试现在这已在 Python 的 s
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
在 virtualenvwrapper 中激活环境

我安装了virtualenv and virtualenvwrapper用这个命令我创建了一个环境 mkvirtualenv cv 它有效创建后我就处于新环境中现在我重新启动了我的电脑我想activate又是那个环境但是怎么样我使
Python：高精度time.sleep

你能告诉我如何在 Win32 和 Linux 上的 Python 2 6 中获得高精度睡眠函数吗您可以在中使用浮点数sleep http docs python org library time html time sleep 该参数可以
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
如何获取所有mysql元组结果并转换为json

我能够从表中获取单个数据但是当我试图获取表上的所有数据时我只得到一行 cnn execute sql rows cnn fetchall column t 0 for t in cnn description for row in ro
长/宽数据到宽/长

我有一个数据框如下所示 import pandas as pd d decil 1 decil 1 decil 2 decil 2 decil 3 decil 3 decil kommune AA BB AA BB AA BB 2010
使用 urllib 编码时保持 url 参数有序

我正在尝试用 python 模拟 get 请求我有一个参数字典并使用 urllib urlencode 对它们进行 urlencode 我注意到虽然字典的形式是 k1 v1 k2 v2 k3 v3 urlencoding 后参数的顺序切

随机推荐

HTTP 的 BPF 是什么？

定义可见here http en wikipedia org wiki Berkeley Packet Filter 候选人的答案可能是tcp and dst port 80 但是可以tcp and dst port 80保证它是HTTP流
Visual Studio 类图未显示关系

当我定义类属性而不使用字段使用 C 3 0 启用时类图未显示我的一对一多关系不过继承在图中是可见的有没有办法来解决这个问题当您右键单击字段或属性时您可以选择显示为关联或显示为集合关联
Flutter Android Studio 错误：无法获取未知属性“keystoreProperty”

我是 flutter 新手我正在尝试运行我的第一个项目而不对演示应用程序的源代码进行任何更改但我不断收到以下错误 Launching lib main dart on SM A115F in release mode Running
Rails 如何验证文件格式？

如何验证我的文件字段的格式是否正确我希望图像字段验证它是 png jpg jpeg 以及结尾为 flv 的 flv 还有它的结尾为 mov 的 Quicktime 以及如何创建错误消息来告知该字段无效我的 simple form for
访问cookie过期时间owin

我正在尝试访问 Owin 上的过期时间我正在使用以下示例访问 Owin Cookie 身份验证的 ExpireTimeSpan 属性以通知用户登录到期 https stackoverflow com questions 27107264
如何在 PHP 中克隆 gd 资源

我正在寻找用 PHP 创建的克隆图像imagecreatetruecolor或其他一些图像创建功能正如评论中所说不你不能做出像这样简单的感情 copy original 这是因为资源是引用不能像标量值一样被复制例子 a image
用于获取标签列表的 GCP API

是否有用于获取资源标签的 GCP API 我想要获取 GCP 项目的所有标签的列表如何获取GCP中的所有标签基本上 GCP 资源管理器 API 返回每个资源的 Lebel 对象但我想使用一个 API 调用获取所有标签的列表我尝试了下
如何获取 numpy 数组中最大值的所有索引？

我有一个数字数组最大值可能会出现多次我们如何获得数组中所有出现最大值的索引集合例如对于以下数组 import numpy as np a np array 1 2 3 2 3 2 1 3 结果应该是 2 4 7 或等效的数组或元组
Docker - 使用多模块 Maven 项目进行多阶段构建

我有一个具有 root 的 Maven 项目pom xml具有多个子文件夹作为模块和依赖项的文件它看起来像这样
导入错误：没有名为flask.ext.script的模块

事实上我现在无法使用任何软件包导入错误没有名为flask ext script的模块 https i stack imgur com dARhF png 导入错误没有名为 Pymongo 的模块 https i stack imgur
php删除大括号和里面的内容检索剩余

want to 删除大括号内的 php 字符串的特定文本包括大括号它应该被删除数据串如下所示 page header this text should not be removed menu list menu list 2 this
在 Vue 3 中设置全局 Axios 标头

我正在尝试使用 Axios 访问我的后端 Django 但在设置全局标头以在标头中包含 CSRF 令牌时遇到一些问题这是到达我的服务器 import axios from axios async function loadCards va
C# 执行外部程序并捕获（流式传输）输出

我正在编写一个程序来处理一些视频文件我正在使用 ffmpeg 可执行文件将多个文件合并到一个文件中该命令需要几分钟才能完成因此我需要一种方法来监视输出并在 GUI 上显示进度条查看以下 stackoverflow 主题如何
使用动态规划对列表进行分区

我在这里发布了一些与我一直在尝试从事的项目相关的内容但我不断遇到设计问题并且必须从头开始设计所以我想知道我是否可以发布我正在尝试做的事情并且有人可以帮助我了解如何获得我想要的结果背景我是编程新手正在努力学习因此我开展了一个我
Binutils LD 创建巨大文件

我正在尝试创建尽可能小的 ELF 我创建了一个像这样的测试文件 NASM 语法 SECTION text dd 0xdeadbeef 使用此链接描述文件 SECTIONS text text 然后我检查了平面二进制文件的大小并通过两种方式
将 UDF 应用于 Spark Dataframe 中的多个列

我有一个如下所示的数据框 id age rbc bgr dm cad appet pe ane classification 3 48 0 normal 117 0 no no poor yes yes ckd 我写了一个 UDF 来转换分
终止或停止 HtmlUnit

我使用 htmlunit 测试一些网站我注意到 Htmlunit 卡在一些网页上这个问题导致调用 htmlunit 的线程不会终止请您知道有什么方法可以停止 Htmlunit 就像在真正的网络浏览器中一样您只需单击浏览器停止按钮即可
考虑到每个静态库定义导出的功能（vc++ 2008），如何将多个静态链接库合并到一个 dll 中？

鉴于每个静态库都定义导出功能 vc 2008 如何将多个静态链接库合并到单个 dll 中在存在单个 dll 项目和静态链接的多个子项目在 dll 项目中的多项目布局中尽管被标记为 declspec export 子项目 lib 中的
python Tkinter 中的简单加载屏幕

我是一个Python初学者尤其是tkinter 我想制作一个简单的 python 脚本的加载屏幕并在脚本结束后关闭但制作窗户需要mainloop函数这意味着它将无限循环或等待用户交互或者我认为如此并且它将消除加载屏幕的想法
Python 将 k-means 集群与实例关联

我已阅读文档here http scikit learn org stable modules generated sklearn cluster KMeans html以及看着this http fromdatawithlove theg

Python 将 k-means 集群与实例关联

Python 将 k-means 集群与实例关联 的相关文章

随机推荐

热门标签

Python 将 k-means 集群与实例关联的相关文章