Kmeans 对 pandas 数据框中的每个组进行聚类并分配聚类

2023-11-30

我想通过使用 kmeans 聚类对组月的 X2 和 X3 进行聚类。我需要对两个变量进行聚类。另外，我想根据每个簇的平均值将簇 0、簇 1 和簇 2 分配为“强”、“平均”、“弱”。最高意味着强簇。下面是我的示例数据集。

df=pd.DataFrame({'month':['1','1','1','1','1','2','2','2','2','2','2','2'],'X1': 
[30,42,25,32,12,10,4,6,5,10,24,21],'X2':[10,76,100,23,65,94,67,24,67,54,87,81],'X3': 
[23,78,95,52,60,76,68,92,34,76,34,12]})
df

我需要自动执行此操作，从那时起我有很多列，我通常想在 2 个列 (df.loc[:,2:3]) 上执行此操作。将簇分配给每个 def 是

集群 2=“最佳”

集群 1=“平均”

集群 0=“弱”

要找到最佳簇，请找到每列的平均值，然后求和，如果最高则将其分配给“最佳”，较低的分配给平均，最低的分配给“弱”

请帮忙谢谢

`groupby` and `apply`聚类函数

我们可以通过以下方式对数据框进行分组month并对列进行聚类X2 and X3使用自定义的聚类函数

cols = df.columns[2:4]
mapping = {0: 'weak', 1: 'average', 2: 'best'}

def cluster(X):
    k_means = KMeans(n_clusters=3).fit(X)
    return X.groupby(k_means.labels_)\
            .transform('mean').sum(1)\
            .rank(method='dense').sub(1)\
            .astype(int).to_frame()

df['Cluster_id'] = df.groupby('month')[cols].apply(cluster)
df['Cluster_cat'] = df['Cluster_id'].map(mapping)

   month  X1   X2  X3  Cluster_id Cluster_cat
0      1  30   10  23           0        weak
1      1  42   76  78           1     average
2      1  25  100  95           2        best
3      1  32   23  52           0        weak
4      1  12   65  60           1     average
5      2  10   94  76           2        best
6      2   4   67  68           2        best
7      2   6   24  92           1     average
8      2   5   67  34           0        weak
9      2  10   54  76           2        best
10     2  24   87  34           0        weak
11     2  21   81  12           0        weak

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

DataFrame

clustercomputing

kmeans

Kmeans 对 pandas 数据框中的每个组进行聚类并分配聚类的相关文章

Python从int到string的快速转换

我正在用 python 求解大量阶乘并发现当我完成计算阶乘时需要相同的时间才能转换为字符串以保存到文件中我试图找到一种将 int 转换为字符串的快速方法我将举一个计算和 int 转换时间的例子我正在使用通用的 a str a 但感
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
为什么我的代码不能根据字典解码加密字符串？

我有一本字典其中包含代表字母的键和值例如一个简单的 DICT CODE b g n a p o x d t y 我收到了一个加密代码并将该字符串转换为一个列表其中每个项目都是一个单词我需要根据字典中的项目来解决它代码示例是 wo
Tweepy StreamListener 到 CSV

我是 python 新手我正在尝试开发一个应用程序使用 Tweepy 和 Streaming API 从 Twitter 检索数据并将数据转换为 CSV 文件问题是此代码不会创建输出 CSV 文件也许是因为我应该将代码设置为在实现例
更新 Sqlalchemy 中的多个列

我有一个在 Flask 上运行的应用程序并使用 sqlalchemy 与数据库交互我想用用户指定的值更新表的列我正在使用的查询是 def update table value1 value2 value3 query update T
根据开始列和结束列扩展数据框（速度）

我有一个pandas DataFrame含有start and end列加上几个附加列我想将此数据框扩展为一个时间序列从start值并结束于end值但复制我的其他专栏到目前为止我想出了以下内容 import pandas as
更改 Altair 中的构面标题位置？

如何将方面标题在本例中为年份移动到每个图的上方默认值似乎位于图表的一侧这可以轻易改变吗 import altair as alt from vega datasets import data df data seattle weat
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
python是带有字符串的运算符行为[重复]

这个问题在这里已经有答案了我无法理解以下行为我正在创建 2 个字符串并使用 is 运算符来比较它对于第一种情况它的工作方式有所不同对于第二种情况它按预期工作当我使用逗号或空格时它显示是什么原因False与比较is当没有使用
Pandas 滚动窗口 Spearman 相关性

我想使用滚动窗口计算 DataFrame 两列之间的 Spearman 和或 Pearson 相关性我努力了df corr df col1 rolling P corr df col2 P为窗口尺寸但我似乎无法定义该方法添加meth
`list()` 被认为是一个函数吗？

list显然是内置类型 https docs python org 3 library stdtypes html list在Python中我看到底下有一条评论this https stackoverflow com a 53645813
具有屏蔽无效值的 pcolormesh

我试图将一维数组绘制为 pcolormesh 因此颜色沿 x 轴变化但每个 x 的 y 轴保持不变但我的数据有一些错误值因此我使用屏蔽数组和自定义颜色图其中屏蔽值设置为蓝色 import numpy as np import mat
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
如何将回溯/sys.exc_info() 值保存在变量中？

我想将错误名称和回溯详细信息保存到变量中这是我的尝试 import sys try try print x except Exception ex raise NameError except Exception er print 0 s
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
更改 Python Cmd 模块处理自动完成的方式

我有一个 Cmd 控制台设置为自动完成 Magic the Gathering 收藏管理系统的卡牌名称它使用文本参数在数据库中查询卡片并使用结果自动完成建议卡片然而这些卡片名称有多个单词 Cmd 会从last到行尾的空间例如
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
如何在单元测试中使用 JSON 发送请求

我的 Flask 应用程序中有在请求中使用 JSON 的代码我可以像这样获取 JSON 对象 Request request get json 这一直工作得很好但是我正在尝试使用 Python 的 unittest 模块创建单元测试但
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name
python sklearn中的fit方法

我问自己关于 sklearn 中拟合方法的各种问题问题1 当我这样做时 from sklearn decomposition import TruncatedSVD model TruncatedSVD svd 1 model fit X

随机推荐

Python：Plt 条形图 - 不同颜色

在Python中我怎样才能使 reported 绿色条形以及 UNREPORTED 酒吧红色我想为图表中每个已报告和未报告的条形赋予不同的颜色 new AXIN 37 reported LGR 30 UNREPORTED NKD 24
YouTube iframe 事件

我尝试捕获 YouTube iframe 的事件 http lab joergpfeiffer de videofull youtube php 所以我首先调用api 我设置了 iframe
具有重复的递归排列

我正在尝试编写一个递归函数该函数通过给定列表的重复来获取所有排列 Eg set ABC 1 AAA 2 AAB 3 AAC 4 ABA N CCC 我想要此代码的递归版本以便我可以获得任何大小的集合的排列 for i 0 i
0..9 约束在 GCC 内联汇编中起什么作用？

手册 says 允许使用与指定操作数编号匹配的操作数如果一个数字在同一个选项中与字母一起使用数字应该放在最后我不确定这意味着什么示例代码 asm volatile swap 0 r value 0 value 堆栈溢出的内联汇编标
Chrome 扩展程序仅在单击某些网页时起作用

我正在尝试让我的 Chrome 扩展程序在用户打开时弹出警报http google com 并单击扩展图标我有以下清单 manifest version 2 name One Megahurt version 0 1 permission
我想制作一个像 WhatsApp 个人资料照片对话框屏幕一样的对话框屏幕

大家好我目前正在尝试使用隐式意图创建一个对话框我想在其中显示我的对话框例如 WhatsApp 个人资料照片屏幕并且在此屏幕中 WhatsApp 使用名为删除照片的额外字段当我尝试制作相同类型的屏幕对话框时我无法添加此额外字段
如何更改 vue-cli 的分隔符？

我安装了 vue cli webpack simple src main js import Vue from vue import App from App vue new Vue delimiters here delimiters s
为 Javascript 制作文件

有人可以告诉我如何使用 make 文件来组合和合并不同的 javascript 文件我见过许多不同的项目使用不同的 javascript 文件后来使用 MAKE 实用程序进行合并 Deep None
Java Swing —— 编写一个可根据自定义数据对象的更改重新绘制自身的 Ui

首先我已经发布了一个问题earlier其中我曾就为什么我的代码无法工作而寻求帮助并且这个问题是根据我在该问题中得到的建议采取的我的用例是这样的我正在写一个MethodEditor模块其中每个Method由具有 2 个数据成员的自定义
spring在使用aop类级别注释时为错误的类创建代理

当使用 spring AOP 和类级别注释时 springcontext getBean似乎总是为每个类创建并返回一个代理或拦截器无论它们是否有注释此行为仅适用于类级别注释对于方法级别的注解或者执行切入点如果不需要拦截 getBe
使用python的pillow库：如何在不创建图像的绘制对象的情况下绘制文本

下面的代码展示了如何通过创建绘图对象在图像上写入文本 from PIL import Image ImageFont ImageDraw image Image new mode RGBA size 500 508 draw ImageDr
有没有办法阻止 VB6 编译器打乱文件内容？

由于未知的原因 VB6 编译器通常喜欢重新排序 vbp 文件的内容和 frm 文件顶部的控件描述符块描述表单上控件属性的代码您在IDE 但您确实可以在文本编辑器中看到在版本控制中与先前版本进行比较时在比较文件的修订版本时这非常烦人并
有没有一种算法可以告诉两个短语的语义相似度

输入短语 1 短语 2 输出语义相似度值 0到1之间或者这两个短语谈论同一件事的概率您可能想查看这篇论文基于语义网络和语料库统计的句子相似度 PDF 我已经实现了所描述的算法我们的背景非常笼统实际上是任何两个英语句子我们发现
如何在 SWI-Prolog 中扩展结果列表？

length L 25 L G245 G248 G251 G254 G257 G260 G263 G266 G 269 如果我在长度谓词后使用 write L 那么解释器会打印列表两次一次扩展另一次不扩展深度有限制防止输出过长您可
使用 Ruby 对字符串中的字符进行转义

给定以下格式的字符串 Posterous API 以这种格式返回帖子 s u003Cp u003E 我怎样才能将它转换为实际的ascii字符这样s p 在 OSX 上我成功地使用了Iconv iconv ascii java s 但一旦
使用 Spring AOP 触发了哪个接口（扩展 CrudRepository）的删除方法？

Repository public interface UserRepository extends JpaRepository
Visual Studio 不再打开 Winforms 的图形编辑器

我正在构建非常小的 15 分钟应用程序它可以帮助我和我的同事完成简单的日常业务工作为此我经常使用 WinForm 因为它非常快只需制作一个带有 2 个文本框和一个提交按钮的窗口不幸的是最近我想我按下了一个按钮图形编辑器将不再打
如何在android中获取准确的UTC时间戳

我不知道哪一个适合获取 UTC 时间我的代码是 System currentTimeMillis 对于 java 安卓国际化的结果正确吗也许用户可以更改设备时间并且结果会有所不同对UTC有影响吗在Linux平台上系统时钟应设置为
在本地 NTFS 驱动器上查找回收站

我正在尝试编写一些简单的代码该代码将返回本地驱动器上回收站的目录看起来很简单谷歌上应该有一千个答案还没找到我发现 FAT 和 NTFS 驱动器具有不同的基本名称 RECYCLED 和 RECYCLER 我发现回收站是一个虚拟文
Kmeans 对 pandas 数据框中的每个组进行聚类并分配聚类

我想通过使用 kmeans 聚类对组月的 X2 和 X3 进行聚类我需要对两个变量进行聚类另外我想根据每个簇的平均值将簇 0 簇 1 和簇 2 分配为强平均弱最高意味着强簇下面是我的示例数据集 df pd DataFrame

Kmeans 对 pandas 数据框中的每个组进行聚类并分配聚类

groupby and apply聚类函数

Kmeans 对 pandas 数据框中的每个组进行聚类并分配聚类 的相关文章

随机推荐

热门标签

`groupby` and `apply`聚类函数

Kmeans 对 pandas 数据框中的每个组进行聚类并分配聚类的相关文章