K-means 仅使用特定数据帧列与 scikit-learn

2024-01-12

我正在使用k-means算法从scikit-learn库，我想要聚类的值位于具有 3 列的 pandas 数据框中：ID, value_1 and value_2.

我想使用以下方法对信息进行聚类value_1 and value_2，但我也想保留ID与之关联（所以我可以创建一个列表ID每个簇中的 s）。

这样做的最佳方法是什么？目前它使用以下方式进行集群ID数字也是如此，但这不是目的。

我当前的代码（X是 pandas 数据框）：

kmeans = KMeans(n_clusters=2, n_init=3, max_iter=3000, random_state=1)
(X_train, X_test) = train_test_split(X[['value_1','value_2']],test_size=0.30)
kmeans = kmeans.fit(X_train)

仅使用感兴趣的列进行聚类（如您的示例中所示）。然后添加标签列表kmeans.labels_作为另一列X_train (or X_test）。标签的顺序与原始行的顺序相同。

# A toy DF
X = pd.DataFrame({'id': [1,2,3,4,5],
                  'value_1': [1,3,1,4,5],
                  'value_2': [0,0,1,5,0]})

# Split ALL columns
(X_train, X_test) = train_test_split(X,test_size=0.30)
# Cluster using SOME columns
kmeans = kmeans.fit(X_train[['value_1','value_2']])
# Save the labels
X_train.loc[:,'labels'] = kmeans.labels_

既然两者X_train and X_tests是切片X，您可能会在此处看到警告：

尝试在 DataFrame 的切片副本上设置一个值。

你可以忽略它。

X_train
#   id  value_1  value_2  labels
#4   5        5        0       0
#0   1        1        0       0
#3   4        4        5       1

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

python

pandas

scikitlearn

kmeans

K-means 仅使用特定数据帧列与 scikit-learn 的相关文章

Python 2.7 将比特币私钥转换为 WIF 私钥

作为一名编码新手我刚刚完成了教程教程是这样的 https www youtube com watch v tX XokHf nI https www youtube com watch v tX XokHf nI 我想用 1 个易于阅读
Python在postgresql表中查找带有单引号符号的字符串

我需要从 psql 表中查找包含多个单引号的字符串我当前的解决方案是将单引号替换为双单引号如下所示 sql query f SELECT exists SELECT 1 FROM table name WHERE my column m
将 numpy 数组写入文本文件的速度

我需要将一个非常高的两列数组写入文本文件而且速度非常慢我发现如果我将数组改造成更宽的数组写入速度会快得多例如 import time import numpy as np dataMat1 np random rand 1000
当我在 Pandas 中使用 df.corr 时，我的一些列丢失了

这是我的代码 import numpy as np import pandas as pd import seaborn as sns import matplotlib pyplot as plt data pd read csv dea
可以用 Django 制作移动应用程序吗？

我想知道我是否可以在我的网站上使用 Django 代码并以某种方式在移动应用程序 Flutter 等框架中使用它那么是否可以使用我现在拥有的 Django 后端并在移动应用程序中使用它所以就像models views etc 是的有
WindowsError：[错误 126] 使用 ctypes 加载操作系统时

python代码无法在Windows 7平台上运行 def libSO lib ctypes cdll LoadLibrary ConsoleApplication2 so lib cfoo2 1 3 当我尝试运行它时得到来自python
Python Pandas 根据另一列的总计从另一个数据帧中选择值

我下面有一个 DataFrame 但我需要根据取消和订单列从每个代码中选择行假设代码 xxx 的阶数为 6 1 5 1 阶数为 11 我需要一种算法可以选择满足总共 11 行的行阶数为 6 5 如果没有行匹配则选择最接近的 id 并
如何使用 Django 项目设置 SQLite？

我已阅读 Django 文档仅供参考 https docs djangoproject com en 1 3 intro tutorial01 https docs djangoproject com en 1 3 intro tutor
django-admin.py makemessages 不起作用

我正在尝试翻译一个字符串 load i18n trans Well Hello there how are you to Hola amigo que tal 我的 settings py 文件有这样的内容 LOCALE PATHS os
Python 惰性迭代器

我试图了解迭代器表达式如何以及何时被求值以下似乎是一个懒惰的表达 g i for i in range 1000 if i 3 i 2 然而这个在构造上失败了 g line strip for line in open xxx r if
PyTorch DataLoader 对并行运行的批次使用相同的随机种子

有一个bug https tanelp github io posts a bug that plagues thousands of open source ml projects 在 PyTorch Numpy 中当并行加载批次时Da
解析根元素内元素之间的 XML 文本

我正在尝试用 Python 解析 XML 以下是 XML 结构的示例 a aaaa1 b bbbb b aaaa2 a
Python]将两个文本文件合并为一个（逐行）[关闭]

Closed 这个问题需要多问focused help closed questions 目前不接受答案我是蟒蛇新手我想做的是将文件 a 和文件 b 逐行合并到一个文件中例如 text file a a n b n c text fi
无法在 python 3.8 上将带有 webapp 的 python 部署到 azure

我正在尝试使用部署一个测试项目Flask使用以下方法将框架迁移到 Azure 云中Azure CLI https learn microsoft com en us azure app service containers quicksta
检测 IDLE 的存在/如何判断 __file__ 是否未设置

我有一个脚本需要使用 file 所以我了解到 IDLE 没有设置这个有没有办法从我的脚本中检测到 IDLE 的存在 if file not in globals file is not set 如果你想做一些特别的事情 file 未设置
对数据帧的每 2 小时数据进行 Groupby

我有一个数据框 Time T201FN1ST2010 T201FN1VT2010 1791 2017 12 26 00 00 00 854 69 0 87 1792 2017 12 26 00 20 00 855 76 0 87 1793
如何使用 matplotlib 为圆柱体的每个单独面添加颜色

我正在尝试为圆柱体的每个面着色但是我不确定如何进行我尝试了以下方法 for i in range 10 col append for i in range 10 for j in range 20 col i append plt cm
Pandas - 合并数据框以将所有值保留在左侧，如果“左侧没有键”，则从右侧“插入”值，否则“更新”左侧现有的“键”

我有两个数据框 df1 和 df2 np random seed 0 df1 pd DataFrame key A B C D id 2 23 234 2345 2021 np random randn 4 df2 pd DataFrame
Python 通过从现有 csv 文件中过滤选定的行来写入新的 csv 文件

只是一个问题我试图将 csv 文件中的选定行写入新的 csv 文件但出现错误我试图读取的 test csv 文件是这样的两列 2013 9 1 2013 10 2 2013 11 3 2013 12 4 2014 1 5 2014
如何循环遍历字典列表并打印特定键的值？

我是 Python 新手有一个问题我知道这是一个非常简单的问题运行Python 3 4 我有一个需要迭代并提取特定信息的列表以下是列表称为部分的示例已截断数千个项目 state DEAD id phwl type name

随机推荐

CLEditor动态添加文本

我在用着CLEditor http premiumsoftware net cleditor docs GettingStarted html optionalParameters对于我正在开发的网站我正在尝试使用 jQuery 将动态文
我可以在 C++11 中拥有具有值语义的多态容器吗？

这是一个续集相关帖子 https stackoverflow com questions 41045 can i have polymorphic containers with value semantics in c这提出了一个永恒的问
Rails 5 SQL 注入

我已经在各种 SO 线程指南等上读到这个问题有一段时间了但所有答案都是相互冲突和矛盾的似乎有很多类似的方法而且很多答案都说使用不同的方法 sanitize sanitize conditions sanitize sql sanit
使用异步 NSURLConnection 中的数据填充 NSImage

我在尝试弄清楚如何使用从我的桌面应用程序不是 iPhone 应用程序中的异步 NSURLConnection 返回的数据填充 NSImage 时遇到了困难情况是这样的我有一个使用自定义单元格的表格每个自定义单元格中都有一个从 We
jQuery 淡入事件？

当元素淡入时使用 jQuery 是否可以获得某种事件通知 IE 如果有淡入事件我会尝试类似的事情 elements delegate selector fadeInEvent function alert someId has fade
TypeScript 无法识别我的笑话模拟模块

假设我有一个index ts这将导入Database ts并运行一些查询为了测试这个index ts文件我想模拟Database ts因为我不想连接到任何真实的数据库这是我的index ts import connect from D
更改 Windows DLL 加载顺序？（加载顺序，不是搜索顺序）

假设我有一个可执行文件 app exe 我在此可执行文件中使用 2 个不同的第 3 方 DLL foo dll bar dll并且应用程序必须隐式链接到这些 DLL 也就是说我不能使用 LoadLibrary加载它们注并不是说我不能打电
SQL Server - 是否有一种排序规则可以提供数字的自然顺序？

我正在使用 SQL Server 2008 我有一个带有 type 列的表VarChar 它当前填充了实际代表数字的字符串不幸的是该列必须保留VarChar 1 2 1000 我希望查询该字段的最大数值但由于这是一个VarChar我得
使用属性过滤 Django-sphinx 结果？

我正在经历 django sphinx文档 http code google com p django sphinx 看起来它允许您使用过滤搜索结果属性 queryset MyModel search query query results
Spring boot数据jpa多个数据源entityManagerFactory错误

我想在 Spring Boot 中使用两个数据库这里是代码第一个数据库配置 Configuration EnableAutoConfiguration EnableJpaRepositories basePackages net ely
php echo 输出顺序变化

希望这是一个简单的修复出于某种原因当我运行它时我正在运行 WordPress 并使用高级自定义字段插件 echo Tickets Start at CA the field price 我得到这个输出 50Tickets Start
Caffe 中的批处理模式 - 没有性能提升

继这个线程 https stackoverflow com q 32504394 1103412我重新实现了图像处理代码以便一次发送 10 张图像即我现在将输入 blob 的 num 属性设置为 100 而不是 10 然而处理这批货所
Pandas：如果关键字出现在任何列中，则选择行

我知道有一个关于在一列中搜索字符串的相关线程 here https stackoverflow com questions 27975069 how to filter rows containing a string pattern fr
Tensorflow：无法创建会话

当我运行我的代码时出现错误错误是 tensorflow python framework errors impl InternalError 无法创建会话这是我的代码 coding utf 8 import import checkpo
如何放松到 SwiftUI 中的 MainView

我找不到从 ViewB 转到 ContentView 而不显示第二个的方法NavigationView在另一个之上NavigationView struct ContentView View var body some View Navig
数据表中的 masterCheckbox

我正在尝试将 masterCheckbox 添加到 webix 数据表项目中现在我得到以下行为当我单击主复选框时值重写为 1 或 0 id title checkValue on uncheckValue off template
如何在 Node Express 应用程序中传递对象？

我正在使用express和node postgres构建一个节点应用程序 https github com brianc node postgres https github com brianc node postgres 我只想构建一次
如何使用订阅者选项？

我现在开始使用 Pubsubhubbub 以及所有关于实时的东西但我在使用订阅者选项时遇到了问题我正在尝试用 PHP 开发一个网络应用程序订阅 RSS 之前发布的到 Hub http pubsubhubbub appspot com
object() == object() 保证为 False 吗？

假设我创建了两个类的实例object 这两个实例是否保证彼此不相等换句话说就是object object 保证是False 还是依赖于实现我明白那个object is object 保证是False 但我在这里问的是object ob
K-means 仅使用特定数据帧列与 scikit-learn

我正在使用k means算法从scikit learn库我想要聚类的值位于具有 3 列的 pandas 数据框中 ID value 1 and value 2 我想使用以下方法对信息进行聚类value 1 and value 2 但我也想

K-means 仅使用特定数据帧列与 scikit-learn

K-means 仅使用特定数据帧列与 scikit-learn 的相关文章

随机推荐

热门标签