K-means 仅使用特定数据帧列与 scikit-learn

2024-01-12

我正在使用k-means算法从scikit-learn库,我想要聚类的值位于具有 3 列的 pandas 数据框中:ID, value_1 and value_2.

我想使用以下方法对信息进行聚类value_1 and value_2,但我也想保留ID与之关联(所以我可以创建一个列表ID每个簇中的 s)。

这样做的最佳方法是什么?目前它使用以下方式进行集群ID数字也是如此,但这不是目的。

我当前的代码(X是 pandas 数据框):

kmeans = KMeans(n_clusters=2, n_init=3, max_iter=3000, random_state=1)
(X_train, X_test) = train_test_split(X[['value_1','value_2']],test_size=0.30)
kmeans = kmeans.fit(X_train)

仅使用感兴趣的列进行聚类(如您的示例中所示)。然后添加标签列表kmeans.labels_作为另一列X_train (or X_test)。标签的顺序与原始行的顺序相同。

# A toy DF
X = pd.DataFrame({'id': [1,2,3,4,5],
                  'value_1': [1,3,1,4,5],
                  'value_2': [0,0,1,5,0]})

# Split ALL columns
(X_train, X_test) = train_test_split(X,test_size=0.30)
# Cluster using SOME columns
kmeans = kmeans.fit(X_train[['value_1','value_2']])
# Save the labels
X_train.loc[:,'labels'] = kmeans.labels_

既然两者X_train and X_tests是切片X,您可能会在此处看到警告:

尝试在 DataFrame 的切片副本上设置一个值。

你可以忽略它。

X_train
#   id  value_1  value_2  labels
#4   5        5        0       0
#0   1        1        0       0
#3   4        4        5       1
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

K-means 仅使用特定数据帧列与 scikit-learn 的相关文章

随机推荐

  • CLEditor动态添加文本

    我在用着CLEditor http premiumsoftware net cleditor docs GettingStarted html optionalParameters对于我正在开发的网站 我正在尝试使用 jQuery 将动态文
  • 我可以在 C++11 中拥有具有值语义的多态容器吗?

    这是一个续集相关帖子 https stackoverflow com questions 41045 can i have polymorphic containers with value semantics in c这提出了一个永恒的问
  • Rails 5 SQL 注入

    我已经在各种 SO 线程 指南等上读到这个问题有一段时间了 但所有答案都是相互冲突和矛盾的 似乎有很多类似的方法 而且很多答案都说使用不同的方法 sanitize sanitize conditions sanitize sql sanit
  • 使用异步 NSURLConnection 中的数据填充 NSImage

    我在尝试弄清楚如何使用从我的桌面应用程序 不是 iPhone 应用程序 中的异步 NSURLConnection 返回的数据填充 NSImage 时遇到了困难 情况是这样的 我有一个使用自定义单元格的表格 每个自定义单元格中都有一个从 We
  • jQuery 淡入事件?

    当元素淡入时使用 jQuery 是否可以获得某种事件通知 IE 如果有 淡入事件 我会尝试类似的事情 elements delegate selector fadeInEvent function alert someId has fade
  • TypeScript 无法识别我的笑话模拟模块

    假设我有一个index ts这将导入Database ts并运行一些查询 为了测试这个index ts文件 我想模拟Database ts因为我不想连接到任何真实的数据库 这是我的index ts import connect from D
  • 更改 Windows DLL 加载顺序? (加载顺序,不是搜索顺序)

    假设我有一个可执行文件 app exe 我在此可执行文件中使用 2 个不同的第 3 方 DLL foo dll bar dll并且应用程序必须隐式链接到这些 DLL 也就是说我不能使用 LoadLibrary加载它们 注 并不是说我不能打电
  • SQL Server - 是否有一种排序规则可以提供数字的自然顺序?

    我正在使用 SQL Server 2008 我有一个带有 type 列的表VarChar 它当前填充了实际代表数字的字符串 不幸的是 该列必须保留VarChar 1 2 1000 我希望查询该字段的最大数值 但由于这是一个VarChar我得
  • 使用属性过滤 Django-sphinx 结果?

    我正在经历 django sphinx文档 http code google com p django sphinx 看起来它允许您使用过滤搜索结果属性 queryset MyModel search query query results
  • Spring boot数据jpa多个数据源entityManagerFactory错误

    我想在 Spring Boot 中使用两个数据库 这里是代码 第一个数据库配置 Configuration EnableAutoConfiguration EnableJpaRepositories basePackages net ely
  • php echo 输出顺序变化

    希望这是一个简单的修复 出于某种原因 当我运行它时 我正在运行 WordPress 并使用高级自定义字段插件 echo Tickets Start at CA the field price 我得到这个输出 50Tickets Start
  • Caffe 中的批处理模式 - 没有性能提升

    继这个线程 https stackoverflow com q 32504394 1103412我重新实现了图像处理代码 以便一次发送 10 张图像 即我现在将输入 blob 的 num 属性设置为 100 而不是 10 然而 处理这批货所
  • Pandas:如果关键字出现在任何列中,则选择行

    我知道有一个关于在一列中搜索字符串的相关线程 here https stackoverflow com questions 27975069 how to filter rows containing a string pattern fr
  • Tensorflow:无法创建会话

    当我运行我的代码时出现错误 错误是 tensorflow python framework errors impl InternalError 无法创建会话 这是我的代码 coding utf 8 import import checkpo
  • 如何放松到 SwiftUI 中的 MainView

    我找不到从 ViewB 转到 ContentView 而不显示第二个的方法NavigationView在另一个之上NavigationView struct ContentView View var body some View Navig
  • 数据表中的 masterCheckbox

    我正在尝试将 masterCheckbox 添加到 webix 数据表项目中 现在 我得到以下行为 当我单击主复选框时 值重写为 1 或 0 id title checkValue on uncheckValue off template
  • 如何在 Node Express 应用程序中传递对象?

    我正在使用express和node postgres构建一个节点应用程序 https github com brianc node postgres https github com brianc node postgres 我只想构建一次
  • 如何使用订阅者选项?

    我现在开始使用 Pubsubhubbub 以及所有关于实时的东西 但我在使用订阅者选项时遇到了问题 我正在尝试用 PHP 开发一个网络应用程序 订阅 RSS 之前发布的 到 Hub http pubsubhubbub appspot com
  • object() == object() 保证为 False 吗?

    假设我创建了两个类的实例object 这两个实例是否保证彼此不相等 换句话说 就是object object 保证是False 还是依赖于实现 我明白那个object is object 保证是False 但我在这里问的是object ob
  • K-means 仅使用特定数据帧列与 scikit-learn

    我正在使用k means算法从scikit learn库 我想要聚类的值位于具有 3 列的 pandas 数据框中 ID value 1 and value 2 我想使用以下方法对信息进行聚类value 1 and value 2 但我也想