Scikit-learn，GMM：从 .means_ 属性返回的问题

2023-12-05

所以显然..means_属性返回的结果与我为每个簇计算的平均值不同。（或者我对返回的内容有错误的理解！）

以下是我编写的代码，用于检查 GMM 如何适合我拥有的时间序列数据。

import numpy as np
import pandas as pd
import seaborn as sns
import time
import matplotlib as mpl
import matplotlib.pyplot as plt

from sklearn.mixture import BayesianGaussianMixture
from sklearn.mixture import GaussianMixture


toc = time.time()

input包含（米数/样本数）x（特征数）

read = pd.read_csv('input', sep='\t', index_col= 0, header =0, \
               names =['meter', '6:30', '9:00', '15:30', '22:30', 'std_year', 'week_score', 'season_score'], \
               encoding= 'utf-8')
read.drop('meter', 1, inplace=True)
read['std_year'] = read['std_year'].divide(4).round(2)

input = read.as_matrix(columns=['6:30', '9:00', '15:30', '22:30',])

将其拟合到 GMM 中，有 10 个簇。（使用 BIC 图，5 是得分最低的最佳数字..但为 -7,000。这并非不可能，在与我的顾问讨论后，但仍然很奇怪。）

gmm = GaussianMixture(n_components=10, covariance_type ='full', \
                  init_params = 'random', max_iter = 100, random_state=0)
gmm.fit(input)
print(gmm.means_.round(2))
cluster = gmm.predict(input)

下面我要做的是使用从返回的标签手动计算每个簇的质心/中心 - 如果使用这些术语来指示平均向量是正确的.predict.

具体来说，cluster 包含一个从 0 到 9 的值，每个值表示簇。我将其转置并连接到（样本数）x（属性数）的输入矩阵作为数组。我想利用 pandas 库的易用性来处理如此大的数据，因此将其转换为数据框。

cluster = np.array(cluster).reshape(-1,1) #(3488, 1)
ret = np.concatenate((cluster, input), axis=1) #(3488, 5)
ret_pd = pd.DataFrame(ret, columns=['label','6:30', '9:00', '15:30', '22:30'])
ret_pd['label'] = ret_pd['label'].astype(int)

对于每个仪表的特征，其簇被分类在“标签”列下。因此，以下代码对每个标签进行聚类，然后我按列取平均值。

cluster_mean = []
for label in range(10):
#take mean by columns per each cluster
    segment= ret_pd[ret_pd['label']== label]
    print(segment)
    turn = np.array(segment)[:, 1:]
    print(turn.shape)
    mean_ = np.mean(turn, axis =0).round(2) #series
    print(mean_)
    plt.plot(np.array(mean_), label='cluster %s' %label) 

    cluster_mean.append(list(mean_))

print(cluster_mean)

xvalue = ['6:30', '9:00', '15:30', '22:30']
plt.ylabel('Energy Use [kWh]')
plt.xlabel('time of day')
plt.xticks(range(4), xvalue)
plt.legend(loc = 'upper center', bbox_to_anchor = (0.5, 1.05),\
       ncol =2, fancybox =True, shadow= True)
plt.savefig('cluster_gmm_100.png')

tic = time.time()
print('time ', tic-toc)

有趣的是，.means_从内部库返回的值与我在这段代码中计算的值不同。

Scikit-learn 的.means_:

[[ 0.46  1.42  1.12  1.35]
 [ 0.49  0.78  1.19  1.49]
 [ 0.49  0.82  1.01  1.63]
 [ 0.6   0.77  0.99  1.55]
 [ 0.78  0.75  0.92  1.42]
 [ 0.58  0.68  1.03  1.57]
 [ 0.4   0.96  1.25  1.47]
 [ 0.69  0.83  0.98  1.43]
 [ 0.55  0.96  1.03  1.5 ]
 [ 0.58  1.01  1.01  1.47]]

我的结果：

[[0.45000000000000001, 1.6599999999999999, 1.1100000000000001, 1.29],    
 [0.46000000000000002, 0.73999999999999999, 1.26, 1.48], 
[0.45000000000000001, 0.80000000000000004, 0.92000000000000004, 1.78], 
[0.68000000000000005, 0.72999999999999998, 0.85999999999999999, 1.5900000000000001], 
[0.91000000000000003, 0.68000000000000005, 0.84999999999999998, 1.3600000000000001], 
[0.58999999999999997, 0.65000000000000002, 1.02, 1.5900000000000001], 
[0.35999999999999999, 1.03, 1.28, 1.46], 
[0.77000000000000002, 0.88, 0.94999999999999996, 1.3500000000000001], 
[0.53000000000000003, 1.0700000000000001, 0.97999999999999998, 1.53], 
[0.66000000000000003, 1.21, 0.95999999999999996, 1.3600000000000001]]

另一方面，我不确定为什么我返回的结果没有正确四舍五入到小数点后两位。

虽然我不完全确定你的代码在做什么，但我相当确定这里的问题是什么。

返回的参数为means_是构成模型的参数（高斯）分布的均值。当您通过计算每个组件中聚集的所有数据的平均值来计算平均值时，这几乎总是会给出不同的结果（尽管结果相似）。为了更好地理解为什么这些可能有所不同，我建议阅读更多有关期望最大化算法 that scikit-learn用于拟合 GMM。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

Scikit-learn，GMM：从 .means_ 属性返回的问题的相关文章

QSortFilterProxyModel + QAbstractItemModel modelIndex.internalPointer() 导致崩溃

我在 PyQt 4 8 Python 2 7 中实现了自己的 QAbstractItemModel class FriendListModel QtCore QAbstractItemModel def init self groups c
使用 Marshmallow 中的数据更新行 (SQLAlchemy)

我正在使用 Flask Flask SQLAlchemy Flask Marshmallow marshmallow sqlalchemy 尝试实现 REST api PUT 方法我还没有找到任何使用 SQLA 和 Marshmallow
按 ListProperty (NDB) 对查询进行排序

如何按 ListProperty 对查询进行排序该模型 class Chapter ndb Model title ndb StringProperty required True version ndb IntegerProperty
垂直线 axvline 在 matplotlib 的 loglog 图中绘制位于错误位置的线

我在使用 axvline 在 matplotlib 的 loglog 图中绘制垂直线时遇到问题第一个问题是垂直线没有出现在正确的位置第二个问题可能相关的是当我放大或平移绘图时垂直线只是保持在原位并且没有通过平移滑动绘图或放大
Keras，如何获取每一层的输出？

我已经用 CNN 训练了一个二元分类模型这是我的代码 model Sequential model add Convolution2D nb filters kernel size 0 kernel size 1 border mode
使用 K 均值聚类 OpenCV 进行交通标志分割

I used K Means Clustering to perform segmentation on this traffic sign as shown below 这些是我的代码读取图像并模糊 img cv imread 000
代理阻止网络套接字？如何绕行

我有一个用 Python 编写的正在运行的 websocket 服务器来自https github com opiate SimpleWebSocketServer https github com opiate SimpleWebSoc
Python：如何重构循环导入

我有件事可以帮你做engine setState
使用 Pandas 查找自滚动高点以来的周期数

我在 Pandas 中使用rolling max函数 http pandas pydata org pandas docs stable computation html moving rolling statistics moments
如何通过facebook-sdk python api获取用户帖子？

我使用 facebook jssdk 授权我的应用程序读取用户个人资料和用户帖子 FB login function response scope user status user likes user photos user videos
Python/Flask：应用程序在关闭后正在运行

我正在开发一个简单的 Flask Web 应用程序我使用 Eclipse Pydev 当我开发该应用程序时由于代码更改我必须经常重新启动该应用程序这就是问题所在当我运行该应用程序时我可以在本地主机上看到该框架这很好但是当我想
获取 zeep.exceptions.ValidationError：缺少与 suds 一起使用的方法的元素

我正在移植开发的代码suds 0 6到zeep 2 4 0 以前的泡沫代码 client Client WSDLfile proxy proxy faults True config client factory create perUse
Python将csv数据导出到文件中

我有以下运行良好的代码但我无法修剪数据并将其存储在数据文件中 import nltk tweets love this car this view amazing not looking forward the concert def g
如何在 Spyder IDE 中安装 Selenium 包

我刚刚在工作中安装了 Spyder IDE 仅 Spyder 不是整个 Anaconda 并且希望使用 FireFox 自动化我的工作我的问题是如何安装 Selenium 软件包 I figured it out Here is ins
通过套接字发送字符串（python）

我有两个脚本 Server py 和 Client py 我心中有两个目标能够从客户端一次又一次地向服务器发送数据能够将数据从服务器发送到客户端这是我的 Server py import socket serversocket soc
tweepy 流到 sqlite 数据库 - 语法错误[重复]

这个问题在这里已经有答案了可能的重复 tweepy 流到 sqlite 数据库语法无效 https stackoverflow com questions 9434205 tweepy stream to sqlite database
通过子类化 `io.TextIOWrapper` 来子类化文件 - 但它的构造函数有什么签名？

我正在尝试子类化io TextIOWrapper下列的这个帖子 https stackoverflow com a 23796737 974555 虽然我的目标不同以此开始注意动机 https stackoverflow com a
对 pandas 数据框中的每一列应用函数

我如何以更多的熊猫方式编写以下函数 def calculate df columns mean self df means for column in df columns columns tolist cleaned data self
python 的 fcntl.flock 函数是否提供文件访问的线程级锁定？

Python 的 fcnt 模块提供了一种名为 flock 1 的方法来证明文件锁定其描述如下对文件执行锁定操作op 描述符 fd 文件对象提供 fileno 方法被接受为出色地请参阅 Unix 手册集群 2 了解详情在某些系统上
如何在 Pandas 数据框中用 NaN 替换一系列值？

我有一个巨大的数据框我应该如何用 NaN 替换一系列值 200 100 数据框您可以使用pd DataFrame mask https pandas pydata org pandas docs stable generated pan

随机推荐

HTML5 Canvas - 使用鼠标按锚点旋转

我正在html5的canvas元素中进行开发我有以下代码它是可拖动且可调整大小的图像我怎样才能将它变成可通过锚点旋转我怎样才能通过锚点提供实时旋转我看到了其他代码示例但不知道如何实现它采样器工作 http jsfiddle n
[0,1,2,3].map 工作正常，array.map 给出奇怪的结果

我正在使用成帧器运动并且我正在尝试实现交错以便每个下一个孩子都有一些不错的延迟有一行关键代码当我替换时 0 1 2 3 map with recipes map突然间所有的孩子都被视为一大块他们不再摇摇欲坠看看这个demo你一
如何启用/禁用内核 kaslr、smep 和 smap

我想知道如何从 Linux 内核启用或禁用这 3 个功能 kaslr smep smap 我读过我必须在内核命令行中添加一些内容才能启用此功能我查看了 proc cmdline 我没有看到任何有关 smep 的信息但是当我询问 pro
统计catch块中发生的异常数量

我正在尝试收集发生异常的所有计数以及异常的名称ConcurrentHashMap这样我就应该知道这个异常发生了多少次因此在我的 catch 块中我有一个映射它将继续添加异常的名称和出现的总计数下面是我的代码which I have
如何强制 XDocument 以大写形式输出序言，同时保留缩进和格式？

I want XDocument输出 XML 序言例如大写这是我目前正在做的事情但这似乎不起作用 XDocument doc new XDocument new XDeclaration 1 0 UTF 8 bla bla bla
如何使用 MediaStore 在 Android Q 中保存图像？

这是新 Android Q 的链接范围存储根据这个 Android 开发者最佳实践博客 storing shared media files 这是我的情况应该使用媒体商店 API 深入研究文档我找不到相关的功能这是我在 Kotlin
尝试在 Azure Databricks 中安装 rJava 时遇到错误

dyn load usr lib jvm java 8 openjdk amd64 jre lib amd64 server libjvm so 中的错误没有这样的文件或目录在 Azure Databricks 中遇到此错误很好有记录的
当只有一个条件为真时，两个 mat-error 都会显示

当只出现一个错误时两个 mat error 都会显示我正在尝试使用 mat error 制作自定义验证器当电子邮件和确认密码的输入都具有 hasError 的真值时它们都呈红色我认为我的 MyErrorStateMatcher 类
在市场上更新我的应用程序的过程

我已经在市场上的一些应用程序上发布了版本 1 谁能告诉我如何更新它 thanks 增加值android versionCode的属性
当向量的维度必须增加时，避免重新分配向量

I have a vector lt pair
如何在 SQL Server 中使用 XPath、XQuery 使 XML 值以逗号分隔

我有一个 XML 列其中示例值为
如何在 Spring WebFlux 中从 Multipart/form-data 流式传输文件

我想从客户端例如前端接收多部分表单数据然后将表单数据的文件内容流式传输到另一个后端服务现在我可以读取整个文件并通过 byte base64 字符串将其传递到某处如下所示 PostMapping consumes MediaTy
R 中 S3 类的重载矩阵乘法

如何重载矩阵乘法运算符R 我已经能够使用大多数其他运算符使用 Ops 来完成此操作但是使用矩阵运算时我收到此错误 requires numeric complex matrix vector arguments 这是一个最小的工作示例
使用 Groovy (gpath) 获取 XML 属性的值

在 groovy 中使用 XmlParser 请参阅以下代码我需要打印的值answer当值name is type
在 Azure 中检索聊天机器人对话数据

首先简单介绍一下背景 Bot 框架将对话数据存储在 Azure 表 Cosmos DB 存储中在我的例子中是 Azure 表对于每个对话 Azure 表中都会有一个条目其中包含时间戳用户 ID 对话消息和其他详细信息我正在尝试使用
fortran：等待打开文件，直到被另一个应用程序关闭

我有一个 fortran 代码需要读取一系列 ascii 数据文件总共大约 25 GB 基本上代码打开给定的 ascii 文件读取信息并使用它执行一些操作然后关闭它然后打开另一个文件读取信息做一些操作然后再次关闭其余的
CSS：如何让两个并排的 DIV 具有自动高度，达到其容器的高度？

我正在为客户设计一个网站我试图让两个并排的 DIV 调整为 100 的容器我已经完成了并排但我无法让右侧的 DIV 与左侧的高度相同您可以在这里查看问题 http www campusmomlaundry com 挑战和好处 D
仅在 SQL Server 2005 中存储日期

如何避免存储时间部分datetime在 SQL Server 中即如果我的值为2011 01 01 00 00 00 000我只想存储2011 01 01 我想确保只存储日期部分 DateTime 数据类型始终存储日期和时间因此您只能
是否可以在 web.config 中针对每个控制器设置用户授权？（不能使用AuthorizeAttribute）

我有一个使用 Windows 身份验证的 Web API 2 应用程序我有多个控制器并且在我的 web config 中进行授权
Scikit-learn，GMM：从 .means_ 属性返回的问题

所以显然 means 属性返回的结果与我为每个簇计算的平均值不同或者我对返回的内容有错误的理解以下是我编写的代码用于检查 GMM 如何适合我拥有的时间序列数据 import numpy as np import pandas as p

Scikit-learn，GMM：从 .means_ 属性返回的问题

Scikit-learn，GMM：从 .means_ 属性返回的问题 的相关文章

随机推荐

热门标签

Scikit-learn，GMM：从 .means_ 属性返回的问题的相关文章