使用 Mclust 进行聚类会产生空聚类

2024-02-29

我正在尝试使用 Mclust 对我的经验数据进行聚类。使用以下非常简单的代码时：

library(reshape2)
library(mclust)

data <- read.csv(file.choose(), header=TRUE,  check.names = FALSE)
data_melt <- melt(data, value.name = "value", na.rm=TRUE)

fit <- Mclust(data$value, modelNames="E", G = 1:7)
summary(fit, parameters = TRUE)

R 给出了以下结果：

---------------------------------------------------- 
Gaussian finite mixture model fitted by EM algorithm 
---------------------------------------------------- 

Mclust E (univariate, equal variance) model with 4 components: 

log-likelihood    n df       BIC       ICL
  -20504.71 3258  8 -41074.13 -44326.69

Clustering table:
1    2    3    4 
0 2271  896   91 

Mixing probabilities:
    1         2         3         4 
0.2807685 0.4342499 0.2544305 0.0305511 

Means:
   1        2        3        4 
1381.391 1381.715 1574.335 1851.667 

Variances:
   1        2        3        4 
7466.189 7466.189 7466.189 7466.189

编辑：这是我的下载数据https://www.file-upload.net/download-14320392/example.csv.html https://www.file-upload.net/download-14320392/example.csv.html

我不太明白为什么 Mclust 给我一个空簇 (0)，尤其是其平均值与第二个簇几乎相同。仅当专门寻找单变量、等方差模型时，才会出现这种情况。使用例如 modelNames="V" 或保留默认值，不会产生此问题。

这个线程：聚类不包含观测值 https://stackoverflow.com/questions/62918397/cluster-contains-no-observations有类似的问题，但如果我理解正确的话，这似乎是由于随机生成的数据造成的？

我有点不知道我的问题出在哪里或者我是否遗漏了任何明显的东西。任何帮助表示赞赏！

正如您所指出的，集群 1 和集群 2 的平均值非常相似，并且碰巧那里有相当多的数据（请参见直方图上的峰值）：

set.seed(111)
data <- read.csv("example.csv", header=TRUE,  check.names = FALSE)
fit <- Mclust(data$value, modelNames="E", G = 1:7)
hist(data$value,br=50)
abline(v=fit$parameters$mean,
col=c("#FF000080","#0000FF80","#BEBEBE80","#BEBEBE80"),lty=8)

简而言之，mclust 或 gmm 是概率模型，它估计簇的均值/方差以及属于每个簇的每个点的概率。这与 k-means 提供的硬分配不同。所以模型的似然度就是每个数据点属于每个簇的概率之和，你可以查看一下也在 mclust 的出版物中 https://www.ncbi.nlm.nih.gov/pmc/articles/PMC5096736/

在此模型中，聚类 1 和聚类 2 的均值接近，但它们的预期比例不同：

fit$parameters$pro
[1] 0.28565736 0.42933294 0.25445342 0.03055627

这意味着如果您有一个大约为 1 或 2 均值的数据点，它将一致地分配给聚类 2，例如，让我们尝试预测从 1350 到 1400 的数据点：

head(predict(fit,1350:1400)$z)
             1         2          3            4
[1,] 0.3947392 0.5923461 0.01291472 2.161694e-09
[2,] 0.3945941 0.5921579 0.01324800 2.301397e-09
[3,] 0.3944456 0.5919646 0.01358975 2.450108e-09
[4,] 0.3942937 0.5917661 0.01394020 2.608404e-09
[5,] 0.3941382 0.5915623 0.01429955 2.776902e-09
[6,] 0.3939790 0.5913529 0.01466803 2.956257e-09

The $classification通过取概率最大的列来获得。因此，同样的示例，所有内容都分配给 2：

 head(predict(fit,1350:1400)$classification)
[1] 2 2 2 2 2 2

回答你的问题，不，你没有做错任何事，至少对于 GMM 的实现来说，这是一个后备。我想说这有点过度拟合，但你基本上可以只采用具有成员资格的集群。

如果您使用 model="V"，我发现解决方案同样有问题：

fitv <- Mclust(Data$value, modelNames="V", G = 1:7)
plot(fitv,what="classification")

使用 scikit learn GMM 我没有看到类似的问题。因此，如果您需要使用具有球形均值的高斯混合，请考虑使用模糊 kmeans：

library(ClusterR)
plot(NULL,xlim=range(data),ylim=c(0,4),ylab="cluster",yaxt="n",xlab="values")
points(data$value,fit_kmeans$clusters,pch=19,cex=0.1,col=factor(fit_kmeans$clusteraxis(2,1:3,as.character(1:3))

如果不需要等方差，可以使用GMM https://rdrr.io/cran/ClusterR/man/GMM.htmlClusterR 包中也有此功能。

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

使用 Mclust 进行聚类会产生空聚类的相关文章

使用 r 以周为单位对数据进行分组

I have a CVS file which has data for different countries at different weeks of this year I want to create a summary data
R：交换两个变量而不使用第三个变量

我有两个变量即 a lt 1 b lt 2 我想交换他们的价值观是否有任何内置的 R 函数能够执行该操作或者是否有其他优雅的方式而不使用第三个临时变量 Note 如果可能的话适用于字符串或其他数据类型有一个通用的解决方案或技
如何在 Shiny 应用程序中访问/打印/跟踪当前选项卡选择？

我正在一个闪亮的应用程序中工作我希望能够访问用户在会话中当前所在选项卡上的信息我有一个观察事件用于侦听要单击的特定按钮简而言之我想存储打印用户单击此按钮时所在的当前选项卡单击此按钮后选项卡将更改为带有 updateTabIt
将多个函数应用于一个向量

我正在寻找一种将多个函数应用于一个向量的选项我认为这对于逆应用函数来说是一种仁慈其中一个函数应用于许多向量或列有没有办法指定两个或多个函数例如 min 和 max 并将其应用于向量与 CathG的评论类似但没有get v lt
正则表达式在 R 中同时多次包含字母/特殊字符时删除单词

我想删除那些单词中字母特殊字符的数量同时出现两次以上的单词例如输入就像 Google in theee lland of whhhat c c and e 输出应该是 Google in lland of c c and x lt G
R：适合显示具有倾斜计数的数据的图

我有这样的数据 Name Count Object1 110 Object2 111 Object3 95 Object4 40 Object2000 1 因此只有前 3 个物体的计数较高其余 1996 个物体的数量少于 40 个其中
为什么在 R 中绘图时，hovertemplate 无法正确显示某些数据点

mydat2 lt data frame subject c math english chemistry score c 80 50 65 class c A B A count c 50 60 70 library plotly plo
了解日期并使用 R 中的 ggplot2 绘制直方图

主要问题当尝试使用 ggplot2 制作直方图时我无法理解为什么日期标签和中断的处理无法像我在 R 中预期的那样工作我在找我的约会频率的直方图刻度线位于匹配条下方的中心日期标签在 Y b format 适当的限制最小化网格空
在 mutate pipeline 中按组获取唯一 ID [重复]

这个问题在这里已经有答案了自从新的 dplyr v1 0 0 更新发布以来我注意到该功能group indices 有已弃用我在工作中经常使用这个功能并且我喜欢在mutate 例如使用dplyr v0 8 3我能够非常轻松地做这样
使用插入符号完全可重现的并行模型

当我在插入符中运行 2 个随机森林时如果设置随机种子我会得到完全相同的结果 library caret library doParallel set seed 42 myControl lt trainControl method cv
从 r 中的多个列表创建二进制（存在/不存在）数据矩阵

我有一系列不同长度的单独变量列表字符串我想将它们组合成一个数据帧以形成存在 1 不存在 0 矩阵鉴于它们的长度不同我什至不知道如何创建初始数据框这是我的例子 data1 lt c a b c d e f data2 lt c e
使用 R 数学独立库使用 C++ 编写矩阵/向量？

All 我一直在使用 C 中的 R 数学独立库我非常喜欢能够生成随机数并使用我熟悉的 R 分布函数我的问题是是否可以使用 R 中可用的矩阵运算乘法转置逆 Chol 等一个独立的库我在 Rmath h 中没有看到它们如果矩阵
使用 writeLines 将变量写入文件

我发现此链接对于理解如何将行写入文件非常有帮助将文本行写入 R 中的文件 https stackoverflow com questions 2470248 write lines of text to a file in r 不幸的是
从数据帧创建 sf 多边形

我有一个包含一组多边形坐标的数据框这就是我将其转换为spatialPolygons 包sp 的方法 my df lt data frame Plot c A A A A A B B B B B Corner c SW NW NE SE S
相对于时间求平均值

我有以下带有日期时间和相应值的数据集时间间隔为每10分钟一次我需要以 15 分钟的间隔生成新行例如 15 40 的值为 599 15 50 的值为 594 因此需要在两者之间生成一个新行即 15 45 的平均值为 599 和 594
在 R 中运行 glmnet 包，出现错误“缺少 TRUE/FALSE 需要的值”，可能是由于缺少值？

我正在尝试使用glmnet来自glmnet运行 LASSO 回归的包我正在使用以下命令 library glmnet glmnet a b family binomial alpha 1 我收到错误 gt Error in if all
从R中的序列中随机提取多个连续项

Frag lt seq 1 30000 K lt 9 P lt sample 1 K 1 sys sample lt Frag seq P length Frag K 现在 sys sample 包含 3333 个数字如何在R中随机提取1
R 语言 NaN + NA 行为

我有一个关于 R 中算术行为的问题看下面这段代码 gt NaN NA 1 NaN gt gt gt NaN as integer NA gt NA 所以我很困惑这两个添加给出了不同的结果有谁知道这是否是真正想要的行为还是只是某种错误
R 计算股票的 beta（使用 PerformanceAnalytics CAPM.beta() 函数或 lm() 函数产生意外结果）

我正在尝试使用 PerformanceAnalytics CAPM beta 函数量化 R 中股票的 beta 基准测试与 SPY 结果甚至与我在 Yahoo Google Finance 在线看到的值不接近代码 require Perf
R 中的整数或双精度列表

我有一个大约 1000 个整数的列表我需要能够进行一些数学计算但它们被困在列表或字符形式中我怎样才能切换它们以便它们可用样本数据 gt y 1 1 7 3 1 6 7 1 7 6 5 3 1 3 3 0 6 2 4 9 19 1 9

随机推荐

仅冻结 html 表格的顶行（固定表格标题滚动）

我想制作一个顶行冻结的 html 表格这样当你垂直向下滚动时你总是可以看到它有没有一种聪明的方法可以在不使用 JavaScript 的情况下实现这一点请注意我不需要冻结左列我知道这有几个答案但这些都没有真正帮助我我发现本文 h
如何使用 JavaPOS 通过 Epson 打印机打印收据？

如何开发 Java 软件来使用 Epson 收据打印机打印收据从 Epson 网站获取 Epson JavaPOS ADK 您需要注册才能下载确保您安装了 32 位 JVM Install the Epson JavaPOS ADK 选
在Java中反转大量文本文件

反转异步上传到 servlet 的大型文本文件以可扩展且高效的方式反转该文件的最佳方法是什么文本文件可能很大千兆字节长可以假设多个服务器集群环境以分布式方式执行此操作鼓励开源图书馆考虑我正在考虑使用 Java NIO 将文件
页脚位于底部但不粘

我试图让页脚齐平到页面底部但不一定是粘性的只需位于底部以防用户向下滚动这有效但页脚出现后底部似乎有一些空白看起来有点尴尬有谁知道CSS将页脚刷新到底部并保持在最底部而不使其粘着的最佳方法吗如果您希望我发布我的 html c
如何在 django Rest 框架中将多个变量传递给 modelViewSet？

我在用http www django rest framework org http www django rest framework org 我有一个场景我想根据需要从数据库获取数据来传递两个或多个变量在下面的代码中只有 pk 存
Wicket @SpringBean 不创建可序列化代理

SpringBean PDLocalizerLogic loc 当使用上面时我收到 java io NotSerializedException 这是因为 loc 不可序列化但这不应该成为问题因为 spring bean 是可序列化的
将切片扩展到其容量的最简单方法是什么？

我有一个程序它使用缓冲池来减少代码中一些性能敏感部分的分配像这样的事情播放链接 https play golang org p c gsqBcbE some file or any data source var r io Reade
Internet Explorer 无法识别 SVG 元素的 CSS

我有一个 SVG 图像地图链接上带有悬停样式有关 SVG 图像映射的更多信息here http thenewcode com 760 Create A Responsive Imagemap With SVG 我测试过的所有受人尊敬的浏
ChartJS 仅显示特定刻度的大字体大小

我试图强调 X 轴上的特定值如果它满足特定条件例如在我的codepen https codepen io nuclearslug pen NJGmmy我只想更改蓝色栏的字体大小这对于 Chart js 来说是可能的吗 var c
将文件添加到销售订单行项目

I want to add files to salesorder line items in Acumatica using web services What endpoint should be used 我想使用 Web 服务端点添
如何为 Closure 编译器设置 language_in 选项？

我需要在 Closure 编译器上设置 language in 选项以防止 IE8 解析错误错误解析错误 IE8 及更低版本将错误地解析数组和对象文本中的尾随逗号如果您的目标是较新版本的 JS 请设置适当的 language in
RavenDb - 远程服务器返回错误：(403) Forbidden

当我尝试在 RavenDb 上创建 database people 集合时出现以下错误远程服务器返回错误 403 禁止我在 IIS 上热了 Raven 但我不确定发生了什么在 raven Management Studio 上当我
单击按钮时手动触发 HTML 验证

我正在尝试处理按钮单击时的表单验证它正在验证表单但未显示错误有人可以帮我吗
如何在 React 上正确地将 onclick 处理程序绑定到 `this`

解释为什么这不是重复的我的代码已经可以工作我已将其作为评论包含在内问题是为什么this当我将其包含到单击处理程序函数时上下文会发生变化我正在尝试 React 中的计算器项目目标是将 onclick 处理程序附加到数字按钮以便数
Excel VBA将字符串的特定文本粗体设置到单元格中？

我想将字符串中的一些文本设置为粗体我该怎么做通过使用角色 Range A1 Characters 8 5 Font Bold True
以斜线为背景的形状

可以画一个Shape http msdn microsoft com en us library system windows shapes v VS 95 aspx其背景是由斜线构成的一个例子Rectangle 抱歉图像质量如果我想要
Android 用动画连续移动背景

我想做的是水平移动背景并让它无限重复我尝试使用ImageSwitcher用动画来实现这种效果但无法使其正常工作这是我到目前为止的代码L public class MainActivity extends AppCompatActivi
值连接不是 org.apache.spark.rdd.RDD 的成员

我收到此错误 value join is not a member of org apache spark rdd RDD Long Int Long String Array 0 forSome type 0 lt String Doub
使用不同的锚点重新加载页面

刚刚被一个问题困住了我有一个带有 Jquery UI 选项卡的页面通过向链接添加哈希标签可以从不同的页面访问每个选项卡并使用我需要的选项卡加载页面但是我还需要访问同一页面中的不同选项卡我想出的是添加目标 parent 到带有哈
使用 Mclust 进行聚类会产生空聚类

我正在尝试使用 Mclust 对我的经验数据进行聚类使用以下非常简单的代码时 library reshape2 library mclust data lt read csv file choose header TRUE check n

使用 Mclust 进行聚类会产生空聚类

使用 Mclust 进行聚类会产生空聚类 的相关文章

随机推荐

热门标签

使用 Mclust 进行聚类会产生空聚类的相关文章