K-Medoids 真的比 K-Means 更擅长处理异常值吗？（举例说明相反）

2023-12-27

K-中心点 and K-Means是两种流行的分区聚类方法。我的研究表明，当存在异常值时，K-Medoids 更擅长对数据进行聚类（source https://stackoverflow.com/questions/21619794/what-makes-the-distance-measure-in-k-medoid-better-than-k-means）。这是因为它选择数据点作为聚类中心（并使用曼哈顿距离），而 K-Means 选择任何使平方和最小的中心，因此更容易受到异常值的影响。

这是有道理的，但是当我使用这些方法对虚构数据进行简单测试时，并不表明使用 Medoids 可以更好地处理异常值，事实上有时确实如此worse。我的问题是：在下面的测试中我哪里出错了？也许我对这些方法有一些根本性的误解。

演示：（参见here https://i.stack.imgur.com/mup4r.jpg用于图片）首先，一些虚构的数据（名为“comp”）构成了 3 个明显的集群

x <- c(2, 3, 2.4, 1.9, 1.6, 2.3, 1.8, 5, 6, 5, 5.8, 6.1, 5.5, 7.2, 7.5, 8, 7.2, 7.8, 7.3, 6.4)
y <- c(3, 2, 3.1, 2.6, 2.7, 2.9, 2.5, 7, 7, 6.5, 6.4, 6.9, 6.5, 7.5, 7.25, 7, 7.8, 7.5, 8.1, 7)

data.frame(x,y) -> comp

library(ggplot2)
ggplot(comp, aes(x, y)) + geom_point(alpha=.5, size=3, pch = 16)

它与包“vegclust”聚集在一起，它可以执行 K-Means 和 K-Medoids。

library(vegclust)
k <- vegclust(x=comp, mobileCenters=3, method="KM", nstart=100, iter.max=1000) #K-Means
k <- vegclust(x=comp, mobileCenters=3, method="KMdd", nstart=100, iter.max=1000) #K-Medoids

制作散点图时，K-Means 和 K-Medoids 都会选取 3 个明显的簇。

color <- k$memb[,1]+k$memb[,2]*2+k$memb[,3]*3 # Making the different clusters have different colors

# K-Means scatterplot
ggplot(comp, aes(x, y)) + geom_point(alpha=.5, color=color, pch = 16, size=3)

# K-Medoids scatterplot
ggplot(comp, aes(x, y)) + geom_point(alpha=.5, color=color, size=3, pch = 16)

现在添加了一个异常值：

comp[21,1] <- 3
comp[21,2] <- 7.5

该异常值将蓝色簇的中心移至图表左侧。

因此，当对新数据使用 K-Medoids 时，蓝色簇的最右边的点被断开并加入红色簇。

有趣的是，K-means 实际上偶尔会根据随机初始聚类中心（您可能需要运行多次才能获得正确的聚类）使用新数据生成更好（更直观）的聚类，而 K-Medoids 总是生成错误的聚类。

从这个例子中可以看出，K-Means 实际上比 K-Medoids 更擅长处理异常值（相同的数据、相同的包等）。我在测试中是否做错了什么或者误解了这些方法的工作原理？

None

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

K-Medoids 真的比 K-Means 更擅长处理异常值吗？（举例说明相反）的相关文章

R 中带有变音符号的字符列表

我试图将字符串中的电话字符出现次数制成表格但变音符号单独作为字符制成表格理想情况下我有一个国际音标的单词列表其中包含大量变音符号以及它们与基本字符的几种组合我在这里给出了仅包含一个单词的 MWE 但对于单词列表和更多类型的组合
如何合并具有相同列名的数据框

我有一个数据框如下所示 structure list Variables structure list ADA ADA LEAD LEAD BIG4 BIG4 LOGMKT LOGMKT LEV LEV ROA ROA ROAL ROAL
在前两个冒号上分割字符串

我想在前两个冒号上拆分一列字符串但不在任何后续冒号上拆分 my data lt read table text my string some data 123 34 56 78 100 87 65 43 21 200 a4 b6 c888
R 比较所有列对的每个值[重复]

这个问题在这里已经有答案了我有一个 18x18 的数据框我想将所有可能的列对相互比较以便对于每对两列 18 行中的值相互比较由于我的数据太大无法放在这里我写了一个小例子来说明到目前为止我所想到的 gt a lt c 1 18 g
R 中的金字塔图

对于示例数据集我按国家地区创建了一个金字塔图显示人口中男性和女性超重的水平 library plotrix xy males overweight lt c 23 2 33 5 43 6 33 6 43 5 43 5 43 9 33
R data.table：在当前测量之前对出现次数进行计数

我有一组在几天内进行的测量结果测量次数通常为 4 任何测量中可以捕获的数字范围为 1 5 在现实生活中给定测试集范围可能高达 100 或低至 20 我想每天计算每个值在当天之前发生的次数让我用一些示例数据来解释 test data
将整数“20160119”转换为“日”“年”“月”的不同列

如何将一列整数转换为日期 DATE PRCP 1 19490101 25 2 19490102 5 3 19490118 18 4 19490119 386 5 19490202 38 到这样的表 days month years PRCP
rle 命令帮助

我在使用 rle 命令时遇到了一些麻烦该命令旨在找到参与者连续达到 8 个连续参与者的点例如如果 x lt c 0 1 0 1 1 1 1 1 1 1 1 1 我想返回值 11 感谢 DWin 我一直在使用这段代码 which rle
使用示例代码继续在 ggplot2 中遇到错误“loop_apply”未从当前命名空间（plyr）解析”

我今天一直遇到这个错误我已经从 github 下载了 plyr 但它仍然不起作用安装 plyr 后我重新启动了 R studio 甚至我的电脑看来问题可能是由于 R 解析对外部 DLL 的引用的方式发生了变化正如线程中途提到的he
在 R 中按邮政编码绘制美国地图上的点，并插入阿拉斯加和夏威夷

我正在尝试以密度点格式在美国地图上绘制点其中每个邮政编码的点的大小根据该邮政编码中从事某种职业的人数而定我已经非常接近我需要的东西但正在努力获取阿拉斯加和夏威夷的坐标它们需要在插图上这里的第一组代码是我所拥有的 loc full2
寻找一种有效的方法来计算两个表中间隔集之间的重叠数量？

注意为了方便起见我使用上一篇文章中的示例数据集假设有两个数据集 ref and map 他们是 ref lt data table space rep nI 3 t1 c 100 300 500 t2 c 150 400 600 id
三角形内的热图

考虑以下示例 triangle lines lt data frame X c 0 0 1 1 0 5 0 5 Y c 0 0 0 0 1 1 grp c 1 2 1 3 2 3 df lt matrix c c 0 2 0 5 0 8 c
Dplyr select_ 和starts_with 对变量列表中的多个值进行选择

我正在从不同位置的不同传感器收集数据数据输出类似于 df lt data frame date c 2011 2012 2013 2014 2015 Sensor1 Temp c 15 18 15 14 19 Sensor1 Pressu
在r中的数据框中循环线性回归输出

我有一个下面的数据集我想在其中对每个国家和州进行线性回归然后绑定数据集中的预测值添加另外三列后的最终数据框我已经对一个国家和一个地区进行了此操作但想对每个国家和地区进行此操作并将预测值上限值和下限值放回到cbind的数据集中
R strsplit之前（和之后）保留两个分隔符

我有一个如下所示的字符串 x lt 01 01 121210 01 0001 我想将其分成一个向量以便得到以下内容 1 0 1 01 1 2 1 2 1 0 01 0 0 0 1 可以是或括号之间的位数可以是 2 个或更多我一直试图
在R中重新排序字母数字年龄组

假设这就是 R 给我的 df1 data frame grp c lt 2 2 5 21 26 27 32 6 10 val rep 0 5 grp val 1 lt 2 0 2 2 5 0 3 21 26 0 4 27 32 0 5 6
R 中 bquote 中的拼接

假设我正在使用 R 的反引号运算符构建一个表达式bquote 并且我想在列表中的特定位置拼接即丢失列表的外括号例如我有表达式 5 4 我想在其开头添加 6 而不使用字符串操作即完全对符号结构进行操作 So gt b quote 5
如何在 ifelse 中使用示例

我有以下清单 x rep a 100 如果我使用下表 ifelse x a sample c 1 100 1 0 当我第一次运行时我得到以下输出 1 22 22 22 22 22 22 22 22 22 22 22 22 22 22 22
使用 dplyr 通过管道删除空列

我有一个宽格式的参与者问卷答复数据框每列代表一个特定的问题项目数据框看起来像这样 id lt c 1 2 3 4 Q1 lt c NA NA NA NA Q2 lt c 1 4 5 Q3 lt c NA 2 3 4 Q4 lt c 2
读取 csv 文件时出错

我有一个 xlsx 文件为了从 Rstudio 读取我将其保存为 csv 文件现在当我尝试从 Rstudio 读取文件时收到以下错误 setwd D DATA SCIENCE CCPP Linear regression ccpp

随机推荐

HBASE 行前缀在 hbase 中按相反顺序扫描

我有一个以下形式的行键
如何更新 MKPinAnnotationView 上的信息？

我过去有一些使用经验MKMapView and MKPointAnnotation 我用来在地图上放置一些图钉这次我尝试更进一步并使用MKPinAnnotationView 与一些引脚一起写入标签不幸的是它并没有完全按照我的预期工作
如何通过模态编辑mysql中的数据

我的这段代码一直有错误我是引导程序和使用模式的新手我曾经为所有花哨表单使用子表单但现在我正在转向模态表单这是我获取模态的代码
gitcherry pick时如何更新时间

我理解正确吗当cherry pick一个提交时提交哈希ID和提交日期将会改变但是AuthorDate与之前的提交保持相同如果 1 为真我该如何更新AuthorDate樱桃什么时候也摘是的新的提交是new提交因此它必然具有不同
如何将从 url 检索到的图像存储在 SQLite 数据库中？

我正在从 url 检索图像是否可以将图像存储在 SQLite 数据库中而不是缓存图像 Simple Constructor saving the parent context public ImageAdapter Context c
Bootstrap Datetimepicker 更改事件未触发

Bootstrap Datetimepicker 更改事件不会无错误地触发有什么线索吗 https github com Eonasdan bootstrap datetimepicker blob master docs Events
iOS：我如何接收 HTTP 401 而不是 -1012 NSURLErrorUserCancelledAuthentication

我遇到了与下面链接中描述的问题类似的问题 NSHTTPURLResponse statusCode 在本应为 401 时返回零 https stackoverflow com questions 2188099 nshttpurlrespo
(IBAction)按钮来标记输出

你好我是 iphone SDK 对象 C 编程的新手我想问的问题是我如何运行一个带有 2 个按钮递增 1 和递减 2 的程序以在标签中显示结果每次我单击增量1 或减量1 时结果都会发生变化抱歉我对对象 C 编程非常陌生
相同的颜色在 SpriteView 和 SceneView 中呈现不同的效果

出于性能原因我必须在 macOS 项目中从 SceneView 切换到 SpriteView 显示超过 63 个场景无法使用 SceneView 但可以使用 SpriteView 但现在我面临一个问题 SpriteView 渲染颜色与 S
.NET 将类解析为错误的 DLL

我的 C 项目引用了两个第三方 DLL 这很重要因为这意味着我无法访问源代码也无法修改或重新编译这两个 DLL 我们称它们为 dll A 和 dll B dll A 如下所示 namespace ThirdParty Foo publi
如何使用 ASM 4.0 修改 Java 字节码

我是 ASM 框架的新手我已经围绕这个 ASM 框架工作了一个星期我在网上看到了有关解析类和从头开始生成 class 文件的教程但我无法理解如何修改 ASM 中的现有类我无法跟踪之间的执行流程ClassVisitor ClassWr
即使刷新后也保留文本框值

我想即使在刷新页面之后也保留文本框值而不是成功提交使用 cookie 或使用 php 会话这是下面的代码 div class block content collapse in div class alert alert succes
将自动换行样式应用于 extjs 图表标签

我正在研究 extjs 图表当轴标签有大文本时图表边缘的文本会被截断如何自动换行长标签有什么建议么这是我的代码 https fiddle sencha com fiddle 15ef https fiddle sencha com
访问标准 Android 设置：SIM 卡的 PIN 码

这是我的第一个问题我想知道如何访问 Android 中的标准设置特别是 SIM 功能启动时我的三星 i 9000 仅显示插入 PIN 码的窗口几秒钟然后消失因此我想自己开发一个用于主屏幕的小部件启动标准窗口以插入 PIN 码
如何使用 barplot 绘制辅助 y 轴？

我正在尝试绘制数据见下文公司名称位于 x 轴 status mission 2 y 位于 y 轴百分比位于另一个 y 轴我尝试过使用 twinx 函数但无法让它工作 def twinplot data x data columns
有没有人有一个用 C++ 封装函数的例子？

我在网上搜索了很多但找不到适用于 g 的示例所有示例都适用于 GCC 我不断收到的错误是 wrap malloc o In function wrap malloc unsigned int wrap malloc cc text 0x
在NestJs中，如何根据其接口注入服务？

我有下一个模块 payment module ts Module controllers PaymentController export class PaymentModule 在下一个服务中我想访问基于接口的服务支付服务 ts exp
在线鼠标悬停在 d3 js 中不会给出圆圈

当鼠标悬停在网上时我尝试画圈例如this http nvd3 org 我用的是 d3 js 而不是 nvd3 我的代码是
SQL# 符号是什么意思以及如何使用它？

有人可以向我解释一下是什么吗符号在 MS SQL 代码中的含义我尝试过谷歌搜索甚至在 StackOverflow 上搜索但似乎找不到答案我感觉自己像个白痴度过了那些日子请帮忙它们通常为临时表添加前缀来自docs ht
K-Medoids 真的比 K-Means 更擅长处理异常值吗？（举例说明相反）

K 中心点 and K Means是两种流行的分区聚类方法我的研究表明当存在异常值时 K Medoids 更擅长对数据进行聚类 source https stackoverflow com questions 21619794 what

K-Medoids 真的比 K-Means 更擅长处理异常值吗？ （举例说明相反）

K-Medoids 真的比 K-Means 更擅长处理异常值吗？ （举例说明相反） 的相关文章

随机推荐

热门标签

K-Medoids 真的比 K-Means 更擅长处理异常值吗？（举例说明相反）

K-Medoids 真的比 K-Means 更擅长处理异常值吗？（举例说明相反）的相关文章