剪影分数怎么可能是负数?

2024-02-18

如果我们有一些数据点:

例如,我们使用 k-means 进行分段;所得到的线段是否不是每个点都最接近其各自簇的质心?如果是这样,当 Silhouette Score 比较 ai(到簇内点的平均距离)和 bi(到簇外点的平均距离)时,怎么会出现分数为负,或者 bi 小于 ai 的情况?

我可以看到,对于不同的分类算法,一些更复杂的分类算法可能会以不同的方式聚类,或者某些点分配不正确。但是 k 均值是如何发生这种情况的呢?


点 i 到簇中点的平均距离为not与其到该星团质心的距离相同。 Silhouette Score 在计算 a(i) 和 b(i) 时使用前者,而 k-means 在聚类分配时使用后者,因此可能会出现分歧。

例如,在下图中:假设蓝点已分配给一个集群,绿点已分配给另一个集群。红点将被分配到哪个簇?蓝色簇的质心位于 (0, 1),绿色簇的质心位于 (0, -1.15),因此红色点将分配给蓝色簇。然而,它到绿点的平均距离是 1.15,而到蓝点的平均距离是 1.414,所以它会得到负的轮廓分数。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

剪影分数怎么可能是负数? 的相关文章

  • 通过聚类中心进行0-9数字语音识别(matlab)——基于K-means聚类

    项目已免费开源 https gitee com zhengzsj automatic speech recognition ars tree master 1 技术路线 2 实现过程 层次聚类和K means聚类的样本是0 9语音每个数字各
  • 智能优化算法改进-K-means聚类种群初始化附Matlab代码

    目录 0引言 一 K means聚类原理 二 K Means聚类算法步骤 三 K Means聚类原理图 编辑 四 K means聚类改进智能优化算法种群初始化效果图 4 1 初始种群数据图 4 2 K means聚类结果图 4 2 1 根据
  • 机器学习实战笔记8(kmeans)

    前面的7次笔记介绍的都是分类问题 本次开始介绍聚类问题 分类和聚类的区别在于前者属于监督学习算法 已知样本的标签 后者属于无监督的学习 不知道样本的标签 下面我们来讲解最常用的kmeans算法 1 kmeans算法 算法过程 Kmeans中
  • kmeans算法和kmeans++

    kmeans算法及其优化改进 kmeans聚类算法 算法原理 kmeans的算法原理其实很简单 我用一个最简单的二维散点图来做解释 如上图 我们直观的看到该图可聚成两个分类 我们分别用红点和蓝点表示 下面我们模拟一下Kmeans是怎么对原始
  • 机器学习(三)K-means聚类(手肘法、轮廓系数、可视化代码)

    K means聚类 聚类是无监督学习当中非常重要的一部分 能够在没有标签的情况下将数据分类 说到聚类 最常用也是最重要的一个算法就是K means算法 算法介绍 K means是一种非常简单快速高效的算法 只需要迭代几次即可 其原理用一句话
  • 将matlab矩阵分成几个相等的部分

    我有一个大小矩阵64500x17 它代表检测到的文本特征 我必须用它来找到 5 个质心kmeans 我需要的是 把这个矩阵分成5份12900x17矩阵 找到方法 将它们连接成一个5x17矩阵输入到开始参数kmeans 我几乎知道如何做所有事
  • KMeans 聚类后的聚类点 (scikit learn)

    我已经使用 sklearn 使用 Kmeans 完成了聚类 虽然它有一种打印质心的方法 但我发现 scikit learn 没有一种方法来打印每个簇的簇点 或者我到目前为止还没有看到它 这很奇怪 有没有一种巧妙的方法来获取每个簇的簇点 我目
  • 如何设置Spark Kmeans初始中心

    我正在使用 Spark ML 来运行 Kmeans 我有一堆数据和三个现有中心 例如这三个中心是 1 0 1 0 1 0 5 0 5 0 5 0 9 0 9 0 9 0 那么我如何表明 Kmeans 中心是上述三个向量 我看到 Kmean
  • 在 Apache Spark Python 中自定义 K-means 距离公式

    现在我使用 K means 进行聚类和跟踪本教程 and API 但我想使用自定义公式来计算距离 那么如何使用 PySpark 在 k means 中传递自定义距离函数呢 一般来说 使用不同的距离度量没有意义 因为 k 均值 与k 中心点
  • 使用 scikit-learn.k-means 库输出最接近每个聚类中心的 50 个样本

    我使用 python scikit learn 库在 5000 多个样本上安装了 k 均值算法 我想要将最接近聚类中心的 50 个样本作为输出 我该如何执行这个任务 If km是 k means 模型 到j数组中每个点的第一个质心X is
  • 我自己的 R 中的 K 均值算法

    我是 R 编程的初学者 我正在 R 中进行此练习作为编程入门 我已经在 R 中实现了自己的 K 均值实现 但在某一点上卡住了一段时间 我需要达成共识 算法迭代直到找到每个簇的最佳中心 这是没有迭代的原始算法 它只是从整个数据中随机选取一个数
  • 使用 k 均值算法进行异常值检测

    我希望你能帮助我解决我的问题 我正在尝试使用 kmeans 算法来检测异常值 首先 我执行算法并选择那些距聚类中心距离较远的对象作为可能的异常值 我不想使用绝对距离 而是想使用相对距离 即对象到聚类中心的绝对距离与聚类中所有对象到其聚类中心
  • scikit-learn k-means:预测方法的真正作用是什么?

    当我使用 scikit learn 的 k means 实现时 我通常只调用fit 方法 这足以获得聚类中心和标签 这predict 方法用于计算标签 甚至fit predict 方法是为了方便起见 但如果我只能使用fit 目的是什么pre
  • Python 中的球形 k 均值实现

    我一直在使用scipy 的 k 均值 http docs scipy org doc scipy reference cluster vq html已经有一段时间了 我对它在可用性和效率方面的工作方式感到非常满意 然而 现在我想探索不同的
  • SOM(自组织映射)和 K 均值有什么区别?

    stackoverflow中只有一个与此相关的问题 更多的是关于哪个更好 我只是不太明白其中的区别 我的意思是它们都使用向量 这些向量被随机分配给集群 它们都使用不同集群的质心来确定获胜的输出节点 我的意思是 差异到底在哪里 在 K 均值中
  • 对一维数据进行最佳聚类? [关闭]

    Closed 这个问题正在寻求书籍 工具 软件库等的推荐 不满足堆栈溢出指南 help closed questions 目前不接受答案 有没有人有一篇论文解释如何CKmeans 1d dp http cran r project org
  • 剪影分数怎么可能是负数?

    如果我们有一些数据点 例如 我们使用 k means 进行分段 所得到的线段是否不是每个点都最接近其各自簇的质心 如果是这样 当 Silhouette Score 比较 ai 到簇内点的平均距离 和 bi 到簇外点的平均距离 时 怎么会出现
  • 最相距的 k 个元素(聚类?)

    我有一个简单的机器学习问题 我有 n 110 个元素 以及所有成对距离的矩阵 我想选择相距最远的 10 个元素 也就是说 我想要 Maximize Choose 10 different elements Return min distan
  • Sklearn.KMeans:如何避免内存或值错误?

    我正在研究图像分类问题 并且正在创建一个词袋模型 为此 我提取了所有图像的 SIFT 描述符 并且必须使用 KMeans 算法来找到用作我的词袋的中心 这是我拥有的数据 图片数量 1584 SIFT 描述符的数量 32 个元素的向量 571
  • 使用 scikit 包在 Python 中绘制集群区域的边界

    这是我处理 3 个属性 x y 值 中的数据聚类的简单示例 每个样本代表其位置 x y 及其所属变量 我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random

随机推荐