计算聚类的 F 度量

2024-04-23

谁能帮我计算一下F-measure的总和吗?我知道如何计算召回率和精度,但不知道对于给定的算法如何计算一个 F 测量值。

举个例子,假设我的算法创建m集群,但我知道有n相同数据的聚类(由另一个基准算法创建)。

我找到了一份 pdf,但它没有用,因为我得到的集体值大于 1。pdf 的参考是F 措施解释 http://www.flowdx.com/F_Measure_explained.pdf。具体来说,我读过一些研究论文,其中作者在F-measure的基础上比较了两种算法,它们共同得到了0和1之间的值。 如果你仔细阅读上面提到的pdf,公式是F(C,K) = Σ |词 | / N * 最大值 {F(ci,kj)}
其中 ci 是参考簇,kj 是由其他算法创建的簇,这里 i 从 1 运行到 n,j 从 1 运行到 m。假设 |c1|=218 这里按照 pdf N=m*n 假设 m =12 且 n=10,我们得到 j=2 时的 max F(c1,kj)。当然F(c1,k2)在0和1之间。但是通过上面的公式计算的结果我们将得到大于1的值。


术语 f-measure 本身未明确指定。这是调和平均数,通常是精确度和召回率。实际上你甚至应该说F1-score如果您指的是未加权版本,因为您可以对两个输入值赋予不同的权重。但是,如果没有说明对哪两个值进行平均(不是算术平均值!),这并没有说明太多。

https://en.wikipedia.org/wiki/F1_score https://en.wikipedia.org/wiki/F1_score

请注意这些值必须在 0-1 值范围内。否则,您之前就会出错。

在聚类分析中,常用的方法是将F1-Measure应用于聚类的查准率和查全率pairs,通常称为“配对计数 f 测量”。但您也可以对其他值计算相同的平均值。

配对计数有一个很好的特性,即它不直接比较簇,因此当一个结果有 m 个簇,另一个有 n 个簇时,结果是明确定义的。然而,配对计数需要严格分区。当元素未聚集或分配给多个簇时,成对计数度量很容易超出 0-1 的范围。

  • E. Achtert、S. Goldhofer、H.-P。克里格尔、E.舒伯特、A.齐梅克
    聚类指标和视觉支持的评估
    国际。会议。数据工程(ICDE 2012)
    http://www.computer.org/portal/web/csdl/doi/10.1109/ICDE.2012.128 http://www.computer.org/portal/web/csdl/doi/10.1109/ICDE.2012.128

讨论其中一些指标(包括兰德指数等)并给出“配对计数 F 度量”的简单解释。

本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)

计算聚类的 F 度量 的相关文章

  • 在 matlab 中直观地将数据分为两类

    我有两个数据簇 每个簇都有 x y 坐标 和一个知道其类型的值 1 class1 2 class 2 我已经绘制了这些数据 但我想用边界 视觉上 分割这些类 做这样的事情的功能是什么 我尝试了轮廓 但没有帮助 考虑一下这个分类 http e
  • scikit-learn 中是否有可用的子空间聚类包

    scikit learn 中是否有任何类型的子空间聚类包可用 如果有人还有兴趣的话 是的 有一个使用 scikit learn 子空间聚类 https github com ChongYou subspace clustering 它是用于
  • 多类模型的准确率、精确度和召回率

    我该如何计算accuracy 精确 and recall对于混淆矩阵中的每个类 我正在使用嵌入式数据集 iris 混淆矩阵如下 prediction setosa versicolor virginica setosa 29 0 0 ver
  • 您使用什么数据挖掘工具? [关闭]

    就目前情况而言 这个问题不太适合我们的问答形式 我们希望答案得到事实 参考资料或专业知识的支持 但这个问题可能会引发辩论 争论 民意调查或扩展讨论 如果您觉得这个问题可以改进并可能重新开放 访问帮助中心 help reopen questi
  • R中PRROC包的精确召回曲线计算

    我的问题与this https stackoverflow com questions 25020788 in r calculate area under precision recall curve aupr问题 我对计算精确召回曲线
  • 谷歌地图 API v3 的服务器端集群

    我目前正在开发一种谷歌地图概述小部件 它将位置显示为地图上的标记 标记的数量从数百个到数千个 10000 个以上 不等 现在我正在使用谷歌地图的 MarkerClusterer v3 1 0和谷歌地图 javascript api v3 高
  • JavaScript 和科学处理? [关闭]

    Closed 这个问题是基于意见的 help closed questions 目前不接受答案 Matlab R 和 Python 功能强大 但对于我想做的一些数据挖掘工作来说要么成本高昂 要么速度缓慢 我正在考虑使用 Javascript
  • Python:3 维空间中的 DBSCAN

    我一直在寻找 3 维点的 DBSCAN 实现 但运气不佳 有谁知道我的图书馆可以处理这个问题或者有这方面的经验吗 我假设 DBSCAN 算法可以处理 3 个维度 通过将 e 值设置为半径度量并通过欧几里德分离测量点之间的距离 如果有人尝试过
  • 最相距的 k 个元素(聚类?)

    我有一个简单的机器学习问题 我有 n 110 个元素 以及所有成对距离的矩阵 我想选择相距最远的 10 个元素 也就是说 我想要 Maximize Choose 10 different elements Return min distan
  • R arules :从规则中提取 lhs 项

    我想从 arules 生成的规则中提取 lhs 项目 例如 a b c gt d 我希望能够提取a b c并将其放入字符向量中 以便我可以根据这些项目进行迭代和进一步处理 目前 我可以考虑解析这组规则 将其转换为数据帧 然后使用字符操作 正
  • 谱聚类

    首先 我必须说我是 matlab 以及这个网站 的新手 所以请原谅我的无知 我正在尝试在 matlab 中编写一个函数 该函数将使用谱聚类将一组点分成两个簇 我的代码如下 function Groups TrySpectralCluster
  • K 表示使用 PySpark 进行聚类

    我有一个非常大的数据框 我必须使用数据框中的特定 8 列 其中值要么是 强烈同意 同意 或 不同意 根据这 8 列 我需要创建一个新列来告诉该行属于哪个簇 1 8 最好使用 K 均值聚类 这在 PySpark 中可能吗 PS 我是 PySp
  • 在 python 中绘制 sklearn 集群

    我使用亲和力传播获得了以下 sklearn 集群 import sklearn cluster import numpy as np sims np array 0 17 10 32 32 18 0 6 20 15 10 8 0 20 21
  • python scikit-learn 缺失数据聚类

    我想对缺少列的数据进行聚类 手动执行此操作 我将在没有此列的情况下计算缺少列的距离 使用 scikit learn 不可能出现丢失数据的情况 也没有机会指定用户距离函数 是否有机会对缺失数据进行聚类 示例数据 n samples 1500
  • R:tuneRF 函数的行为不明确(randomForest 包)

    我对这句话的含义感到不舒服stepFactor的参数tuneRF http www inside r org packages cran randomForest docs tuneRF函数用于调整mtry进一步使用的参数randomFor
  • 将树形图导出为 R 中的表格

    我想将 hclust dendrogram 从 R 导出到数据表中 以便随后将其导入到另一个 自制 软件中 str unclass fit 提供了树状图的文本概述 但我正在寻找的实际上是一个数字表 我查看了 Bioconductor ctc
  • 有效地将相似的数字分组在一起[重复]

    这个问题在这里已经有答案了 可能的重复 一维数数组聚类 https stackoverflow com questions 11513484 1d number array clustering 我有一个数字数组 例如 1 20 300 4
  • 如何对搜索引擎关键词进行聚类?

    从 Google Analytics 中 我有一个 长 关键字列表 人们在搜索引擎中使用这些关键字来查找我的网站 我想找到 核心关键词 假设的例子 java online training learning java scala train
  • Scikit Learn - K-Means - 肘部 - 标准

    今天我想学习一些关于 K means 的知识 我已经了解该算法并且知道它是如何工作的 现在我正在寻找正确的 k 我发现肘部准则作为检测正确的 k 的方法 但我不明白如何将它与 scikit learn 一起使用 在 scikit learn
  • 使用 scikit 包在 Python 中绘制集群区域的边界

    这是我处理 3 个属性 x y 值 中的数据聚类的简单示例 每个样本代表其位置 x y 及其所属变量 我的代码发布在这里 x np arange 100 200 1 y np arange 100 200 1 value np random

随机推荐

  • 如何使用 Java 中的 Scanner 将输入值存储在数组中

    您好 我是 Java 新手 我正在尝试 Scanner 类 我试图解决一个小问题 我想输入两个输入 例如 4 5 6 和 8 9 0 我想将 4 5 6 存储在一个数组中 将 8 9 0 存储在另一个数组中 然后打印这些数组 但我无法这样做
  • “:=”有什么作用?

    我见过 在多个代码示例中使用 但从未附带说明 如果不知道它的正确名称 就不可能通过谷歌搜索它的用途 它有什么作用 http en wikipedia org wiki Equals sign In computer programming
  • Gitolite 权限仅限于一个分支

    我有点困惑gitolite https gitolite com gitolite 权限 仅允许 1 个分支并拒绝特定用户或组的所有其他分支的最佳方法是什么 See 部分复制 分支的选择性读取控制 https gitolite com gi
  • 从列表转换为数字

    我正在从列表形式强制转换为数字形式 如果有用的话 列表最初是从一个因素中绘制的 并且是 1x33 行 我的列表定义为 tmpseqsf 1 其中规定 TradeValue 1 72914431 2 25325 3 20139 4 因此 根据
  • 与基于类的方法相比,使用 Hooks 设置状态后重新渲染有什么区别?

    类组件 在 React 类组件中 我们被告知setState always导致重新渲染 无论状态是否实际更改为新值 实际上 一个组件will当状态更新到时重新渲染same以前的价值 文档 setState API 参考 https reac
  • ViewPager内部的TextView拦截触摸事件

    我有一个ViewPager包含两个片段 在任何片段中我都可以触摸一个地方 滑动即可切换到另一个地方fragment 其中一个片段包含一个列表 列表中的项目包含一项TextView和一个ImageView 问题是 如果您是从点击开始拖动的Im
  • 未定义的索引:php 脚本中的错误

    在 php 页面中我有以下代码 if REQUEST c I get error on this line itself Why pidis int REQUEST c 我不断收到未定义索引错误 在谷歌搜索上 我设法理解 如果我们尝试访问的
  • Visual Studio 设置以在运行时删除对 dll 文件的依赖

    到处都有人建议当 Visual Studio 在运行时找不到 DLL 时如何让 Visual Studio 知道 但我想知道在哪里删除该选项 以便 Visual Studio 在运行时不会尝试查找 dll 文件 我昨天也有类似的问题 但没有
  • Spring XML 406错误

    我正在尝试使用 Java 制作 RESTful 服务 使用多个教程和许多 StackOverflow 条目 不幸的是 我似乎无法让我的代码工作 当我尝试到达端点时 我一直收到 Http 406 任何帮助表示赞赏 GreetingContro
  • 工厂中的依赖注入

    我对 DI 很陌生 但我真的很想尝试使用它 有件事我不明白 这是一个简单的工厂伪代码 我经常使用 class PageFactory public function construct dependency list save refere
  • CLLocationManagerDelegate 协议中的挂钩

    我已经 3 天遇到问题了 我想在 CLLocationManagerDelegate 协议中挂钩此方法 void locationManager CLLocationManager manager didUpdateLocations NS
  • 在 Corona sdk 上保存高分?

    我想保存游戏中创建的高分 并且当玩家点击高分按钮时可以在主菜单中看到 有人可以帮助我吗 您可以使用SQLITE https docs coronalabs com api library sqlite3 index html将高分保存到数据
  • 使用 Puppet 配置远程规则集

    我正在尝试使普罗米修斯自动化node exporter和我的普罗米修斯服务器 为了node exporter我已经编写了一个模块来安装所有需要的软件包 设置 ipaddress基于facter还有更多 现在我想确保收集到的信息 hostna
  • Haskell-Stack:构建期间出现访问冲突错误

    过去几天我一直在尝试使用堆栈构建我的 Haskell 项目 但遇到了访问冲突错误 据我了解 我有最新的堆栈版本和 GHC 这一切最初都是有效的 直到我将一个库添加到我的 cabal 文件中 我现在已经将其删除 但错误仍然出现 我也恢复到我的
  • Flutter ListView收缩包装——嵌套ListView

    我在 ListView 中有一个 ListView 内部 ListView 不知道它的高度应该是多少 所以我必须用例如 SizedBox 给它一个特定的高度 然而问题是 我实际上希望内部 ListView 收缩包装 这样它就不会滚动 占用父
  • iPhone如何将一个视图控制器的视图添加到另一个视图控制器的视图?

    这一直在我的脑海里 我真的不知道如何正确地将一个视图控制器管理的视图添加到另一个视图控制器的视图中 这不起作用 因为视图未完成加载 self messageViewController PopupMessagesViewController
  • 如何创建 3 列响应式布局?

    我有一个 3 列布局 当从桌面访问它时 它显示如下 columnleft columncenter columnright 我希望从手机 平板电脑 调整大小浏览器查看它时是这样的 columnleft columncenter column
  • python 2.6 cPickle.load 导致 EOFError

    我使用 cPickle 来腌制整数列表 使用 HIGHEST PROTOCOL cPickle dump l f HIGHEST PROTOCOL 当我尝试使用以下代码来取消它时 我收到 EOFError 我尝试在 unpickle 之前
  • CNN 模型分类错误:logits 和标签必须可广播:logits_size=[32,10] labels_size=[32,13]

    这里我尝试在图像分类上运行 CNN 模型 这是批量大小和 13 个标签 Image batch shape 32 32 32 3 Label batch shape 32 13 Watch Back Watch Chargers Watch
  • 计算聚类的 F 度量

    谁能帮我计算一下F measure的总和吗 我知道如何计算召回率和精度 但不知道对于给定的算法如何计算一个 F 测量值 举个例子 假设我的算法创建m集群 但我知道有n相同数据的聚类 由另一个基准算法创建 我找到了一份 pdf 但它没有用 因