谁能帮我计算一下F-measure的总和吗?我知道如何计算召回率和精度,但不知道对于给定的算法如何计算一个 F 测量值。
举个例子,假设我的算法创建m集群,但我知道有n相同数据的聚类(由另一个基准算法创建)。
我找到了一份 pdf,但它没有用,因为我得到的集体值大于 1。pdf 的参考是F 措施解释 http://www.flowdx.com/F_Measure_explained.pdf。具体来说,我读过一些研究论文,其中作者在F-measure的基础上比较了两种算法,它们共同得到了0和1之间的值。
如果你仔细阅读上面提到的pdf,公式是F(C,K) = Σ |词 | / N * 最大值 {F(ci,kj)}
其中 ci 是参考簇,kj 是由其他算法创建的簇,这里 i 从 1 运行到 n,j 从 1 运行到 m。假设 |c1|=218 这里按照 pdf N=m*n 假设 m =12 且 n=10,我们得到 j=2 时的 max F(c1,kj)。当然F(c1,k2)在0和1之间。但是通过上面的公式计算的结果我们将得到大于1的值。
术语 f-measure 本身未明确指定。这是调和平均数,通常是精确度和召回率。实际上你甚至应该说F1-score如果您指的是未加权版本,因为您可以对两个输入值赋予不同的权重。但是,如果没有说明对哪两个值进行平均(不是算术平均值!),这并没有说明太多。
https://en.wikipedia.org/wiki/F1_score https://en.wikipedia.org/wiki/F1_score
请注意这些值必须在 0-1 值范围内。否则,您之前就会出错。
在聚类分析中,常用的方法是将F1-Measure应用于聚类的查准率和查全率pairs,通常称为“配对计数 f 测量”。但您也可以对其他值计算相同的平均值。
配对计数有一个很好的特性,即它不直接比较簇,因此当一个结果有 m 个簇,另一个有 n 个簇时,结果是明确定义的。然而,配对计数需要严格分区。当元素未聚集或分配给多个簇时,成对计数度量很容易超出 0-1 的范围。
- E. Achtert、S. Goldhofer、H.-P。克里格尔、E.舒伯特、A.齐梅克
聚类指标和视觉支持的评估
国际。会议。数据工程(ICDE 2012)
http://www.computer.org/portal/web/csdl/doi/10.1109/ICDE.2012.128 http://www.computer.org/portal/web/csdl/doi/10.1109/ICDE.2012.128
讨论其中一些指标(包括兰德指数等)并给出“配对计数 F 度量”的简单解释。
本文内容由网友自发贡献,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系:hwhale#tublm.com(使用前将#替换为@)