评估指标 -- Precision(查准率), Recall(查全率)和F1 score; PR曲线和mAP; ROC曲线和AUC

2023-11-11

Precision, Recall 和 F1 score

在这里插入图片描述
Precision – 查准率、精确率
Recall – 查全率、召回率

查准率和查全率是互相影响的，理想情况是希望两者都高，但是一般情况下查准率高、查全率就低，查全率高、查准率就低.
如果是做搜索，那就是保证查全的情况下提升查准率；如果做疾病监测、反垃圾，则是保证查准的条件下，提升查全率。

为了衡量在某一阈值下P和R的综合结果, 采用指标F1 score:
F 1 = 2 ∗ P ∗ R P + R F1 = \frac{2*P*R}{P+R} F1=P+R2∗P∗R

PR曲线与mAP(mean average precision)

知乎上关于mAP的解释: mean average precision（MAP）在计算机视觉中是如何计算和应用的？
PR曲线, mAP具体计算过程: 深度学习-目标检测评估指标P-R曲线、AP、mAP
总结: mAP是为解决P，R，F1 score的单点值局限性的。为了得到一个能够反映全局性能的指标.

因为P, R和F1 score都只能衡量模型在一个固定阈值下的性能, 但一般情况，不同阈值下, 模型会有不同的表现, 把不同阈值下的P, R记录下来, 可以得到一条PR曲线:
在这里插入图片描述
可以看到, 只看F1 score的话, 一开始红色模型不如黑色模型, 但是全局来看, 红色模型的性能比黑色模型要出色.

PR曲线下的面积, 叫做AP(average precision), N个分类类别得到N条PR曲线得到N个AP, 求平均得到mAP(mean average precision).

具体计算过程: (目标检测为例)

先把所有bbox找出来并加上confidence
然后每一类根据confidence从大到小排列
每一类中每个confidence计算与label对应的IOU, 根据设定的IOU阈值判断是否预测正确
每一类中每个confidence根据预测正误算出其recall和precision得到每一类的PR曲线, 曲线下的面积为对应该类的average precision
所有类取mean, 得到对应IOU阈值下的mean average precision, 如mAP50, mAP75等等(YOLO论文中叫AP50, AP75).

ROC曲线和AUC

对ROC曲线的理解: ROC和CMC曲线的理解
ROC曲线和PR曲线的区别与联系: 检测率，召回率，mAP，ROC
总结: PR曲线是表现查准率与查全率的变化关系, 适用于检索问题; ROC曲线是表现模型的预测结果中正误的变化关系, 适用于分类问题.

纵轴：真正类率(true postive rate TPR)灵敏度，代表分类器预测的正类中实际正实例占所有正实例的比例, TRP的值越大，说明预测的正类中实际的正类越多 T P R = T P T P + F N TPR = \frac{TP}{TP + FN} TPR=TP+FNTP横轴：负正类率(false postive rate FPR)特异度，代表分类器预测的正类中实际负实例占所有负实例的比例, FPR的值越大，说明预测的正类中实际的负类越多 F P R = F P F P + T N FPR = \frac{FP}{FP + TN} FPR=FP+TNFP

ROC曲线的意义:
对模型的预测结果score排序, 然后将预测为正负类的阈值从最大的score开始逐渐减小. 当阈值最大时, TP的数量最少, TPR接近0, 并且此时FP也最少, FPR也接近0. 阈值最大时, 对应坐标为(0, 0).
随着阈值的减小，越来越多的实例被划分为正类，即TP的数量越来越多，FN的数量越来越少，通过计算公式TP/(TP+FN)可以看到，TPR的值趋近于1；同时，当越来越多的实例被划分为正类时，这些正类当中也同样掺杂着真正的负实例，并且随着阈值的减少，TN的数量越来越少，通过计算公式FP/(FP+TN)可以看到，FPR的值趋近于1。因此，阈值最小时，对应坐标为（1，1）.

理想目标：TPR=1，FPR=0,即图中(0,1)点，故ROC曲线越靠拢(0,1)点，越偏离45度对角线越好.

AUC: ROC曲线下的面积, 取值范围在0.5和1之间. 意义是量化比较不同的ROC曲线.

ROC曲线的特性: 当测试集中的正负样本的分布变换的时候(分布不平衡)，ROC曲线能够保持不变.(PR曲线会发生较大变化)

本文内容由网友自发贡献，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系:hwhale#tublm.com(使用前将#替换为@)

统计学

模型评估