图像分类的5种评价指标详解!附代码实例
来源:投稿 作者:AI浩
编辑:学姐
摘要
一般情况来说,单一评分标准无法完全评估一个机器学习模型。只用good和bad偏离真实场景去评估某个模型,都是一种欠妥的评估方式。单标签分类的评价指标有:混淆矩阵,准确率(Accuracy),精确率(Precision),召回率(Recall),F1-score,ROC曲线和AUC。
1、混淆矩阵
TP
:正样本且分类为正样本的数目为(True Positive)FN
:标签为正样本分类为负样本的数目(Flase Negative)FP
:标签是负样本分类为正样本的数目(Flase Positive)TN
:标签是负样本且分类为负样本的数目(True Negative)
第一种混淆矩阵:

第二种混淆矩阵:

2、准确率(Accuracy)
准确率(Accuracy)是最常用的指标,指的是分类正确的样本数占样本总数的比例,公式如下:

通俗的解释就是在所有样本中,预测正确的概率。
在实际使用中,我们还能经常看到ACC1和ACC5,分别是:
top1_acc
就是说只有真实标签是预测出的概率最高的类,才算预测正确。top5_acc
就是说只要真实标签是预测出的概率最高的5个类之一,就算预测正确。
3、精确率(Precision)
预测出为阳性的样本中,正确的有多少。区别准确率(正确预测出的样本,包括正确预测为阳性、阴性,占总样本比例),又称查准率。公式如下:

通俗的解释就是正样本中,预测正确的概率。
需要注意的是, Precision
和 Accuracy
是不一样的,Accuracy 针对所有样本,而 Precision 仅针对检测出来(包括误检)的那一部分样本。
4、召回率(Recall)
正确预测为阳性的数量占总样本中阳性数量的比例,又称查全率。
例,在所有实际上有恶性肿瘤的病人中,成功预测有恶性肿瘤的病人的百分比,越高越好。

通俗的解释就是正样本被找到的概率。
5、F1-score
F1分数(F1-score)是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛,常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数,最大为1,最小为0。

6、代码样例
我在使用的sklearn
里面的classification_report
实现Precison、Recall、F1的计算,代码如下:
运行效果!

关注【学姐带你玩AI】公众号
回复“CVPR”获取500+篇顶会必读论文!