图像分类的5种评价指标详解！附代码实例

2023-09-28 17:30 作者:深度之眼官方账号 0人读过 | 我要投稿

来源：投稿作者：AI浩
编辑：学姐

摘要

一般情况来说，单一评分标准无法完全评估一个机器学习模型。只用good和bad偏离真实场景去评估某个模型，都是一种欠妥的评估方式。单标签分类的评价指标有：混淆矩阵，准确率(Accuracy)，精确率（Precision），召回率（Recall），F1-score，ROC曲线和AUC。

1、混淆矩阵

TP:正样本且分类为正样本的数目为（True Positive）
FN:标签为正样本分类为负样本的数目（Flase Negative）
FP:标签是负样本分类为正样本的数目（Flase Positive）
TN：标签是负样本且分类为负样本的数目（True Negative）

第一种混淆矩阵:

第二种混淆矩阵:

2、准确率(Accuracy)

准确率(Accuracy)是最常用的指标，指的是分类正确的样本数占样本总数的比例，公式如下：

通俗的解释就是在所有样本中，预测正确的概率。

在实际使用中，我们还能经常看到ACC1和ACC5，分别是：

top1_acc就是说只有真实标签是预测出的概率最高的类，才算预测正确。
top5_acc就是说只要真实标签是预测出的概率最高的5个类之一，就算预测正确。

3、精确率（Precision）

预测出为阳性的样本中，正确的有多少。区别准确率（正确预测出的样本，包括正确预测为阳性、阴性，占总样本比例），又称查准率。公式如下：

通俗的解释就是正样本中，预测正确的概率。

需要注意的是， Precision 和 Accuracy 是不一样的，Accuracy 针对所有样本，而 Precision 仅针对检测出来（包括误检）的那一部分样本。

4、召回率（Recall）

正确预测为阳性的数量占总样本中阳性数量的比例，又称查全率。

例，在所有实际上有恶性肿瘤的病人中，成功预测有恶性肿瘤的病人的百分比，越高越好。

通俗的解释就是正样本被找到的概率。

5、F1-score

F1分数（F1-score）是分类问题的一个衡量指标。一些多分类问题的机器学习竞赛，常常将F1-score作为最终测评的方法。它是精确率和召回率的调和平均数，最大为1，最小为0。

6、代码样例

我在使用的sklearn里面的classification_report实现Precison、Recall、F1的计算，代码如下：

运行效果！

关注【学姐带你玩AI】公众号

回复“CVPR”获取500+篇顶会必读论文！

标签：