分类性能度量指标：ROC曲线、AUC值、正确率、召回率、敏感度、特异度

更新时间:2023-06-27 03:10:53 阅读：评论：0

分类性能度量指标：ROC曲线、AUC值、正确率、召回率、

敏感度、特异度

在分类任务中，⼈们总是喜欢基于错误率来衡量分类器任务的成功程度。错误率指的是在所有测试样例中错分的样例⽐例。实际上，这样的度量错误掩盖了样例如何被分错的事实。在机器学习中，有⼀个普遍适⽤的称为混淆矩阵()的⼯具，它可以帮助⼈们更好地了解分类中的错误。

⽐如有这样⼀个在房⼦周围可能发现的动物类型的预测，这个预测的三类问题的混淆矩阵如下表所⽰：

绍兴教育网

加勒比海盗4字幕

利⽤混淆矩阵可以充分理解分类中的错误了。如果混淆矩阵中的⾮对⾓线元素均为0，就会得到⼀个近乎完美的分类器。

在接下来的讨论中，将以经典的⼆分类问题为例，对于多分类类⽐推断。

⼆分类问题在机器学习中是⼀个很常见的问题，经常会⽤到。 (Receiver Operating Characteristic) 曲线和 (Area Under the Curve)值常被⽤来评价⼀个⼆值分类器 () 的优劣。之前做医学图像计算机辅助肺结节检测时，在评定模型预测结果时，就⽤到了ROC和AUC，这⾥简单介绍⼀下它们的特点，以及更为深⼊地，讨论如何作出ROC曲线图和计算AUC值。

⼀、医学图像识别⼆分类问题

针对⼀个⼆分类问题，我们将实例分成正类(positive)和负类(negative)两种。

例如：在肺结节计算机辅助识别这⼀问题上，⼀幅肺部CT图像中有肺结节被认为是阳性(positive)，没有肺结节被认为是阴性(negative)。对于部分有肺结节的⽰意图如下：

所以在实际检测时，就会有如下四种情况：

(1) 真阳性(True Positive，TP)：检测有结节，且实际有结节；正确肯定的匹配数⽬；

(2) 假阳性(Fal Positive，FP)：检测有结节，但实际⽆结节；误报，给出的匹配是不正确的；

(3) 真阴性(True Negative，TN)：检测⽆结节，且实际⽆结节；正确拒绝的⾮匹配数⽬；

(4) 假阴性(Fal Negative，FN)：检测⽆结节，但实际有结节；漏报，没有正确找到的匹配的数⽬。陕西会计培训

详细图解如下：(混淆矩阵)

上图中涉及到很多相关概念及参数，详细请见Wiki上的及其。

这⾥整理肺结节识别中的⼏个主要参数指标如下：

正确率()：

真阳性率(True Positive Rate，)，灵敏度()，召回率()：

真阴性率(True Negative Rate，)，特异度()：

假阴性率(Fal Negatice Rate，)，漏诊率( = 1 - 灵敏度)

假阳性率(Fal Positice Rate，)，误诊率( = 1 - 特异度)：

阳性似然⽐()：

阴性似然⽐()：

Youden指数()：

⼆、ROC曲线

ROC曲线：接收者操作特征曲线()，是反映敏感性和特异性连续变量的综合指标，roc曲线上每个点反映着对同⼀信号刺激的感受性。

对于分类器或者说分类算法，评价指标主要有，，等，以及这⾥要讨论的和。下图是⼀个ROC曲线的⽰例：

横坐标：1-Specificity，伪正类率(Fal positive rate， FPR)，预测为正但实际为负的样本占所有负例样本的⽐例；

纵坐标：Sensitivity，真正类率(True positive rate， TPR)，预测为正且实际为正的样本占所有正例样本的⽐例。

在⼀个⼆分类模型中，假设采⽤逻辑回归分类器，其给出针对每个实例为正类的概率，那么通过设定⼀个阈值如0.6，概率⼤于等于0.6的为正类，⼩于0.6的为负类。对应的就可以算出⼀组(FPR,TPR)，在平⾯中得到对应坐标点。随着阈值的逐渐减⼩，越来越多的实例被划分为正类，但是这些正类中同样也掺杂着真正的负实例，即TPR和FPR会同时增⼤。阈值最⼤时，对应坐标点为(0,0)，阈值最⼩时，对应坐标点(1,1)。

如下⾯这幅图，(a)图中实线为ROC曲线，线上每个点对应⼀个阈值。

(a) 理想情况下，TPR应该接近1，FPR应该接近0。ROC曲线上的每⼀个点对应于⼀个threshold，对于⼀个分类器，每个threshold下会有⼀个TPR和FPR。⽐如Threshold最⼤时，TP=FP=0，对应于原点；Threshold最⼩时，TN=FN=0，对应于右上⾓的点(1,1)。

(b) P和N得分不作为特征间距离d的⼀个函数，随着阈值theta增加，TP和FP都增加。

横轴FPR：1-TNR，1-Specificity，FPR越⼤，预测正类中实际负类越多。

纵轴TPR：Sensitivity(正类覆盖率)，TPR越⼤，预测正类中实际正类越多。

理想⽬标：TPR=1，FPR=0，即图中(0,1)点，故ROC曲线越靠拢(0,1)点，越偏离45度对⾓线越好，Sensitivity、Specificity越⼤效果越好。小学英语顺口溜

随着阈值threshold调整，ROC坐标系⾥的点如何移动可以参考：

三、如何画ROC曲线

对于⼀个特定的分类器和测试数据集，显然只能得到⼀个分类结果，即⼀组FPR和TPR结果，⽽要得到⼀个曲线，我们实际上需要⼀系列FPR和TPR的值，这⼜是如何得到的呢？我们先来看⼀下Wikipedia上对ROC曲线的：

In signal detection theory, a receiver operating characteristic (ROC), or simply ROC curve, is a graphical plot which illustrates the performance of a binary classifier system as its discrimination threshold is varied.

问题在于“as its discrimination threashold is varied”。如何理解这⾥的“discrimination threashold”呢？我们忽略了分类器的⼀个重要功能“概率输出”，即表⽰分类器认为某个样本具有多⼤的概率属于正样本（或负样本）。通过更深⼊地了解各个分类器的内部机理，我们总能想办法得到⼀种概率输出。通常来说，是将⼀个实数范围通过某个变换映射到(0,1)区间。

假如我们已经得到了所有样本的概率输出（属于正样本的概率），现在的问题是如何改变“discrimination threashold”？我们根据每个测试样本属于正样本的概率值从⼤到⼩排序。下图是⼀个⽰例，图中共有20个测试样本，“Class”⼀栏表⽰每个测试样本真正的标签（p 表⽰正样本，n表⽰负样本），“Score”表⽰每个测试样本属于正样本的概率。

接下来，我们从⾼到低，依次将“Score”值作为阈值threshold，当测试样本属于正样本的概率⼤于或等

于这个threshold时，我们认为它为正样本，否则为负样本。举例来说，对于图中的第4个样本，其“Score”值为0.6，那么样本1，2，3，4都被认为是正样本，因为它们的“Score”值都⼤于等于0.6，⽽其他样本则都认为是负样本。每次选取⼀个不同的threshold，我们就可以得到⼀组FPR和TPR，即ROC曲线上的⼀点。这样⼀来，我们⼀共得到了20组FPR和TPR的值，将它们画在ROC曲线的结果如下图：

当我们将threshold设置为1和0时，分别可以得到ROC曲线上的(0,0)和(1,1)两个点。将这些(FPR,TPR)对连接起来，就得到了ROC曲线。当threshold取值越多，ROC曲线越平滑。

其实，我们并不⼀定要得到每个测试样本是正样本的概率值，只要得到这个分类器对该测试样本的“评分值”即可（评分值并不⼀定在(0,1)区间）。评分越⾼，表⽰分类器越肯定地认为这个测试样本是正样本，⽽且同时使⽤各个评分值作为threshold。我认为将评分值转化为概率更易于理解⼀些。

四、AUC

AUC值的计算

AUC () 被定义为ROC曲线下的⾯积，显然这个⾯积的数值不会⼤于1。⼜由于ROC曲线⼀般都处于y=x这条直线的上⽅，所以AUC的取值范围⼀般在0.5和1之间。使⽤AUC值作为评价标准是因为很多

时候ROC曲线并不能清晰的说明哪个分类器的效果更好，⽽作为⼀个数值，对应AUC更⼤的分类器效果更好。

雅思成绩要求

AUC的计算有两种⽅式，梯形法和ROC AUCH法，都是以逼近法求近似值，具体见。

AUC意味着什么

那么AUC值的含义是什么呢？根据(Fawcett, 2006)，AUC的值的含义是：

The AUC value is equivalent to the probability that a randomly chon positive example is ranked higher than a

江南大学网络教育学院randomly chon negative example.

这句话有些绕，我尝试解释⼀下：⾸先AUC值是⼀个概率值，当你随机挑选⼀个正样本以及⼀个负样本，当前的分类算法根据计算得到的Score值将这个正样本排在负样本前⾯的概率就是AUC值。当然，AUC值越⼤，当前的分类算法越有可能将正样本排在负样本前⾯，即能够更好的分类。

从AUC判断分类器（预测模型）优劣的标准：

AUC = 1，是完美分类器，采⽤这个预测模型时，存在⾄少⼀个阈值能得出完美预测。绝⼤多数预测的场合，不存在完美分类器。

0.5 < AUC < 1，优于随机猜测。这个分类器（模型）妥善设定阈值的话，能有预测价值。

AUC = 0.5，跟随机猜测⼀样（例：丢铜板），模型没有预测价值。

AUC < 0.5，⽐随机猜测还差；但只要总是反预测⽽⾏，就优于随机猜测。

降价英文三种AUC值⽰例：

简单说：AUC值越⼤的分类器，正确率越⾼。

neighborhood是什么意思为什么使⽤ROC曲线

既然已经这么多评价标准，为什么还要使⽤ROC和AUC呢？因为ROC曲线有个很好的特性：当测试集中的正负样本的分布变化的时

候，ROC曲线能够保持不变。在实际的数据集中经常会出现类不平衡(class imbalance)现象，即负样本⽐正样本多很多(或者相反)，⽽且测试数据中的正负样本的分布也可能随着时间变化。下图是ROC曲线和曲线的对⽐：

在上图中，(a)和(c)为ROC曲线，(b)和(d)为Precision-Recall曲线。(a)和(b)展⽰的是分类其在原始测试集(正负样本分布平衡)的结果，(c)和(d)是将测试集中负样本的数量增加到原来的10倍后，分类器的结果。可以明显的看出，ROC曲线基本保持原貌，⽽Precision-Recall 曲线则变化较⼤。

Reference

Wikipedia：

scvhost孔明的博客：

Rachel Zhang的专栏(CSDN)：

博客园dzl_ML：

知乎：

（在此对以上博⽂的博主表⽰感谢！）南京会计培训班

本文发布于:2023-06-27 03:10:53，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/78/1048349.html

上一篇：实验验证与分析

下一篇：医学图像处理中的统计学指标：敏感度、特异度