关于机器学习⼆分类问题的⼏个评估指标辨析
在完成机器学习中的⼆分类问题的建模阶段后,需要对模型的效果做评价,如今业内通常采⽤的评价指标有精确率(Precision)、准确率(Accuracy)、召回率(Recall)、F值(F-Measure)等多个⽅⾯,为了准确理解以避免混淆,本⽂将对这些指标做简要介绍。
1 混淆矩阵
luka magnotta其实,上⾯提及的诸多评测指标都是在混淆矩阵上衍⽣出来的,因此先简要介绍混淆矩阵。
针对⼆分类问题,通常将我们所关⼼的类别定为正类,另⼀类称为负类;例如使⽤某种分类器预测某种疾病,我们关⼼的是“患病”这种情况,以便及早接受治疗,所以将“患病”设为正类,“不患病”设为负类。
混淆矩阵由如下数据构成:
existentialismTrue Positive (真正,TP):将正类预测为正类的数⽬
True Negative (真负,TN):将负类预测为负类的数⽬
Fal Positive(假正,FP):将负类预测为正类的数⽬(误报)
femen
英语故事朗读
Fal Negative(假负,FN):将正类预测为负类的数⽬(漏报)
接下来介绍的⼏种评价指标都是由上述四个数据相互运算产⽣。
2 准确率(accuracy)青春痘偏方
计算公式为:acc = (TP+TN)/(TP+TN+FP+FN)
准确率是最常见的评价指标,很容易理解,就是预测正确的样本数占所有的样本数的⽐例;通常来说,准确率越⾼分类器越好。然⽽,在正负样本极不平衡的情况下,准确率这个评价指标有很⼤的缺陷。
3 错误率(error rate)
计算公式为:err = 1-acc
错误率则与准确率相反,衡量分类器错误分类的⽐例情况。
4 灵敏度(nsitive)
计算公式为: nsitive = TP/(TP+FN)
灵敏度表⽰的是样本中所有正例中被识别的⽐例,衡量了分类器对正例的识别能⼒。
新概念培训5 特效度(specificity)
计算公式为:specificity = TN/(TN+FP)
特效度表⽰的是样本中所有负例中被识别的⽐例,衡量了分类器对负例的识别能⼒。
2012高考优秀作文6 精确率(precision)
计算公式为:P = TP/(TP+FP)
精确率与准确率要有所区别,精确率表⽰的是被分类器分为正例的样本中,确实为正例的样本占的⽐例。
7 召回率(recall)
计算公式为:R = TP/(TP+FN) = nsitive
从公式上可以看出,召回率与灵敏度是相同的,衡量的是分类器对正例的识别能⼒。这个指标结合疾病识别的例⼦就很好理解了,若将“患病”定为正类,则召回率描述的是所有真正的患者中,被分类器
识别出来从⽽召唤到医院的患者占的⽐例。
澳大利亚百年洪水
8 综合评价指标(F-Measure)
P和R指标有时候会出现的⽭盾的情况,这样就需要综合考虑,常见的⽅法就是F-Measure(⼜称F-Score)。
F-Measure是Precision和Recall加权调和平均:
当参数α=1时,就是常见的F1值:
级别的英文
F1综合了P和R的结果,当F1较⾼时则说明分类器确实⽐较有效。
⼩结:本⽂介绍的⼏种指标都是最为常⽤的衡量标准,针对分类问题还有其它评测指标,如计算速度、鲁棒性、可扩展性、可解释性、ROC曲线和PR曲线等;⾄于多分类问题,可以仿照⼆分类的情况类⽐得到与上述指标相似的指标计算公式。气门导管