评价模型性能的指标

更新时间:2023-06-27 03:27:52 阅读: 评论:0

评价模型性能的指标有很多,目前应用最广泛的有准确度,灵敏度,特异性,马修相关系数。首先我们定义以下参数。
表2.1  预测结果的参数定义
符号 名称moveahead
描述
TP  True  position,真阳性 表示阳性样本经过正确分类之后被判为阳性 TN  True  negative,真阴性 表示阴性样本经过正确分类之后被判为阴性 FP  Fal  position,假阳性 表示阴性样本经过错误分类之后被判为阳性 FN
Fal  negative,假阴性
表示阳性样本经过错误分类之后被判为阴性
1.准确度:TP TN
accuracy TP FP TN FN +=
+++
准确度表示算法对真阳性和真阴性样本分类的正确性 2.灵敏度: TP
ncitivity TP FN
=
+
灵敏度表示在分类为阳性的数据中算法对真阳性样本分类的准确度,灵敏度越大表示分类算法对真阳性样本分类越准确。即被正确预测的部分所占比例。
3.特异性:TN
specificity TN FP
=
+
特异性表示在分类为阴性的数据中算法对阴性样本分类的准确度,特异性越大表示分类算法对真阴性样本分类越准确。
4.马修相关系数:
MCC =
马修相关系数表示算法结果的可靠性,其值范围为[]1,1−+,当FP 和FN 全为0时,MCC 为1,表示分类的结果完全正确;当TP 和TN 全为0时,MCC 值为-1,表示分类的结果完全错误。
ROC 曲线指受试者工作特征曲线 / 接收器操作特性曲线(receiver  operating  characteristic  curve), 是反映敏感性和特异性连续变量的综合指标,是用构图法揭示敏感性和特异性的相互关系,它通过将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1‐特异性)为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。在ROC 曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。
ROC 曲线的例子
考虑一个二分问题,即将实例分成正类(positive)或负类(negative)。对一个二分问题来说,会出现四种情况。如果一个实例是正类并且也被 预测成正类,即为真正类(True positive),如果实例是负类被预测成正类,称之为假正类(Fal positive)。相应地,如果实例是负类被预测成负类,称之为真负类(True negative),正类被预测成负类则为假负类(fal negative)。
TP:正确肯定的数目;
FN:漏报,没有正确找到的匹配的数目;
FP:误报,给出的匹配是不正确的;
TN:正确拒绝的非匹配对数;
列联表如下表所示,1代表正类,0代表负类。
预测
1 0 合计
实际 1 True Positive(TP) Fal Negative(FN)
Actual
Positive(TP+FN)
0 Fal Positive(FP) True Negative(TN) Actual Negative(FP+TN)
合计
Predicted
Positive(TP+FP)
网络教育英语统考Predicted
vsc
foreignizationNegative(FN+TN)
TP+FP+FN+TN
从列联表引入两个新名词。其一是真正类率(true positive rate ,TPR), 计算公式为
TPR=TP/ (TP+ FN),刻画的是分类器所识别出的 正实例占所有正实例的比例。另
外一个是负正类率(fal positive rate, FPR),计算公式为FPR= FP / (FP + TN),计算的
是分类器错认为正类的负实例占所有负实例的比例。还有一个真负类率(True Negative Rate,TNR),也称为specificity,计算公式为TNR=TN/ (FP+ TN) = 1‐FPR。创始者
volume up什么意思其中,两列True matches和True non‐match分别代表应该匹配上和不应该匹配上
两行Pred matches和Pred non‐match分别代表预测匹配上和预测不匹配上的
在一个二分类模型中,对于所得到的连续结果,假设已确定一个阀值,比如
说 0.6,大于这个值的实例划归为正类(阳性),小于这个值则划到负类(阴性)中。
如果减小阀值,减到0.5,固然能识别出更多的正类,也就是提高了识别出的正
例占所有正例 的比类,即TPR,但同时也将更多的负实例当作了正实例,即提高
了FPR。为了形象化这一变化,在此引入ROC,ROC曲线可以用于评价一个分类
器。
ROC曲线和它相关的比率
(a)理想情况下,TPR应该接近1,FPR应该接近0。
ROC曲线上的每一个点对应于一个threshold,对于一个分类器,每个threshold
下会有一个TPR和FPR。
比如Threshold最大时,TP=FP=0,对应于原点;Threshold最小时,TN=FN=0,对
应于右上角的点(1,1)
P和N得分不作为特征间距离d的一个函数,随着阈值theta增加,TP和FP都增加
explaining
Receiver Operating Characteristic,翻译为"接受者操作特性曲线",够拗口的。曲线由两个变量1‐specificity 和 Sensitivity绘制. 1‐specificity=FPR,即负正类率。Sensitivity即是真正类率,TPR(True positive rate),反映了正类覆盖程度。这个组合以1‐specificity对nsitivity,即是以代价(costs)对收益(benefits)。
此外,ROC曲线还可以用来计算“均值平均精度”(mean average precision),这是当你通过改变阈值来选择最好的结果时所得到的平均精度(PPV).ead
下表是一个逻辑回归得到的结果。将得到的实数值按大到小划分成10个个数 相同的部分。
Percentile 实例数 正例数1‐特异度(%)敏感度(%)
10 6180 4879    2.73 34.64
20 6180 2804 9.80 54.55
30 6180 2165 18.22 69.92
40 6180 1506 28.01 80.62
jinx50 6180 987 38.90 87.62
60 6180 529 50.74 91.38
70 6180 365 62.93 93.97
80 6180 294 75.26 96.06
90 6180 297 87.59 98.17
council
100 6177 258 100.00 100.00
其正例数为此部分里实际的正类数。也就是说,将逻辑回归得到的结 果按从大到小排列,倘若以前10%的数值作为阀值,即将前10%的实例都划归为正类,6180个。其中,正确的个数为4879个,占所有正类的 4879/14084*100%=34.64%,即敏感度;另外,有6180‐4879=1301个负实例被错划为正类,占所有负类的1301 /47713*100%=2.73%,即1‐特异度。以这两组值分别作为x值和y值,在excel中作散点图。

本文发布于:2023-06-27 03:27:52,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/158973.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:统计学指标
标签:曲线   实例   分类   正类
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图