数据挖掘TP(
(遇到了这么⼀个关于评价分类器的题,想偷个懒,但是发现⽹上的解释都很抽象,当然也是我愚钝,于是⾃⼰琢磨了琢磨,稍微有了点苗头,赶紧写下来以供分享)
数据挖掘中当建⽴起分类模型/分类器后,希望能够对该分类器进⾏准确率的评估。那么,什么是准确率?如何评估它?如何得到可靠的准确率估计?接下来对分类器的评估问题进⾏详述。
1.评估分类器性能的度量
度量符号/公式备注
真正例/真阳性TP(True Positives)预测为正,真实为正
真负例/真阴性TN(True Negatives)预测为负,真实为负
假正例/假阳性FP(Fal Positives)预测为正,真实为负
假负例/假阴性FN(Fal Negatives)预测为负,真实为正
准确率/识别率正确分类百分⽐
错误率/误分类率误分类百分⽐
敏感度/真正例率/召回率真正例率,正确识别的
正元组的百分⽐
特效性/真负例率真负例率,正确识别的
负元组百分⽐
精度标记为正类的元组实际
为正类所占的百分⽐
召回率正元组标记为正的百分
⽐生日发多少红包合适
2.各度量值的计算
如何将上表所述度量值应⽤到具体实例中,接下来借助⼀个例题详细介绍。
eg:
The data tuples of the figure are sorted by decreasing probability value, as returned by a classifier. For each tuple, compute the values for the number of true positives (TP), fal positives (FP), true negatives (TN), and fal negatives (FN). Compute the true positive rate (TPR), and fal positive rate (FPR).
ID Class Probability TP FP TN FN TPR FPR
1P0.95 10 5 4 0.2 0
龙抬头什么意思2N0.85 1 1 4 4 0.2 0.2
3P0.78 2 1 4 3 0.4 0.2
4P0.66 3 1 4 2 0.6 0.2
5N0.60 3 2 3 2 0.6 0.4
凤管>昆虫记好句6P0.554 2 3 1 0.80.4
好听的古筝曲
7N0.534 3 2 1 0.8 0.6
8N0.524 4 1 1 0.8 0.8
9N0.51 4 5 0 1 0.8 1
10P0.405 5 0 0 1 1
(⿊⾊部分是题⽬,红⾊部分是答案。这是⼀个按照概率由⼤到⼩进⾏排序的表格)
快乐朋友
微信网页版登陆二维码【解题思路】
1.概率值含义:当前概率值即为当前阈值,即样本预测结果为正类样本的概率范围是[Probability,1]。例如,Probability=0.95表⽰,概率值≥0.95的样本都是预测结果为正类样本。
2.Class含义:Class表⽰当前样本的真实类别,P为正类,N为负类。
3.因此表格含义为:(以6号样本为例)当进⾏到6号样本这⾥时,此时阈值为0.55,即,概率≥0.55的样本预测结果为正类,概率<0.55的样本为负类。
【解题步骤】(以6号样本为例)
1.TP:预测为正,真实为正,阈值为0.55,此时1号到6号预测结果都是正类,⽽2号5号实际结果却是负类,因此正确分类正类的个数是4。(为什么不考虑7号到10号?因为TP是正确分类,且分出的必须是正类,7号搭配10号的预测结果都是负类,仅这⼀点就已经⽆法满⾜,所以⽆需考虑7号之后的样本)
2.FP:预测为正,真实为负。预测结果是正类的是1号到6号样本,在这些样本中,真实值是负类的样本为2号5号,所以
FP=2。
3.TN:预测为负,真实为负。预测为负的样本是7号到10号,在这当中真实值为负的是7号8号9号,所以TN=3。儋州山歌韵脚大全
4.FN:预测为负,真实为正。预测为负的样本是7号到10号,在这当中真实值为正的是10号,所以FN=1 。
5.TPR=TP/(TP+FN)
6.FPR=FP/(FP+TN) OVER~