关于Z分数,Z_score,标准分数的理解
Z-Score ⼜叫 stand score, z-value, z-score, normal score, and standardized variable, 中⽂⼀般译作标准分数。其实 Z-Score 在多个领域有不同的定义和应⽤,我们这⾥主要讲解统计学中的标准分数。其他领域的 Z-Score 定义请查看维基百科。
通俗解释z-score,即 z-score 是对某⼀原始分值进⾏转换,变成的⼀个标准分值,该标准分值可使得原来⽆法⽐较的数值变得可⽐。田畅
⼀个简单的例⼦,中国⼈⼩王⾝⾼ 1.75 m,美国⼈ James ⾝⾼ 1.85 m,⽇本⼈⼤郎⾝⾼1.75 m,排除国籍导致的差异,请问⼩王、James、⼤郎三个⼈谁更⾼?陈毅探母
除湿汤直接从数值上⽐,当然是 James 最⾼。但是这⾥要求排除国籍导致的差异,什么意思?就是说,⽇本⼈可能全国的⼈都相对矮⼀些(不严谨,仅做例⼦),那么⽇本的 1.7 m 可能相当于中国的 1.75 m 和美国的 1.85 m。所以不能直接⽐数字,⽽是要⽐每个⼈在各⾃国家国民⾝⾼背景下的⼀个“标准⾝⾼”。这⾥就可以引⼊ z-score了。
另⼀个简单的例⼦,⼩红英语考了 90 分,语⽂考了 60 分,请问⼩红英语和语⽂哪个考的好?同样的情况,如果直接⽐分数,当然是英语好。但是⼀种显然易见的可能情况是,两门课的难度不⼀样,也许语
⽂更难,⼤家都不及格,只有⼩红及格了;⽽英语很简单⼤家都是100分,只有⼩红90分。这样看来,好像⼩红的语⽂要考的更好⼀些。这⾥我们⽤ z-score 可以直观的进⾏⽐较。
z-score 的计算定义如下:
z =(x-µ)/σ
z = (该值 - 平均值) / 标准差
mac强制退出这⾥的 x 为原始分值,z 为经过转换后的 z-score,µ 为总体样本空间的分值均值,σ则为总体样本空间的标准差。
滑翔机的折法需要注意的是,上⽂所说的总体样本空间,即英⽂中的 population,指的是当前抽样样本所在分布的空间内的所有样本。⼀般我们实际使⽤时,⼿头拿到的数据仅能代表抽样的部分样本,⽆法代表整个样本空间。所幸,我们可以使⽤当前抽样样本的均值和标准差来估计总体样本空间的情况。
堕落的英文在之前关于⾝⾼的例⼦中,我们可以将每个⼈的⾝⾼减去其祖国的平均⾝⾼,再除以对应国家的⾝⾼标准差,得到各⾃的⾝⾼ “标准分值”,然后再去⽐较。同样,语⽂成绩和英语成绩也是⼀样,各⾃减去全班或全校的平均分数,再除以对应的标准差,即可⽐较。如语⽂全班平均成绩 40 分,标准差为 10,英语全班成绩 98 分,标准差为 5 。那么⼩红的语⽂成绩 “标准分值” 就是 (60 – 40)/10 = 2 ,⽽
电脑壁纸卡通
英语成绩“标准分值”就是 (90-98)/5 = -1.6。这样⼀⽐,英语成绩是远低于语⽂成绩的,可见⼩红的语⽂还是学的相当好的。
在上⾯的例⼦中,转换后的 z-score 出现了负数,通过前⾯的公式定义,我们可以很容易的理解。如果原始分值低于样本集合中的平均分值,那么转换后的 z-score 则为负数,反正为正数。
需要注意的是,通过 z-score 转变后的分值,并没有被正态化。也就是说,原来是正态分布的,转为 z-score 之后仍为正太分布;原来不是正态分布的,转化为 z-score 之后并不会转换为正态分布。
最后,要防⽌ z-score 被误⽤。原始分值经过转变后的 z-score,是去除了之前数据所带有的观察信息的。对于拿 z-score 去做⼀些观察结果的判断,我们需要格外谨慎的。⽐如我们应该⽤ BMI 来衡量肥胖,⽽⾮某个阈值的 z-score,尤其在我们的抽样空间不够⼤、⽆法代表总体的情况下。
>男学生发型