第六章量表的信度效度检验
我们采用含有多个项目的量表来测量人们的意见、态度、看法等、这样得到的结果是否准确、可靠,是否有适用性?这就需要评价量表的信度和效度。从理论的观点来看,一个良好的测量工具(量表)应具有足够的效度和信度。
一、信度检验
信度(Reliability)即可靠性,是指采用同一方法对同一对象进行调查时,问卷调查结果的稳定性和一致性,即测量工具(问卷或量表)能否稳定地测量所测的事物或变量。信度指标多以相关系数表示,具体评价方法大致可分为三类:稳定系数(跨时间的一致性),等值系数(跨形式的一致性\替换形式)和内在一致性系数(跨项目的一致性)。信度表示的方法主要有以下四种:
1、稳定性系数
稳定性系数是采用同样的问卷,对同一组访问对象在尽可能相同的情况下,在不同时间内进行两次测量,用两次测量结果间的相关分析来评价量表信度的高低,连皮尔逊积差相关系数即是信度系数,也称为重测信度,或再测信度。
两次测量,如果间隔时间过长,调查对象容易受环境和个人经历的影响而发生态度的转变,如果间隔时
间过短,则受到上次调查记忆的影响。适当的间隔时间是既不能让调查对象记住上一次测验的内容,也不能让其被测的主观特征在两次测验之间没有发生较大的变化。适合的间隔时间要视调查对象和测量内容不同而不同,一般来说,年幼儿童,间隔时间要小,年长者,间隔时间可以延长。并且调查对象在两次测量期间没有发生于相关的重大事件。在最后提交调研报告时,要对间隔时间加以说明,报告间隔的时间。
2、等值系数(复本信度)
用两个复本在最短时间内对同一组调查对象进行测量所得结果的一致性程度,复本信度系数等于两个复本测量所得分数的皮尔逊积差相关系数。复本信度的高低反映了这两个测验复本在内容上的等值性程度,是等值系数。复本类似于考试中得A、B卷,如果一个人在A卷和B卷的得分相同,就说明考题具有信度;如果两者差异很大,则缺乏信度。
复本信度的使用前提是测量所用的两个复本必须是等效的,两个复本要满足以下几个条件:两个复本测量的是同一种特征。两个复本具有相同的内容和
形式。两个复本的题目不应重复。两个复本的题目数量相等,难度和区分度相同。
在现实工作中,设计一份满意的调查量表已然不易,设计两份完全等效的量表难度更大,所以很少使用。
3、内在一致性系数
主要反映的是测验内部题目之间的关系,即量表内部所有题目的一致性(项目同质性)程度,考察量表的项目是否测量了相同的内容,又称为内部一致性信度。其评价方法有两种:分半法和Cronbach α法,两种方法测得的信度系数分别称为分半信度和Cronbach α系数。
(1)折半信度
折半信度法是将调查项目分为两半,计算两半得分的相关系数,进而估计整个量表的信度,折半信度测量的是两半题项得分间的一致性。进行折半信度分析时,如果量表中含有负向标度的题项,应先将其得分作逆向处理,以保证各题项得分方向的一致性。分半的方法很多,一般是将全部题项按奇偶分成尽可能相等的两半,而不是按照前后分半,前后分半部是不能使用,但应该注意前后顺序的影响。计算前后两半量表得分的相关系数即为半个量表的信度系数,最后用斯皮尔曼-布朗(Spearman-Brown)公式(2r/1+r)求出整个量表的信度系数:
(2)Cronbach α信度
Cronbach’s α系数是Cronbach于1951年创立的,是指测验内部的项目在多大程度上考察了同一内容,评价的是量表中各题项得分间的一致性。同质性信度低时,即使各个测试题看起来似乎是测量同一特质,但测验实际上是异质的,即测验测量了不止一种特质。α信度系数法是目前最常用的内部信度系数。
实际上,α系数是所有可能的分半信度的平均值,α系数是估计信度的最低
限度,α系数高时,信度就高,α系数低时,信度不一定低。低信度:α<0.35, 中信度:0.35<α<0.70,高信度:0.70<α。一般来说,问卷的α系数在0.8以上该问卷才具有使用价值,达0.85以上,表明问卷信度良好。
4、评分者信度
评分者信度是指不同评分者对同一测量进行评定时的一致性。与其他信度从本质上是独立的,测量信度的高低与评分者信度的高低并没有必然的联系。在评分者的文化背景、生活经历、价值观等也会制
约评分者的评分。例如,语文作文的评分问题等在很大程度上,评分者会受其文化背景、生活经历、价值观等因素潜在的影响。
最简单的估计方法就是随机抽取若干份答卷,由两个独立的评分者打分,再求每份答卷两个评判分数的相关系数,两个以上评分者这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。
(二)影响信度的因素
1、样本特征:样本异质性的影响。调查对象间差异越大,其分数的分布范围越大,所测信度系数越高。
2、项目的多少:一般来说,在一个测试中增加同质的题目,可以使信度提高。
3、量表的层级:在量表项目既定的情况下,量表的层级越多,题目区分度越高,信度系数越高,我国有学者显示在正态分布下,条目数大于25,4级量表的信度损失已然少于2%。(安胜利,陈平雁.应答条目的级数及条目数对量表内部一致性信度影响的研究[J],中国卫生统计.2002,4(2):86~90.)
4、时间间隔
时间间隔只对重测信度和不同时测量时的复本信度有影响,对其余的信度来说,不存在时间间隔问题。
二、效度及其评价方法
效度指测量结果的有效程度,它是指测量工具或手段能够准确测出所需测量的事物的程度,或者说实测结果与所要测查的结果的吻合或一致程度。效度系数是指描述某种测量结果,有效性程度的数量指标,常以相关系数来表示。效度是一个相对概念,是相对于测量目的而言的。主观心理测量不可能百分之百的准确,
只能达到一定的准确度。
效度的种类很多,分类方法也有所不同,内容效度、构想效度、预测效度、同时效度、区别效度、收敛效度、判别效度等。目前被广泛采用的是弗兰士(J. W. French)和米希尔(B. Michel)提出的分类方法:他们将效度分为内容效度、结构效度和效标效度。内容效度,是指测验的内容对欲测范围内内容的代表性程度;结构效度(Construct Validity),测量结果与测验的理论假设之间的一致性程度;效标效度(Criterion-related Validity),指测量的结果与某种外在效标之间的一致性程度,一般用测验分数与效标之间的相关系数表示。为了规范效度问题的研究与解释,美国心理学会在1974年将测量的效度分为以上三大类,在以下的论述中,我们将使用这个分类体系。
1、内容效度
是指一个测量实际测到的内容与所要测量的内容之间的吻合程度,也称为表面效度或逻辑效度。对内容效度常采用逻辑分析与统计分析相结合的方法进行评价。
(1)逻辑分析的方法
逻辑分析方法的思路是由调研人员或请专家、其他调研人员对测量项目与原定调查目的的吻合程度做出判断,检验所选择的项目是否“看起来”符合测量的目的和要求,所设计的题项能否代表所要测量的内容或主题。主观性使其不能单独地用来衡量表的效度,但可以用来对观测结果作大致的评价。为了获得足够的内容效度,要特别注意设计量表时应遵循的程序和规则。
(2)统计分析法
统计分析主要采用单项目与量表总和相关分析法获得评价结果,即计算每个题项得分与题项总分的相关系数,根据相关性是否显著判断量表是否有效。若量表中有反意题项,应将其逆向处理后再计算总分。
2、效标效度
效标效度又称为准则效度或预测效度。效标效度是根据已经得到确定的某种理论,选择一种指标或测量工具作为效标(准则),分析量表得分与准则(效标)间的相关系数即为准则效度系数。
在调查问卷的效度分析中,选择一个合适的准则往往十分困难,使这种方法
的应用受到一定限制。一个好的效标需要符合以下几个条件:
(1)有效性:能够有效测量所要测量的内容;
(2)客观性:效标测量必须客观,避免偏见;
(3)可靠性:效标测量必须稳定可靠;
(4)实用性:在保证有效性的前提下,效标测量必须尽可能简单、省时、花费少
3、结构效度
又称为建构效度或构建效度,是指测量结果体现出来的某种结构与测值之间的对应程度。结构效度分析所采用的方法是因子分析。最关心的问题是:量表实际测量的是哪些特征?在评价建构效度时,调研人员要试图解释“量表为什么有效”这一理论问题以及考虑从这一理论问题中能得出什么推论。效度的评价方法有因子分析法和结构方程法。
因子分析的主要功能是从量表变量(题项)中提取一些公因子,各公因子分别与某一组特定变量高度关联,这些公因子即代表了量表的基本结构。通过因子分析可以考察量表是否能够测量出研究者设计量表时假设的某种结构。在因子分析的结果中,用于评价结构效度的主要指标有累积贡献率、共同度和因子负荷。累积贡献率反映公因子对量表的累积有效程度,共同度反映由公因子解释原变量的有效程度,因子负荷反映原变量与某个公因子的相关程度。
三、效度和信度的关系
效度和信度的关系可以下面的图示说明:信度是效度的必要条件而非充分条件。如果量表的信度不足,测量结果不可能有效;如果量表是可信的,测量结果可能有效,也可能无效;如果测量结果是有效的,则测量的工具必然是可信的。