十一 语言测试的效度
1 效度(validity)
●A measure is valid if it does what it is intended to do, which is typically to act as an indicator of an abstract concept (for example height, weight, time, etc.) which it claims to measure. The validity of a language test therefore is established by the extent to which it succeeds in providing an accurate concrete reprentation of an abstract concept (for example proficiency, achievement, aptitude).
●效度就是测验测到它打算测的东西的程度,或者说,是根据测验分数所作出的推论的恰当性程度。
一项语言测试,它测的到底是什么;对设计者打算测量的某种心理属性,它测得的程度如何;根据测试的结果,可以作出怎样的推论与解释。诸如此类的问题都与测试的效度有关。
2 效度的种类
效度通常有如下几种:
●结构效度/构念效度/构想效度(construct validity)
●内容效度(content validity)
●效标关联效度(criterion-related validity),包括
⏹同期效度/同时效度(concurrent validity)
⏹预期效度(predictive validity)
●表面效度/表层效度(face validity)
(1)结构效度/构念效度/构想效度(construct validity)
●概念
构想效度是指测验成绩能够解释心理学理论上的某种结构或特质的程度。……所谓构想,是指心理学理论所涉及的抽象而属假设性的概念、特质或变量,如智力、能力倾向、行为习惯、成就动机、人格结构等。
语言测验的作用是测出人的语言能力,这就要求我们首先要提出关于‘语言能力’的构想,亦即我们要说明所谓的语言能力是什么东西、有什么性质。由于语言能力在人的大脑里,到目前为止我们还不能直接看到它,也不能测量它,所以,我们关于语言能力的构想是带有假说的性质的。
●验证、确定构想效度的方法
结构效度验证,就是要考察一个测验,测到这种结构与特质的程度。……因为结构效度验证的着重点,是在考察测验测到某种心理结构或推论出某种心理结构这一点上,所以,结构效度验证的过程,通常是从定义结构的应有含义开始,说明某一特质的心理学意义是什么,跟其他特质有何关系,跟具体的可观察的行为有何关系。然后,根据这种理论定义,推出一些可能存在的假设,再利用测验去检验这些假设,看看这些假设能否成立。若能成立,测验的结构效度就得到了证实。
就心理测量而言,确定构想效度的步骤和方法是:首先根据一定的心理学理论建立某种心理品质的理论结构;然后根据这一理论结构提出有关测验成绩的假设;最后用逻辑和实证的研究由果求因来验证提出的假设。
就语言测试而言,建立结构效度通常包括以下步骤:(1)提出或选择关于语言能力的理论假设;(2)对预计要测量的语言能力进行操作性定义;(3)设计和开发测验;(4)考察测验分数与其他语言能力效标的关系;(5)检验测验对理论的拟合程度;(6)技术性修改,而后重复(4)、(5);(7)修正理论假设,重复(2)后所有步骤。
●验证构想效度的定量研究方法
1)相关分析
我们检验测验的不同部分之间或不同的测验之间的相关程度,以此来确定测验能否得到这方面证据的支持。……例如,一个语法测验和一个阅读测验,如果有正相关,说明他们测的可能是同一个构想,如果没有相关或是有负相关,可能说明它们测的是不同的构想。
2)因素分析/因子分析
我们通常的考试或测验,一般都包含多个试题(有的是成百个)或多个分测验,考试与测验的总分,是由所有这些试题或分测验的成绩所决定的。但是,这些试题与分测验并不都是完全独立、互不相关的。相反,其中许多或好几个试题与分测验,可能是相同地测查或
基本上共同地测查某一特质的;或者说所有这些试题或分测验,可能划分为若干个组,每个组共同测查或大致共同测查同一个方面的东西。这些组的个数,当然比原来考试或测验所包含的试题与分测验个数要少。这样,整个测验的分数,就可用这少数几个变量或因素来加以解释,从而使问题显得更为简化与明确。所以,对测验资料作因素分析,搞清测验实际上所测查的因素主要有几个,正是测验结构效度验证的一个重要方面或一个重要办法。
例如 APIEL(Advanced Placement International English Language)考试是美国“大学委员会”(The College Board)为要进入英语国家的大学或科研机构学习深造的非英语国家的学生而设计的高级英语分级水平测验。经中国“全国大学英语四、六级考试委员会”与美国“大学委员会”共同协商,1999年6月3日在中国四所重点大校(复旦大学、上海交通大学、南京大学、浙江大学)对200名中国大学生进行一次CET6和APIEL考试之间的对比研究,考试结束后全部APIEL试卷材料寄美国APIEL考试委员会评阅,并承认考试成绩。
Pattern Matrix(a)
| Factor |
1 | 2 | 3 |
CET6_LC1 | .594 | -.026 | -.025 |
CET6_LC2 | .855 | -.011 | -.037 |
CET6_RC | .005 | -.039 | .569 |
CET6_VS | .125 | .088 | .380 |
CET6_CL | -.021 | .162 | .500 |
CET6_WR | .370 | .282 | .082 |
AP_LC | .633 | -.015 | .262 |
AP_W1 | -.077 | .865 | .021 |
AP_W2 | .240 | .555 | .028 |
AP_SPK | .419 | .111 | .116 |
AP_RC | .004 | -.073 | .795 |
| | | |
Extraction Method: Principal Axis Factoring. Rotation Method: Oblimin with Kair Normalization.
3)多特质-多方法分析(MTMM)
这种方法基于求同效度验证(convergent validation)和求异效度验证(discriminant validation)的思想:
所谓求同效度验证就是说,两个测验如果是测量同一特质的即使不同的方法进行测量,它们间的相关应该也是高的。
所谓求异效度验证就是说,两个测验如果是测量不同特质的,及时采用的是相同的方法进行测量,它们间的相关也应该是低的。
例如:有三种不同的特质T1、T2、T3,分别用三种不同的方法M1、M2、M3测量,得到如下MTMM矩阵:
M1 M2 M3
T1 T2 T3 T1 T2 T3 T1 T2 T3
T1 (.95)
M1 T2 .28 (.86)
T3 .58 .39 (.92)
T1 .86 .32 .57 (.95)
M2 T2 .30 .90 .40 .39 (.76)
T3 .52 .31 .86 .55 .26 (.84)
T1 .73 .10 .43 .64 .17 .37 (.48)
M3 T2 .10 .63 .17 .22 .67 .19 .15 (.41)
T3 .35 .16 .52 .31 .17 .56 .41 .30 (.58)
(以上数据引自张凯《语言测验理论与实践》,P155)
图中,在主对角线上圆括号中的,是各测验的信度系数;
三个较短对角线上的红字是用不同方法测同一特质所得分数的相关(效度系数)(比如,.
86是分别用M1和M2对T1测量所得分数的相关);
实线三角形中的数字是以相同的方法测量不同的特质所得到的分数之间的相关(比如,上边第一个三角形中的 .28是用M1分别测量T1和T2所得分数之间的相关);
虚线三角形中的数字是以不同的方法测量不同的特质所得到的分数之间的相关(比如,第一个虚线三角形中的 .32是用M1测量T2所得的分数与用M2测量T1所得分数之间的相关)。
如果所编测验有恰当的结构效度,那么,用不同方法测同一特质而得分数的相关(即效度系数),……就应高于用同一方法测不同特质而得分数的相关。……如果情况不是这样,测验就没有恰当的结构效度。
(2)内容效度(content validity)
内容效度是指测试的内容与预定要测试的内容之间的一致性程度,也就是测试内容对所要测试的全部内容的取样代表性程度的高低。从“取样的代表性”可以看出一项测试的试题在多大程度上代表了预定要测的内容范围。
考察一项测试是否具有较高的内容效度,可以看:(1)该测试的内容范围是否明确;(2)该测试的取样是否具有代表性。
在大多数情况下,一个测验不可能包含所有的测验内容。例如,一个词汇测验中有50个词汇项目,编制这样一个测验的目的,不仅仅是想知道被试是否掌握了这50个词,而是想知道他是否掌握一大批同类的词(比如说5000个)。
在上面的例子中,5000个词是我们所要测量的内容,我们把它叫做“内容范围”,意思是,我们所测的内容都在这个范围之内;测验中出现的50个词,是内容范围的一个有代表性的样本。所谓内容效度检验,就是确定测验的题目对一个内容范围是否有很好的代表性。
检验内容效度有定性的逻辑分析法和定量的统计分析法两种方法。
检验内容效度的定性方法
建立内容效度至少要包括以下几个步骤。
●定义内容范围。
●聘请一组语言测验和语言教学的资深专家。
●制定测验题目和内容范围的匹配原则,
●根据匹配原则进行检验。
⏹聘请一组语言测验和语言教学的资深专家——建立专家效度
⏹制定试题与内容范围的匹配原则——双向细目表
检验内容效度的定量方法
检验内容效度的定量指标:
●题目与项目匹配的百分比;
●重要项目匹配的百分比;
●项目权重与代表这些项目的题目数的相关(按:权重越大,相应项目的题目数越多);