人才评价结果的分析
首都经济贸易大学经济系2003级硕士研究生 郝兆丽
人们对人才测评的信任感是建立在一定的可靠性和有效性基础之上的,作为评价体系的组成部分,对人才测评的信度和效度进行鉴定是正确解释和应用测评结果的保证,它是对测评本身的测评,是对人才评价工作的评价。在实际的测验编制过程中,为了改善和提高测验的信度和效度,应对每个测题进行分析,这就是项目分析,主要包括难度分析和区分度分析。我们将在下面作详细的介绍。
一、信度分析
(一)信度的基本概念
信度又叫可靠性程度,用于分析一种测评方法所得结果的前后一致性水平,并以这种一致性程度为指标来判断测评的可靠性。测验结果的可靠性与测验结果受误差影响的程度密切相关。在人才测评中误差是不可避免的,我们只能尽可能追求高的精度,把误差控制在一个有规律的X围以内,这样测量得到的结果才比较稳定可靠。信度实际上就是随机误差的一种度
量。
(二)信度系数与估计方法
一般条件下,信度指标都用信度系数的形式呈现。信度系数是同一样本在两种不同时间、不同情境条件或两组不同评价材料评定结果之间的相关系数。针对不同的误差来源,信度可以有不同的确定方法。一般有以下几种类型:重测信度、复本信度、内部一致性信度、评分者信度。
1.重测信度
重测信度又称为稳定性系数,它是估计测评跨时间的一致性程度,即用同一测验,在两个不同时间里对同一群体施测两次,这两次测验分数的相关系数就是重测系数。一个测验的重测系数越高,说明测评的稳定性越好,测评受随机因素的影响越小。
重测信度所考察的误差来源是时间的变化所带来的随机影响。在获得重测系数时,最需要注意的是我们必须根据测验的性质和目的来控制合理的时间间隔,这样才有可能获得较好的稳定系数。时间间隔长了,被试的心理特征就会因为学习、经历、教育培训等因素而发
展变化,使相关系数降低;时间间隔短了,又会使首次测评时的练习效果和记忆效果的影响增大,从而造成了假性的高相关。
2.复本信度
复本信度又称为等值性系数,它是代表测评跨形式的一致性,即在对被试进行测评以后间隔一定的时间,运用复本再测评一次所获得的复本相关系数。复本是指在内容、数量、格式、难度、平均数、标准差等各方面与原测评一样的测评,即功能等值但题目内容不同。两个等值的测验互为复本。复本信度的高低反映了两个测验复本在内容上的等值性程度。
复本信度的优点在于适用于在长期追踪研究或调查某些干涉变量对测验成绩影响,同时减少了辅导或作弊的可能性。当然,复本相关系数也有局限性。一方面,在现实中,编制理想的复本常常很难,有许多测评都没有复本。另一方面,复本测评也会受练习的影响。
3.内部一致性信度
用重测相关系数和复本相关系数,都需测评两次,不但要花较多的精力,而且受测者会受练习的影响使第二次测评失真。内部一致性系数则不同,它只需要测评一次,它通过分析
同一测评内部各测评项目之间的相关系数的方法来估计信度系数。内部一致性系数反映的是跨测题的一致性,即测评内部各部分之间是否具有同质性。内部一致性信度又分为分半信度、同质性信度和α系数。
(1)分半信度
获得分半系数的方法是把一个测评分成两个最为等值的两半,并分别计算每位被试在两半测验上的得分,再求出这两个分数的相关系数,从而来估计整个测评的信度。
因为分半系数只是根据原测题的一半题目而来,而信度的大小又与测验的长度有关,所以分半系数常常要比原测验的信度低。为了校正这个差异,常运用斯皮尔曼-布朗公式(Spearman-Brown Formula)。该公式可以估计增长或缩短一个测验对其信度系数的影响,用此公式的前提条件是:两半测验的方差相等。
斯皮尔曼-布朗修正公式为:rxx=2rhh/(1+rhh)
其中,rhh:两半测验的相关系数;rxx:估计或修正后的信度。
当两半测验的方差不同时,应采用卢伦公式(Rulon Formula)或弗拉纳根公式(Flanagan Formula)进行修正。
(2)同质性信度
同质性信度不需要把测评分为两半,它是指测验内部的各题目在多大程度上考察了同一内容。所谓的同质性是指所有的测验题目测量的只是单一的特质或内容,表现为所有测验题目得分的一致性。常用的计算方法是库德-理查逊(Kuder-Richardson)估计方法 。计算公式有库德-理查逊20号公式(简称KR20)和21号公式(KR21)。下面是KR20公式:
n为测验题目数,pi为通过i题的人数比例;qi为未通过该题的人数比例;pi+qi=1;∑piqi为所有题目答对与答错人数百分比乘积的总和。
库德-理查逊信度系数的运用需要满足几个条件:所有测题都采用二分法记分,即都采用0,1记分,答对记1分,答错记0分;测验的项目难度比较接近;项目间的组间相关相等。
(3)α系数
当测验项目采用多重记分(如人格测验、态度量表),库德-理查逊信度就无法运用。克伦巴赫(Cronbach.L)提出了适用于各种记分情况的α系数来估计信度。具体公式如下:
其中,为每一项目的方差;为测验总分方差。 4.评分者信度
在人事测评中,不同的评分者其观察角度、注意力、对被试的偏见等都会使评分的结果不
一致,因此,评分者的评判也是误差的来源之一。评分者信度就是指不同评分者对同样对象进行评定的一致性。
具体方法是:由两名评分者对同一个被试样组进行评分,再求两个评判分数的相关系数。这种相关系数的计算可以用积差相关方法,也可以采用斯皮尔曼等级相关方法。
如果评分者在三人以上,而且又采用等级记分时,就要用肯德尔和谐系数来求评分者信度。公式为:
其中,K为评分者人数,N为被评定的人数或答卷数; Ri为每一个对象被评等级。
(三)影响信度系数的因素
测验的信度会受到各种因素的影响,在解释信度系数是我们应充分考虑这些因素,在编制测验和测验的实施过程中要力图避免它们。主要的影响因素有:测验长度、测验难度、样本团体的性质。
1.测验长度
在其他条件相等的情况下,测验长度(题目的多少)越长,信度值越高。因为测验越长,题目取样或内容取样就越充分,结果就越可靠,同时也避免猜测题目的影响。
2.测验难度
测验难度对信度也会产生影响。如果一个测验的难度太低,大多数被试都可以轻而易举地答对题目,测验分数会非常集中并聚在高分端;如果测验的难度太高,多数被试都只能凭猜测答题,所有分数都集中在低分端。这样都会使测量到的分数分布太窄,导致信度降低。只有当难度水平适中,使得测验分数分布X围最大时,测验的信度才会比较理想。
3.样本团体的性质
一般而言,在其他条件不变的情况下,样本团体的分数分布X围越大,变异性越大,信度系数将越大。样本团体的异质性越大,信度系数就越高。
二、效度
(一) 效度的含义
人事测量的效度就是指测量的有效性,即所采用的测评工具对其所要测评的特性测量到什么程度的估计。为了更好的理解效度的概念,有以下几点需要注意,一是效度是针对测验结果的。二是效度是针对某种特定的测评目的而存在的。三是效度是连续性的,是一个关于程度的估计。
我们在前面对信度进行分析时,只考虑了随机误差的影响;而在效度分析时将系统误差也引入进来。原因就在于系统误差是恒定的,所以不影响测验的一致性,但却影响测验的准确性。信度高是效度高的必要条件,而不是充分条件。
(二)效度的类型与估计方法
我们一般把效度分为内容效度、构思效度和效标关联效度三类,这三类效度是相互联系的,一个好的测评通常可以用一种或一种以上的效度来表示。
1.内容效度
内容效度是检查测验内容是否是所欲测量的行为领域的代表性取样的指标,即是说指标与标准是否符合该类人员的功能特征。要素的设计与标准的编制成为鉴定测评效度的内容。内容效度的估计方法有以下几种:
(1)通过对照内容X围来估计
我们通过考察测验中包含的项目是否涵盖了内容X围来对内容效度加以检验。在具体的操作过程中,可以编制双向细目表来确定项目的分配是否将主要问题都包含进去了。可以用内容效度比CVR来计算内容效度:
CVR=2(Ne-n/2)/N
其中,Ne为评判中认为某项目很好地表示了测量内容X畴的评判者人数,N为评判者总人
数。CVR的值从-1~1,-1表示所有人都认为内容不当,而1则表示了所有人都认为内容很好。
(2)评分者信度
计算两个评分者之间评定的一致性,即评分者信度。通过此信度来说明内容效度。两者的符合程度越高越能反映测验的内容效度。
(3)统计分析
克伦巴赫提出内容效度可以通过计算被评估者在两个独立取自同样内容X围的测验得分的相关来做数量上的估计。如果相关高,表明具有高的内容效度;如果相关低,表明两者中至少有一个缺乏内容效度。
2.构思效度
构思效度是指测验能够测量到理论上的构思或特质的程度。所谓的构思是指一些抽象的假设性的概念、特性或变量。如智力、创造力、言语流畅性、焦虑、动机等。构思不能直接测量,需要借助一定的测评工具来反映。
构思效度的估计方法有许多,总的来说,可以分为测验内部的方法和测验间方法两大类。
(1)测验内部的方法
这种方法主要是通过研究测验内部构造来分析测验的构思效度。具体来说包括测验内容效度、被评估者解答测题时的反应过程与因素分析法。
(2)测验间方法
这一方法是同时考虑几个测验间的相关性,考察这些测验是否在测量同一构思。这里主要介绍两种常见的方法。
第一,相容效度 理论上测量相同构思的测验,彼此之间应该有高相关。因此新测验与原有的测验间的相关,可以作为衡量新测验所大致测量的相同行为的程度的标准。这种相关系数被称为相容效度。
第二,聚合效度和辨别效度
聚合效度和辨别效度是由肯贝尔等人在1959年提出的。聚合效度是说如果两个测验是测量
同一特质的,即使使用不同的方法进行测量,它们之间的相关也应该是高的。辨别效度是说如果两个测验测量的是不同的特质,即使使用相同的方法进行测量,它们之间的相关也应该是低的。
3.效标关联效度
效标关联效度是以测评分数和效度准则之间的相关系数来表示测评效度的高低的,也就是测评分数对个体的效标行为表现进行预测的有效性程度。这里效标是指考察测验效用的外在参照标准,是一种可以直接、独立测量的行为。
通常情况下,对一般职工来讲,其效标应为产量与质量;对于科技人员应以发明、创造与技术成果的数量和效益为效标;对管理人员应以工作效率、职工积极性调动程度和经济效益为效标;对领导人员应以开发人才、开创局面和社会、经济效益为效标。