11首都医科大学流行病与卫生统计学系(100054)21北京大学医学部流行病与卫生统计学系(100083)
项目反应理论在医学量表测量误差估计中的应用
闫宇翔1 王洪源2
【提 要】 目的 探讨项目反应理论在医学量表测量误差估计中的应用。方法 以国际前列腺增生量表为实例,根
据项目反应理论的方法,利用信息函数从测量值中分离出测量误差,以其3倍作为量表测量误差的上限。结果 获得了治疗前后每个受试者IPSS 总分的测量误差,以115作为IPSS 总分的最大测量误差。结论 项目反应理论是提取医学量表测量误差的有效方法,以其3倍作为其测量误差上限是合理的。
【关键词】 临床等效界值 量表 项目反应理论 测量误差
测量是主试者利用一定的仪器、工具、量表、试卷
等对被测者进行测定的过程。不同类型的变量测量优劣程度是不同的,即不同测量形式所能提供的信息量大小不同,所有测量都含有决定测量“信息量”大小的误差。测量误差是测量技术中非常重要的问题,是建立科学的测量目标体系的必要条件。
医学研究中,疾病的反应变量在大多数情况下不止一个,如果从与研究目的有关的多个指标中难以确定单一的目标参数时,可将其组合起来构成一个复合变量如量表。目前,量表评分越来越多地作为疾病严重程度和疗效评价的指标,量表是应用多个问题从不同角度对某一疾病的表现进行综合描述,是一个多维的概念。由于它是一种间接测量方法,这就使得它难以从专业上给出其测量误差。量表测量误差的产生与问题的内容、代表性,语句的陈述,样本的代表性有关。本研究应用项目反应理论(Item Respon Theory ,IR T ),提出了医学量表测量误差的估计方法。以求在设计及实施中减少测量误差,以提高医学量表测量的科学性和可靠性。
资料介绍
采用某药治疗良性前列腺增生疗效的临床试验资料,疗效指标为IPSS 总分(国际前列腺症状评分表由七个问题组成:最近四周内是否经常有尿不尽感、排尿间隔小于两小时、间断性排尿、憋尿困难、尿线变细、需要用力排尿以及从入睡到早起需要排尿几次,回答按症状由轻到重六个等级以0~5分计),共完成病例数272人(治疗前IPSS 总分均数为2113,标准差为5146,治疗后均数为11197,标准差为4199)。
方 法
量表的测量值可分解为真值和测量误差两部分,
基于这一点,应用项目反应理论(IR T )的方法估计出
量表的测量误差。IR T 是针对经典测试理论的缺点与不足而提出和发展起来的一种现代教育测量理论,其统计方法在心理和教育测量中得到广泛应用,并且开发了相应软件。在我国项目反应理论的应用还属于起步。
表1 IPSS 总分改善情况
分组
例数
治疗前均数
标准差
治疗后均数
标准差
A 132211505152111044199B
140
21130
5146
11197
5151
11项目反应理论的概念与模型
IR T 是建立在潜在特质理论(隐变量分析)之上的,它认为在认知测量中,潜在特质是所要测量的内在
能力〔1〕
。但由于其潜在性,在实践中给测量带来了很大的困难,只能依据可观测变量来鉴别和定义这些特质,通过隐变量分析可以扣除测量误差,IR T 可以对每个受试估计出测量误差。IR T 最大的特点就是它可以找到一条项目特征曲线(Item Characteristic Curve ,简称ICC )并用不同的数学模型来描述它,其中常用的模型为Logistic 模型。ICC 描述的是受试的得分概率与其内在能力之间的关系。
良性前列腺增生是一个潜在的疾病因素,通过有关的临床症状表现出来,从而进行诊断并对病情的严重程度进行描述。根据IR T ,把疾病当作所要测量的潜在特征,IPSS 问卷得分是它的一个指示物和测度,病情越严重(病情的严重程度以能力Q 表示),各题目的平均得分越高。根据资料类型选用一参数的等级模型〔2〕:
P j ,k (Q )=
1
1+e
117(Q -b j ,k )
-
1
1+e
-117(Q -b j ,k +1)
此式的含义是能力为Q 的受试者在第j 题选k 项的概率(k =1~s ,s 为第j 题的可选项目总数)。模型基
・
261・
中国卫生统计2004年6月第21卷第3期
于等级反应累积概率函数,即≥k 项与≥(k +1)项两个累积概率之差:
P j ,k (Q )=P 3j ,k (Q )-P 3
j ,(k +1)(Q )
其中:P 3j ,k (Q )=[1+e -117(Q -b j ,(k -1))
]
-1
,P 3
j ,1=1,
P 3
j ,(s +1)=0,从而可以推出每个选项(等级)的概率:
P j ,1(Q )=1-[1+-117(Q -b j ,2)
]
-1
P j ,2(Q )=[1+e
-117(Q -b j ,2)
]
-1
-[1+e -117
(Q -b j ,3
)
]
-1
┇
P j ,s (Q )=[1+e -117(Q -b j ,s )
]-1
-0
在等级变量L ogistic 模型中b j ,k 称作极参数(Ex 2
t remity Parameter ),它等于难度与选项k 的测度(f k ,
也称挑战度)之和,b j ,k =b j 3+f k 。测度指观测中第k 项(第k 级)相对于第k -1项的难度。
21测量误差的估计
IPSS 总分是良性前列腺增生的观测值,因而是存
在测量误差的。项目反应理论提供了测验信息函数和项目信息函数两个非常有用的概念〔3〕,并通过其估计每个受试者所对应的测量误差。项目信息函数是用以综合说明每个项目所提供信息量的客观指标,项目的质量不同,所能提供的信息量也不相同:
I j (Q )=∑s
k =152log P k (Q )
5Q 2
P k (Q ) (等级型项目)
这里,P k (Q )是所选的数学模型,I j (Q )则为项目信息
函数。而测验信息函数则等于各项目信息函数之和,即:
I (Q )=∑n
j =1I j (Q )
项目质量优良,难度适中,所提供的信息量就越大。这样就可利用信息函数来估计测量误差(测量误差的标准差),它相当于重复测量误差:
S E (Q )=
1
I (Q )
=
1
∑n
j =1
I j (Q )
在Facets 软件(项目测量专用软件)中计算每个受试者IPSS 总分的测量误差,
结果与分析
11模型拟合优度检验
项目测量首先要求对所采用的模型进行拟合优度评价,即对观察到的反应值与模型预测值之间的分布
符合情况进行χ2检验。经拟合优度检验(治疗前后χ2值均为610,P =0131),认为选择的模型合理。
21参数估计
为了便于描述与比较,IR T 对模型参数进行了标准化,对于能力服从标准正态分布的受试,项目难度等于0时,能力也为0。受试样本能力的估计值在〔-3,3〕,即三个标准差的范围内。
(1)难度参数估计
最难的题目是指在一般患者中最不易出现的症状,而最简单的题目则是指最为常见的症状。治疗后
患者的IPSS 总分明显下降,但是量表各问题的难度未发生变化,模型对参数的估计不受受试能力大小的影响。
表2 IPSS 量表的难度参数
题目
治疗前
难度(b )
误差
治疗后
难度(b )
误差
1-01280107-01280107201070106-0107010630129010601280106401330106013301065-01490107-01490107601340106013601067
-01490107-01500107均数
0100
0107
0100
0107
(2)能力与测量误差估计
治疗后受试者的能力(病情严重程度)大幅度下降,这是由于治疗后患者的症状有所改善,IPSS 问卷得分值明显下降。从ICC 曲线可以看出,受试者的得分随着能力的增加而升高。
图1 项目特征曲线
在给出能力参数的同时,还给出了固定能力时
IPSS 总分的测量误差,即1/I (^θ)。治疗前,受试者测量误差的平均值为013679,治疗后,测量误差的平均值为014455。由于模型在其它参数一定的情况下,能力参数为0(即病情为中等,IPSS 问卷各项平均得分在215左右)时求得的测量误差最小,偏离0越远测量
误差的估计值越大〔
4〕
(表3)。31量表测量误差的估计
通常在某一能力的总体内,有9919%的测量值落在均数±3倍平均测量误差范围内,因而量表的最大测量误差应略大于3倍的平均测量误差。根据项目反应理论求出患者治疗前IPSS 问卷的平均标准测量误
・
361・Chine Journal of Health Statistics ,J une 2004,Vol.21,No.3
差为013679,治疗后为014455,综合治疗前后两个测量误差取其平均值为014067。以其3倍作为量表测量误差的上限,即115。
表3 治疗前后受试的能力变化情况
序号
治疗前
能力误差
治疗后
能力误差
101810136-11830147
201560134-11830147
3-01100132-01490142
40168013501680139
50194013701490139
6-01210132-21060149
701940137-11030143
801330133-21060149
9-01420132-21950162
1001680135-21310152
……………
27211210140-11870148
Mean01430137-01990145
讨 论
11项目反应理论在受试个人能力水平上估计出测量误差,并将项目的质量考虑在内,某项目信息函数值的大小直接反映出受试能力水平的估计精度。IR T 对项目参数的估计具有不变性,不管受试的能力分布如何。经典测量理论只能对受试团体求出测量误差,对参数及误差的估计受样本能力大小的影响。
21信息函数是项目反应理论中的一个重要概念。某个试题j的信息函数值的大小直接反映出该试题对被试能力素质水平的估计精度,信息函数值越大,这种估计就越精确。由信息函数定义公式和项目j的信息函数公式可知:
(1)对某一测验项目j而言,其质量指标是一定的,信息函数的数值就只与被试能力素质水平有关,因而对测量误差的估计因受试能力的不同而不同。这样,信息函数就可以在受试能力素质的每一水平上被用来描述某道试题的测量有效性。能力参数的估计值等于0时(即能力为中等),测量误差的估计值最小,偏离0越远,测量误差越大。
(2)信息函数具有可加性。在一个测验中,各测验项目对测验信息函数I(Q)的贡献是各自独立,相互无关的。组成测验的各道试题的质量越高,它们所能提供的信息量越大,从而根据该测验对被试的能力素质水平所作出的估计就越准确,测量误差就越小。正因为如此,信息函数是项目反应理论中最重要的一个概念。
(3)项目反应理论在受试者个人能力水平上估计出测量误差,并将项目的质量考虑在内,对于设计优良的量表,其数值较小〔4〕。由于项目信息函数和测验信息函数与个人有关,测量误差就会因人而异,可以对每一个受试求出测量误差,还可依测量误差对能力的置信区间作出估计。
31在工作中使用的测量仪器通常给出了测量误差的上界,如:血压为2m m Hg,白细胞为013×109/ L,均为平均测量误差的3倍。因而对于量表,取其平均测量误差的3倍作为测量误差的上界是比较合理的。
41项目反应理论对各参数与测量误差的估计达到稳定需要大样本(实际工作中可使用Bootstrap再抽样方法扩大样本量),对模型的应用与理解需要有数学知识,且计算量很大,需通过专用软件实现。建议在制定常模时给出量表评分的测量误差,以方便临床医生的使用。
The Application of Item R espons Theory in Estimating the Mea2 surement E rror of the Medical Scales Yan Y uxiang,W ang Hongyuan,Depart ment of Epidemiology and S tatistics,Capital U niversity of medical Sciences(100054),Beijing
【Abstract】 Objective To implore the application of Item Re2 spons Theory in estimating the measurement error of medical scales. Methods Combining a medical example,the measurement error of de2 pendent was estimated according to information function bad on Item Re2 spon Th
eory.3times of the average error was ud as the upper limit. R esults The measurement error of each testee was acquired,1.5was taken as the upper limit of IPSS’s measurement error.Conclusion Item Respon Theory is an effective way to extract measurement error of scales’obrvation,it is reasonable to t the3times of average as the upper limit.
【K ey w ords】 Equivalence margin,Scale,Item res pon the2 ory,Measurement error
参 考 文 献
11张敏强著.教育测量学.北京:人民教育出版社,1997:56289.
21Thomas Uttaro,Anthony Lehman.Graded respon modeling of the Quality of Life Interview.Evaluation and Program Planning,1999,22: 41252.
31Hambleton R K,Swaminathan H,Rogers H J.Fundamentals of item re2 spon theory.Newbuty Park,CA:Sage Publications Inc,1991.
41M ellenbergh GJ.Measurement precision in test score and item respon models.Psychological Methods,1996,3,2932299.
・
4
6
1
・ 中国卫生统计2004年6月第21卷第3期