一般混合线性模型SAS的M IXED过程实现
———混合线性模型及其SAS软件实现(一)
山西医科大学卫生统计教研室(030001) 张岩波 何大卫 刘桂芬 王琳娜 郭明英
【提 要】 目的 系统结构数据在医学领域广泛存在,其统计分析方法各异,可统称之为混合模型。本文研讨其实现方法。方法 以多水平模型例证一般混合线性模型的SAS M IX ED实现过程。结果 以JSP数据为实例显示SAS的拟合结果与M Ln相一致。结论 SAS M IXED可灵活地拟合包括多水平模型的各类混合模型。
【关键词】 系统结构数据 混合线性模型 多水平模型 M IX ED过程
近些年,国内医学统计学界对系统结构数据有了较多的认识,并进行了大量实效的研究和应用。徐勇勇教授对系统结构数据做了全面的表述〔1〕。由于常规的统计方法分析这类数据时忽略了误差结构,因此分析方法多采用以下模型:混合线性模型(Mixed lin-ear,M LM)、分层线性模型(Hierarchical linear, H LM)、广义线性混合模型(Generalized linear mixed, GLM M)、分层广义线性模型(Hierarchical generalized linear,HGLM)、多水平模型(Multilevel,M LM)、方差成分模型(Variance components,VCM)、随机系数模型(Random coefficients,RCM)等,以下且统称之为混合模型。分析模型
相应的软件有自行开发的软件(如陈长生博士针对重复测量数据自行开发的REP软件)及国外开发的专业软件,如M Ln(或M lw iN)软件,其他还有BUGS、H LM、VARCL等软件。由于至今各种方法仍处于发展完善阶段,加之工具软件的限制,大大制约了此类方法的实际应用。目前国内SAS软件已相当普及,其新增的M IXED模块及宏程序GLIM-M IX、NLINM IX可以有效、灵活地拟合各类混合模型,无疑为上述数据提供了有力的分析工具〔2,3〕。本文以多水平模型例证M IXED模块对一般混合线性模型的拟合。
模型简述
混合线性模型泛指一类模型,实际上许多模型的称谓不同,而其本质是一致的。混合线性模型形式一般可表现为:
y=Xβ+Zγ+ε
式中y、Xβ意义同一般线性模型,γ为高水平的随机向量估计值,Z为相应的设计矩阵,随机误差向量ε并不要求一般线性模型独立、等方差的假设,γ、ε期望为0,方差分别为G、R,因此y的方差为V=ZGZ'+R。当R=σ2I,Z=0时,混合模型退化为标准的一般线性模型。
模型中就是否引入随机系数又可称之为方差成分模型和随机系数模型。因为在模型中同时包含了固定效应和随机效应,因此称之为混合模型。
模型估计方法很多,具代表性的有:M Ln采用It-erative(and Restricted iterative)generalized least squares(IGLS/RIGLS Goldstein1995)及新增的boot-strap与Markov chain Monte Carlo(M CM C Best et al. 1996)估计方法;SAS M IXED过程采用了Maximum (and Restricted)likelihood(M L/REM L)有ridge-sta-bilized New ton-Raphson迭代法和EM算法、非迭代的M IVQUE0法及由PRIOR语句实现的BAYES方法等。
M IXED的基本语法
M IXED模块可看作GLM广义化的模块,可以拟合更多的普通标准线性模型及混合模型。二者有着同样的CLASS、MODEL、CONTRAST、ESTIMATE、LSMEANS、RANDOM、REPEATED等语句。但其中某些语句如RANDOM、REPEATED等意义有所不同。
以含一个自变量(X)的多水平模型为例,数据为学校———学生两水平结构,其语句为:
Proc m ixed;
class school;
model y=x/s;
random intercept/sub=school ty pe=un;
run;
语句中C LASS声明,表示高水平的变量为分类变量,便于下一步对数据分层;MODEL语句中s即SO-LU TION要求打印固定效应估计值;RANDOM指定
本文为山西省青年自然基金(20001019)
随机效应,加入自变量可拟合随机系数模型,选择项/ S UB=SCHOOL定义多水平结构。TYPE定义矩阵G的协方差结构,协方差结构可以有多种不同的定义,VC(Variance Components)、U N(Unstructured)常用,其他还有:AR(Auto regression)、CS(Compound Sy mmetry)、HF(Huynh-Feldt)等,缺省为VC。另外可加入选择项/S、/G打印随机效应估计值及相应的G矩阵。
实例分析
老豆腐的做法
为便于比较分析,实例选用M Ln经典的JSP(Ju-nior school project)数据,在48所学校中随机抽取了887名学生,数据呈学校(SCHOOL)※学生(PUPIL)两水平结构,考察学生的五年级数学成绩(Math5)是否受三年级成绩(Math3)的影响及这种影响在学校间是否不同。文献〔3〕采用M LN软件进行了多水平模型分析。
对实例本文利用M IXED,拟合不包含任何自变量的方差成份模型见表1。结果由五部分组成,依次为
迭代情况、G矩阵、随机效应的估计与其假设检验、模型的拟合优度及模型固定效应的估计值与其假设检验。
表1 M IX ED过程的计算结果
白化症
The MIX ED Pr ocedure
ML Es tim ation Iteration History
Iteration Evaluations Objective Cr iterion 214199.03263700.00000000
Con ver gence criteria met.
G Matrix
梦妆护肤品怎么样
Parameter S ubject Row COL1
INTERCEP T S CHOOL115.15745058
Covarianc e Parameter Estimates(MLE)
C ov Parm Ratio Estimate Std Error Z Pr>Z INTERCEPT UN(1,1)0.131294835.157450581.567175283.290.0010 Resid ual1.0000000039.281444701.9174725520.490.0001
Model Fitting In formation for MA TH5
Descrip tion Va lue Des cr iption Value
Obs er vations887.0000S chwarz's Bayesian Criterion-2921.40 Variance Es timate39.2814-2Log Likelihood5829.230 S tan dard Deviation Estimate6.2675Null Model LR T Ch i-S quare52.3251 Log Likelihood-2914.61Nu ll Model LRT DF1.0000 Akaike's In for mation Criterion-2916.61Null Model LR T P-Value0.0000
Solution for Fixed E ffects
Parameter Estimate S td Error DDF T Pr>T INTERCEP T30.605493380.400092264776.500.0001
世界文学 由模型的随机效应,即协方差的参数估计值,可见数据呈明显的系统结构特征(Z=3.29,P<0.001),故分析宜采用混合模型分析。对数据进一步拟合自变量为math3的方差成分、随机系数模型及对m ath3中心化后的模型,结果见表2中1、2、3项。由表可见,结果中的固定效应与随机效应(方差协方差参
数估计值)与文献〔3〕中M Ln的结果完全一致,说明M IXED过程考虑了不同层次误差结构的存在,通过混合线性模型可以很好地分析系统结构数据。
SAS M IXED过程经完善发展,由原两水平可进一步分析高水平的数据,如数据层次结构为学校(SCHOOL)———班级(CLASS2)———学生(PUPIL)的三水平结构。并在二、三水平拟合相应的随机系数模型,则模型的定义如下:
proc mixed;
class school class2;
model y=x/s;
random intercept x/sub=school;
random intercept x/sub=class2(school); run;
小 结
混合模型的理论与算法考虑了分布于不同层次上的误差,并能给出相应的误差估计值,较好地解决了
系统结构数据的统计分析问题,而M IXED无疑为得力的分析工具。由于M IXED过程并非专为多水平模型编制,因此在理解上有可能不同,但分析结果具有可比性及一致性。
由无效模型(Null M odel)的似然比检验(Likeli-hood Ratio test,LRT),可知当考虑系统结构的存在
时,对模型具有显著性的改进(χ2=52.325,v=1,P =0.000)。通过考察(-2log likelihood)的变化可以检验引入的每一个效应,这在样本小,Z检验不可靠时更显重要。利用赤池信息量AIC(Akaike's Informa-tion Criterion)可以对比多个模型的拟合效果。
M IXED过程灵活、功能强,可以拟合各式模型。有关重复测量及广义线性模型的G LMM IX实现过程将另文讨论。另外SAS的ODS系统(Output Delivery System)为其他更进一步细致的分析提供了便利和保证。
表2 JSP数据的SA S M I XED混合模型结果
Solution for Fixed E ffects
Parameter Estimate S td Error DDF T Pr>T INTERCEP T15.144815230.899349344716.840.0001 MATH30.608805220.0326392583818.650.0001
Tests of Fixed E ffects
S ourc e NDF DDF Type III F Pr>F MATH31838347.920.0001
Covarianc e Parameter Estimates(MLE)
C ov Parm Ratio Estimate Std Error Z Pr> Z INTERCEPT UN(1,1)0.143043324.023537781.188517493.390.0007 Resid ual1.0000000028.128106121.3729322020.490.0001
Solution for Fixed E ffects
Parameter Estimate S td Error DDF T Pr>T INTERCEP T15.038072791.318310554711.410.0001 MATH30.612396560.042848704714.290.0001
Tests of Fixed E ffects
S ourc e NDF DDF Type III F Pr>F MATH3147204.260.0001
Covarianc e Parameter Estimates(MLE)
C ov Par m Ratio Estimate Std Error Z Pr> Z INTERCEPT UN(1,1)1.6696644445.022*******.8881
47152.670.0077 UN(2,1)-0.04567674-1.231666840.53671621-2.290.0217 UN(2,2)0.001271810.034294080.017602341.950.0514 Resid ual1.0000000026.964857581.3460921320.030.0001
Solution for Fixed E ffects
Parameter Estimate S td Error DDF T Pr>T INTERCEP T30.569062020.366439134783.420.0001 MATH30.612396560.042848704714.290.0001
Tests of Fixed E ffects
S ourc e NDF DDF Type III F Pr>F MATH3147204.260.0001
老师谢谢你
Covarianc e Parameter Estimates(MLE)
C ov Par m Ratio Estimate Std Error Z Pr> Z INTERCEPT UN(1,1)0.170849584.606934721.317159503.500.0005 UN(2,1)-0.01342246-0.361934720.12300866-2.940.0033 UN(2,2)0.001271810.034294080.017602341.950.0514 Resid ual1.0000000026.964857581.3460921320.030.0001
怎么按摩乳房General Mixed Linear Model and Approach of Mixed Proce-dure—Mixed Linear Model and its Implementations of SAS(1). Z hang Y anb o,He Dawei,Liu Guifen,et al.,Dept.of health Statistics,Shanx i Medical University(030001),Taiyuan
【Abstract】 Objective Hierarchical structu red data exist in med-ical fields widel y.Its many statistical models can be called a joint name, M ixed model.Its performance of SAS w as studied in this paper.Methods M ultilevel model exampl ified the general mixed l inear model us ing proce-dure mixed.Results The output of SAS accorded with M Ln with the ex-am ple of JSP data.Conclusion S AS M IXED can flexibly fit many types mixed model including multilevel model.
【Key words】 Hierarchical structured data Mixed linear model M ultilevel model Mixed procedure
参 考 文 献
1.徐勇勇,陈长生,曹秀堂等.医学与卫生统计资料的系统结构数据.
中国卫生统计,1995,12(5):12-15.
2.SAS Institute.SAS/STAT Software:Changes and Enhancements.Re-
leas e6.11.1996.
3.G.Woodhou.M ultilevel M odell ing Applications A guide for urs of
M ln.Institute of Education,University of London,1996,9-57.附:程序
data jspmath;
input school pupil math3math5x;
/*math3=math3-25.361;对math3中心化*/
output;
datalines;
1.00001.000023.00023.0000.0000
48.00012.00027.00037.0001.0000;
proc mixed data=jspmath method=ml;
class school;
model math5=/s;
random intercept/type=un sub=school g;
run;
proc mixed data=jspmat method=ml;
class school;
model math5=ma th3/s;
风韵的意思random intercept/type=un sub=school g;
random intercept math3/type=un sub=school g; run;
proc mixed data=jspmat method=ml;
class school;
model math5=ma th3/s;(拟合中心化后的math3) random intercept math3/type=un sub=school g; run;
肾综合征出血热群体聚集性及其组内相关系数上海市计划生育科学研究所(200032) 车 焱 周维谨
肾综合征出血热(HF RS)是一种病死率很高的传染病。人类可能通过吸入带毒鼠的皮肤碎屑、分泌物、排泄物等产生的气溶胶而感染,因而推测该病可能具有群体聚集性的特点,然而有关证据并不充分。“八五”期间我国曾在浙江省建德市进行HF RS疫苗现场效果评价,之前进行的基线调查为HF RS 聚集性的评价和组内相关系数的估计提供了可靠的资料。现将有关结果报告如下:
1992年调查了浙江省建德市3个乡共30个自然村的人口和HF RS患病情况,以自然村和家庭为单位的人口和HF RS患病人数见表1和表2。采用文献〔1〕报道的计算和统计方法,结果,以自然村为单位HFRS的组内相关系数(к)为0.00726。以家庭为单位的к为0.04128。经Z检验,二个к值都不能拒绝к=0的无效假设,因此,统计学上可以认为,HF RS在自然村和家庭内都不存在聚集性。然而,本文HF RS患者包括新发和既往病例,若以新发病例计算,к值将更低。
表1 1992年建德市30个自然村HFRS病例在不同家庭人口中的分布及人口数
病例数
家庭人口数
12345678910
合计
0436162775358221354224113693 139337482162210 23513113 311家庭数439172375963123860254113917人口数43934462385252411903601753291010558
表2 1992年建德市30个自然村人口及HF RS病例数
编号123456789101112131415病例数2321784141121418101013人口数303210171351323175175191546422331391432305626编号161718192021222324252627282930病例数263421158452574223人口数577452332397474361401169285534304409380289242
参 考 文 献
1.车焱.用组内相关系数评价疾病的家庭聚集性.中国卫生统计1997,
14(3),21-22.
>故字开头的成语