站长统计
⽣存分析中连续型⾃变量截断值的确定⽅法
题记:本⽂重点讲解在⽣存分析中如何合理设置连续型⾃变量的截断值,将连续型⾃变量转换为⼆分类变量。
1. 背景知识
对于结果变量为⼆分类资料的数据,连续型⾃变量截断值的确定⼀般通过ROC分析,我们通常选⽤约登指数(敏感度+特异度-1)最⼤的点为最佳截断值(cut-off值)点,这些都是常⽤的统计学⽅法,可以参考笔者与胡志德博⼠主编《聪明统计学》的相关章节[1]。但有时我们⾯对的问题要更复杂,假定我们的结果已经不是单纯的⼆分类资料,⽽是包含有时间因素的分类资料(Time to event data),即我们常说的⽣存资料。网络延迟怎么办
举个简单例⼦,假定在某研究中我们定义⽣存资料的结局是死亡,那作为研究者来说不仅关⼼研究对象是否死亡,⽽且关⼼研究对象从⼊组开始到死亡的时间长度。⽐如某研究中试验组共⼊组100⼈,假定在⼊组后的第1年、第2年、第3年死亡⼈数分别为:0、0、90⼈;对照组同样⼊组100⼈,假定⼊组后第1年、第⼆年、第3年死亡⼈数分别为:90、0、0。在这样⼀个例⼦中,如果我们只看重死亡的⼈数,那
么试验组与对照组结果没有差别,如果我们同时关注死亡与发⽣死亡的时间,那显然试验组的结局要优于对照组。从结局变量的维度上讲,⽣存资料在⼆分类的资料的基础上⼜增加了时间的维度。
那么对于⽣存资料中的连续型⾃变量是否还可以直接采⽤常规ROC分析来确定截断值呢?在既往已经发表的⽂献中我们有时会看到有些作者确实直接采⽤常规ROC分析⽅法确定⽣存资料中连续型⾃变量的截断值,那么这样的做法是否妥当?笔者认为,这种做法⽬前不好判断正确与否,但⾄少是不妥当的,因为我们有更科学的⽅法。本⽂中,我们将介绍三种⽅法来处理此类问题。本⽂的数据来⾃于笔者⾃⼰的研究中使⽤到的数据,数据下载⾃TheCancer Genome Atlas(TCGA)数据库,为了⽅便读者阅读,我们也对数据进⾏了简化处理,让其看起来更具有代表性,⽅便⼤家根据⾃⼰的研究数据进⾏实践操作。
2. 案例分析
表1.1215例患者X基因表达⽔平与⽣存资料
2.1 中位数法确定截断值
通过中位数确定截断值是最为常⽤的⼀种截断值确定的⽅法,类似的还有通过均值确定截断值,通过四分位数间距确定截断值等。这些⽅法可归为⼀类,这种⽅法操作简单,⽽且容易被读者理解和接受。下⾯我们就通过IBMSPSS 22.0(IBMSPSS, NY, USA)软件演⽰下中位数确定截断值,如图1~图7所⽰。
池宇峰50用英语怎么说图1. 定义变量Time: ⽣存时间;Status: ⽣存结局;Xgene:X基因的表达⽔平
淘宝网麦包包
图2. 录⼊数据
1969年属相图3. 计算Xgene的中位数,依次选择“Analyze”-“Descriptive Statistics”-“Explore”。与竹有关的成语
图4. 计算Xgene的中位数,选择“Xgene”进⼊“Dependent List”,其他选项默认,点击“OK”。
图5. 计算结果。Xgene的中位数=10.7112,为了⽅便阅读,我们取值10.71。
图6. 新建分组变量“group”:⼩于10.71为基因低表达组,不⼩于10.71为⾼表达组。
图7. 重新整理数据:录⼊每个患者具体分组信息。后续按照分组变量进⾏⽣存分析等。注意:此处使⽤Excel软件进⾏分组操作更⽅便,按照Xgene表达相对⽔平从低到⾼排序,找到中位数10.71,⼩于10.71分组为1,⼤于10.71分组为2。
2.2 X-tile软件法确定截断值
图8. 数据准备。将数据存储为⽂本⽂件(制表符分隔)。X-tile软件要求此格式数据。
图9. 启动X-tile软件,点击“Analyze”。人事是干什么的
图10. 导⼊数据⽂件。依次点击“File”-“Open”,选择要打开的数据。食品卫生管理制度
图11. 选择⽂本⽂件(制表符分隔)格式的数据打开。