R语⾔⽣存分析
杀杀
⽣存分析!⾸先是做⽣存分析的⽬的
双卡手机>中华日报⽣存分析:描述⼏类患者的⽣存/死亡/结局情况
举个例⼦:
花胶的吃法健康的⼈在长期的随访时间内都不会死亡,如果我们有⼀百个健康⼈⼊组,那么没有意外的话,在⼀段时间内(如⼗年),这些⼈都会存活
患严重疾病(尤其是癌症晚期)的患者,在⼏年内则很有可能因为得不到有效治疗⽽死亡,假如我们有⼀百个癌症患者⼊组,那么可能在⼀年内,就有⼀部分⼈会死亡
既然我们是做癌症/疾病的研究,我们通常关⼼如何延长患者的⽣命,⽽不是像感冒⼀样研究药效或者是治愈时间。除了研究癌症机理,我们更关⼼什么因素在直接影响着患者的⽣命。因此,统计学家开发了⽣存分析的⽅法,利⽤已有的⽣存数据和特定的分组来描述不同组间的⽣存数据及情况
⽣存分析需要什么数据
最简单的⽣存分析需要两列数据:⽣存(特定结局)时间;⽣存状态(在这个时间终点时,患者是活着?还是死亡?还是已经⽆法联系到患者)好听的圈名
当然这样的数据只能画⼀条⽣存曲线,如果我们想对⽐两组间的⽣存,就必须根据某种因素将患者分成两组,因此正常的⽣存分析⼀般会有三列数据,再加⼀列分组label
⽣存曲线是怎么估计的:K M法(最常⽤的)
先明⽩⼏个概念:
1. 患者是有⼀个统⼀的⼊组条件的,如确诊(⼀般都是确诊)/⼿术/开始临床实验等
2. 截尾数据:截尾数据经常出现,主要原因是患者在随访中途丢失了,⽆法找到这个患者,不能确定这个患者未来的哪⼀天会发⽣终点事件,因
此给它⼀个“删失”的标记。删失数据不能作为⼀个⽣存终点来计算⽣存概率,但是也没有必要丢弃,所以在⽣存曲线中⽤+表⽰。
3. 横轴是时间,纵轴是⽣存概率,这表⽰随着时间的推移,患者存活的概率逐渐降低,那么如果在⼀组健康⼈和⼀组重症患者中,他们在不同的
时间存活的概率⼀定会不同。
学生会工作总结K M (K ap lan-Me ie r cur v e):乘积极限法,发明者:K ap lan和Me ie r上元观古镇
书本造句
美国看病原理⼗分简单:
p值计算是通过差异统计的⽅法估计的,使⽤不同的⽅法所估计的p值不同,ggplot2附加的⽣存分析函数ggsurvplot中可以有三种统计差异的⽅法,默认是logrank(长时间随访
⽣存分析画图注意事项:
x轴范围:选择最合适的时间单位(⽉份/年/天)
(根据需求制定你的x轴范围,如癌症研究⼀般认为,患者五年内不出现死亡,则未来他死亡的可能性会⼤⼤降低。因此即使我使⽤的是overall survival数据(随访时间可能长达⼀⼆⼗年),但五年后的情况对我意义不⼤,因此我的x轴范围仍然选择五年,如果终点事件是复发,也是⼀样的)
如果⼊组患者中,⽣存时间都⽐较短,⼤部分患者在⼀年内死亡了,那么这时候设定5年的范围是不明智的,建议这时候把x轴范围设为⼀年,并将单位更换成⽉,让你的图更加美观
年/⽉/天的选择其实都是根据实际情况的,终点事件在⼏个⽉内发⽣的,可以更换成天,⼀般正规的随访记录都是以天和⽉为单位,在没有⽉份为