基于Cox比例风险回归模型、LASSO与生存树 的乳腺癌预后

更新时间:2023-06-24 19:55:52 阅读: 评论:0

Statistics and Application 统计学与应用, 2018, 7(2), 99-110
Published Online April 2018 in Hans. www.hanspub/journal/sa
doi/10.12677/sa.2018.72013
Prognosis of Breast Cancer Bad on Cox
Proportional Hazards Regression Model,
LASSO and Survival Tree
Li Wang, Juan Zhang
North China Electric Power University, Beijing
Received: Mar. 13th, 2018; accepted: Apr. 1st, 2018; published: Apr. 8th, 2018
Abstract
Traditional pathological examination methods are not enough to predict the treatment outcome of breast cancer. Therefore, it is of great significance to study the pathogenesis of breast cancer by molecular biology. By predicting the risk of recurrence in patients with breast cancer, high-risk cancer patients can benefit from adjuvant therapy, while low-risk cancer patients can be protected from unnecessary treatment. The microarray data of ER+ breast cancer and ER−breast cancer were analyzed in this paper. Univariate Cox proportional hazards regression mode was ud to preliminary screening the genes, then the LASSO was further ud to screen the genes and applied the genes to the survival tree for prediction and classification, Kaplan-meier curve and log-rank test were ud to prove the validity of the result. The model in this paper has a good prediction ef-fect in the classification of breast cancer patients. Some of the genes we screened have been re-ported in the relevant literature, indicating that it is cloly related to the occurrence and devel-opment of breast cancer. Other genes need further experiments to verify the role they play in breast cancer.
Keywords
msisdn
Cox Proportional Hazards Regression Model, Kaplan-Meier Curve, Log-Rank Test, LASSO, Survival Tree
基于Cox比例风险回归模型、LASSO与生存树
的乳腺癌预后
王莉,张娟
华北电力大学,北京
error code王莉,张娟
coati
收稿日期:2018年3月13日;录用日期:2018年4月1日;发布日期:2018年4月8日
传统的病理检查方法不足以预测乳腺癌的治疗结果,因此从分子生物学上研究其发病机制具有重要意义。通过对乳腺癌患者复发风险的预测,高风险标记的肿瘤患者可以从辅助治疗中获益,而低风险标记的患者可免遭不必要的治疗。本文分别对ER +乳腺癌和ER −乳腺癌的基因芯片数据进行分析,采用单因素Cox 比例风险回归模型初步筛选基因,然后进一步使用LASSO 方法对基因进行筛选,再利用这些基因通过生存树方法对患者进行预测和分类。本文使用Kaplan-meier 曲线及对数秩检验对结果进行验证。本文的模型对乳腺癌复发风险具有良好的预测效果,所筛选出的基因部分已被相关文献报道其确实与乳腺癌的发生和发展密切相关,其它基因尚需进一步实验来验证其在乳腺癌中发挥的作用。
关键词
Cox 比例风险回归模型,Kaplan-Meier 曲线,对数秩检验,LASSO ,生存树
Copyright © 2018 by authors and Hans Publishers Inc.
This work is licend under the Creative Commons Attribution International Licen (CC BY). creativecommons/licens/by/4.0/
1. 引言
近年来,全球乳腺癌发病率已居女性恶性肿瘤之首[1]。乳腺癌是性激素受体依赖的肿瘤之一,雌激素的存在可促进此类癌细胞的生长和增值[2] [3]。目前的方法尚不足以预测乳腺癌的治疗结果,即使是具有相同病历类型的患者,在经过手术与放射治疗后,预后也可能存在很大差别,这是因为乳腺癌具有异质性[4],因此当前关于乳腺癌的分类标准还有待提高。而基因表达谱对肿瘤患者的分类和预后是有效的,在其海量数据中,使用数理统计模型有效地挖掘信息也受到业界越来越多的关注。对于分类问题,支持向量机、贝叶斯网络、人工神经网络、决策树等机器学习方法在各领域中都得到广泛的应用,并取得了良好的预测效果。但对于肿瘤患者来说,这些方法考虑了事件的结果而未充分应用出现这一结果所经历的时间,因此本文在此选择了对肿瘤患者更优的预后分组方法——Cox 比例风险回归模型、LASSO 以及生存树。本文利用乳腺癌基因芯片数据筛查影响乳腺癌患者预后的基因,通过筛选基因对患者进行分类可以发现不同类别患者的基因特征。在未来的乳腺癌治疗中,以期可对患者选择具有针对性的基因治疗方案,从而提高乳腺癌患者的生命质量。
2. 研究对象和方法
2.1. 研究对象
本文下载GEO 数据库(bi.v/geo )乳腺癌基因芯片数据(GSE2034),该数据集共含有286个样本。其中209例为雌激素受体阳性(ER+)患者,该组患者随访时间为2个月至171个月,中位随访时间为86个月,本组80例患者出现复发;77例为雌激素受体阴性(ER −)患者,该组患者随访时间为6个月至161个月,中位随访时间为84个月,本组27例患者出现复发。上述患者均为淋巴结阴性,每个样本均含有22,283个探针。
王莉,张娟2.2. 研究方法
本文分别对ER+乳腺癌样本和ER−乳腺癌样本进行研究。对于ER+乳腺癌患者,将209个样本随机分为训练集和测试集,其中训练集含90个样本,测试集含109个样本;对于ER−乳腺癌患者,将77个样本同样进行随机分组,其中训练集含42个样本,测试集含35个样本。训练集用于模型的建立,测试集用于检验训练好的模型的分辨能力。本文对ER+与ER−乳腺癌基因芯片数据的分析采用R语言编程来实现。基因初步筛选使用单因素Cox比例风险回归模型,随后使用LASSO方法进一步筛选基因并建立生存树,使用Kaplan-meier曲线和对数秩检验对分类结果进行验证,以0.05
P<;为差异具有统计学意义。
3. 模型建立
logmein
3.1. 数据预处理
本文下载的乳腺癌基因表达矩阵如表1所示,行名表示探针,列名为每一例患者的编号;表2为患者基本信息。将两个表格通过患者编号进行合并,并通过“Status”将患者分为ER+乳腺癌组与ER−乳腺癌组分别进行研究。
Table 1. The microarray data of breast cancer
表1. 乳腺癌基因芯片数据
ID_REF GSM36777 GSM36778
1007_s_at 3848.1 6520.9 5285.7 4043.
1053_at 228.9 112.5 178.4 398.
117_at 213.1 189.8 269.7 312.
121_at 1009.4 2083.3 1203.4 1104.
1255_g_at 31.8 145.8 42.5 108.
1294_at 551.5 802.8 557.5 568.
1316_at 176.7 278.4 183.3 187.
1320_at 11.9 28.3 56.4 42.
miz1405_i_at 309.3 449 101.9 899.
1431_at 49.9 122.9 85.9
... ... ... ... ... ... ...
Table 2. The basic information of breast cancer
表2. 乳腺癌患者基本信息
ID Time Relap Status GSM36777790ER+
牛津小学英语2bGSM36778501ER+
GSM367791320ER+
GSM36780840ER-
GSM367811470ER+
GSM36782660ER+
GSM36783520ER+
GSM36784571ER+
GSM36785570ER+
GSM36786660ER+ ... ... ... ...
王莉,张娟
将上述分组后的表格分别与表3所示的探针与基因匹配表结合进行整理,转换为每一个基因的表达值进行研究。若探针与基因为“一对一”的关系(即一个探针对应一个基因),则将相应表达值作为基因的表达值;若探针与基因为“一对空”或“一对多”,此时由于不能确定探针对应的是哪个基因的表达值,因此将其删除;若探针与基因为“多对一”,则取表达量较高的值作为此基因的表达值。经处理之后,ER+乳腺癌组与ER−乳腺癌组分别得到12,548和11,923个基因的表达值。
notify
初始数据一般都具有冗余性、不完整性和不规范性,无法直接进行数据分析。一些无意义的数据的存在会严重影响算法的执行,若存在噪音干扰,还会造成结果的偏差。因此,对不理想的原始数据预处理是进行数据分析的首要步骤。为了去除芯片间的系统误差,本文对数据进行了分位数标准化[5];同时为了减少背景噪音,将小于50的基因表达值赋值为50;接着对数据进行以2为底的对数化变换;再将变异系数小于3%的基因剔除,此时ER+乳腺癌组与ER−乳腺癌组分别剩余11,960和11,846个基因的表达值。最后对每一个基因表达值进行编码,计算每组全部基因表达值的25%、50%、75%分位数,小于等于25%分位数的编码为1,大于25%分位数且小于等于50%分位数的编码为2,大于50%分位数且小于等于75%分位数的编码为3,大于75%分位数的编码为4 [6]。经过预处理的基因编码矩阵如表4与表5所示。
Table 3. The matching table of probes and genes
表3. 探针与基因匹配表
ID_REF Gene
1053_at RFC2
网站结构设计117_at HSPA6
121_at PAX8
1255_g_at GUCA1A
1316_at THRA
1320_at PTPN21
1405_i_at CCL5
1431_at CYP2E1
junior是什么意思1438_at EPHB3
1487_at ESRRA
... ...
Table 4. The encoding matrix of ER+ breast cancer
表4. ER+乳腺癌基因编码值矩阵
ID A1CF A2M A4GALT
GSM36777    2    4    2    2    2 ...
GSM36778    3    4    1    2    1 ...rover
GSM36779    2    4    1    2    2 ...
GSM36781    3    4    1    2    1 ...
GSM36782    2    4    2    2    2 ...
GSM36783    2    4    1    2    2 ...
GSM36784    3    4    2    2    1 ...
GSM36785    2    4    1    2    2 ...
GSM36786    2    4    1    2    1 ...
GSM36787    3    4    1    2    1 ...
.
.. ... ... ... ... ... ...
王莉,张娟
Table 5. The encoding matrix of ER − breast cancer 表5. ER −乳腺癌基因编码值矩阵
ID A1CF A2M A4GALT
A4GNT AAAS  ... GSM36780    2    4    1    2    1 ... GSM36788    3    4    1    2    2 ... GSM36791    3    4    1    2    1 ... GSM36793    3    4    1    2    2 ... GSM36795    3    4    2    2    2 ... GSM36797    3    4    1    1    1 ... GSM36798    2    4    1    2    1 ... GSM36800    2    4    2    2    3 ... GSM36808    3    4    2    2    1 ... GSM36809
2    4    2    1    1 ... ...
...
...
...
.
..
...
...
3.2. 单因素Cox 比例风险回归模型初步筛选基因
Cox 比例风险回归模型[7]是由英国的生物统计学家Cox D R 提出的比例风险模型。风险函数(hazard function)是描述生存时间分布的一个重要函数。如终点事件为死亡(复发),风险函数表示t 时刻仍存活的病人在t 时刻的瞬间死亡(复发)率:
()()()0
,lim
t t t t t h t t
∆→+∆=∆在时间生存的病人死复发于区间的概率
称为瞬时死亡(复发)率或条件死亡(复发)速率。
Cox 提出的比例风险模型是:病人具有12,,,i i ip X X X  的伴随变量值,则第i 名病人生存(复发)到时间t 的风险函数是基础风险函数与自变量的函数的乘积:
()()()011i i p ip h t h t f X X ββ=×++
()0h t 即当所有的伴随变量都为0时的风险函数。
其中定义伴随变量的函数()
ij f x β为指数形式,因此  ()()()011exp i i p ip h t h t X X ββ=×++
()
()
110ln
i i p ip h t X X h t ββ=++  Cox 模型是一个风险比对数的线性模型,j β实际意义为当伴随变量j X 每改变一个单位时所引起的相对风险度的自然对数的改变量。j β不仅反映出协变量的作用强度,而且反映它的作用方向[8]。
我们对训练集数据使用单因素的Cox 比例风险回归模型进行基因初步筛选,对于ER+乳腺癌组,以0.05P <;作为入选标准。经过筛查,有999个基因对ER+乳腺癌的复发具有显著性影响,结果见表6 (结
果保留两位小数)。如基因ABCB8,其β值为0.96,e β值为2.61,表明每当ABCB8的编码值增加一个单位,其复发风险比扩大到原来的2.61倍,说明对于ER+乳腺癌患者来说,ABCB8是其复发的风险基因;对于基因ABLIM1,其β值为−0.97,e β值为0.38,表明每当ABCB8的编码值增加一个单位,其复发的风险比缩小到原来的0.38,说明对于ER+乳腺癌患者来说,ABLIM1是其复发的保护基因。
对于ER −乳腺癌组,以0.001P <;作为入选标准(在此分别使用0.05P <、0.01P <、0.001P <;为限定条件对基因进行筛选,通过对最终结果进行比较,此步将P 值严格限定为0.001)。经过筛查,有13个基因对ER −乳腺癌的复发具有显著性影响,结果见表7。

本文发布于:2023-06-24 19:55:52,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/156355.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:乳腺癌   基因   患者   进行   风险   模型   复发
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图