·论著·
去势抵抗性前列腺癌潜在关键基因的生物信息学分析
董婧婷1,衡立1,康绍叁1,刘健1,田志崇1,张立国1,张金存1,李治国2,沈宏3*,曹凤宏1*
【摘要】 背景 去势抵抗性前列腺癌(CRPC)是男性常见恶性肿瘤疾病之一,病死率高,分子机制仍不十分清楚,且无有效治疗药物。目的 应用生物信息学方法挖掘CRPC 发生、发展的关键基因,为其诊治提供新思路。方法 从基因表达综合数据库(GEO)中下载关于人类原发性前列腺癌(PCa)和
CRPC 的数据集GSE32269并进行生物信息学分析。使用R 语言鉴定CRPC 的差异表达基因(DEGs)。通过DAVID 软件对DEGs 进行基因本体论(GO)富集分析及京都基因和基因组百科全书(KEGG)通路分析。利用STRING 在线数据库构建蛋白质-蛋白质相互作用(PPI)网络进一步筛选关键基因,并对关键基因进行生存分析和受试者工作特征(ROC)曲线分析。结果 通过对微阵列数据集GSE32269分析共筛选出279个DEGs,进一步通过GO 富集分析和KEGG 通路分析发现在CRPC 发展中,细胞分裂、有丝分裂和细胞周期等信号通路发挥重要作用。PPI 网络分析筛选出15个关键基因,对关键基因进行生存分析发现:CDC20、MAD2L1和NUSAP1高表达组CRPC 患者总生存率和无病生存率均分别低于CDC20、MAD2L1和NUSAP1低表达组(P<0.05);且CDC20、MAD2L1和NUSAP1预测CPRC 发生的ROC 曲线下面积分别为0.933、0.762、0.950,提示其对CRPC 具有较高的诊断价值。结论 CDC20、MAD2L1和NUSAP1可能是参与CRPC 发展的关键候选基因。
【关键词】 前列腺癌;去势抵抗性前列腺癌;关键基因;生物信息学
【中图分类号】 R 737.25 【文献标识码】 A DOI:10.12114/j.issn.1007-9572.2022.02.010
董婧婷,衡立,康绍叁,等. 去势抵抗性前列腺癌潜在关键基因的生物信息学分析[J]. 中国全科医学,2022,25 (8):937-944. [www.chinagp]
DONG J T,HENG L,KANG S S,et al. Bioinformatic analysis of potential key genes in castration-
resistant prostate cancer development[J]. Chine General Practice,2022,25(8):937-944.
Bioinformatic Analysis of Potential Key Genes in Castration-resistant Prostate Cancer Development DONG Jingting 1,HENG Li 1,KANG Shaosan 1,LIU Jian 1,TIAN Zhichong 1,ZHANG Liguo 1,ZHANG Jincun 1,LI Zhiguo 2,SHEN Hong 3*,CAO Fenghong 1*
1.Department of Urology ,North China University of Science and Technology Affiliated Hospital ,Tangshan 063000,China
2.School of Public Health ,North China University of Science and Technology ,Tangshan 063210,China
3.Modern Education Technology Center ,North China University of Science and Technology ,Tangshan 063000,China *specific是什么意思
Corresponding authors :SHEN Hong ,Engineer ;E-mail :shenhong@ncst.edu
CAO Fenghong ,Chief physician ,Master supervisor ;E-mail :
【Abstract 】 Background Castration-resistant prostate cancer(CRPC) is one of the most preva
lent cancers in males with a high fatality rate. Its molecular mechanism is still unclear,and there is no effective treatment. Objective To explore the key genes involved in CRPC development using bioinformatic analysis,offering new ideas for the diagnosis and treatment of CRPC. Methods The data t GSE32269 which contains human primary prostate cancer and CRPC was downloaded from the Gene Expression Omnibus databa for further bioinformatic analysis. R language was ud to identify differentially expresd genes(DEGs) in CRPC. Gene Ontology(GO) enrichment analysis and Kyoto Encyclopedia of Genes and Genomes(KEGG) pathway analysis of DEGs were further performed by using DAVID. A protein-protein interaction(PPI) network of DEGs was constructed by using STRING databa for screening potential key genes. And the identified potential key genes were further analyzed by survival analysis and receiver operating characteristic(ROC) curve analysis. Results 279 DEGs were identified in microarray datat GSE32269. GO enrichment analysis and KEGG pathway analysis revealed that cell division,mitosis and cell cycle signaling pathways may play an important role in the development of CRPC. PPI network screening revealed that there were
基金项目:河北省自然科学基金资助项目(H2019209595);河北省医学科学研究课题计划资助项目(20210212)
1.063000河北省唐山市,华北理工大学附属医院泌尿外科
2.063210河北省唐山市,华北理工大学公共卫生学院
3.063000河北省唐山市,华北理工大学现代教育中心
*
通信作者:沈宏,工程师;E-mail:shenhong@ncst.edu 曹凤宏,主任医师,硕士生导师;E-mail: 本文数字出版日期:2022-01-27
扫描二维码
查看原文
stormydaniels前列腺癌(prostate cancer,PCa)是癌症相关死亡率第二高的恶性疾病[1],目前主要采取雄激素剥夺疗法(androgen-deprivation therapy,ADT)进行治疗[2]。据报道,10%~20%的PCa患者对
ADT产生抵抗,最终演变为去势抵抗性前列腺癌(castration-resistant prostate cancer,CRPC),且中位生存期仅为14个月[3],预后不良,死亡率极高[4]。已有研究发现在去势状态下雄
激素受体(androgen receptor,AR)信号的传导与CRPC 潜在分子机制有关[5],但具体机制仍不十分清楚,且目前临床上尚无有效治疗CRPC的方法。因此亟须寻找新的关键基因,为临床诊疗提供新思路。
生物信息学是一门分析理解生物数据的学科,其可以在生物体表达的不同位置、不同通路中进行富集,从而发现与疾病相关联的生物信息,还可根据基因本体论(GO)、京都基因和基因组百科全书(KEGG)和蛋白质-蛋白质相互作用(PPI)综合分析,获取在癌症相关疾病中较为稳定的差异表达基因(differentially expresd genes,DEGs),是一种能有效发掘癌症相关疾病基因表达谱的重要工具[6]。已有研究应用生物信息学方法找到与PCa相关的关键基因。SUN等[7]通过生物信息学分析鉴定出ARHGEF38等关键基因和PCa进展相关;SHEN等[8]运用基因表达分析揭示了与PCa预后相关的关键基因并提出靶向细胞周期通路可能与PCa的预后和治疗相关;GU等[9]采用生物信息学方法确定了TOP2A、CCNB2等关键基因可促进PCa的发展和转移。为进一步找到和CRPC发展密切的候选基因,本研究通过生物信息学方法挖掘与CRPC进展相关的关键基因。
本研究结合CRPC和PCa样本的基因表达谱,首先对数据集进行处理,筛选DEGs,分析DEGs的功能
和途径以及疾病的信号通路。然后构建PPI网络,对重要模块进行分析并筛选出具有生存意义的关键基因,本研究结果可为CRPC发病机制、治疗和预后的相关研究提供新思路。
1 资料与方法
1.1 数据收集 从国家生物技术信息中心(National Center for Biotechnology Information,NCBI)( bi.v/)的GEO(bi.nlm. v/geo/)数据库中下载微阵列数据集GSE32269。GSE32269芯片由Affymetrix公司GPL96平台检测,包括29例CRPC样本和22例原发性PCa样本。
1.2 筛选DEGs 使用R语言4.0.3中的Affy包[10],将hod设置为“quantiles”,bgcorrect. method设置为“rma”,hod设置为“pmonly”,hod设置为“liwong”,提取基因的表达量。然后采用t检验得到两组样本基因表达量的P值,利用Benjamini-Hochberg错误发现率方法,调整P值来降低假阳性率[11]。采用校正后P<0.05,差异倍数(fold change,FC)>1.5作为截断值的标准,筛选CRPC和原发性PCa样本之间的DEGs。
1.3 功能富集分析 利用DAVID在线工具( v)对DEGs进行GO富集和KEGG信号通路分析[12]。GO是一种生物信息学工具,可以提供关于分子功能(MF)、细胞成分(CC)和生物过程(BP)等生物领域的信息[13]。KEGG是与系统集成基因功能信息相关的数据
库[14]。富集显著性阈值设为P<0.05。利用R软件中的GOplot包使GO富集结果可视化。为了确定CRPC中通路的变化趋势,使用以下公式计算每项的Z分数:Z-score=(N up-N down)/√count,N up和
N down分别代表CRPC和原发性PCa对照之间上调和下调的基因数量,count是该术语DEGs的数量[15]。
1.4 PPI网络和模块分析 为预测蛋白质之间物理和功能的相互作用,本研究使用STRING(string-db. org/)构建DEGs的PPI网络(互作评分>0.4)[16]。采用Cytoscape 3.7.2版(cytoscape/download_old_ versions.html)软件进行可视化处理[17]。利用MCODE 插件[18]对网络进行模块分析,较高分数的模块在疾病的发展过程中具有重要意义。
1.5 鉴定关键基因 选择满足以下2个约束条件的DEGs作为关键基因:(1)该基因位于关键模块中(模
15 potential key genes,among which CDC20,MAD2L1 and NUSAP1 expresd differentially in CRPC patients:tho with highly expresd CDC20,MAD2L1 and NUSAP1 had statistically lower overall survival rate and dia-free survival rate than did tho with low expresd CDC20,MAD2L1 and NUSAP1(P<0.05). The area under the ROC curve of CDC20,MAD2L1 and NUSA
经济师培训课程P1 to predict the occurrence of CRPC were 0.933,0.762,and 0.950,respectively,indicating that each of them may have a high diagnostic value for CRPC. Conclusion CDC20,MAD2L1 and NUSAP1 may be key candidate genes associated with the development of CRPC.
【Key words】 Prostatic neoplasms;Castration-resistant prostate cancer;Key genes;Bioinformatics
块分数>40);(2)使用Cytoscape 软件计算,同时符合最大邻域分量(maximum neighborhood component,MNC)、最大邻域分量密度(density of maximum neighborhood component,DMNC)和最大集团中心性(maximal clique centrality,MCC)前30位的基因。1.6 关键基因的生
存分析和受试者工作特征(ROC)曲线分析 癌症基因组图谱(The Cancer Genome Atlas,TCGA)(gepia.cancer-pku/index.html)数据库拥有庞大的PCa 样本量,能提供大量的临床信息[19]。基于TCGA 并在基因表达和生存分析的交互式网络应用(Gene Expression Profiling Interactive Analysis 2,GEPIA2)(gepia2.cancer-pku/#index)下,对这些关键基因采用Mantel-Cox 检验进行生存分析[20],评价患者预后,其中总生存期是指从随机化分组开始至因任何原因引起死亡的时间;无病生存期是指从随机化分组开始至疾病复发或由于疾病进展导致患者死亡的时间。然后绘制关键基因的ROC 曲线,用R 软件pROC 包[21]计算ROC 曲线下面积(AUC),可以直观地分析关键基因对CRPC 的诊断价值,一般认为AUC>0.50,越接近于1则诊断价值越高[22]。以P<0.05为差异有统计学意义。2 结果
2.1 CRPC 的DEGs 筛选 通过对微阵列数据集GSE32269分析共筛选出279个DEGs,其中上调基因175个,下调基因104个(图1,彩图扫描文章首页二维码)。
乌兹别克斯坦英文2.2 CRPC 的DEGs GO 富集分析和KEGG 信号通路分析 GO 富集分析结果显示,CRPC 的DEGs 主要参与细胞黏附、细胞分裂、有丝分裂姐妹染色单体分离、有丝分裂核分裂和有丝分裂胞质分裂等BP (图2A、表1),
主要分布在细胞外外泌体、细胞外基质等CC(图2B、表2),主要有细胞外基质结构成分、蛋白质结合等MF (图2C、表3)。KEGG 结果显示,CRPC 的DEGs 主要参
16420-2-4-6
141210
86420
-4
-2
02
4
-l g p
差异倍数
下调基因B
无区别上调基因
A
注:A 表示排名前100的DEGs 热图,其中红色区域代表高表达基因,绿色区域代表低表达基因,颜色越深,表达越显著;B 表示DEGs 火山图,其中红色代表上调基因,绿色代表下调基因,灰色代表无区别;CRPC=去势抵抗性前列腺癌,PCa=前列腺癌,DEGs=差异表达基因
图1 CRPC 的DEGs 筛选
Figure 1 Identification of differentially expresd genes in castration-resistant prostate cancer
表2 CRPC 的DEGs 主要参与的细胞成分
Table 2 Major cellular components of differentially expresd genes involved in castration-resistant prostate cancer development
ID 描述GO:0070062细胞外外泌体GO:0031012细胞外基质GO:0005578蛋白质细胞外基质GO:0005615细胞外空隙GO:0030496中间体GO:0005788内质网腔GO:0005581胶原蛋白三聚物
GO:0005737细胞质GO:0051233中央区GO:0005604
基底膜
表1 CRPC 的DEGs 主要参与的生物过程
Table 1 Major biological process in which differentially expresd genes in castration-resistant prostate cancer being involved
ID 描述GO:0030198细胞外基质组织GO:0007155细胞黏附GO:0051301细胞分裂GO:0030199胶原纤维组织GO:0030574胶原蛋白分解代谢过程GO:0000070有丝分裂姐妹染色单体分离
blued是什么GO:0006909吞噬作用GO:0007067有丝分裂核分裂GO:0051988调节纺锤体微管与着丝点附着
GO:0000281
有丝分裂胞质分裂
注:GO=基因本体论
towerbridge注:A 表示生物过程,B 表示细胞成分,C 表示分子功能;GO Circle 图的内环是条形图,其中条形高度表示GO 术语(P 值)的重要性,颜色表示Z 值大小,外环显示了每组基因表达水平(LogFC)的散点图,蓝点代表下调基因,红点代表上调基因;GO=基因本体论,BP=生物过程,CC=细胞成分,MF=分子功能
图2 CRPC 的DEGs GO 富集分析结果
Figure 2 GO enrichment results of differentially expresd genes in castration-resistant prostate cancer
英语音标发音规则表表3 CRPC 的DEGs 主要参与的分子功能
Table 3 Major molecular functions of differentially expresd genes involved in castration-resistant prostate cancer development
ID 描述
GO:0005201细胞外基质结构成分
GO:0005515蛋白质结合GO:0005518胶原蛋白质结合GO:0050840细胞外基质结合GO:0005178整合素结合GO:0008307肌肉结构成分GO:0048407血小板衍生生长因子结合
GO:0019901蛋白激酶结合GO:0008201肝素结合GO:0051015
肌动蛋白丝结合
细胞外基质受体相互作用
卵母细胞减数分裂
黏着斑
细胞周期
吞噬体
疟疾
PI3K-Akt 信号通路
蛋白质消化吸收
阿米巴病百日咳基因数量
-lgp 值
基因率
KEGG
0.050
0.0750.10085.0412.5610.0215.0
7.5注:KEGG=京都基因和基因组百科全书
图3 CRPC 的DEGs KEGG 富集分析结果
Figure 3 KEGG enrichment results of differentially expresd genes involved in castration-resistant prostate cancer development
与黏着斑、PI3K-Akt 信号通路和细胞周期等途径(图3)。2.3 CRPC 的DEGs PPI 分析及关键基因筛选 应用STRING 数据库对筛选出的279个DEGs 进行PPI 分析,通过移除分离和单独连接的节点,应用Cytoscape 将蛋白网络可视化,得到一个由224个节点和1 665条边组成的PPI 网络(图4A)。使用MCODE 识别出了最重要的模块(分数=42.093),由43个节点和863条边组成(图4B)。根据筛选条件共鉴定出15个关键基因(图4C),分别是CDC20、CCNB2、PRC1、MAD2L1、PBK、NUSAP1、RRM2、SMC2、MELK、KIF4A、DTL、ZWINT、CEP55、RACGAP1和CDKN3(表4)。2.4 关键基因与CRPC 患者预后的关系 对15个关键基因进行生存分析,结果显示,CDC20(n=245)、MAD2L1(n=246)和NUSAP1(n=246)高表达组CRPC 总生存期分别短于CDC20(n=245)、MAD2L1(n=246)和NUSAP1(n=246)低表达组,差异均有统计学意义(P=0.049,P=0.035,P=0.020),见图5。CDC20、MAD2L1和NUSAP1高表达组CRPC 无病生存期分别短于CDC20、MAD2L1和NUSAP1低表达组,差异均有统计学意义(P =7.5E-05,P=0.043,P=0.002),见图6。绘制CDC20、MAD2L1和NUSAP1预测CRPC 发生的ROC 曲线,结果显示,AUC 分别为0.933、0.762、0.950(图7)。3 讨论
CRPC 发病机制复杂,AR 扩增、AR 突变及AR 变异等多种机制均参与CRPC 的发生、发展[23],但具体机制仍难以明确。本研究采用生物信息学方法分析芯片数据集共筛选出279个DEGs,通过GO 和KEGG 富集分析发现DEGs 主要富集于细胞分裂、有丝分裂和细胞周期。已有研究表明,有丝分裂停滞可抑制CRPC 的进
注:A 表示CRPC 的DEGs PPI 网络,红色的节点代表上调DEGs,蓝色的节点代表下调DEGs;B 表示MCODE 识别出的最重要模块,节点颜色与节点的|logFC|相对应;C 表示关键基因的韦恩图;DMNC=最大邻域分量密度,MNC=最大邻域分量,MCC=最大集团中心性
图4 CRPC 的DEGs PPI 网络和关键基因
Figure 4 PPI network and key genes involved in castration-resistant prostate cancer development
1.0 1.0
1.0
0.80.80.80.60.60.60.40.40.40.2
0.2
0.20
A B C 00505050100100100150150150累积总生存率
征服英语
累积总生存率
累积总生存率
时间(月)时间(月)时间(月)
沃尔得国际英语低表达组
低表达组
低表达组
高表达组高表达组
高表达组
注:A 为CDC20,B 为MAD2L1,C 为NUSAP1
图5 CDC20、MAD2L1和NUSAP1高表达组与低表达组总生存期比较的生存曲线
Figure 5 Overall survival curves between castration-resistant prostate cancer patients with highly and low expresd CDC20,MAD2L1 and NUSAP1
thinkover
表4 CRPC 的DEGs 关键基因详细情况
Table 4 Details of key genes of differentially expresd genes involved in castration-resistant prostate cancer development
关键基因logFC P 值MCC DMNC MNC CDC20 1.406 196 669 3.45E-079.22E+13 1.387 5946CCNB2 1.211 615 251 6.41E-059.22E+13 1.372 6946PRC1 1.379 662 195 2.93E-069.22E+13 1.366 7246MAD2L1 1.344 235 6730.000 588 119.22E+13 1.366 7246PBK 2.292 914 566 3.17E-059.22E+13 1.406 3845NUSAP1 1.570 694 653 2.92E-079.22E+13 1.394 0045RRM2 1.412 761 198 3.44E-079.22E+13 1.381 6345SMC2 1.412 009 936 1.67E-079.22E+13 1.358 4245MELK 2.012 790 040 6.81E-099.22E+13 1.432 2144KIF4A 2.302 338 169 3.25E-099.22E+13 1.420 9644DTL 1.385 254 880 1.29E-059.22E+13 1.408 1044ZWINT 1.591 711 5360.000 340 6599.22E+13 1.372 7444CEP55 1.779 583 266 1.70E-059.22E+13 1.440 8243RACGAP1 1.577 983 649 5.87E-089.22E+13 1.440 8243CDKN3
2.135 599 175
0.000 218 876
9.22E+13
1.360 59
43
注:MCC=最大集团中心性,DMNC=最大邻域分量密度,MNC=最大邻域分量