一种用于非小细胞肺癌分型诊断的基因转录本标记物组合及分型诊断装置的制作方法
1.本发明属于生物技术领域,具体涉及一种用于非小细胞肺癌分型诊断的基因转录本标记物组合及分型诊断装置。
背景技术:
2.肺癌是当今世界最常见的恶性肿瘤之一,且是致死亡人数最多的肿瘤。肺癌可以分为小细胞肺癌和非小细胞肺癌,分别占比15%和85%。和其他恶性肿瘤类似,肺癌的生存期同其分期密切相关。非小细胞肺癌是由表观遗传改变引起的异质性疾病,具有高度肿瘤异质性。肿瘤异质性是癌症进展和耐药的重要原因。现有肺癌的方式选择的主要依据是病理分型及分期,其中包括小细胞肺癌和非小细胞肺癌,肺腺癌(adc)和肺鳞癌(scc)等。临床上对肺癌作出诊断时,明确其病理分型对制订方案、分析预后非常重要。不同组织亚型的肺癌,其相应的策略也有所差异。对于非小细胞肺癌来说,腺癌的肿瘤细胞增殖速度比较快,通常在早期就会出现病灶转移,对化疗药物更敏感,而对放射效果欠佳,因此常常选择手术、化疗、免疫、靶向等方式。而鳞癌的肿瘤细胞生长稍慢一些,早期以局部侵犯为主,远处转移发生比较晚,所以鳞癌对放射的敏感性更高,一般会采用手术、放射、免疫等方式。
3.目前对肺癌的病理分型主要依靠组织形态学及免疫组化的方法。传统的病理组织学方法对病理技术员和病理医师的要求较高,进行结果判读时也存在一定的主观性。因此,开发一种客观、准确的基因标记物组合应用于非小细胞肺癌的组织分型诊断具有十分重要的意义。因此,针对肺癌分型诊断应用,本发明首次公开了一种用于非小细胞肺癌分型诊断的基因转录本标记物组合及分型诊断装置。
技术实现要素:
4.为了填补现有技术的空白,本发明的目的在于提供一种用于非小细胞肺癌分型诊断的基因转录本标记物组合及分型诊断装置。
5.本发明解决上述技术问题的技术方案如下:
6.本发明的第一方面提供了一种基因转录本标记物组合,包括如下33个基因的转录本:loc642587、s1pr5、bnc1、atp1b3、lass3、lonrf3、vsnl1、trim29、hnf1b、dsg3、clca2、tmprss11a、krt17、golt1a、dlx5、e2f7、col4a5、slc39a2、tesc、fat2、calml3、krt74、pvrl1、prrg3、perp、c4bpb、fzd7、dmgdh、ocln、arhgef38、krt5、cgn、lrrc66;所述标记物组合应用于肺腺癌、肺鳞癌的组织分型诊断;
7.进一步的,所述分型诊断的样本类型为非小细胞肺癌组织rna;其组织分型诊断的准确度为96.64%。
8.本发明的第二方面提供了一种基于上述基因转录本标记物组合制备的肺癌分型诊断装置,所述装置包括检测模块和预测模块;具体地,通过输入所述标记物组合转录本的
表达水平,即可对非小细胞肺癌组织是肺腺癌还是肺腺癌进行准确预测;
9.进一步的,所述检测模块包括总rna提取试剂、逆转录试剂、建库试剂或测序试剂;
10.进一步的,所述检测具体为从肺癌组织样本中提取总rna,建库测序,获得上述33个基因转录本count数;更具体地,所述33个基因转录本count数的获取包括下机数据质控、低质量数据过滤、参考基因组比对、计算count数等步骤;
11.进一步的,所述预测具体为将得到的基因转录本count数,输入构建好的随机森林分类器中,得到预测结果;
12.进一步的,所述预测结果为0或者1,其中0表示样本预测结果为肺腺癌,1表示样本预测结果为肺鳞癌;
13.进一步的,所述分类器的构建方法如下:
14.(1)获取非小细胞肺癌组织,根据其组织分型分为adc组和scc组;
15.(2)提取肿瘤组织总rna,进行逆转录,逆转录为cdna;
16.(3)进行文库构建;
17.(4)测序上机,获得各转录本的reads数;
18.(5)进行下机数据质控、数据过滤、数据转换后,得到每个转录本的count数,并将各转录本注释到人类基因组上;
19.(6)使用deseq2软件包(基于r语言)进行差异转录本分析;
20.(7)根据设定的log2foldchange和padjust阈值,进行差异转录本过滤,初步得到具有特别显著性差异的转录本,进入后续分析;
21.(8)将步骤(7)中得到的转录本count数作为自变量,是否为肺鳞癌组织作为因变量(adc用数字0表示,scc用数字1表示),使用scikit-learn软件包(基于python)中的随机森林模型构建分类器,进行模型的训练后,得到分类模型;再根据分类模型对待测样本进行组织分型的预测;
22.(9)根据步骤(8)中得到的分类模型中各基因的权重系数进行排序,进一步对纳入模型中的基因数量进行探索,最终得到包含33个基因的优选组合;
23.(10)以包含33个基因构建随机森林分类器并检验其效果;
24.进一步的,各基因转录本分析时,参考基因组版本为hg19版;
25.进一步的,所述随机森林分类器中33个基因的权重系数如下:
26.基因名权重系数loc6425870.0071s1pr50.0764bnc10.0328atp1b30.0170lass30.1734lonrf30.0117vsnl10.0413trim290.0096hnf1b0.0164dsg30.2121
clca20.0042tmprss11a0.0035krt170.0050golt1a0.0087dlx50.0073e2f70.0094col4a50.0057slc39a20.0050tesc0.0053fat20.0058calml30.0401krt740.0681pvrl10.0368prrg30.0064perp0.0081c4bpb0.0058fzd70.0023dmgdh0.0022ocln0.0046arhgef380.0111krt50.1429cgn0.0105lrrc660.0034
27.进一步的,所述权重系数的绝对值越大,表明该基因在随机森林分类器中的作用越重要;
28.其中,根据上述权重系数得到的分类器,在训练集和测试集的预测准确度可达到99.82%和96.64%。
29.本发明的有益效果在于:
30.本发明首次提供了一种用于非小细胞肺癌分型诊断的基因转录本标记物组合及分型诊断装置,该33个基因转录本组合应用于肺癌分型诊断中,在训练集和测试集的预测准确度可达到99.82%和96.64%。本发明提供的肺癌分型诊断装置,通过输入上述基因转录本的表达水平,可对肺组织是否为肺癌进行准确诊断。同时本发明基于上述基因转录本组合开发了一种诊断模型,可有效诊断出肺癌组织,具有高灵敏度、特异度、检测过程客观等优点。
附图说明
31.图1显示为纳入分析的835例非小细胞肺癌样本的组间主成分分析(pca)图;
32.图2显示为差异转录本分析的ma-plot(探索差异点的分布情况);
33.图3显示为差异化转录本结果的火山图;
34.图4显示为初筛得到的1156个差异转录本的表达水平热图;
35.图5显示为纳入1156个差异转录本的rf模型的学习曲线以及最优基因组合数目的确认;
36.图6显示为优选的33个基因转录本组合在测试集预测中的roc曲线及曲线下面积(auc);
37.图7显示为优选的33个基因转录本组合在不同样本间的相对表达聚类热图。
具体实施方式
38.以下结合实例说明本发明,但不限制本发明。在本领域内,技术人员对本发明所做的简单替换或改进均属于本发明所保护的技术方案内。
39.实施例1:
40.本发明提供了从肺癌组织中提取rna,检测其中33个基因转录本的方法,通过本发明所述的分型诊断装置,可以很准确地预测肺癌组织的病理学分型。
41.非小细胞肺癌组织来源于肺癌患者手术中的肿瘤组织835例,其中adc样本为454例、scc样本为371例。
42.提取样本总rna,其步骤包括:组织切片脱蜡、水化、组织刮取、组织裂解、过离心柱、离心柱清洗、rna洗脱等步骤。
43.对提取到的rna,使用紫外分光光度计进行rna总量和纯度的测定,保证rna符合实验室质量控制要求。
44.将提取后的rna进行逆转录处理,获得cdna。
45.使用本发明提供的文库构建试剂进行建库,实验步骤按照厂家说明书进行,建库后进行文库质检。
46.文库测序上机,进行下机数据质控,将低质量数据过滤,并进行数据转换后,得到每个转录本的count数,并将各转录本与人类基因组上(版本为hg19)进行比对。通过使用deseq2软件包(基于r语言)进行差异转录本分析,获得差异转录本。进一步地,根据设定的log2foldchange和padjust阈值,进行差异转录本过滤,初步得到1156个在两组样本间具有特别显著性差异的转录本,结果如图3、图4所示,进入后续分析。
47.将纳入分析的835例肺癌样本(adc样本为454例、scc样本为371例)按照7:3的比例拆分为训练集、测试集样本。将上述1156个转录本count数作为自变量,是否为肺鳞癌组织作为因变量(adc用数字0表示,scc用数字1表示),使用scikit-learn软件包(基于python)中的随机森林(random forest,rf)模型构建分类器,使用训练集数据进行模型的训练后,得到分类模型;再根据分类模型对测试集样本进行组织分型的预测,并与实际的分组情况进行比较,评估模型的准确度。
48.根据得到的分类模型中各基因的权重系数进行排序,进一步对纳入模型中的基因数量进行探索,目的是用最少的基因数量获得较佳的分类效果,最终得到包含33个基因的优选的基因组合,更多数量的基因组合并不能增加分类模型的效果,如图5所示。
49.以包含优选的33个基因构建rf分类器,构建完成后检验分类器效果,在训练集和测试集的预测准确度可达到99.82%和96.64%,roc曲线如图6所示,其曲线下面积(auc)为0.9664。
50.本发明所述的分类器,各基因的权重系数如表1所示。
51.表1包含优选的33个基因的rf分类器中各基因的权重系数
[0052][0053][0054]
在实际使用中,只需要将待测的非小细胞肺癌组织按照本发明所述的流程,检测样本中33个基因转录本组合的count值,输入到本发明提供的rf分类模型中,即可得到该肺癌组织的分型的预测结果,该分类模型输出的预测结果为0或者1,其中0表示该组织预测结果为肺腺癌,1表示该组织预测结果为肺鳞癌。
[0055]
以上所述的仅是本发明的优选实施方式,应当指出,对于本领域的普通技术人员来说,在不脱离本发明创造构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
技术特征:
1.一种基因转录本标记物组合,其特征在于,包括如下33个基因的转录本:loc642587、s1pr5、bnc1、atp1b3、lass3、lonrf3、vsnl1、trim29、hnf1b、dsg3、clca2、tmprss11a、krt17、golt1a、dlx5、e2f7、col4a5、slc39a2、tesc、fat2、calml3、krt74、pvrl1、prrg3、perp、c4bpb、fzd7、dmgdh、ocln、arhgef38、krt5、cgn、lrrc66;所述标记物组合应用于肺腺癌、肺鳞癌的组织分型诊断。2.根据权利要求1所述的基因转录本标记物组合,其特征在于,所述分型诊断的样本类型为非小细胞肺癌组织rna。3.一种基于权利要求1或2任一项所述的基因转录本标记物组合制备的肺癌分型诊断装置,其特征在于,所述装置包括检测模块和预测模块。4.根据权利要求3所述的肺癌分型诊断装置,其特征在于,所述检测模块包括总rna提取试剂、逆转录试剂、建库试剂或测序试剂。5.根据权利要求3所述的肺癌分型诊断装置,其特征在于,所述检测具体为从肺癌组织样本中提取总rna,建库测序,获得如权利要求1所述的基因转录本count数。6.根据权利要求5所述的肺癌分型诊断装置,其特征在于,所述预测具体为将得到的基因转录本count数,输入构建好的随机森林分类器中,得到预测结果。7.根据权利要求6所述的肺癌分型诊断装置,其特征在于,所述预测结果为0或者1,其中0表示样本预测结果为肺腺癌,1表示样本预测结果为肺鳞癌。8.根据权利要求6所述的肺癌分型诊断装置,其特征在于,所述分类器的构建方法如下:(1)获取非小细胞肺癌组织,根据其组织分型分为adc组和scc组;(2)提取肿瘤组织总rna,进行逆转录,逆转录为cdna;(3)进行文库构建;(4)测序上机,获得各转录本的reads数;(5)进行下机数据质控、数据过滤、数据转换后,得到每个转录本的count数,并将各转录本注释到人类基因组上;(6)使用deseq2软件包(基于r语言)进行差异转录本分析;(7)根据设定的log2foldchange和padjust阈值,进行差异转录本过滤,初步得到具有特别显著性差异的转录本,进入后续分析;(8)将步骤(7)中得到的转录本count数作为自变量,是否为肺鳞癌组织作为因变量(adc用数字0表示,scc用数字1表示),使用scikit-learn软件包(基于python)中的随机森林模型构建分类器,进行模型的训练后,得到分类模型;再根据分类模型对待测样本进行组织分型的预测;(9)根据步骤(8)中得到的分类模型中各基因的权重系数进行排序,进一步对纳入模型中的基因数量进行探索,最终得到包含33个基因的优选组合;(10)以包含33个基因构建随机森林分类器并检验其效果。9.根据权利要求8所述的肺癌分型诊断装置,其特征在于,所述随机森林分类器中33个基因的权重系数如下:
10.根据权利要求9所述的肺癌分型诊断装置,其特征在于,所述权重系数的绝对值越大,表明该基因在随机森林分类器中的作用越重要。
技术总结
本发明首次提供了一种用于非小细胞肺癌分型诊断的基因转录本标记物组合及分型诊断装置,该组合包含33个基因,分别是:LOC642587、S1PR5、BC1、ATP1B3、LASS3、LORF3、VSL1、TRIM29、HF1B、DSG3、CLCA2、TMPRSS11A、KRT17、GOLT1A、DLX5、E2F7、COL4A5、SLC39A2、TESC、FAT2、CALML3、KRT74、PVRL1、PRRG3、PERP、C4BPB、FZD7、DMGDH、OCL、ARHGEF38、KRT5、CG、LRRC66;该标记物组合可应用于肺腺癌、肺鳞癌组织分型的诊断中,诊断准确度可达96.64%。本发明提供的肺腺癌、肺鳞癌组织分型诊断装置,通过输入上述33个基因RAseq的转录本count数,可对肺癌标本类型进行准确诊断;与传统病理形态学诊断相比,本发明提供的基因转录本标记物组合及分型诊断装置,具有准确度高、检测通量大、人为干扰低等优点,具有广泛的临床应用及推广价值。值。值。