一种辅助诊断癌症的潜在分子标志物的制作方法
1.本发明涉及医学领域,特别涉及一种辅助诊断癌症的潜在分子标志物。
背景技术:
2.乳腺癌为乳腺上皮细胞发生增殖失控引起的恶性肿瘤。一方面,乳腺癌在世界范围内为女性最常见的恶性肿瘤之一,发病率位居女性恶性肿瘤首位。另一方面,乳腺癌的生存率与肿瘤类别和分期有关。早期阶段乳腺癌5年生存预后通常高于60%,但是对于晚期乳腺癌,该数值降至40-60%。对于转移性乳腺癌,5年生存预后通常为约15%。因此,提高乳腺癌早期检出率对乳腺癌后期有效诊治十分必要。现阶段,临床医学对乳腺癌的早期筛查诊断主要有影像学和病理学两种方式。影像学诊断中b型超声成像无辐射,但是受超声成像机理限制,该方法对体积较小、回声改变不明显的病灶分辨率较差,容易漏诊。乳腺钼靶检查技术为一种低剂量乳腺x光拍摄乳房技术,它能清晰显示乳腺各层组织结构情况,但乳腺钼靶检查有较高假阳性率,需要对患者乳腺进行穿刺以进行更准确判断,此外乳腺钼靶对患者还存在电离辐射等危害。乳腺核磁共振成像利用磁能和无线电波查看乳腺组织并生成内部图像的技术,主要适用于乳腺癌高危人筛查。病理学诊断主要有乳腺活检,是指取病变组织进行病理诊断的方法,然而活检手术因对人有创伤令患者十分抗拒。此外,还有一些常用肿瘤标志物,如肿瘤抗原15-3、肿瘤抗原27.29、癌胚抗原、肿瘤抗原125和循环肿瘤细胞等被用于乳腺癌诊断,但其特异性和灵敏度有待提高,一般结合影像学研究使用。因此,更为敏感、特异的早期乳腺癌分子标记亟待发掘。
3.肺癌为一种发生于支气管粘膜上皮的恶性肿瘤,近几十年来,其发病率和死亡率一直呈上升趋势,是全世界发病率和死亡率最高的癌症。尽管最近几年来在诊断方法、手术技术及化疗药物等方面均有新的进展,但肺癌患者总的5年生存率仅为16%,主要是由于大部分肺癌患者就诊时已发生转移从而失去了手术根治机会。研究表明,肺癌预后与分期直接相关,i期肺癌5年生存率为83%,ii期为53%,iii期为26%,iv期为6%。因此,降低肺癌患者死亡率的关键在于早诊断早。
4.目前主要的肺癌诊断方法有如下几种:1、影像学方法:例如,胸部x射线和低剂量螺旋ct。但胸部x射线很难发现早期肺癌。低剂量螺旋ct虽然可以发现肺内小结节,但是假阳性率高达96.4%,给被检查者带来不必要的心理负担。同时,胸部x射线和低剂量螺旋ct由于辐射原因不宜频繁使用。另外,影像学方法也往往受设备和医生经验,及有效读片时间影响。2、细胞学方法:例如,痰液细胞学检查、支气管镜下刷片或取活检、支气管肺泡灌洗液细胞学检查等。痰液细胞学检查和支气管镜下刷片或取活检对于周围性肺癌的灵敏度较低。同时,支气管镜下刷片或取活检、支气管肺泡灌洗液细胞学检查操作比较繁琐,且体检者舒适度不佳。3、目前常用的血清肿瘤标志物:癌胚抗原(cea)、糖类抗原(ca125/153/199)、细胞角蛋白19片段抗原(cyfra21-1)和神经元特异性烯醇化酶(nse)等。这些血清肿瘤标志物对肺癌的灵敏度有限,一般为30%-40%,对于i期肿瘤甚至更低。而且肿瘤特异性也比较有限,受许多良性病变如良性肿瘤、炎症、退行性疾病等影响。目前,肿瘤标志物主要
用于恶性肿瘤筛查和肿瘤效果复查。因此需要进一步开发高效特异的肺癌早期诊断技术。
5.目前,国际公认的肺部结节诊断的最有效方法是胸部低剂量螺旋ct筛查。但是低剂量螺旋ct灵敏度高,能发现大量小结节,却难以进行良恶性判别。在发现的小结节中,恶性的比例还不到4%。目前,临床上对肺结节的良恶性鉴定需要长期随访、反复ct检查或者依赖肺部结节活组织取样(包括胸壁细针穿刺活检、支气管镜组织活检、胸腔镜或开胸手术肺活检)等创伤性检查方法。ct引导或超声引导经胸穿刺活检有较高的灵敏度,但对于《2cm的结节诊断率较低,有30~70%漏诊率,且气胸和出血发生率较高。气管镜针吸活检并发症发生率相对较低,但对周围型结节诊断率有限,对≤2cm的结节诊断率仅为34%,大于2cm的结节诊断率为63%。手术切除诊断率高且可直接对结节进行处理,但会造成患者肺功能出现短暂减退,若结节为良性,则患者进行了不必要的手术,导致了过度医疗。因此,目前迫切需要新的体外诊断分子标志物来辅助进行肺部结节鉴别,在降低漏诊率的同时也尽量减少不必要穿刺或者手术。
6.dna甲基化是基因上重要的一种化学修饰,影响着基因转录的调控过程和细胞核结构。dna甲基化的改变是癌症发展的早期事件和伴随事件,主要体现在肿瘤组织上抑癌基因的高甲基化和原癌基因的低甲基化等。但是血液中的dna甲基化跟肿瘤发生发展的相关性则报道的较少。此外,血液容易收集,dna甲基化较稳定,如果可以发现肿瘤特异的血液dna甲基化分子标志物则有巨大临床应用价值。因此,探索和开发适用于临床检测需要的血液dna甲基化诊断技术对提高肺癌和乳腺癌早期诊疗效果和降低死亡率均有重要的临床应用价值和社会意义。
技术实现要素:
7.本发明的目的是提供一种用于辅助诊断癌症的cd44基因(cd44 molecule,cd44)甲基化标志物及试剂盒。
8.第一方面,本发明要求保护甲基化cd44基因作为标志物在制备产品中的应用。所述产品的用途为如下中的至少一种:
9.(1)辅助诊断癌症或预测癌症患病风险;
10.(2)辅助区分良性结节和癌症;
11.(3)辅助区分癌症不同亚型;
12.(4)辅助区分癌症不同分期;
13.(5)辅助诊断肺癌或预测肺癌患病风险;
14.(6)辅助区分肺部良性结节和肺癌;
15.(7)辅助区分肺癌不同亚型;
16.(8)辅助区分肺癌不同分期;
17.(9)辅助诊断乳腺癌或预测乳腺癌患病风险;
18.(10)辅助区分乳腺癌不同分期;
19.(11)辅助区分肺癌和乳腺癌;
20.(12)确定待测物对癌症的发生是否存在阻碍或促进作用。
21.进一步地,(1)中所述辅助诊断癌症具体可体现为如下中的至少一种:辅助区分癌
症患者和无癌对照(可理解为现在及曾经均没有患过癌症且没有报告肺部或乳腺良性结节且血常规指标都在参考范围内);辅助区分不同癌症。
22.进一步地,(2)中所述良性结节为(2)中所述癌症对应的良性结节,如肺部良性结节和肺癌。
23.进一步地,(3)中所述癌症不同亚型可为病理分型,如组织学分型。
24.进一步地,(4)中所述癌症不同分期可为临床分期或tnm分期。
25.在本发明的具体实施方式中,(5)中所述辅助诊断肺癌具体体现为如下中的至少一种:可辅助区分肺癌患者和无癌对照、可辅助区分肺腺癌患者和无癌对照、可辅助区分肺鳞癌患者和无癌对照、可辅助区分小细胞肺癌患者和无癌对照、可辅助区分i期肺癌患者和无癌对照、可辅助区分ii-iii期肺癌患者和无癌对照、可辅助区分无淋巴结浸润的肺癌患者和无癌对照、可辅助区分有淋巴结浸润的肺癌患者和无癌对照。其中,所述无癌对照可理解为现在及曾经均没有患过癌症且没有报告肺部或乳腺良性结节且血常规指标都在参考范围内。
26.在本发明的具体实施方式中,(6)中所述辅助区分肺部良性结节和肺癌具体体现为如下中的至少一种:可辅助区分肺癌和肺部良性结节、可辅助区分肺腺癌和肺部良性结节、可辅助区分肺鳞癌和肺部良性结节、可辅助区分小细胞肺癌和肺部良性结节、可辅助区分i期肺癌和肺部良性结节、可辅助区分ii-iii期肺癌和肺部良性结节、可辅助区分无淋巴结浸润的肺癌和肺部良性结节、可辅助区分有淋巴结浸润的肺癌和肺部良性结节。
27.在本发明的具体实施方式中,(7)中所述辅助区分肺癌不同亚型具体体现为:可辅助区分肺腺癌、肺鳞癌和小细胞肺癌中的任意两种。
28.在本发明的具体实施方式中,(8)中所述辅助区分肺癌不同分期具体体现为如下中的至少一种:可辅助区分t1期肺癌、t2期肺癌和t3肺癌中的任意两种;可辅助区分无淋巴结浸润的肺癌和有淋巴结浸润的肺癌;可辅助区分临床i期肺癌、临床ii期肺癌和临床iii期肺癌中的任意两种。
29.在本发明的具体实施方式中,(9)中所述辅助诊断乳腺癌具体体现为如下中的至少一种:可辅助区分乳腺癌患者和无癌女性对照。其中,所述无癌女性对照可理解为现在及曾经均没有患过癌症且没有报告肺部或乳腺良性结节且血常规指标都在参考范围内。
30.在本发明的具体实施方式中,(10)中所述辅助区分乳腺癌不同分期具体体现为如下中的至少一种:可辅助区分t1期乳腺癌、t2期乳腺癌和t3乳腺癌中的任意两种;可辅助区分无淋巴结浸润的乳腺癌和有淋巴结浸润的乳腺癌;可辅助区分临床i期乳腺癌、临床ii期乳腺癌和临床iii期乳腺癌中的任意两种。
31.在上述(1)-(12)中,所述癌症可为能够引起机体内cd44基因甲基化水平降低的癌症,如肺癌、乳腺癌等。
32.第二方面,本发明要求保护用于检测cd44基因甲基化水平的物质在制备产品中的应用;所述产品的用途为前文(1)-(12)中的至少一种。
33.第三方面,本发明要求保护用于检测cd44基因甲基化水平的物质和记载有数学模型建立方法和/或使用方法的介质在制备产品中的应用;所述产品的用途为前文(1)-(12)中的至少一种。
34.所述数学模型可按照包括如下步骤的方法获得:
35.(a1)分别检测n1个a类型样本和n2个b类型样本的cd44基因甲基化水平(训练集)。
36.(a2)取步骤(a1)获得的所有样本的cd44基因甲基化水平数据,按照a类型和b类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值。
37.所述数学模型的使用方法可包括如下步骤:
38.(b1)检测待测样本的cd44基因甲基化水平;
39.(b2)将步骤(b1)获得的所述待测样本的cd44基因甲基化水平数据代入所述数学模型,得到检测指数;然后比较检测指数和阈值的大小,根据比较结果确定所述待测样本的类型是a类型还是b类型。
40.在本发明的具体实施方式中,所述阈值设为0.5。大于0.5归为一类,小于0.5归为另外一类,等于0.5作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组是a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
41.在实际应用中,所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类,小于阈值归为另外一类,等于阈值作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
42.所述a类型样本和所述b类型样本可为如下中的任一种:
43.(c1)肺癌样本和无癌对照;
44.(c2)肺癌样本和肺良性结节样本;
45.(c3)肺癌不同亚型样本;
46.(c4)肺癌不同分期样本;
47.(c5)肺癌样本和乳腺癌样本;
48.(c6)乳腺癌样本和无癌女性对照;
49.(c7)乳腺癌不同分期样本。
50.第四方面,本发明要求保护前文第三方面中所述的“记载有数学模型建立方法和/或使用方法的介质”在制备产品中的应用;所述产品的用途为前文(1)-(12)中的至少一种。
51.第五方面,本发明要求保护一种试剂盒。
52.本发明要求保护的试剂盒包括用于检测cd44基因甲基化水平的物质;所述试剂盒的用途为前文(1)-(12)中的至少一种。
53.进一步地,所述试剂盒中还含有前文第三方面或第四方面中所述的“记载有数学模型建立方法和/或使用方法的介质”。
54.第六方面,本发明要求保护一种系统。
55.本发明要求保护的系统,包括:
56.(d1)用于检测cd44基因甲基化水平的试剂和/或仪器;
57.(d2)装置,所述装置包括单元x和单元y。
58.所述单元x用于建立数学模型,包括数据采集模块、数据分析处理模块和模型输出模块。
59.所述数据采集模块被配置为采集(d1)检测得到的n1个a类型样本和n2个b类型样本的cd44基因甲基化水平数据。
60.所述数据分析处理模块被配置为接收来自于所述数据采集模块发送的所述n1个a
类型样本和n2个b类型样本的cd44基因甲基化水平数据,按照a类型和b类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值。
61.所述模型输出模块被配置为接收来自于所述数据分析处理模块建立的所述数学模型,并进行输出。
62.所述单元y用于确定待测样本类型,包括数据输入模块、数据运算模块、数据比较模块和结论输出模块。
63.所述数据输入模块被配置为输入(d1)检测得到的待测者的cd44基因甲基化水平数据。
64.所述数据运算模块被配置为接收来自于所述数据输入模块发送的所述待测者的cd44基因甲基化水平数据,并将所述待测者的cd44基因甲基化水平数据代入所述单元x中的所述数据分析处理模块建立的所述数学模型,计算得到检测指数。
65.所述数据比较模块被配置为接收来自于所述数据运算模块发送的所述检测指数,并将所述检测指数与所述单元x中的所述数据分析处理模块中确定的所述阈值进行比较。
66.所述结论输出模块被配置为接收来自于所述数据比较模块发送的比较结果,并根据所述比较结果输出所述待测样本的类型是a类型还是b类型的结论。
67.所述a类型样本和所述b类型样本为如下中的任一种:
68.(c1)肺癌样本和无癌对照;
69.(c2)肺癌样本和肺良性结节样本;
70.(c3)肺癌不同亚型样本;
71.(c4)肺癌不同分期样本;
72.(c5)肺癌样本和乳腺癌样本;
73.(c6)乳腺癌样本和无癌女性对照;
74.(c7)乳腺癌不同分期样本。
75.其中,n1和n2均可为50以上正整数。
76.在本发明的具体实施方式中,所述阈值设为0.5。大于0.5归为一类,小于0.5归为另外一类,等于0.5作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组是a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
77.在实际应用中,所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类,小于阈值归为另外一类,等于阈值作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组是a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
78.在上述各方面中,所述cd44基因甲基化水平为cd44基因中如下(e1)-(e3)所示片段中全部或部分cpg位点的甲基化水平。所述甲基化cd44基因为cd44基因中如下(e1)-(e3)所示片段中全部或部分cpg位点甲基化。
79.(e1)seq id no.1所示的dna片段或与其具有80%以上同一性的dna片段;
80.(e2)seq id no.2所示的dna片段或与其具有80%以上同一性的dna片段;
81.(e3)seq id no.3所示的dna片段或与其具有80%以上同一性的dna片段。
82.进一步地,所述“全部或部分cpg位点”为cd44基因中seq id no.1至seq id no.3所示3个dna片段中的任意一个或多个cpg位点。此处所述“多个cpg位点”的上限为cd44基因
中seq id no.1至seq id no.3所示3个dna片段中所有cpg位点。seq id no.1所示的dna片段中所有cpg位点见表1,seq id no.2所示的dna片段中所有cpg位点见表2,seq id no.3所示的dna片段中所有cpg位点见表3。
83.或,所述“全部或部分cpg位点”为seq id no.1所示的dna片段中所有cpg位点(见表1)和seq id no.2所示的dna片段中所有cpg位点(见表2);
84.或,所述“全部或部分cpg位点”为seq id no.1所示的dna片段中所有cpg位点(见表1)和seq id no.3所示的dna片段中所有cpg位点(见表3);
85.或,所述“全部或部分cpg位点”为seq id no.2所示的dna片段中所有cpg位点(见表2)和seq id no.3所示的dna片段中所有cpg位点(见表3);
86.或,所述“全部或部分cpg位点”为seq id no.1所示的dna片段中所有cpg位点(见表1)和seq id no.2所示的dna片段中所有cpg位点(见表2)和seq id no.3所示的dna片段中所有cpg位点(见表3);
87.或,所述“全部或部分cpg位点”为cd44基因中所述seq id no.3所示的dna片段中的全部或任意6个或任意5个或任意4个或任意3个或任意2个或任意1个;
88.或,所述“全部或部分cpg位点”为seq id no.3所示的dna片段中如下5项所示cpg位点的全部或任意4项或任意3项或任意2项或任意1项:
89.(f1)seq id no.3所示的dna片段自5’端第130-131位所示cpg位点(cd44_c_2);
90.(f2)seq id no.3所示的dna片段自5’端第158-159位所示cpg位点(cd44_c_3);
91.(f3)seq id no.3所示的dna片段自5’端第198-199位所示cpg位点(cd44_c_4);
92.(f4)seq id no.3所示的dna片段自5’端第316-317位所示cpg位点(cd44_c_5);
93.(f5)seq id no.3所示的dna片段自5’端第346-347位所示cpg位点(cd44_c_6)。
94.在上述各方面中,所述用于检测cd44基因甲基化水平的物质可包含(或为)用于扩增cd44基因全长或部分片段的引物组合。所述用于检测cd44基因甲基化水平的试剂可包含(或为)用于扩增cd44基因全长或部分片段的引物组合。所述用于检测cd44基因甲基化水平的仪器可为飞行时间质谱检测仪。当然所述用于检测cd44基因甲基化水平的试剂中还可包含进行飞行时间质谱所用的其他常规试剂。
95.进一步地,所述部分片段可为如下中至少一个片段:
96.(g1)seq id no.1所示的dna片段或其包含的dna片段;
97.(g2)seq id no.2所示的dna片段或其包含的dna片段;
98.(g3)seq id no.3所示的dna片段或其包含的dna片段;
99.(g4)与seq id no.1所示的dna片段或其包含的dna片段具有80%以上同一性的dna片段;
100.(g5)与seq id no.2所示的dna片段或其包含的dna片段具有80%以上同一性的dna片段;
101.(g6)与seq id no.3所示的dna片段或其包含的dna片段具有80%以上同一性的dna片段;
102.更进一步地,所述引物组合可为引物对a和/或引物对b和/或引物对c。
103.所述引物对a为引物a1和引物a2组成的引物对;所述引物a1为seq id no.4或seq id no.4的第11-35位核苷酸所示的单链dna;所述引物a2为seq id no.5或seq id no.5的
第32-56位核苷酸所示的单链dna。
104.所述引物对b为引物b1和引物b2组成的引物对;所述引物b1为seq id no.6或seq id no.6的第11-35位核苷酸所示的单链dna;所述引物b2为seq id no.7或seq id no.7的第32-56位核苷酸所示的单链dna。
105.所述引物对c为引物c1和引物c2组成的引物对;所述引物c1为seq id no.8或seq id no.8的第11-35位核苷酸所示的单链dna;所述引物c2为seq id no.9或seq id no.9的第32-56位核苷酸所示的单链dna。
106.另外,本发明还要求保护一种区分待测样本为a类型样本还是b类型样本的方法。该方法可包括如下步骤:
107.(a)可按照包括如下步骤的方法建立数学模型:
108.(a1)分别检测n1个a类型样本和n2个b类型样本的cd44基因甲基化水平(训练集);
109.(a2)取步骤(a1)获得的所有样本的cd44基因甲基化水平数据,按照a类型和b类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值。
110.其中,(a1)中的n1和n2均为50以上的正整数。
111.(b)可按照包括如下步骤的方法确定所述待测样本为a类型样本还是b类型样本:
112.(b1)检测所述待测样本的cd44基因甲基化水平;
113.(b2)将步骤(b1)获得的所述待测样本的cd44基因甲基化水平数据代入所述数学模型,得到检测指数;然后比较检测指数和阈值的大小,根据比较结果确定所述待测样本的类型是a类型还是b类型。
114.在本发明的具体实施方式中,所述阈值设为0.5。大于0.5归为一类,小于0.5归为另外一类,等于0.5作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组是a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
115.在实际应用中,所述阈值也可根据最大约登指数确定(具体可为最大约登指数对应的数值)。大于阈值归为一类,小于阈值归为另外一类,等于阈值作为不确定的灰区。其中a类型和b类型为相对应的两分类,二分类的分组,哪一组是a类型,哪一组是b类型,要根据具体的数学模型来确定,无需约定。
116.所述a类型样本和所述b类型样本可为如下中的任一种:
117.(c1)肺癌样本和无癌对照;
118.(c2)肺癌样本和肺良性结节样本;
119.(c3)肺癌不同亚型样本;
120.(c4)肺癌不同分期样本;
121.(c5)肺癌样本和乳腺癌样本;
122.(c6)乳腺癌样本和无癌女性对照;
123.(c7)乳腺癌不同分期样本。
124.以上任一所述数学模型在实际应用中可能会根据dna甲基化的检测方法以及拟合方式不同有所改变,要根据具体的数学模型来确定,无需约定。
125.在本发明的实施例中,所述模型具体为log(y/(1-y))=b0+b1x1+b2x2+b3x3+
…
+bnxn,其中y为因变量即将待测样品的一个或者多个甲基化位点的甲基化值代入模型以后得出的检测指数,b0为常量,x1~xn为自变量即为该测试样品的一个或者多个甲基化位点
的甲基化值(每一个值为0-1之间的数值),b1~bn为模型赋予每一个位点甲基化值的权重。
126.在本发明的实施例中,所述模型的建立还可酌情加入年龄、性别、白细胞计数等已知参数来提高判别效率。本发明的实施例中建立的一个具体模型为用于辅助区分肺部良性结节和肺癌的模型,所述模型具体为:log(y/(1-y))=-0.672-0.711*cd44_c_2-0.076*cd44_c_3+0.082*cd44_c_4+0.918*cd44_c_5-0.052*cd44_c_6+0.027*年龄+0.747*性别(男性赋值为1,女性赋值为0)+0.014*白细胞个数。所述cd44_c_2为seq id no.3所示的dna片段自5’端第130-131位所示cpg位点的甲基化水平;所述cd44_c_3为seq id no.3所示的dna片段自5’端第158-159位所示cpg位点的甲基化水平;所述cd44_c_4为seq id no.3所示的dna片段自5’端第198-199位所示cpg位点的甲基化水平;所述cd44_c_5为seq id no.3所示的dna片段自5’端第316-317位所示cpg位点的甲基化水平;所述cd44_c_6为seq id no.3所示的dna片段自5’端第346-347位所示cpg位点的甲基化水平。所述模型的阈值为0.5。通过模型计算的检测指数大于0.5的患者候选为肺癌患者,小于0.5的患者候选为肺良性结节患者。
127.在上述各方面中,所述检测cd44基因甲基化水平为检测血液中cd44基因甲基化水平。
128.在上述各方面中,当所述a类型样本和所述b类型样本为(c3)中肺癌不同亚型样本时,所述a类型样本和所述b类型样本具体可为肺腺癌样本、肺鳞癌样本和小细胞肺癌样本中的任意两种。
129.在上述各方面中,当所述a类型样本和所述b类型样本为(c4)中肺癌不同分期样本时,所述a类型样本和所述b类型样本具体可为临床i期肺癌样本、临床ii期肺癌样本和临床iii期肺癌样本中的任意两种。
130.在上述各方面中,当所述a类型样本和所述b类型样本为(c7)中乳腺癌不同分期样本时,所述a类型样本和所述b类型样本具体可为t1期乳腺癌样本、t2期乳腺癌样本和t3期乳腺癌样本中的任意两种,或者为无淋巴结浸润乳腺癌样本和有淋巴结浸润乳腺癌样本,或者为临床i期乳腺癌样本、临床ii期乳腺癌样本和临床iii期乳腺癌样本中的任意两种。
131.以上任一所述cd44基因具体可包括genbank登录号:nm_000610.4,转录物变体1;nm_001001389.2,转录物变体2;nm_001001390.2,转录物变体3;nm_001001391.2,转录物变体4;nm_001001392.2,转录物变体5;nm_001202555.2,转录物变体6;nm_001202556.2,转录物变体7;nm_001202557.2,转录物变体8。
132.本发明提供了肺癌患者和乳腺癌血液中cd44基因的低甲基化现象。实验证明,以血液为样本就能够区分癌症(肺癌和乳腺癌)患者和无癌对照、区分肺部良性结节和肺癌、区分肺癌不同亚型和不同分期,并且能够区分肺癌和乳腺癌,以及乳腺癌不同分期。本发明对于提高肺癌和乳腺癌早期诊疗效果和降低死亡率均有重要的科学意义和临床应用价值。
附图说明
133.图1为数学模型示意图。
134.图2为数学模型举例说明。
具体实施方式
135.下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本发明,而不是为了限制本发明的范围。以下提供的实施例可作为本技术领域普通技术人员进行进一步改进的指南,并不以任何方式构成对本发明的限制。
136.下述实施例中的实验方法,如无特殊说明,均为常规方法,按照本领域内的文献所描述的技术或条件或者按照产品说明书进行。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。
137.以下实施例中的cd44基因(cd44 molecule,cd44)定量试验,均设置三次重复实验,结果取平均值。
138.实施例1、用于检测cd44基因甲基化位点的引物设计
139.经过大量序列和功能分析,选择了cd44基因中的四个片段(cd44_a片段、cd44_b片段、cd44_c片段)进行甲基化水平和癌症相关性分析。
140.cd44_a片段(seq id no.1)位于hg19参考基因组chr11:35187705-35188468,正义链。
141.cd44_b片段(seq id no.2)位于hg19参考基因组chr11:35239651-35240354,正义链。
142.cd44_c片段(seq id no.3)位于hg19参考基因组chr11:35249620-35250287,正义链。
143.cd44_a片段中的cpg位点信息如表1所示。
144.cd44_b片段中的cpg位点信息如表2所示。
145.cd44_c片段中的cpg位点信息如表3所示。
146.表1、cd44_a片段中cpg位点信息
147.cpg位点cpg位点在序列中的位置cd44_a_1seq id no.1自5’端第26-27位cd44_a_2seq id no.1自5’端第48-49位cd44_a_3seq id no.1自5’端第121-122位cd44_a_4seq id no.1自5’端第127-128位cd44_a_5seq id no.1自5’端第455-456位cd44_a_6seq id no.1自5’端第486-487位cd44_a_7seq id no.1自5’端第523-524位cd44_a_8seq id no.1自5’端第531-532位cd44_a_9seq id no.1自5’端第681-682位cd44_a_10seq id no.1自5’端第733-734位cd44_a_11seq id no.1自5’端第738-739位
148.表2、cd44_b片段中cpg位点信息
149.cpg位点cpg位点在序列中的位置cd44_b_1seq id no.2自5’端第26-27位cd44_b_2seq id no.2自5’端第66-67位cd44_b_3seq id no.2自5’端第219-220位
cd44_b_4seq id no.2自5’端第257-258位cd44_b_5seq id no.2自5’端第350-351位cd44_b_6seq id no.2自5’端第414-415位cd44_b_7seq id no.2自5’端第466-467位cd44_b_8seq id no.2自5’端第503-504位cd44_b_9seq id no.2自5’端第593-594位cd44_b_10seq id no.2自5’端第677-678位
150.表3、cd44 c片段中cpg位点信息
151.cpg位点cpg位点在序列中的位置cd44_c_1seq id no.3自5’端第31-32位cd44_c_2seq id no.3自5’端第130-131位cd44_c_3seq id no.3自5’端第158-159位cd44_c_4seq id no.3自5’端第198-199位cd44_c_5seq id no.3自5’端第316-317位cd44_c_6seq id no.3自5’端第346-347位cd44_c_7seq id no.3自5’端第641-642位
152.针对三个片段(cd44_a片段、cd44_b片段和cd44_c片段)设计特异pcr引物,如表4所示。其中,seq id no.4、seq id no.6和seq id no.8为正向引物,seq id no.5、seq id no.7和seq id no.9为反向引物;seq id no.4、seq id no.6和seq id no.8中自5’端第1至10位为非特异标签,第11至35位为特异引物序列;seq id no.5、seq id no.7和seq id no.9中自5’第1至31位为非特异标签,第32至56位为特异引物序列。引物序列中不包含snp和cpg位点。
153.表4、cd44甲基化引物序列
[0154][0155][0156]
实施例2、cd44基因甲基化检测及结果分析
[0157]
一、研究样本
[0158]
经患者知情同意,共收集722例肺癌患者、152例肺部出现良性结节患者、227例乳腺癌患者和945例无癌对照(无癌对照即以前和现在没有患过癌症且没有报道过肺小结节患者且血常规指标都在参考范围内)的离体血液样本。
[0159]
所有患者样本都是手术前收集的且都经过影像学和病理确诊。
[0160]
肺癌和乳腺癌亚型根据病理组织学进行判断。
[0161]
肺癌和乳腺癌分期以ajcc第8版分期系统为判断标准。
[0162]
722例肺癌患者按照分型划分:肺腺癌619例,肺鳞癌42例,小细胞肺癌49例,其他12例。
[0163]
722例肺癌患者按照分期划分:i期649例,ii期41例,iii期32例。
[0164]
722例肺癌患者按照肺癌肿瘤大小(t)划分:t1 603例,t2 83例,t3 36例。
[0165]
722例肺癌患者按照有无肺癌淋巴结浸润(n)划分:无肺癌淋巴结浸润688例,有肺癌淋巴结浸润34例。
[0166]
227例乳腺癌患者按照分型划分:乳腺导管原位癌34例,浸润性导管癌165例,浸润性小叶癌28例。
[0167]
227例乳腺癌患者按照分期划分:i期198例,ii期20例,iii期9例。
[0168]
227例乳腺癌患者按照肺癌肿瘤大小(t)划分:t1 189例,t2 27例,t3 11例。
[0169]
227例乳腺癌患者按照有无乳腺癌淋巴结浸润(n)划分:无乳腺癌淋巴结浸润201例,有乳腺癌淋巴结浸润26例。
[0170]
无癌人、肺部良性结节、肺癌和乳腺癌患者各自年龄的中位数分别为56、57、58和56岁,无癌人、肺部良性结节和肺癌这3种体中各自的男女比例都约为1:1,乳腺癌患者全部为女性。
[0171]
二、甲基化检测
[0172]
1、提取血液样本的总dna。
[0173]
2、将步骤1制备的血液样本总dna进行重亚硫酸盐处理(参照qiagen的dna甲基化试剂盒说明书操作)。重亚硫酸盐处理后,未发生甲基化的胞嘧啶(c)被转化成尿嘧啶(u),而甲基化的胞嘧啶保持不变,即原来cpg位点的c碱基经重亚硫酸盐处理后转化为c或u。
[0174]
3、以步骤2经过重亚硫酸盐处理的dna为模板,采用表4中的3对特异引物对通过dna聚合酶按照常规pcr反应要求的反应体系进行pcr扩增,3对引物都采用相同的常规pcr体系,且3对引物都按照以下程序进行扩增。
[0175]
pcr反应程序为:95℃,4min
→
(95℃,20s
→
56℃,30s
→
72℃,2min)45个循环
→
72℃,5min
→
4℃,1h。
[0176]
4、取步骤3的扩增产物,通过飞行时间质谱进行dna甲基化分析,具体方法如下:
[0177]
(1)向5μl pcr产物中加入2μl虾碱性磷酸盐(sap)溶液(0.3ml sap[0.5u]+1.7ml h2o)然后按照以下程序在pcr仪中孵育(37℃,20min
→
85℃,5min
→
4℃,5min);
[0178]
(2)取出2μl步骤(1)得到的sap处理后的产物,根据说明书加入5μl t-cleavage反应体系中,然后在37℃孵育3h;
[0179]
(3)取步骤(2)的产物,加入19μl去离子水,再用6μg resin在旋转摇床进行去离子化孵育1h;
[0180]
(4)2000rpm室温离心5min,将微量上清由nanodispenser机械手臂上样384spectrochip;
[0181]
(5)飞行时间质谱分析;获得的数据用spectroacquire v3.3.1.3软件收集,通过massarray epityper v1.2软件实现可视化。
[0182]
上述飞行时间质谱检测使用的试剂均来试剂盒(t-cleavage masscleave reagent auto kit,货号:10129a);上述飞行时间质谱检测使用的检测仪器为analyzer chip prep module 384,型号:41243;上述数据分析软件为检测
仪器自带软件。
[0183]
5、对步骤4得到的数据进行分析。
[0184]
数据统计分析由spss statistics 23.0进行。
[0185]
非参数检验用于两组之间的比较分析。
[0186]
多个cpg位点的组合对于不同样品分组的鉴别效果通过逻辑回归和受试者曲线的统计学方法得以实现。
[0187]
所有的统计检验都是双侧的,p值《0.05被认为具有统计学意义。
[0188]
通过质谱实验,共获得28个可以区别的甲基化片段的峰图。采用spectroacquire v3.3.1.3软件根据“甲基化水平=甲基化片段的峰面积/(非甲基化片段的峰面积+甲基化片段的峰面积)”公式可自动通过计算峰面积得到每个样本在每个cpg位点的甲基化水平。
[0189]
三、结果分析
[0190]
1、无癌对照、良性结节和肺癌血液中cd44基因甲基化水平
[0191]
以722位肺癌患者、152位肺部出现良性结节患者和945名无癌对照的血液为研究材料进行分析cd44基因中所有cpg位点的甲基化水平(表5)。结果表明,cd44基因中所有cpg位点在无癌对照组中甲基化水平中位数为0.48(iqr=0.19-0.69),良性结节中甲基化水平中位数为0.45(iqr=0.17-0.65),肺癌患者中甲基化水平中位数为0.44(iqr=0.15-0.65)。
[0192]
2、血液中cd44基因甲基化水平可以区分无癌对照和肺癌患者
[0193]
通过比较分析722位肺癌患者和945名无癌对照的cd44基因的甲基化水平,结果发现肺癌患者cd44基因中所有cpg位点甲基化水平显著低于无癌对照(p《0.05,表6)。此外,肺癌不同亚型(肺腺癌,肺鳞癌,小细胞肺癌)中cd44基因所有cpg位点的甲基化水平分别都与无癌对照有显著性差异。肺癌不同分期(临床i期、ii-iii期)中cd44基因所有cpg位点的甲基化水平分别都与无癌对照有显著性差异(p《0.05,表6)。此外,无淋巴结浸润的肺癌患者和有淋巴结浸润的肺癌患者的甲基化水平分别与无癌对照之间有显著性差异(p《0.05,表6)。因此,cd44基因的甲基化水平可以用于肺癌的临床诊断,尤其可用于肺癌的早期诊断。
[0194]
3、血液中cd44基因甲基化水平可以区分肺部良性结节和肺癌患者
[0195]
通过比较分析722位肺癌患者和152名良性结节中cd44基因的甲基化水平,结果发现良性结节患者中cd44基因所有cpg位点甲基化水平显著高于肺癌患者(p《0.05,表7)。此外还发现肺癌不同亚型(肺腺癌,肺鳞癌,小细胞肺癌)、不同临床时期(i期或ii-iii期)和有无淋巴结浸润的肺癌患者的cd44基因中所有cpg的甲基化水平分别都与良性结节有显著性差异(p《0.05,表7)。因此,cd44基因的甲基化水平可应用于区分肺癌患者和良性结节患者,是非常有潜在价值的标志物。
[0196]
4、血液中cd44基因甲基化水平区分肺癌不同亚型或者肺癌不同分期
[0197]
通过比较分析不同亚型肺癌患者(肺腺癌,肺鳞癌,小细胞肺癌)和不同分期肺癌患者中cd44基因的甲基化水平,发现cd44基因中所有cpg位点甲基化水平分别在肺癌不同亚型(肺腺癌患者,肺鳞癌患者,小细胞肺癌患者)、肿瘤大小(t1、t2和t3)、不同分期(临床i期、ii期和iii期)、有无淋巴结浸润条件下存在显著性差异(p《0.05,表8)。因此,cd44基因的甲基化水平可以用于区分肺癌不同亚型或者肺癌不同分期。
[0198]
5、血液中cd44基因甲基化水平可以用于诊断乳腺癌
[0199]
以227名乳腺癌患者和472例无癌女性对照的血液为研究材料进行分析乳腺癌患者和无癌女性对照之间的cd44基因中cpg位点甲基化水平差异(表9)。结果表明,乳腺癌患者中所有目标cpg位点的甲基化水平中位数为0.46(iqr=0.19-0.66),无癌女性对照组甲基化水平中位数为0.48(iqr=0.19-0.69),乳腺癌患者中所有cpg位点甲基化水平显著低于无癌女性对照(p《0.05)。此外,cd44基因中所有cpg位点甲基化水平分别在乳腺癌不同分期(临床i期、ii-iii期)、肿瘤大小(t1、t2和t3)、有无淋巴结浸润条件下有显著性差异(p《0.05,表10)。因此,cd44基因的甲基化水平可以用于乳腺癌的临床诊断。
[0200]
6、血液中cd44甲基化水平可以区分乳腺癌患者和肺癌患者
[0201]
以227名乳腺癌患者和722名肺癌患者的血液为研究材料进行分析乳腺癌患者和肺癌患者血液cd44基因中甲基化水平差异(表11)。结果表明,乳腺癌患者中所有目标cpg位点的甲基化水平中位数为0.46(iqr=0.19-0.66),肺癌患者甲基化水平中位数为0.44(iqr=0.15-0.65),乳腺癌患者中所有cpg位点甲基化水平显著高于肺癌患者(p《0.05)。因此,cd44基因的甲基化水平可以用于区分乳腺癌和肺癌患者。
[0202]
7、用于辅助癌症诊断的数学模型的建立
[0203]
本发明建立的数学模型可以用于达到如下目的:
[0204]
(1)区分肺癌患者和无癌对照;
[0205]
(2)区分肺癌患者和肺良性结节患者;
[0206]
(3)区分乳腺癌患者和无癌女性对照;
[0207]
(4)区分乳腺癌患者和肺癌患者
[0208]
(5)区分肺癌亚型;
[0209]
(6)区分肺癌分期;
[0210]
(7)区分乳腺癌分期。
[0211]
数学模型的建立方法如下:
[0212]
(a)数据来源:步骤一中列出的722例肺癌患者、152例肺部出现良性结节患者、227例乳腺癌患者和945例无癌对照的离体血液样本的目标cpg位点(表1-表3中的一种或多种的组合)甲基化水平(检测方法同步骤二)。
[0213]
数据可根据实际需要加入年龄、性别、白细胞计数等已知参数来提高判别效率。
[0214]
(b)模型建立
[0215]
根据需要选取任意两类不同类型患者数据即训练集(例如:无癌对照和肺癌患者、无癌女性对照和乳腺癌患者、肺良性结节患者和肺癌患者、肺癌患者和乳腺癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、i期肺癌和ii期肺癌患者、i期肺癌和iii期肺癌患者、ii期肺癌和iii期肺癌患者、i期乳腺癌和ii期乳腺癌患者、i期乳腺癌和iii期乳腺癌患者、ii期乳腺癌和iii期乳腺癌患者、t1期乳腺癌和t2期乳腺癌患者、t1期乳腺癌和t3期乳腺癌患者、t2期乳腺癌和t3期乳腺癌患者、无淋巴结浸润乳腺癌和有淋巴结浸润乳腺癌患者)作为用于建立模型的数据,使用sas,r,spss等统计软件使用二分类逻辑回归的统计方法通过公式建立数学模型。数学模型公式计算出的最大约登指数对应的数值为阈值或直接设定0.5为阈值,待测样品经过测试和代入模型计算后得到的检测指数大于阈值归为一类(b类),小于阈值归为另外一类(a类),等于阈值作为不确定的灰区。在对新的待测样品进行预测来判断属于哪一类时,首先通过dna甲基化的测定方法
检测该待测样品cd44基因上一个或者多个cpg位点的甲基化水平,然后将这些甲基化水平的数据代入上述数学模型(如果构建模型时纳入了年龄、性别、白细胞计数等已知参数,则该步骤同时向模型公式中代入该待测样品的相应参数的具体数值),计算得到所述待测样本对应的检测指数,然后比较所述待测样本对应的检测指数和阈值的大小,根据比较结果确定所述待测样本属于哪一类样本。
[0216]
举例:如图1所示,将训练集中cd44基因单个cpg位点的甲基化水平或者多个cpg位点组合的甲基化水平的数据通过sas、r、spss等统计软件使用二分类逻辑回归的公式建立用于区分a类和b类的数学模型。该数学模型在此为二类逻辑回归模型,具体为:log(y/1-y)=b0+b1x1+b2x2+b3x3+
…
+bnxn,其中y为因变量即将待测样品的一个或者多个甲基化位点的甲基化值代入模型以后得出的检测指数,b0为常量,x1~xn为自变量即为该测试样品的一个或者多个甲基化位点的甲基化值(每一个值为0-1之间的数值),b1~bn为模型赋予每一个位点甲基化值的权重。具体应用时,先根据训练集中已经检测的样本的一个或者多个dna甲基化位点的甲基化程度(x1~xn)及其已知的分类情况(a类或者b类,分别对y赋值0和1)建立数学模型,由此确定该数学模型的常量b0以及各个甲基化位点的权重b1~bn,并由该数学模型计算出的以最大约登指数对应的检测指数(在此例中为0.5)为划分的阈值。待测样品经过测试和代入模型计算后得到的检测指数即y值大于0.5归为b类,小于0.5归为a类,等于0.5作为不确定的灰区。其中a类和b类为相对应的两分类(二分类的分组,哪一组a类,哪一组是b类,要根据具体的数学模型来确定,在此不做约定),比如无癌对照和肺癌患者、无癌女性对照和乳腺癌患者、肺良性结节患者和肺癌患者、肺癌患者和乳腺癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、i期肺癌和ii期肺癌患者、i期肺癌和iii期肺癌患者、ii期肺癌和iii期肺癌患者、i期乳腺癌和ii期乳腺癌患者、i期乳腺癌和iii期乳腺癌患者、ii期乳腺癌和iii期乳腺癌患者、t1期乳腺癌和t2期乳腺癌患者、t1期乳腺癌和t3期乳腺癌患者、t2期乳腺癌和t3期乳腺癌患者、无淋巴结浸润乳腺癌和有淋巴结浸润乳腺癌患者。对受试者的样品进行预测来判断属于哪一类时,首先采集受试者的血液,然后从中提取dna。将提取的dna通过重亚硫酸盐转化后,用dna甲基化的测定方法对受试者的cd44基因的单个cpg位点的甲基化水平或者多个cpg位点组合的甲基化水平进行检测,然后将检测得到的甲基化数据代入上述数学模型。如果该受试者的cd44基因一个或者多个cpg位点的甲基化水平代入上述数学模型后计算出来的检测指数大于阈值,则该受试者判定与训练集中检测指数大于0.5的归属于一类(b类);如果该受试者的cd44基因一个或者多个cpg位点的甲基化水平数据代入上述数学模型后计算出来的值即检测指数小于阈值,则该受试者跟训练集中检测指数小于0.5的归属于一类(a类);如果该受试者的cd44基因一个或者多个cpg位点的甲基化水平数据代入上述数学模型后计算出来的值即检测指数等于阈值,则不能判断该受试者是a类还是b类。
[0217]
举例:图2的示意图举例说明cd44_c的优选cpg位点(cd44_c_2、cd44_c_3、cd44_c_4、cd44_c_5、cd44_c_6)的甲基化以及数学建模在用于肺部良恶性结节判别的应用:将肺癌患者和肺良性结节患者训练集(在此为:722名肺癌患者和152位肺良性结节患者)中已经检测的5个可区分的优选cpg位点组合的甲基化水平的数据以及患者的年龄、性别(男性赋值为1,女性赋值为0)、白细胞计数通过r软件使用二分类逻辑回归的公式建立用于区分肺癌患者和肺良性结节患者的数学模型。该数学模型在此为二类逻辑回归模型,由此确定该数
学模型的常量b0以及各个甲基化位点的权重b1~bn,在此例中具体为:log(y/(1-y))=-0.672-0.711*cd44_c_2-0.076*cd44_c_3+0.082*cd44_c_4+0.918*cd44_c_5-0.052*cd44_c_6+0.027*年龄+0.747*性别(男性赋值为1,女性赋值为0)+0.014*白细胞个数。其中y为因变量即将待测样品的5个可区分的甲基化位点的甲基化值以及年龄、性别、白细胞计数代入模型以后得出的检测指数。在设定0.5为阈值的情况下,待测样品的cd44_c_2、cd44_c_3、cd44_c_4、cd44_c_5、cd44_c_6这5个可区分的cpg位点的甲基化水平经过测试后连同其年龄、性别、白细胞计数的信息代入模型进行计算,得到的检测指数即y值大于0.5归为肺癌患者,小于0.5归为肺良性结节患者,等于0.5则不确定为肺癌患者还是肺良性结节患者。此模型的曲线下面积(auc)计算结果为0.69(表15)。具体受试者判断方法举例如图2所示,从两位受试者(甲,乙)分别采集血液提取dna,将提取的dna通过重亚硫酸盐转化后,用dna甲基化的测定方法对受试者的cd44_c_2、cd44_c_3、cd44_c_4、cd44_c_5、cd44_c_6这5个可区分的cpg位点的甲基化水平进行检测。然后将检测得到的甲基化水平数据连同受试者的年龄、性别和白细胞计数的信息代入上述数学模型。甲受试者经数学模型后计算出来的值为0.82大于0.5,则甲受试者判定为肺癌患者(与临床判定结果相符);乙受试者的cd44基因一个或者多个cpg位点的甲基化水平数据代入上述数学模型后计算出来的值为0.21小于0.5,则乙受试者判定肺良性结节患者(与临床判定结果相符)。
[0218]
(c)模型效果评价
[0219]
根据上述方法,分别建立用于区分无癌对照和肺癌患者、无癌女性对照和乳腺癌患者、肺良性结节患者和肺癌患者、肺癌患者和乳腺癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、i期肺癌和ii期肺癌患者、i期肺癌和iii期肺癌患者、ii期肺癌和iii期肺癌患者、i期乳腺癌和ii期乳腺癌患者、i期乳腺癌和iii期乳腺癌患者、ii期乳腺癌和iii期乳腺癌患者、t1期乳腺癌和t2期乳腺癌患者、t1期乳腺癌和t3期乳腺癌患者、t2期乳腺癌和t3期乳腺癌患者、无淋巴结浸润乳腺癌和有淋巴结浸润乳腺癌患者的数学模型,并且通过受试者曲线(roc曲线)对其有效性进行评价。roc曲线得出的曲线下面积(auc)越大,说明模型的区分度越好,分子标志物越有效。采用不同cpg位点进行数学模型构建后的评价结果如表12、表13和表14所示。表12、表13和表14中,1个cpg位点代表cd44_c扩增片段中任意一个cpg位点的位点,2个cpg位点代表cd44_c中任意2个cpg位点的组合,3个cpg位点代表cd44_c任意3个cpg位点的组合,
……
以此类推。表中的数值为不同位点组合评价结果的范围值(即任意个cpg位点组合方式的结果均在此范围内)。
[0220]
上述结果显示,cd44基因对于各组的鉴别能力(无癌对照和肺癌患者、无癌女性对照和乳腺癌患者、肺良性结节患者和肺癌患者、肺癌患者和乳腺癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、i期肺癌和ii期肺癌患者、i期肺癌和iii期肺癌患者、ii期肺癌和iii期肺癌患者、i期乳腺癌和ii期乳腺癌患者、i期乳腺癌和iii期乳腺癌患者、ii期乳腺癌和iii期乳腺癌患者、t1期乳腺癌和t2期乳腺癌患者、t1期乳腺癌和t3期乳腺癌患者、t2期乳腺癌和t3期乳腺癌患者、无淋巴结浸润乳腺癌和有淋巴结浸润乳腺癌患者)随着位点数的增加而增加。
[0221]
除此以外,在表1-表3所示的cpg位点中,还存在少数几个较优位点的组合比多个非较优位点组合的鉴别能力更好的情况。例如表15、表16和表17所示的cd44_c_2、cd44_c_3、cd44_c_4、cd44_c_5、cd44_c_6这5个可区分的最优位点的组合是cd44_c中任意5个组合
的优选位点。
[0222]
综上所述,cd44基因上的cpg位点及其各种组合,cd44_a片段上的cpg位点及其各种组合,cd44_b片段上的cpg位点及其各种组合,cd44_c片段上的cpg位点及其各种组合,cd44_c片段上cd44_c_2、cd44_c_3、cd44_c_4、cd44_c_5、cd44_c_6位点及其各种组合,以及cd44_a、cd44_b和cd44_c上的cpg位点及其各种组合的甲基化水平都对无癌对照和肺癌患者、无癌女性对照和乳腺癌患者、肺良性结节患者和肺癌患者、肺癌患者和乳腺癌患者、肺腺癌和肺鳞癌患者、肺腺癌和小细胞肺癌患者、肺鳞癌和小细胞肺癌患者、i期肺癌和ii期肺癌患者、i期肺癌和iii期肺癌患者、ii期肺癌和iii期肺癌患者、i期乳腺癌和ii期乳腺癌患者、i期乳腺癌和iii期乳腺癌患者、ii期乳腺癌和iii期乳腺癌患者、t1期乳腺癌和t2期乳腺癌患者、t1期乳腺癌和t3期乳腺癌患者、t2期乳腺癌和t3期乳腺癌患者、无淋巴结浸润乳腺癌和有淋巴结浸润乳腺癌患者有判别能力。
[0223]
表5、比较无癌对照、良性结节和肺癌的甲基化水平
[0224][0225][0226]
表6、比较无癌对照和肺癌的甲基化水平差异
[0227][0228]
表7、比较良性结节和肺癌的甲基化水平差异
[0229][0230]
表8、比较肺癌不同亚型或者肺癌不同分期的甲基化水平差异
[0231]
[0232][0233]
表9、比较无癌女性对照和乳腺癌的甲基化水平差异
[0234]
[0235][0236]
表10、比较乳腺癌不同分期的甲基化水平差异
[0237][0238]
表11、比较肺癌、乳腺癌的甲基化水平差异
[0239]
[0240][0241]
表12、cd44_c的cpg位点及其组合用于区分肺癌和无癌对照、肺癌和良性结节、乳腺癌和无癌女性对照、肺癌和乳腺癌
[0242]
[0243][0244]
表13、cd44_c的cpg位点及其自由组合用于区分肺癌患者不同亚型和分期
[0245][0246]
表14、cd44_c的cpg位点及其组合用于区分乳腺癌的不同分期
[0247]
[0248][0249]
表15、cd44_c的最佳cpg位点及其组合用于区分肺癌和无癌对照,肺癌和良性结节,乳腺癌和无癌女性对照,以及肺癌和乳腺癌
[0250][0251]
表16、cd44_c的最佳cpg位点及其组合用于区分肺癌患者不同亚型和分期
[0252][0253]
表17、cd44_c的最佳cpg位点及其组合用于区分乳腺癌不同分期
[0254][0255]
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围,以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总之,按本发明的原理,本技术欲包括任何变更、用途或对本发明的改进,包括脱离了本技术中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。
技术特征:
1.甲基化cd44基因作为标志物在制备产品中的应用;所述产品的用途为如下中的至少一种:(1)辅助诊断癌症或预测癌症患病风险;(2)辅助区分良性结节和癌症;(3)辅助区分癌症不同亚型;(4)辅助区分癌症不同分期;(5)辅助诊断肺癌或预测肺癌患病风险;(6)辅助区分肺部良性结节和肺癌;(7)辅助区分肺癌不同亚型;(8)辅助区分肺癌不同分期;(9)辅助诊断乳腺癌或预测乳腺癌患病风险;(10)辅助区分乳腺癌不同分期;(11)辅助区分肺癌和乳腺癌;(12)确定待测物对癌症的发生是否存在阻碍或促进作用。2.用于检测cd44基因甲基化水平的物质在制备产品中的应用;所述产品的用途为如下中的至少一种:(1)辅助诊断癌症或预测癌症患病风险;(2)辅助区分良性结节和癌症;(3)辅助区分癌症不同亚型;(4)辅助区分癌症不同分期;(5)辅助诊断肺癌或预测肺癌患病风险;(6)辅助区分肺部良性结节和肺癌;(7)辅助区分肺癌不同亚型;(8)辅助区分肺癌不同分期;(9)辅助诊断乳腺癌或预测乳腺癌患病风险;(10)辅助区分乳腺癌不同分期;(11)辅助区分肺癌和乳腺癌;(12)确定待测物对癌症的发生是否存在阻碍或促进作用。3.用于检测cd44基因甲基化水平的物质和记载有数学模型建立方法和/或使用方法的介质在制备产品中的应用;所述产品的用途为如下中的至少一种:(1)辅助诊断癌症或预测癌症患病风险;(2)辅助区分良性结节和癌症;(3)辅助区分癌症不同亚型;(4)辅助区分癌症不同分期;(5)辅助诊断肺癌或预测肺癌患病风险;(6)辅助区分肺部良性结节和肺癌;(7)辅助区分肺癌不同亚型;(8)辅助区分肺癌不同分期;(9)辅助诊断乳腺癌或预测乳腺癌患病风险;
(10)辅助区分乳腺癌不同分期;(11)辅助区分肺癌和乳腺癌;(12)确定待测物对癌症的发生是否存在阻碍或促进作用;所述数学模型按照包括如下步骤的方法获得:(a1)分别检测n1个a类型样本和n2个b类型样本的cd44基因甲基化水平;(a2)取步骤(a1)获得的所有样本的cd44基因甲基化水平数据,按照a类型和b类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值;所述数学模型的使用方法包括如下步骤:(b1)检测待测样本的cd44基因甲基化水平;(b2)将步骤(b1)获得的所述待测样本的cd44基因甲基化水平数据代入所述数学模型,得到检测指数;然后比较检测指数和阈值的大小,根据比较结果确定所述待测样本的类型是a类型还是b类型;所述a类型样本和所述b类型样本为如下中的任一种:(c1)肺癌样本和无癌对照;(c2)肺癌样本和肺良性结节样本;(c3)肺癌不同亚型样本;(c4)肺癌不同分期样本;(c5)肺癌样本和乳腺癌样本;(c6)乳腺癌样本和无癌女性对照;(c7)乳腺癌不同分期样本。4.记载有数学模型建立方法和/或使用方法的介质在制备产品中的应用;所述产品的用途为如下中的至少一种:(1)辅助诊断癌症或预测癌症患病风险;(2)辅助区分良性结节和癌症;(3)辅助区分癌症不同亚型;(4)辅助区分癌症不同分期;(5)辅助诊断肺癌或预测肺癌患病风险;(6)辅助区分肺部良性结节和肺癌;(7)辅助区分肺癌不同亚型;(8)辅助区分肺癌不同分期;(9)辅助诊断乳腺癌或预测乳腺癌患病风险;(10)辅助区分乳腺癌不同分期;(11)辅助区分肺癌和乳腺癌;(12)确定待测物对癌症的发生是否存在阻碍或促进作用;所述数学模型按照包括如下步骤的方法获得:(a1)分别检测n1个a类型样本和n2个b类型样本的cd44基因甲基化水平;(a2)取步骤(a1)获得的所有样本的cd44基因甲基化水平数据,按照a类型和b类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值;所述数学模型的使用方法包括如下步骤:
(b1)检测待测样本的cd44基因甲基化水平;(b2)将步骤(b1)获得的所述待测样本的cd44基因甲基化水平数据代入所述数学模型,得到检测指数;然后比较检测指数和阈值的大小,根据比较结果确定所述待测样本的类型是a类型还是b类型;所述a类型样本和所述b类型样本为如下中的任一种:(c1)肺癌样本和无癌对照;(c2)肺癌样本和肺良性结节样本;(c3)肺癌不同亚型样本;(c4)肺癌不同分期样本;(c5)肺癌样本和乳腺癌样本;(c6)乳腺癌样本和无癌女性对照;(c7)乳腺癌不同分期样本。5.试剂盒,包括用于检测cd44基因甲基化水平的物质;所述试剂盒的用途为如下中的至少一种:(1)辅助诊断癌症或预测癌症患病风险;(2)辅助区分良性结节和癌症;(3)辅助区分癌症不同亚型;(4)辅助区分癌症不同分期;(5)辅助诊断肺癌或预测肺癌患病风险;(6)辅助区分肺部良性结节和肺癌;(7)辅助区分肺癌不同亚型;(8)辅助区分肺癌不同分期;(9)辅助诊断乳腺癌或预测乳腺癌患病风险;(10)辅助区分乳腺癌不同分期;(11)辅助区分肺癌和乳腺癌;(12)确定待测物对癌症的发生是否存在阻碍或促进作用。6.根据权利要求5所述的试剂盒,其特征在于:所述试剂盒中还含有权利要求3或4中所述的记载有数学模型建立方法和/或使用方法的介质。7.系统,包括:(d1)用于检测cd44基因甲基化水平的试剂和/或仪器;(d2)装置,所述装置包括单元x和单元y;所述单元x用于建立数学模型,包括数据采集模块、数据分析处理模块和模型输出模块;所述数据采集模块被配置为采集(d1)检测得到的n1个a类型样本和n2个b类型样本的cd44基因甲基化水平数据;所述数据分析处理模块被配置为接收来自于所述数据采集模块发送的所述n1个a类型样本和n2个b类型样本的cd44基因甲基化水平数据,按照a类型和b类型的分类方式,通过二分类逻辑回归法建立数学模型,确定分类判定的阈值;所述模型输出模块被配置为接收来自于所述数据分析处理模块建立的所述数学模型,
并进行输出;所述单元y用于确定待测样本类型,包括数据输入模块、数据运算模块、数据比较模块和结论输出模块;所述数据输入模块被配置为输入(d1)检测得到的待测者的cd44基因甲基化水平数据;所述数据运算模块被配置为接收来自于所述数据输入模块发送的所述待测者的cd44基因甲基化水平数据,并将所述待测者的cd44基因甲基化水平数据代入所述单元x中的所述数据分析处理模块建立的所述数学模型,计算得到检测指数;所述数据比较模块被配置为接收来自于所述数据运算模块发送的所述检测指数,并将所述检测指数与所述单元x中的所述数据分析处理模块中确定的所述阈值进行比较;所述结论输出模块被配置为接收来自于所述数据比较模块发送的比较结果,并根据所述比较结果输出所述待测样本的类型是a类型还是b类型的结论;所述a类型样本和所述b类型样本为如下中的任一种:(c1)肺癌样本和无癌对照;(c2)肺癌样本和肺良性结节样本;(c3)肺癌不同亚型样本;(c4)肺癌不同分期样本;(c5)肺癌样本和乳腺癌样本;(c6)乳腺癌样本和无癌女性对照;(c7)乳腺癌不同分期样本。8.根据权利要求1-7中任一所述的应用或试剂盒或系统,其特征在于:所述cd44基因甲基化水平为cd44基因中如下(e1)-(e3)所示片段中全部或部分cpg位点的甲基化水平;所述甲基化cd44基因为cd44基因中如下(e1)-(e3)所示片段中全部或部分cpg位点甲基化;(e1)seq id no.1所示的dna片段或与其具有80%以上同一性的dna片段;(e2)seq id no.2所示的dna片段或与其具有80%以上同一性的dna片段;(e3)seq id no.3所示的dna片段或与其具有80%以上同一性的dna片段。9.根据权利要求8所述的应用或试剂盒或系统,其特征在于:所述“全部或部分cpg位点”为cd44基因中seq id no.1至seq id no.3所示3个dna片段中的任意一个或多个cpg位点;或所述“全部或部分cpg位点”为seq id no.1所示的dna片段中所有cpg位点和seq id no.2所示的dna片段中所有cpg位点;或所述“全部或部分cpg位点”为seq id no.1所示的dna片段中所有cpg位点和seq id no.3所示的dna片段中所有cpg位点;或所述“全部或部分cpg位点”为seq id no.2所示的dna片段中所有cpg位点和seq id no.3所示的dna片段中所有cpg位点;或
所述“全部或部分cpg位点”为seq id no.1所示的dna片段中所有cpg位点、seq id no.2所示的dna片段中所有cpg位点和seq id no.3所示的dna片段中所有cpg位点;或所述“全部或部分cpg位点”为cd44基因中所述seq id no.3所示的dna片段中的全部或任意6个或任意5个或任意4个或任意3个或任意2个或任意1个;或所述“全部或部分cpg位点”为seq id no.3所示的dna片段中如下5项所示cpg位点的全部或任意4项或任意3项或任意2项或任意1项:(f1)seq id no.3所示的dna片段自5’端第130-131位所示cpg位点;(f2)seq id no.3所示的dna片段自5’端第158-159位所示cpg位点;(f3)seq id no.3所示的dna片段自5’端第198-199位所示cpg位点;(f4)seq id no.3所示的dna片段自5’端第316-317位所示cpg位点;(f5)seq id no.3所示的dna片段自5’端第346-347位所示cpg位点。10.根据权利要求1-9中任一所述的应用或试剂盒或系统,其特征在于:所述用于检测cd44基因甲基化水平的物质包含用于扩增cd44基因全长或部分片段的引物组合;所述用于检测cd44基因甲基化水平的试剂包含用于扩增cd44基因全长或部分片段的引物组合;进一步地,所述部分片段为如下中至少一个片段:(g1)seq id no.1所示的dna片段或其包含的dna片段;(g2)seq id no.2所示的dna片段或其包含的dna片段;(g3)seq id no.3所示的dna片段或其包含的dna片段;(g4)与seq id no.1所示的dna片段或其包含的dna片段具有80%以上同一性的dna片段;(g5)与seq id no.2所示的dna片段或其包含的dna片段具有80%以上同一性的dna片段;(g6)与seq id no.3所示的dna片段或其包含的dna片段具有80%以上同一性的dna片段;更进一步地,所述引物组合为引物对a和/或引物对b和/或引物对c;所述引物对a为引物a1和引物a2组成的引物对;所述引物a1为seq id no.4或seq id no.4的第11-35位核苷酸所示的单链dna;所述引物a2为seq id no.5或seq id no.5的第32-56位核苷酸所示的单链dna;所述引物对b为引物b1和引物b2组成的引物对;所述引物b1为seq id no.6或seq id no.6的第11-35位核苷酸所示的单链dna;所述引物b2为seq id no.7或seq id no.7的第32-56位核苷酸所示的单链dna;所述引物对c为引物c1和引物c2组成的引物对;所述引物c1为seq id no.8或seq id no.8的第11-35位核苷酸所示的单链dna;所述引物c2为seq id no.9或seq id no.9的第32-56位核苷酸所示的单链dna。
技术总结
本发明公开了一种辅助诊断癌症的潜在分子标志物。本发明提供了甲基化CD44基因作为标志物在制备产品中的应用;所述产品的用途为如下至少一种:辅助诊断癌症或预测癌症患病风险;辅助区分良性结节和癌症;辅助区分癌症不同亚型;辅助区分癌症不同分期;辅助区分不同癌症;确定待测物对癌症的发生是否存在阻碍或促进作用;所述癌症可为肺癌或乳腺癌。本发明研究发现了肺癌和乳腺癌患者血液中CD44基因的低甲基化现象,本发明对提高肺癌和乳腺癌早期诊疗效果和降低死亡率均有重要的科学意义和临床应用价值。和临床应用价值。