使用核酸甲基化的差异的标记物筛选方法、甲基化或去甲基化标记物和使用标记物的诊断方法与流程

更新时间:2025-04-05 01:10:08 0条评论

默认

使用核酸甲基化的差异的标记物筛选方法、甲基化或去甲基化标记物和使用标记物的诊断方法与流程

1.本技术要求韩国专利申请第10-2020-0020974号的优先权，所述韩国专利申请于2020年2月20日提交，并且其全部说明书整体引入本文作为参考。
2.本发明涉及使用核酸甲基化的差异的标记物筛选方法、去甲基化标记物和使用标记物的诊断方法，更具体而言，涉及使用游离核酸中的甲基化差异筛选疾病特异性去甲基化标记物的新型方法，并且涉及通过计算经由该方法筛选的去甲基化标记物和标记物的频率，通过甲基化检测用于确定癌症的新癌症诊断方法，并且涉及所选cfdna中的癌症特异性去甲基化标记物。

背景技术：

3.癌症指由于各种原因通过破坏细胞分裂和死亡之间的平衡，通过连续分裂和增殖而生成的一组异常细胞，并且也称为肿瘤或瘤形成。它通常影响身体的100多个不同部位，包括器官、白血细胞、骨骼、淋巴结等，并且通过浸润到周围组织和转移到其它器官而发展成严重症状。
4.即使在医学科学进步的今天，关于人癌症，特别是占大多数的实体瘤(除血液癌症外的癌症)的5年存活率也小于50％。所有癌症患者中的约三分之二在晚期时发现，并且其中大多数在诊断的两年内死亡。癌症的此类弱效应不仅是方法的问题，还因为到用于早期诊断实际癌症、准确诊断晚期癌症、以及后跟踪的方法并不容易。
5.在目前的临床环境中，癌症诊断通过病史获得、体格检查和临床病理学检查来进行，并且一旦怀疑，就进行放射照相检查和内窥镜检查，最后通过活组织检查来确诊。然而，以现有的临床测试方法，癌细胞的数目必须是10亿个细胞，并且癌症的直径必须是1厘米或更多以被诊断。在这种情况下，癌细胞已经具有转移的能力，并且实际上，超过一半的癌症已经转移。另一方面，在血液中发现由癌症直接或间接产生的物质的肿瘤标记物用于癌症筛查，但这在准确性方面具有局限性，所以即使当存在癌症时，它也看起来正常到一半左右，并且即使当不存在癌症时，经常看起来是良性的，引起混乱。另外，在主要用于癌症的抗癌剂的情况下，存在仅当癌症的体积很小时才显示效应的问题。
6.如上文所述，癌症的诊断和均很困难，因为存在与正常细胞的许多差异，而且它是非常复杂和多样的。癌症继续随意过量生长，免于死亡且继续存活，侵入周围组织并扩散(转移)至远处器官，导致人死亡。它存活过免疫机制或化学疗法的攻击，继续进化，并且对于存活最有利的细胞体(克隆)选择性地增殖。癌细胞是由许多基因中的突变引起的具有高活力的活生物。为了使单个细胞变成癌细胞并发展成临床实践中可见的恶性癌肿块，必须发生多重基因中的突变。因此，有必要在遗传水平下着手，以便从根本上诊断且癌症。
7.相应地，最近已提出了通过dna甲基化测量用于诊断癌症的方法。dna甲基化主要在特定基因的启动子区的cpg岛的胞嘧啶中发生。结果，转录因子的结合受到干扰，并且特
定基因的表达被阻断(基因沉默)。这是基因功能通过其丧失而无体内基因的蛋白质特异性编码序列的突变的主要机制，并且已解释为人癌症中的许多癌症抑制基因的功能丧失的原因。关于启动子cpg岛的甲基化是直接诱导癌发生还是癌发生的继发性变化存在争议，但在各种癌细胞包括前列腺癌、结肠癌、子宫癌和乳腺癌等中，已报告了cpg岛中的此类异常甲基化/去甲基化。因此，它可以用于各个领域中，例如癌症的早期诊断、癌症风险的预测、癌症预后的预测、后的随访以及对化学疗法的应答的预测。最佳已积极进行通过经由方法例如甲基化特异性pcr(下文被称为msp)、自动测序或亚硫酸氢盐焦磷酸测序测试，使用其用于癌症诊断和筛查的尝试，但大多局限于用于检测且分析少数特定基因或启动子区的甲基化的方法(例如韩国专利第1557183号、韩国专利第1119947号)，并且存在诊断的效率和准确性的局限性。
8.特别地，在癌细胞的基因组中发生了整体甲基化变化，并且在重复序列中发生了最广泛的变化。存在各种类型的基因组重复序列，例如转座子、逆转录转座子、line和sine，并且它们占据很大的比例，以占据整个基因组的多于一半，但研究还没有相对完成。原因在于重复序列难以进行功能分析，并未良好地组装，并且由于存在参考序列(参考标准序列)中并未包括的许多区域，很容易从分析中排除。为此，关于重复序列的甲基化研究还没有相对良好地进行，并且关于重复序列中频繁出现的癌症有关甲基化的标记物的意义和开发的研究也相对较不活跃。然而，在使用各种基因组分析技术的研究中，已积累了各种研究结果：dna的低甲基化随着癌症进展而广泛发生(epigenomics.2009年12月；1(2):239
–
259，clin chem lab med.2012oct 1；50(10):1733-42)，因此重复序列中的低甲基化预计用作癌症的诊断标记物。
9.在本说明书自始至终引用了众多论文和专利文件，并且指示了它们的引用。所引用的论文和专利文件的公开内容整体引入本文作为参考，以更清楚地描述本发明所属技术领域的水平和本发明的内容。
具体实施方式
10.技术问题
11.相应地，本发明人正在研究开发在用甲基化敏感性限制性酶处理cfdna以切割且测序限制性酶靶序列中的非甲基化序列后，能够以非侵入性方式准确地诊断癌症的新型方法。在使用解码序列中的一定长度的序列信息对每个序列进行分类的情况下，将血液中的cfdna类型对于疾病，尤其是疾病例如癌症进行分类是可能的。通过这一点，确认了它可以充当疾病的cfdna标记物，本发明通过开发用于筛选与cfdna中的甲基化相关的癌症特异性标记物，特别是癌症特异性去甲基化标记物的方法来完成。
12.相应地，本发明的一个目的是提供用于在cfdna中筛选癌症特异性去甲基化标记物的新型方法。
13.本发明的另一个目的是提供通过计算筛选的cfdna中的癌症特异性去甲基化标记物的频率，通过去甲基化检测用于确定癌症的新型癌症诊断方法。
14.本发明的另一个目的是提供测序且分析从对象的血液中分离的cfdna的甲基化敏感性限制性酶片段的n末端处的预定长度的序列信息，以提供关于癌症诊断所需的信息的方法。
15.本发明的另一个目的是提供通过本发明的方法选择的cfdna中的癌症特异性去甲基化标记物，其中所述癌症特异性去甲基化标记物的n末端是甲基化敏感性限制性酶的识别位点的粘端的序列，并且由25至150个碱基的序列组成。
16.技术方案
17.为了实现上述目的，本发明提供了在cfdna中筛选癌症特异性去甲基化标记物的方法，其包括：用甲基化敏感性限制性酶处理从对象的血液中分离的cfdna(无细胞dna)；分析每个片段的序列；获得来自片段的n末端的预定长度的序列信息；计数每个序列信息的频率；筛选癌症特异性序列信息作为cfdna中的癌症特异性去甲基化标记物。
18.另外，为了实现本发明的另一个目的，本发明提供了通过计算筛选的cfdna中的癌症特异性去甲基化标记物的频率，通过去甲基化检测用于确定癌症的新型癌症诊断方法。
19.为了实现本发明的另一个目的，本发明提供了分析从对象的血液中分离的cfdna的甲基化敏感性限制性酶片段的n末端处的预定长度的序列信息，以提供关于癌症诊断所需的信息的方法。
20.为了实现本发明的另一个目的，本发明提供了通过本发明的方法选择的cfdna中的癌症特异性去甲基化标记物，其中所述癌症特异性去甲基化标记物的n末端是甲基化敏感性限制性酶的识别位点的粘端的序列，并且由25至150个碱基的序列组成。
21.除非另有定义，否则本文使用的所有技术和科学术语都具有与本领域普通技术人员通常理解相同的含义。下述参考文献为技术人员提供了本说明书中使用的各种术语的一般定义：singleton等人，dictionary of microbiology and molecular bioloty(第2版1994)；the cambridge dictionary of science and technology(walkered.，1988)；以及hale&marham，the harper collins dictionaryof biology。
22.在下文中，将详细描述本发明。
23.本发明涉及在cfdna中筛选癌症特异性去甲基化标记物的方法，其包括：(a)用甲基化敏感性限制性酶处理从对象的血液中分离的cfdna(无细胞dna)；(b)分析每个片段的序列；(c)获得来自片段的n末端处的预定长度的序列信息；(d)计数每个序列信息的频率；并且(e)筛选癌症特异性序列信息作为cfdna中的癌症特异性去甲基化标记物。
24.甲基化
25.可以使用本发明中的以纯化或未纯化形式的任何核酸，并且可以使用包含或怀疑包含含有靶位点的核酸序列的任何核酸(例如，含有cpg的核酸)。可以差异地甲基化的核酸位点是cpg序列的c位置，并且甲基化在其中gpg密集的cpg岛中是特别高的。在某些位点处，cpg岛的密度是基因组的其它区域的10倍。cpg岛具有约60％的平均g*c比率，而正常dna显示出40％的平均g*c比率。cpg岛的长度通常为约1-2kb，并且在人基因组中存在约45,000个cpg岛。
26.通常，样品核酸是dna。然而，也可以使用核酸混合物。待检测的特定核酸序列可以是大分子的一部分，并且该特定序列可以从一开始就以构成整个核酸序列的分离分子的形式存在。核酸序列无需是以纯形式存在的核酸，并且核酸可以是例如含有完整的人dna的复杂混合物内的小部分。用于测量样品中包含的核酸的甲基化程度或用于检测甲基化cpg岛的样品中包含的核酸可以通过本领域已知的常规方法进行提取。
27.测序
28.测序方法包括例如桑格测序、高通量测序、焦磷酸测序、边合成边测序、单分子测序、纳米孔测序、半导体测序、边连接边测序、杂交测序、rna-seq(illumina)、数字基因表达(helicos)、下一代测序(ngs)、通过合成的单分子测序(smss)(helicose)、大规模平行测序、克隆单分子阵列[solexa]、鸟法测序、ion torrent、oxford nanopores、roche genia、maxim-gilbert测序、引物步移；pacbio、solid、ion torrent或使用纳米孔平台的测序。测序反应可以在各种样品加工单元中进行，所述单元可以是多重泳道、多重通道、多重孔、或基本上同时加工多组样品的其它手段。样品加工单元还可以包括允许同时加工多重进行的多重样品腔室。
[0029]
可以对一种或多种类型的核酸进行测序反应，所述核酸中的至少一种已知含有疾病的标记物。测序反应也可以对样品中存在的任何核酸片段进行。
[0030]
可以使用多重测序进行同时测序反应。在一些情况下，可以在至少1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000个测序反应中，对无细胞核酸进行测序。在其它情况下，可以在少于1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000个测序反应中，对无细胞核酸进行测序。测序反应可以序贯或同时进行。可以对测序反应的全部或部分进行后续数据分析。在一些情况下，可以对至少1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000个测序反应进行数据分析。在其它情况下，可以对小于1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、50000、100,000个测序反应进行数据分析。示例性读取深度是每个基因座(碱基)1000-50000个读数。
[0031]
样品
[0032]
样品可以是从对象中分离的任何生物样品。样品可以是身体样品。样品可以包括身体组织，例如已知或疑似实体瘤、全血、血清、血浆、粪便、白细胞或淋巴细胞、内皮细胞、组织活组织检查、脑脊髓液、滑液、淋巴液、腹水、间质液或细胞外液、细胞间隙液(包括来自牙龈的流体)、骨髓、胸膜渗出物、脑脊髓液、唾液、粘液、痰、精液、汗、尿。样品可以以最初从对象中分离的形式进行进一步加工，或者去除或添加组分例如细胞，或者与另一种组分相比，使一种组分富集。样品可以从对象中分离或获得并运输到样品分析场所。样品可以在所需温度例如室温、4℃、-20℃和/或-80℃下贮存且运送。样品可以在样品分析场所从对象中进行分离或获得。
[0033]
对象可以是人、哺乳动物、动物、宠物动物、服务动物或宠物。对象可能患有疾病。对象可能没有疾病或可检测到的疾病症状。个体可能已用一种或多种疗法进行，所述疗法例如手术、、给药、化学疗法、抗体、疫苗或生物制剂中的任何一种或多种。对象可能处于缓解中或可能并未处于缓解中。
[0034]
血液样品中的无细胞核酸
[0035]
血液样品可能含有不同量的含有基因组当量的核酸。例如，约33ng dna的样品可能包含约10,000(104)个单倍体人基因组当量，并且在cfdna的情况下，约2000亿(2x10
11
)个个别多核苷酸分子。类似地，约100ng dna的样品可能含有约30,000个单倍体人基因组当量，并且在cfdna的情况下，约6000亿个个别分子。
[0036]
在扩增之前的样品中的无细胞核酸的示例性量范围为约1fg至约1μg，例如1pg至200ng、1ng至100ng、10ng至1000ng。例如，该量可以是约600ng或更少、约500ng或更少、约
400ng或更少、约300ng或更少、约200ng或更少、约100ng或更少、约50ng或更少、或约20ng或更少、或约10ng或更少、或约5ng或更少、或约1ng或更少的无细胞核酸分子。该量可以是至少1fg、至少10fg、至少100fg、至少1pg、至少10pg、至少100pg、至少1ng、至少10ng、至少100ng、至少150ng、或至少200ng的无细胞核酸分子。该量可以是1飞克(fg)、10fg、100fg、1皮克(pg)、10pg、100pg、1ng、10ng、100ng、150ng或200ng或更少的无细胞核酸分子。该方法可以包括获得1飞克(fg)至200ng。
[0037]
无细胞核酸是不包含在细胞内或不以其它方式与细胞结合的核酸，或者是在去除完整细胞后保留在样品中的核酸。无细胞核酸包括dna、rna及其杂合物，包括基因组dna、线粒体dna、sirna、mirna、循环rna(crna)、trna、rrna、小核仁rna(snorna)、piwi相互作用rna(pirna)、长链非编码rna(长ncrna)、或这些中的任一种的片段。无细胞核酸可以是双链的、单链的或其杂合物。无细胞核酸可以通过分泌或细胞死亡过程如细胞坏死和凋亡而释放到体液内。一些无细胞核酸从癌细胞释放到体液内，例如循环肿瘤dna(ctdna)。其它的从健康细胞中释放。在一些实施方案中，无细胞核酸由肿瘤细胞产生。在一些实施方案中，无细胞核酸由肿瘤细胞和非肿瘤细胞的混合物产生。
[0038]
无细胞核酸显示出例如约100至500个核苷酸的长度分布，并且110至约230个核苷酸的分子构成这些分子的约90％，随后为在240至440个核苷酸的范围内的第二个小峰。
[0039]
无细胞核酸可以通过分级分离或拆分步骤从体液中分离，并且如本文在溶液中发现的无细胞核酸与完整细胞和体液的其它不溶性组分分开。拆分可以包括技术如离心或过滤。可替代地，可以裂解体液中的细胞，并且无细胞核酸和细胞核酸可以一起进行加工。一般而言，在缓冲液添加和洗涤步骤后，核酸可以用乙醇进行沉淀。另外的纯化步骤可以去除污染物或盐，例如使用基于硅的柱。在反应自始至终添加非特异性大部分载体核酸，例如cot-1 dna，dna或用于亚硫酸氢盐测序、杂交和/或连接的蛋白质，使得可以优化该程序的某些方面，例如产率。
[0040]
在此类加工后，样品可以含有以各种形式的核酸，包括双链dna、单链dna和单链rna。在一些实施方案中，单链dna和rna可以转换为双链形式，使得它们包括在后续加工和分析步骤中。
[0041]
在本发明的一个实施方案中，cfdna可以衍生自人基因组dna，或者它可以衍生自与人共存或被人感染的除人外的细胞、细菌、真菌或病毒的dna。
[0042]
在本发明的一个实施方案中，用于在cfdna中筛选癌症特异性去甲基化标记物的方法可以包括下述步骤：
[0043]
(a)用甲基化敏感性限制性酶处理从对象的血液中分离的cfdna(无细胞dna)；
[0044]
(b)分析每个片段的序列；
[0045]
(c)获得来自片段的n末端处的预定长度的序列信息；
[0046]
(d)计数每个序列信息的频率；
[0047]
(e)筛选癌症特异性序列信息作为cfdna中的癌症特异性去甲基化标记物。
[0048]
步骤(a)是处理从血液中分离的cfdna(无细胞dna)中的甲基化敏感性限制性酶的步骤。
[0049]
cfdna从对象中进行分离。优选地，cfdna可以从血浆中进行分离。分离方法可以通过本领域已知的常规dna分离方法进行，其中可以获得适合于限制性酶处理和测序的纯度。
[0050]
在本发明的一个实施方案中，甲基化敏感性限制性酶是aatii、acli、agei、aor13hi i、asci、asisi、avai、bsahi、bsiei、bsiwi、bspdi、bsrfi、bsshii、bstbi、clai、cpo i、eagi、fsei、haeii、hhai、hinp1i、hpaii(或hapii)、hpych4iv、hpy99i、kasi、mlui、nari、ngomiv、noti、paer7i、pluti、pvui、rsrii、sacii、sali、sgrai或tspmi。优选地，本发明的甲基化敏感性限制性酶i)选择性地切割未甲基化的靶区域，ii)切割的端部形成粘端(不是平端)，因此衔接子与互补粘端的缀合效率可以是增加的，因此它可以具有可以制备高质量文库的特性。
[0051]
在本发明的一个实施方案中，甲基化敏感性限制性酶优选为能够选择性地切割cpg甲基化的酶，即能够特异性地切割包括去甲基化cpg的限制性酶识别位点的酶。然而，取决于基因组中存在多少限制性酶识别位点，需要整个基因组的覆盖和测序的分析成本可能不同，使得可以根据目的选择适当的限制性酶。
[0052]
表1.
[0053][0054]
(
↓
指示限制位点)
[0055]
步骤(b)是对每个片段进行测序的步骤。
[0056]
在本发明的一个实施方案中，序列翻译通过本领域已知的序列翻译方法进行。序列翻译翻译通过甲基化敏感性限制性酶切割或未切割的每个片段的序列。由于序列翻译读取大量片段，优选至少10000或更多、至少20000或更多、至少30000或更多、至少40000或更多、至少50000或更多、至少100000或更多、至少1000000或更多个片段，因此用于此的合适测序方法是优选的。
[0057]
对于测序，可以使用本领域已知的测序方法，但可以使用大量序列的任何可能测序方法，以便对足够数量的每个片段进行测序，而无限制。例如，如果使用下一代测序方法(ngs)，则它具有下述优点：可以在18小时内以低成本测序大量序列，并且在读取足够量的序列时准确性非常高,并且可以对测序数据进行定性和定量分析。
[0058]
对于序列翻译，优选地，可以附着适当的衔接子，使得可以翻译仅通过甲基化敏感
性限制性酶切割的dna片段。取决于甲基化状态，样品中的dna可能通过甲基化敏感性限制性酶进行切割或可能不被切割。例如，它在正常人cfdna中是甲基化的，但在检测癌变和去甲基化的癌症dna的情况下，如果仅去甲基化和切割的片段可以进行测序，则很容易检测到以极低比率混合的cfdna。因此，如果使用具有与通过经由甲基化敏感性限制性酶切割产生的粘端互补的结构的衔接子，则由于文库仅由切割片段制备，因此在翻译阶段选择性地解释癌症诱导的片段是可能的。
[0059]
步骤(c)是获得来自片段的5'端的预定长度的序列信息的步骤。
[0060]
在本发明的一个实施方案中，术语
‘
预定长度’指示来自每个序列翻译片段的5'端的碱基或碱基对的长度，并且可以优选为25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149、150个碱基。同时，取决于待筛查或分析的癌症、样品的类型等等，预定长度可以是小于25的自然数和大于150的自然数之一。更优选地，预定长度可以是30、60、80或90个碱基。另外，在本发明的一个实施方案中，
‘
预定长度’可以是从5到1000的任何自然数。
[0061]
步骤(d)是计数每个序列信息的频率的步骤。
[0062]
在所得到的序列信息中，将从5'端开始的每个序列信息的频率计数为通过限制性酶切割生成的粘端序列(在hpaii的情况下为cgg)。即，计数通过对一个样品测序获得的来自所有序列的一个预定长度(例如30)的序列类型(在30nt的情况下，4
30
种序列理论上是可能的)，计数每种序列出现的次数。对计数的每个序列的值进行归一化，用于与其它样品的值的比较。这种归一化是将每个聚集值除以与测序的量成比例的值，用于在关于每个样品的读出量不同时，样品之间的直接定量比较。在这种情况下，各种值是可能的，例如每个样品中翻译的序列总数和映射到看家基因区域的序列数目，作为与翻译的量成比例的值。
[0063]
步骤(e)是筛选癌症特异性序列信息作为cfdna中的癌症特异性去甲基化标记物的步骤。
[0064]
在正常样品组和癌症样品组中，比较关于预定长度的每个序列组合的计数且归一化的值，以选择癌症样品组中显著更高的预定长度的序列作为标记物。最简单的是，在每个预定长度的序列组合中，使用正常样品组和癌症样品组的平均值之间的差异，或者使用各种统计技术例如t检验、曼怀二氏检验、威尔科克森检验或cohen氏d检验等等，来选择在两个样品组中具有显著差异的序列。在该实施方案中，对于乳腺癌和肺癌，我们分析了平均值中的差异。
[0065]
筛选的癌症特异性去甲基化标记物可以是对于提供样品的对象定制的标记物，并且可以是通常应用于癌症类型、阶段、种族或家族的标记物。
[0066]
在本发明的一个实施方案中，cfdna中的癌症特异性去甲基化标记物是n末端序列在限制性酶的识别位点中切割后的剩余区域的序列，并且它由与预定长度具有相同长度的核苷酸序列组成。例如，hpaii限制性酶识别ccgg碱基并且在c和c之间进行切割。因此，限制性片段的n末端以cgg开始。由于癌症特异性去甲基化标记物具有预定长度的核苷酸序列，
因此如果预定长度为30，则它选自cggnnnnnnnnnnnnnnnnnnnnnnnnnnn(seq id no:38)的序列(n为任意碱基，30bp)。在这种情况下，由于n为27，因此理论上可以存在4
27
(＝18,014,398,509,481,984)个片段，并且在其中筛选癌症特异性去甲基化标记物。如果预定长度为60，则癌症特异性去甲基化标记物的长度为60个碱基，并且预定长度与癌症特异性去甲基化标记物的长度是相同的。
[0067]
另外，本发明涉及癌症诊断方法，其包括：
[0068]
从对象中分离的血液中分离cfdna；用甲基化敏感性限制性酶处理分离的cfdna(无细胞dna)；分析每个片段的序列；获得来自片段的n末端处的预定长度的序列信息；计数每个序列信息的频率；计算cfdna中的癌症特异性去甲基化标记物的频率并确定癌症。
[0069]
在本发明的一个实施方案中，对象是需要诊断癌症的患者。在本发明的一个实施方案中，预定长度是与cfdna中的癌症特异性去甲基化标记物相同的长度。在本发明的一个实施方案中，cfdna中的癌症特异性去甲基化标记物是由1至50种，优选3至40种，更优选5至30种标记物组成的标记物集合。
[0070]
另外，本发明涉及分析从对象中分离的cfdna的甲基化敏感性限制性酶片段的n末端处的预定长度的序列信息，以提供关于癌症诊断所需的信息的方法。
[0071]
另外，根据本发明，n末端是甲基化敏感性限制性酶的识别位点的粘端的序列(例如cgg的序列)，由连续的25至150个碱基(优选30个碱基、35个碱基、40个碱基、45个碱基或50个碱基)的序列组成，它提供了通过本发明的方法筛选的cfdna中的癌症特异性去甲基化标记物，本段落的粘端的序列可以选自acgtc(seq id no:39)、atcg(seq id no:40)、atcgc(seq id no:41)、ccgga(seq id no:42)、ccggc(seq id no:43)、ccggcc(seq id no:44)、ccggg(seq id no:45)、ccggt(seq id no:46)、ccggy(seq id no:47)、ccggyg(seq id no:48)、cg(seq id no:49)、cgaa(seq id no:50)、cgat(seq id no:51)、cgc(seq id no:52)、cgcc(seq id no:53)、cgcgc(seq id no:54)、cgcgcc(seq id no:55)、cgcgt(seq id no:56)、cgg(seq id no:57)、cgt(seq id no:58)、cgtt(seq id no:59)、cgwcg(seq id no:60)、cgyc(seq id no:61)、gcgcc(seq id no:62)、gcgcy(seq id no:63)、gcgg(seq id no:64)、ggccg(seq id no:65)、ggccgc(seq id no:66)、gtacg(seq id no:67)、gwccg(seq id no:68)、rycg(seq id no:69)、tcgac(seq id no:70)、tcgag(seq id no:71)和ycgrg(seq id no:72)。在这种情况下，碱基的指示遵循标准符号，例如，a代表腺嘌呤，c是胞嘧啶，t是胸腺嘧啶，g是鸟嘌呤，y是c或t，w是a或t，r是a或g。
[0072]
在本发明的一个实施方案中，癌症可以是但不限于宫颈癌、肺癌、胰腺癌、肝癌、结肠癌、骨癌、皮肤癌、头或颈癌、皮肤或眼内黑素瘤、子宫癌、卵巢癌、直肠癌、胃癌、肛门癌、结肠癌、乳腺癌、输卵管癌、子宫内膜癌、阴道癌、外阴癌、食道癌、小肠癌、内分泌腺癌、甲状腺癌、甲状旁腺癌、肾上腺癌、软组织肉瘤、尿道癌、阴茎癌、前列腺癌、膀胱癌、肾癌或输尿管癌。
[0073]
用于癌症疾病诊断的分析
[0074]
诊断方法可以用于诊断对象中状况，特别是疾病的存在，或表征状况(例如，确定癌症的分期或确定癌症的异质性)，或监测对状况的的应答，或者预测发展状况或状况的后续过程的风险。本公开内容还可以用于确定特定疗法的功效。在另一个实例中，特定疗法可能与在一段时间内癌症的遗传谱相关联。此类相关性可能可用于选择疗法。另外，如果
在后观察到癌症处于缓解中，则诊断方法可以用于监测残留疾病或疾病的复发。
[0075]
遗传数据也可以用于表征癌症的特定形式。癌症在组成和分期两个方面经常是异质的。遗传谱数据可能允许表征癌症的特定亚型，其在诊断或该特定亚型的癌症中可能是重要的。此类信息还可以为对象或从业者提供关于癌症的特定类型的预后的线索，并且允许对象或从业者在疾病进展时采用选项。一些癌症可以进展以变得更具侵袭性和遗传不稳定。其它癌症可以保持良性、不活跃或休眠。本公开内容的系统和方法可以用于确定疾病进展。
[0076]
标记物和实验对象组
[0077]
本发明将每种标记物个别地用作诊断或预测标记物，或者可以通过将几种标记物组合用作实验对象组展示形式，并且可以通过甲基化位点的整体模式或列表来鉴定几种标记物以改善可靠性和效率。本发明中鉴定的标记物可以个别地使用或作为组合的标记物集合使用。可以根据一起甲基化的标记物的数目和重要性，对标记物进行排序、加权和发展疾病的可能性水平。此类算法属于本发明。
[0078]
基底
[0079]
靶核酸位点可以与在固体支持物(基底)上固定的已知探针杂交。
[0080]
如本文使用的，“基底”意指包含物质、结构、表面或材料、非生物、合成、无生命、平面、球形或特异性结合的材料，平面表面的混合物，它可以包括超出杂交或酶识别位点的许多其它识别位点，或者许多其它识别位点或众多其它分子种类由表面、结构或材料构成。基底可以是例如半导体、(有机)合成金属、合成半导体、绝缘体和掺杂剂；金属、合金、元素、化合物和矿物质；合成、拆卸、蚀刻、平版印刷、印刷、微型制造的载玻片、装置、结构和表面；工业聚合物、塑料、膜、硅酮、硅酸盐、玻璃、金属和陶瓷；木材、纸、纸板、棉花、羊毛、布、织造和非织造纤维、材料和织物，但不限于此。
[0081]
本领域已知某些类型的膜对核酸序列具有粘附性。此类膜的一个具体的非限制性实例是用于检测基因表达的膜，例如商业上使用的膜如硝酸纤维素或聚氯乙烯、重氮化纸以及商品名genescreen、商品名zetaprobe和商品名nytran等等。还包括珠、玻璃、晶片和金属基底。用于将核酸粘附到此类物体的方法是本领域众所周知的。可替代地，筛选也可以在液相中进行。
[0082]
有益效果
[0083]
因此，本发明的方法可以在cfdna中筛选癌症特异性去甲基化标记物，并且筛选的标记物可以提供关于癌症的诊断、方案的监测和癌症患者的预后所需的信息，并且因此可以有用地用于抗癌。
附图说明
[0084]
图1a是在乳腺癌患者样品组和正常样品组中，通过用hpaii处理的分析结果的实例，并且图1b是其示意图。
[0085]
图2a通过标准化(z评分)映射到乳腺癌患者样品组和正常样品组中用sacii处理的酶限制位点的读数数目，显示了在两个样品组之间具有统计学显著差异的区域。图2b是通过使用在图2a的过程中提取的乳腺癌特异性标记物，以计算乳腺癌预测概率值(0.0至1.0)创建机器学习模型，来说明正常组和乳腺癌组之间的概率值差异的图解。图2c显示了
通过使模型重复学习20次，经由每个测试样品的平均概率值的roc(接受者操作特性)曲线，并且表示了auc(曲线下面积：0.0至1.0)值。
[0086]
图3a是在乳腺癌患者样品组和正常样品组中，通过用hpaii处理的分析结果的实例，图3b是其示意图。
[0087]
图4a通过标准化(z评分)映射到肺癌患者样品组和正常样品组中用sacii处理的酶限制位点的读数数目，显示了在两个样品组之间具有统计学显著差异的区域。图4b是通过使用在图2a的过程中提取的肺癌特异性标记物，以计算肺癌预测概率值(0.0至1.0)创建机器学习模型，来说明正常组和肺癌组之间的概率值差异的图解。图4c显示了通过使模型重复学习20次，经由每个测试样品的平均概率值的roc(接受者操作特性)曲线，并且表示了auc(曲线下面积：0.0至1.0)值。图4d是关于肺癌分类的每个阶段的roc曲线图解。
[0088]
实施发明的方式
[0089]
在下文中，将详细描述本发明。
[0090]
然而，下述实施例仅说明本发明，并且本发明的内容并不限于下述实施例。
[0091]
实验方法
[0092]
1.从血液中分离cfdna
[0093]
乳腺癌患者(n＝102)、肺癌患者(n＝75)和健康人(n＝139)经受在仅cfdna血管收集中的血液收集。分离的血液以2000rpm离心20分钟，以分离血浆。将分离的血浆(上清液)转移到1.5ml管中，并且以16000rpm离心10分钟。其后，根据制造商的说明书，使用chemagen cfdna prep设备分离cfdna。
[0094]
2.文库产生
[0095]
在将分离的cfdna的端部制备成平端后，诱导a拖尾，并且在此诱导p7衔接子与cfdna的连接。进行限制性酶hpaii处理，以切割去甲基化的ccgg位点。在此时，在甲基化cpg的情况下，它不受hpaii的限制。向其中添加具有hpaii粘端的p5衔接子，并且连接通过hpaii切割的cfdna片段，并且将这用作分析文库。
[0096]
3.序列信息的分析
[0097]
关于每个样品的分析文库用作ngs，以获得关于文库中包括的每个序列的序列信息。从每个样品的解码序列中，选择以限制性酶识别序列(对于hpaii为cgg，对于sacii为gc)开始的序列，并且从所选序列的5'获得一定长度(例如30、60、80等)的序列信息，并且根据预定长度对序列进行分类。对每个样品中的分类序列的频率进行计数且归一化，用于样品之间的比较。对于每个序列候选物，与正常样品组相比，在癌症样品组中鉴定了显著更高的读取序列，在此时，由于该序列在癌症样品组中特异性地去甲基化，因此它可以被选择作为去甲基化标记物(在hpaii的情况下；在切割甲基化位点的限制性酶的情况下的甲基化标记物)。对于给定标记物对于每个样品获得平均值(dhm评分)，并且确定可以区分癌症样品与正常样品的dhm评分的参考值。该dhm评分用于样品的判断。
[0098]
4.样品的检查和癌症发生率的确定
[0099]
根据上述实验方法和分析方法，对未知样品进行测序且分析。获得dhm评分，其是对应于序列信息的分析(第3项)中选择的标记物的值的平均值，如果它高于预定的dhm参考值，则确定存在癌症。
[0100]
实施例1：筛选关于乳腺癌cfdna的癌症特异性去甲基化标记物和使用其的确定准
确性测试
[0101]
从34个乳腺癌样品组和53个正常样品中分离的cfdna用甲基化敏感性限制性酶之一hpaii进行限制，并且根据上述实验方法进行测序和分析。在翻译的序列中，对以cgg开始的序列的前80nt的序列进行计数，并且作为标记物候选物进行比较。选择乳腺癌中关于每种标记物的平均值为5或更多并且是正常组的平均值的10倍或更多的173种标记物作为标记物，并且获得其为每个样品中的这173个值的平均值的dhm评分。
[0102]
作为图1中所示的结果，创建了表格，其中记录了关于乳腺癌和正常样品的每种标记物的归一化评分，为了使得更易于查看评分，它表示为热图，其中高数目为红且低数目为蓝。图1a显示了173种标记物的上半部分，在所选的标记物中，可以看出除了3个样品之外的31个样品在乳腺癌样品中具有高于一定水平的值，而所有样品在正常样品中具有接近于0的值。
[0103]
图1b是显示dhm评分的条形图，所述dhm评分是图1a中所示的每个样品的173种标记物值的平均值。基于dhm评分1，可以看出乳腺癌和正常样品被明确地区分。
[0104]
作为比较乳腺癌组和正常组的dhm评分的结果，当dhm评分设为1时，34个乳腺癌样品中的31个被判断为乳腺癌，53个正常样品中的所有53个都可以被判断为平常的。作为计算准确性的结果，灵敏度为91.2％，且特异性为100％(参见图1a和1b)。
[0105]
实施例2：筛选关于用sacii处理的乳腺癌cfdna的癌症特异性去甲基化标记物和使用其的确定准确性测试
[0106]
从102个乳腺癌样品和139个正常样品中分离的cfdna用甲基化敏感性限制性酶sacii进行限制，并且根据上述实验方法进行测序和分析。在解码的序列中，对以gc开始的序列的前80nt的序列进行计数，并且作为标记物候选物进行比较。
[0107]
每种标记物通过iqr(四分位间距)平均值进行归一化，并且通过z评分进行标准化，以减少在测序之间可能出现的差异。此后，对于每种标记物，在乳腺癌组和正常组之间进行t检验，以选择其p值低于特定阈值(例如，10-5
)的标记物，并且通过所选标记物计算最终的dhm评分。可以通过将每个样品关于所选标记物的相应值简单地相加来计算最终评分，可以通过创建机器学习的分类模型例如逻辑回归分析，将其计算为预测概率值。
[0108]
作为图2a中所示的结果，创建了表格，其中记录了关于乳腺癌和正常样品的每种标记物的归一化/标准化的值，为了使得更易于查看评分，它表示为热图，其中高数目为红且低数目为绿。通过经由所选标记物创建机器学习预测模型，并且通过创建概率值从0到1的结果值，图2b确认了在乳腺癌组和正常组之间的概率值分布中存在明确差异。
[0109]
在图2c中，在机器学习模型测试方法中使用k折交叉验证，对于每个循环以8:2进行训练组和测试组的随机抽取，通过将该操作重复20次，经由对于一个样品的20个不同训练数据计算结果值，获取平均值，并且绘制roc(接受者操作特性)曲线以测量表现。
[0110]
作为比较乳腺癌组和正常组的dhm评分的结果，发现auc为0.9492，并且基于100％的特异性，灵敏度为70.87％(参见图2c)。
[0111]
实施例3：筛选关于肺癌cfdna的癌症特异性去甲基化标记物和使用其的确定准确性测试
[0112]
当肺癌组的11个样品和53个正常样品组用30nt的长度进行比较时，存在与正常组的平均值相比，在肺癌组中其值为5倍或更多的198种标记物、以及其值为10倍或更多的157
种标记物。dhm评分通过将每个样品中的所有这198个值相加而获得。
[0113]
作为图3a中所示的结果，创建了表格，其记录了关于肺癌和正常样品的每种标记物的归一化评分，为了使得更易于查看评分，它表示为热图，其中高数目为红且低数目为蓝。图3a显示了198种标记物的顶部部分。在所选的标记物中，除了3个样品之外的8个样品在肺癌样品中具有高于参考值的值，而所有样品具有3或更低的值，其低于正常样品中的参考值4。
[0114]
图3b是显示dhm评分的条形图，所述dhm评分是图3a中所示的每个样品的198种标记物值的平均值。基于dhm评分4，明确地区分肺癌和正常样品。
[0115]
作为比较肺癌组和正常组的dhm评分的结果，如果dhm评分基于4，则11个肺癌样品中的8个被判断为肺癌，并且53个正常样品中的所有53个都可以被判断为平常的。作为计算准确性的结果，灵敏度为72.7％，且特异性为100％(参见图3a和3b)。
[0116]
实施例4：筛选关于用sacii处理的肺癌cfdna的癌症特异性去甲基化标记物和使用其的确定准确性测试
[0117]
从75个肺癌样品和129个正常样品中分离的cfdna用甲基化敏感性限制性酶之一sacii进行限制，根据上述实验方法进行测序和分析。在解码的序列中，对以gc开始的序列的前80nt的序列进行计数，并且作为标记物候选物进行比较。
[0118]
每种标记物通过iqr(四分位间距)平均值进行归一化，并且通过z评分进行标准化，以减少在测序之间可能出现的差异。其后，对于每种标记物，在肺癌组和正常组之间进行t检验，并且选择其p值低于一定阈值(例如，10-5
)的标记物，通过所选标记物计算最终的dhm评分。可以通过将每个样品关于所选标记物的相应值简单地相加来计算最终评分，可以通过创建机器学习的分类模型例如逻辑回归分析，将其计算为预测概率值。
[0119]
作为图4a中所示的结果，创建了表格，其中记录了关于肺癌和正常样品的每种标记物的归一化/标准化的值，为了使得更易于查看评分，它表示为热图，其中高数目为红且低数目为绿。通过经由所选标记物创建机器学习预测模型，并且通过创建概率值从0到1的结果值，图4b确认了在乳腺癌组和正常组之间的概率值分布中存在明确差异。
[0120]
在图4c中，在机器学习模型测试方法中使用k折交叉验证，对于每个循环以8:2进行训练组和测试组的随机抽取，通过将该操作重复20次，经由对于一个样品的20个不同训练数据计算结果值，获取平均值，并且绘制roc(接受者操作特性)曲线以测量表现。图4d显示了根据肺癌的每个阶段分类的样品的准确性。
[0121]
作为比较肺癌组和正常组的dhm评分的结果，发现auc为0.8837，并且基于100％的特异性，灵敏度为41.67％(参见图4c)。
[0122]
工业适用性
[0123]
如上所述，本发明的方法可以在cfdna中筛选癌症特异性去甲基化标记物，并且筛选的标记物可以提供关于癌症的诊断、方案的监测和癌症患者的预后所需的信息，并且因此可以有用地用于抗癌。

技术特征：

1.一种在cfdna中筛选癌症特异性去甲基化标记物的方法，其包括：(a)用甲基化敏感性限制性酶处理从对象中分离的cfdna(无细胞dna)；(b)分析每个片段的序列；(c)获得来自所述片段的n末端的预定长度的序列信息；(d)计数每个所述序列信息的频率；(e)筛选癌症特异性序列信息作为cfdna中的癌症特异性去甲基化标记物。2.根据权利要求1的方法，其中所述甲基化敏感性限制性酶选自aatii、acli、agei、aor13h i、asci、asisi、avai、bsahi、bsiei、bsiwi、bspdi、bsrfi、bsshii、bstbi、clai、cpo i、eagi、fsei、haeii、hhai、hinp1i、hpaii、hpych4iv、hpy99i、kasi、mlui、nari、ngomiv、noti、paer7i、pluti、pvui、rsrii、sacii、sali、sgrai和tspmi。3.根据权利要求1的方法，其中分析所述序列通过下一代测序(ngs)来进行。4.根据权利要求1的方法，其中所述预定长度是选自以下的任何一个长度的碱基：25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100、101、102、103、104、105、106、107、108、109、110、111、112、113、114、115、116、117、118、119、120、121、122、123、124、125、126、127、128、129、130、131、132、133、134、135、136、137、138、139、140、141、142、143、144、145、146、147、148、149和150。5.根据权利要求1的方法，其中所述cfdna中的癌症特异性去甲基化标记物的n末端序列是所述限制性酶的识别位点的粘端序列，并且其中所述核苷酸序列由与预定长度相同的长度组成。6.根据权利要求1的方法，其中所述癌症选自宫颈癌、肺癌、胰腺癌、肝癌、结肠癌、骨癌、皮肤癌、头或颈癌、皮肤或眼内黑素瘤、子宫癌、卵巢癌、直肠癌、胃癌、肛门癌、结肠癌、乳腺癌、输卵管癌、子宫内膜癌、阴道癌、外阴癌、食道癌、小肠癌、内分泌腺癌、甲状腺癌、甲状旁腺癌、肾上腺癌、软组织肉瘤、尿道癌、阴茎癌、前列腺癌、膀胱癌、肾癌和输尿管癌。7.一种癌症诊断方法，其包括：(a)用甲基化敏感性限制性酶处理从对象中分离的cfdna(无细胞dna)；(b)分析每个片段的序列；(c)获得来自所述片段的n末端的预定长度的序列信息；(d)计数每个所述序列信息的频率；(e)计算cfdna中的癌症特异性去甲基化标记物的频率并确定癌症。8.根据权利要求7的方法，其中所述对象是需要癌症诊断的患者。9.根据权利要求7的方法，其中所述预定长度与所述cfdna中的癌症特异性去甲基化标记物相同。10.根据权利要求7的方法，其中所述cfdna中的癌症特异性去甲基化标记物是由5至50种标记物组成的标记物集合。11.一种分析从对象中分离的cfdna的甲基化敏感性限制性酶片段的n末端处的预定长度的序列信息以提供癌症诊断所需信息的方法。
12.一种通过权利要求1的方法选择的cfdna中的癌症特异性去甲基化标记物，其中所述癌症特异性去甲基化标记物的n末端是甲基化敏感性限制性酶的识别位点的粘端的序列，并且由25至150个碱基的序列组成。13.根据权利要求12的癌症特异性去甲基化标记物，其中所述粘端序列选自acgtc(seq id no:39)、atcg(seq id no:40)、atcgc(seq id no:41)、ccgga(seq id no:42)、ccggc(seq id no:43)、ccggcc(seq id no:44)、ccggg(seq id no:45)、ccggt(seq id no:46)、ccggy(seq id no:47)、ccggyg(seq id no:48)、cg(seq id no:49)、cgaa(seq id no:50)、cgat(seq id no:51)、cgc(seq id no:52)、cgcc(seq id no:53)、cgcgc(seq id no:54)、cgcgcc(seq id no:55)、cgcgt(seq id no:56)、cgg(seq id no:57)、cgt(seq id no:58)、cgtt(seq id no:59)、cgwcg(seq id no:60)、cgyc(seq id no:61)、gcgcc(seq id no:62)、gcgcy(seq id no:63)、gcgg(seq id no:64)、ggccg(seq id no:65)、ggccgc(seq id no:66)、gtacg(seq id no:67)、gwccg(seq id no:68)、rycg(seq id no:69)、tcgac(seq id no:70)、tcgag(seq id no:71)和ycgrg(seq id no:72)。

技术总结

本发明涉及使用核酸甲基化的差异的标记物筛选方法、去甲基化标记物和使用标记物的诊断方法，更具体而言，涉及使用游离核酸中的甲基化差异筛选疾病特异性去甲基化标记物的新型方法，并且涉及通过计算经由该方法筛选的去甲基化标记物和标记物的频率，通过甲基化检测用于确定癌症的新癌症诊断方法，并且涉及所选cfDA中的癌症特异性去甲基化标记物。cfDA中的癌症特异性去甲基化标记物。cfDA中的癌症特异性去甲基化标记物。