三代测序技术概况
三代测序技术概况
原创
2020-12-29 20:44:49©著作权
⽂章标签⽂章分类阅读数1401
第三代长序列测序技术为获得⾼质量的基因组数据提供了机遇。⼆代测序会产⽣很多数百个碱基⼤⼩的读长,⽽三代测序的读长可以长达10kbp。这种长读长对基因组的从头组装、基因组结构变异和基因分型(phasing)有重要的意义。
⾃从⼆代测序技术商业化以来,很多测序平台相继出现,⽐如Roche/454(2005年),Illumina/Solexa(2007年)等。这些测序平台使得测序价格⼤幅下降。因此,⼈们可以测定很多新物种序列,同时还能够研究不同种群的基因组多样性。但是⼆代测序对研究基因组结构变异却⼗分困难。⽽且,通过⼆代测序技术对新基因组的从头测序结果也并不理想,甚⾄不如之前⽼的⽅法准确,容易造成基因组⽚段的缺失。即便是对基因组的重测序也很难进⾏基因组结构变异的研究。
不过通过单分⼦测序则能很⼤程度上解决这些⼆代测序技术的不⾜。单分⼦测序的读长能够达到10kbp,甚⾄超过100kbp。这么⼤的长度对研究基因组结构变异提供了很⼤的⽅便。
更为重要的是,长读长能够很准确的显⽰出重复序列,或者连续性更好的基因组。还能够很容易的识别出插⼊缺失突变、转座、倒置等结构变异。同时单分⼦测序的测序深度在基因组上分布⽐较均⼀,不会像⼆代测序那样受序列内容影响(如GC含量)造成很多区域的测序深度降低甚⾄缺失。【GC含量⾼的序列容易造成测序深度偏低】。通过这种第三代长测序技术能够形成⼀个超级contig(scaffold),有时甚⾄可以覆盖整个染⾊体的⼀条臂。
三代测序技术已经⽤于了很多微⽣物基因组的⾼精度从头组装、动植物基因组的连续性重构。同时也可以⽤了重测序分析,⽐如获得⼈类染⾊体的结构变异图和分型变异图。尤其是这些新技术的应⽤,填补了在⼈类参考基因组中存在的序列间隔。此外,读长的提升在临床上也有很重要应⽤,⽐如对⼈类主要组织兼容复合物(HLA)的测序。在宏基因组中,通过长序列测序,能够解决不同种群个体混杂的问题。三代测序还可以⽤于转录组的研究以及表观遗传修饰的研究。总之,相⽐于⼆代测序,三代技术带来的三⼤特点(‘3C’):连贯性(contiguity)、完整性(completeness)和准确性(correctness).
⽬前有三种商⽤第三代测序平台:PacBio的SingleMolecule Real Time(SMRT)测序、Illumina的Tru-qSynthetic Long-Read测序,和Oxford Nanopore测序。这些测序平台可以产⽣5kbp到15kbp的测序⽚段,有些可达100kbp。
蒂娜菲当然其中最成熟的还是PacBio的SMRT,其在2010年开始商⽤。SMRT也是使⽤边合成边测序的技术,通过荧光标记的碱基来识别DNA 序列。⽐如PacBio RSII测序平台,能够测得100kbp读长,每天产⽣8GB的数据量。原始测序错误在10%-15%,不过通过公式校正可以将每个碱基的准确率提升到99.99%。不过PacBio的不⾜时价格⽐较⾼,这也限制了其⼤规模的使⽤。尽管如此,还是有不少研究通过PacBio对微⽣物、真菌、动植物的基因组进⾏了测序和组装,也包括⼈的。
第⼆个三代测序技术是在2012年由Illumina发明的TruSeq Synthetic Long Reads,是通过短读长序列得来的,所以其准确度⾮常⾼,错误率只有0.1%,因⽽可以不⽤校正直接⽤来基因分型分析和组装。它的缺点是读长相对于其他三代测序要短⼀些,⽽且容易受到GC偏倚影响。此外,如果是从头组装基因组,那么对短读长的测序深度可能会达到900X到1500X,这样最后才能获得30X的长读长序列。
6级考试2021时间最新的三代测序技术在2014年,来⾃Oxford Nanopore。其最新的测序平台MinION⾮常⼩,携带很⽅便。它的测序读长和PacBio相似。不过它的准确度很低,测序通量也不⾼,因⽽它的使⽤⽬前主要针对基因组较⼩的⽣物,⽐如⼤肠杆菌和酵母菌。通过校正,每个碱基的准确性也能提升到99.95%。但是由于其体积⾮常⼩,花费很低,⾮常适合在偏远的地⽅使⽤,⽐如在西⾮爆发埃博拉的地区。
考研政治国家线
传说的拼音(本⼈实拍,Nanodrop的MinION测序仪器)
insurgent第三代基因图谱
基因图谱能够帮助我们在不了解每⼀个碱基序列的情况下知道DNA的序列结构。可以通过分析杂合⼦标记之间的重组率来重建基因图谱。但这需要很⼤的样本量,对于某些物种来说是很难实现的。⼆代基因图谱使⽤了配对⽂库建⽴。最成功的第三代基因图谱是在2010年来⾃BioNano Genomics 的Irys。通过PacBio测序和Irys基因图谱完成了⾄今连贯性最好的从头组装的⼈类基因组,contig的N50达到了
1.4Mbp,同时在基因组中发现了数百的新的结构变异。在2015年初,Dovetail Genomics通过优化Hi-C的⽅法发明了cHiCago⽅法,这种⽅法使得基因图谱的构建相对便宜,不过这个⽅法属于Dovetail专有,样本必须寄到他们公司有他们内部完成构建。最新的基因图谱构建技术来⾃10XGenomics。它的原理和Illunima的长测序原理相似。
大专生考研的条件
基因组装:基因组装最⼤的障碍来⾃基因组中的重复序列。⼆代测序对重复序列,尤其是⽐读长⽽还长的重复序列的组装⽆能为⼒。相⽐之下,三代测序由于其读长很长,在对重复序列的组装中发挥了巨⼤作⽤。
长读长的组装使⽤overlapgraph或者stringgraph来完成。IlluminaTru-q的准确性很⾼,因⽽可以直接⽤来组装,⽽PacBio和MinION 的准确性低,因为需要在组装之前最数据进⾏校正。三代测序产⽣的读长分布通常是对数正态分布。
星期一这种分布就意味着,⼤多数读长是很短的,只有少数读长可能达到100kbp。所以即便是三代测序技术,保证⼀定的测序深度对基因组的组装依然是⼗分重要的。
结构变异分析:如果是仅仅研究像SNP⼀样的很⼩的变异,⼆代测序就能够胜任;但是如果要研究很⼤的结构变异(>50bp),则⼆代测序的短读长很难识别变异位点。三代测序的长读长能够很有效的
马来西亚航班失踪
识别出结构变异位点。⽐如通过三代测序技术,在⼈类基因组中发现了数万个结构变异,⽽这些变异通常⽆法通过⼆代测序识别。
基因分型:即将杂合⼦个体的变异分配到不同的单倍体上。基因分型会受到测序错误和测序深度偏倚的影响,可能因此引⼊错误的变异类型或者错失真正的杂合⼦变异类型。在⼈类基因组中,杂合⼦变异在染⾊体上的距离为1000bp– 1500bp,这个距离显然超过了⼆代测序的读长,⽽三代测序则能够很准确的对此进⾏分型。
adventure是什么意思
第三代测序技术⼤⼤提⾼了基因组的质量,对于⼤多数基因组<100Mbp的⽣物,其基因组可以通过第三代测序进⾏完美的组装;对于更⼤的基因组,如⼈类和其他哺乳动物,其基因组的组装质量也有很⼤幅度提升。
三代测序的三⼤特性
连贯性:连贯性对基因组的组装⾮常重要,如果连贯性⽐较好,能够准确的反应出基因结构之间的关系(外显⼦、基因簇、转移元件、调节序列等)。早在1988年就有了Lander-Waterman模型来描述基因的连贯性,估计最低测序深度,并且预测了基于不同读长的contig的平均长度。不过这种预测在测序深度很⼤的条件下很不准确,⽐如其预测在100bp读长100X的测序深度下,可以组装成数百GB⼤⼩的contig,显然这已经超多了⼈类基因组本⾝的⼤⼩。
雅思词汇圣经
Lander-Waterman预测不准确的⼀个原因是其忽略了基因组中的重复序列。重复序列的⼤⼩分布是按照指数形式递减的,也就是绝⼤多数重复序列都是很短的,所以哪怕是测序读长稍微增加⼀些,就能解决掉很⼤⼀部分重新序列的组装问题。
完整性:如果⼀个基因组的测序深度>50X,理论上每⼀个碱基都会被测到。但实际上,基因组仍然会有很多确实区域,⽐如即便是最新的⼈类参考基因组,其中仍然会有超过百万的“N”。读长的提升能够有效提⾼基因组组装的完整性。
准确性:基因组组装的准确性可以在核酸⽔平或者结构变异⽔平进⾏描述。Illumina的三代测序技术的准确性⾮常⾼,每个碱基准确性
>99.9%,PacBio和Nanopore的准确性在⾜够测序深度的情况下,经过算法校正之后也能够达到99.9%。对于PacBio测序⽽⾔,其准确性主要是受到随机的插⼊缺失突变的影响。⽽Nanopore的准确性会受到⼀些⾮随机因素的影响,⽐如共聚物序列,因⽽其准确性要落后于PacBio。在基因组结构⽔平上的准确性主要受重复序列的影响。重复序列可能会被认为是同⼀个序列区域。长读长测序能够减少这种错误,3.6kbp的读长与150kbp的读长相⽐,组装错误多了10倍。
总结
三代测序技术极⼤的提升了基因组的质量。虽然说20X的测序能够对⼀个基因组的组装已经⾜够了,但是还是建议>75X,这样有⾜够的测序深度能够对三代测序中的错误进⾏有效的校正。如果预算和样本允许,建议只对校正后深度>20X,长度>20kbp的测序⽚段进⾏组装。同时,测序技术发展⼗分迅速,在未来我们可以有更⾼质量的基因组,更低的花费。
==== THE END ===
参考资料:
Lee, H., Gurtowski, J., Yoo, S., Nattestad, M., Marcus, S., Goodwin, S., ... & Schatz, M. (2016). Third-generation quencing and the future of genomics. BioRxiv, 048603.
Bellec, A., Courtial, A., Cauet, S., Rodde, N., & Vautrin, S. (2016). Long Read Sequencing Technology to Solve Complex Genomic Regions Asmbly in Plants. Next Generat Sequenc & Applic, 3(128), 10-4172.