2020人口普查目录
Next-generation transcriptome asmbly 应用第二代测序技术的转录组组装 2
第一部分:总体介绍挑战与机遇 2
婴儿睡衣
第二部分:实验提取与数据分析 2
组装前: 2
组装策略: 3
选择策略 4
选择组装软件 4
评价组装的质量 5
总结和未来的展望 5
梅花香自苦寒来作文
全文完 5
Next-generation transcriptome asmbly 应用第二代测序技术的转录组组装
第一部分:总体介绍挑战与机遇
1. 洋娃娃的梦现有的转录组组装技术主要有三大方向:基于参考序列的组装,从头组装,两者结合的组装方法
2. 第二代测序与Sanger测序在转录组中的优势:高灵敏度,高精度,高深度,检测范围广甚至包括起调节作用的稀有转录本,
3. 第二代测序与其他高通量技术如基因芯片技术相比在转录本中的优势:能达到单碱基水平的分辨率,能反应表达水平的动态变化,能进行从头基因注释
4. 第二代测序在组装中的挑战:测序片段(reads)短,质量值偏低,数据量大,要求大内存或者多核计算机。现在已经有一些软件能解决这些问题如:Velvet,ABYSS,ALLPATH等
5. 转录本组装与基因组组装的差别:1.测序深度问题:各个转录本的深度不一致 2.链特异性,组装软件需要考虑正义链和反义链之间的overlap 3.转录本变异:例如可变剪切
第二部分:实验提取与数据分析
组装前:
1. 文库构建:A. 为了多的构建转录本,核糖体RNA (rRNA) 和丰度过高的转录本应该被移除,但是如果实验要研究转录本的丰度数值的话,应该构建不经过移除处理的文库。 B. 是否取消文库构建的PCR过程,因为PCR导致高GC含量的转录本测序深度偏低。需要研发免扩增的技术(Amplification-free protocols),最新的单分子测序技术则不需要PCR扩增,尤其是Helicos甚至不需要构建cDNA文库,但是这种测序技术会大幅增加错误率。应用免扩增的技术使得转录本的测序深度更平均,更连续,有利于组装。C. 利用链特异性的RNA测序技术则可以利用互补链的转录本信息来辅助组装。这在基因密度较大的基因组如细菌,古细菌和低等真核生物中尤为重要。此外在检测高等生物的antin transcription中也有应用。bioinformatics.dxy/bbs/topic/20719610
en.wikipedia/wiki/Antin_RNA
需要看参考文献27:什么是链特异的RNA测序
2. 测序:A. 测序平台的选择:454 SOLiD Solexa B. 测序片段长度:越长越好 C. 是否采
古诗鸟白居易
用双向测序的策略:双向测序可以将测通的短测序片段连接成较长的片段,此外不同插入片段的reads还有助于识别可变剪切等。
3. 数据预处理:A. 移除人工引入的序列:测序接头 low-complexity reads 和一致的reads (通常由PCR扩增造成)。B. 通过测序质量以及kmer频率移除测序错误,kmer纠错的缺点是丰富较低的转录本将会被移除。
组装策略:
1. 基于参考序列的组装:A. 首先将测序reads利用特定比对软件比对到基因组上。 B. 利用overlap关系构建graph C. 转换graph中的信息为转录本。软件有Cufflinks, Scripture等。 关键步骤是reads比对和构图解码,reads比对分为两个策略:种子延伸和Burrows–Wheeler转换法。两种算法在处理跨越内含子的reads处理上相对不同。构图现在主流的也有两种算法:Cufflinks和Scripture。通常Cufflinks在重构转录本上更加保守而Scripture则在同一个位置上能得到更多的转录本。
基于参考序列的组装的优点:1.将整体的数据组装转换为各个位点的局部组装,内存需求
小。2.污染及人工引入的序列影响小,因为这些reads不能被比对回参考序列。3.灵敏度高,能检测低丰度的转录本4.组装的转录本序列更完整,gap可以使用参考序列来填补,类似的可以获得更长的UTR序列。4.可以发现参考序列中未注释的新的转录本。
基于参考序列的组装的应用:在组装细菌,古细菌,低等真核生物的转录本中更加容易,是因为这些物种的基因含有较少的内含子以及较少的可变剪切。转录本的边界可通过基因组中reads的连续覆盖度来判断,转录本的起始终止点可通过5端帽子或者polyA来判断。但是在基因密度较大的基因组中,这种策略无法区分来自两条链的转录出来的具有overlap的转录本,所以会把他们融合组装成一个转录本,即使他们不是一个基因的多个顺反字。链特异性的RNA测序也只能区分来自不同链的转录本而不能区分同一个链上具有overlap的基因的转录本。植物和哺乳动物的基因结构较复杂,很难进行组装。Cufflinks and Scripture主要是针对哺乳动物设计的重构转录本的软件。在多倍体植物中,转录本的组装依然是个难题。
基于参考序列的组装的缺点:1.依赖于参考序列,如果参考序列本身不可靠,那么转录本组装结果可信度很低。2.比对软件会导致错误的比对。3.不容易组装trans-spliced genes,而这些基因对研究一些癌症一份关键。
其他:基于参考序列的组装当然不能没有参考基因组,然而在缺少本物种的参考基因组的情况下可以使用相近物种的基因组序列(草莓基因组文章)。
总结:在高质量参考序列的存在下,该方法具有较高的灵敏度和精度,即使在测序深度10x左右依然能得到全长的转录本。同时利用更长的reads也有利于转录本的组装。结合基因预测,基于参考序列的组装将成为转录注释的一个强有力工具。
2. 从头组装:不利用基因组,直接利用测序的reads之间的overlap进行组装。组装的算法为构建De Bruijn graph,然后从graph中连接reads构建转录本。现在流行的组装策略有A. 首先对数据集进行多次组装,最后合并多次组装得到的结代表软件有Rnnotator, Multiplek and Trans-ABySS开封特色等。B. 直接从graph中计算得到转录本。
从头组装的优点:与基于参考序列的组装策略相比,具有以下优点1.不依赖于参考序列 2.不依赖于比对软件 3.从头组装能较好的重建可变剪切或者来自染色体重组的转录本。
从头组装的应用:对细菌,古细菌,低等真核生物的转录本组装十分轻松。利用测序深度大于30层、测序长度为35bp的reads成功组装出了酵母的转录本,其中大部分组装出来是
全长转录本。在不构建互补反转的kmer的情况下,可以区分来自不同链的具有overlap的基因转录本。然而对于来自同一个链上的具有overlap的基因则依然无法区分,或许可以利用测序深度的不同、明显的转录起始终止位点、编码阅读框来进行区分。由于在高等真核生物中,数据量较大而且存在较多的可变剪切变异,所以利用从头组装策略将对时间和内存有较大的需求,当然可以通过并行多节点运算来解决。利用从头组装来解决可变剪切的具体策略现在又以下两个:1.利用双向测序的reads,代表软件:Oas 2.逐步组装策略,首先使用贪婪算法进行初步组装,再构建De Bruijn graph进行第二级组装,这样会大大提高运算速度。
从头组装的缺点:1.需要较大内存资源。2.需要较高深度的测序。3.对测序错误敏感。4.高相似度的转录本可能会被合并
3. 1和2结合的组装方法:结合基于参考序列的组装的高敏感度和从头组装查找新基因、可变剪切的能力。是先比对到基因组上再进行从头组装还是先先进行从头组装,到现在没有一个系统的评价,在不同的条件下需要选择不同的策略。
先比对再组装:比对完成之后,进野钓鲫鱼技巧行基于参考序列的组装,将组装的得到的初步结果和rea
ds混在一起作为从头组装的输入文件(要求从头组装既支持短reads也支持长reads,代表:Trans-ABySS and Oas)。在参考基因组比较完整的情况下,含有错误的reads或者污染的reads将无法比对回基因组,这使得第二部中的从头组装占用更少的内存,更加准确。当reads中含有较多污染时,应当首选该策略。
先组装再比对:当参考序列质量较差或者是近缘物种的基因组时,应该先进行从头组装,在把从头组装得到的序列比对回参考序列进行延伸,构建scaffold。这中策略的优点是参考序列的错误影响不大。最近的一项鲶鱼转录本的研究中,在从头组装完成之后比对回棘鱼的基因组作进一步的组装,获得了更长的转录本(N50增加了27%),蚊子转录本也是用这种方法构建的。
其他电脑乱码怎么解决:现在还没有能实现结合方法组装的软件,也没有系统的研究这种方法可能带来的错误。
选择策略:选择策略依赖于数个因素如:是否存在参考序列,测序能力,计算能力,数据类型,项目的目标等等。转录本的数据能提供大量的信息,有时候一小部分数据的研究也能带来成果,如最近水稻的研究中发现了新649个基因可能与耐盐性有关。还有的研究只
关注数据的一部分,如老年痴呆症研究中假设发病机理与可变剪切的起始位点及剪切模式相关。随着越来越多的基因组被测序,基于参考序列的组装策略应用将越来越广泛,当然没有参考序列的只能使用从头组装方法。
选择组装软件:不同的测序平台有相应的不同数据类型,错误模型,因此也有不同的相应的组装算法、组装软件
评价组装的质量:对于基因组的组装结果评价已经有较多的研究,但是转录组质量的评价现在还没有一个统一的标准。现在主要的评价指标有:准确性,完整性,连续性,嵌合现象,对变异的处理。
总结和未来的展望:两种不同的组装方法的发展使得转录组组装能应用于几乎任何基因组,甚至在宏转录组中。HPC(高性能计算)的发展大大的减少了组装大量数据的运算时间,最近也有研究在开发基于云计算的组装软件。同时,实验方面如RNA提取和测序技术的发展也大大的改善了组装的结果。第三代测序技术如PacBio的应用,使得reads的长度大幅提高,加入这种技术的通量能达到现在第二代测序技术的能力,那么相信在不久的将来,转录组的研究可能不在需要组装,而直接应用测序数据。
全文完