微生物学报Acta Microbiologica Sinica 51(4):445-457;4April 2011ISSN 0001-6209;CN 11-1995/Q http ://journals.im.ac /actamicrocn
基金项目:国家科技部973项目(2009CB522600);传染病重大专项(2008ZX10004-009)*
通信作者。Tel :+86-
10-66948595;Fax :+86-10-63815689;E-mail : 作者简介:秦楠(1980-),男,山东潍坊人,微生物学博士,研究方向为微生物基因组学,细胞信号转导和转录调控。E-mail :
收稿日期:2010-09-15;修回日期:2010-10-22
高通量测序技术及其在微生物学研究中的应用
秦楠1,栗东芳1,杨瑞馥
2*
1深圳华大基因研究院,深圳518083
2
病原微生物生物安全国家重点实验室,军事医学科学院微生物流行病研究所,北京
安全作业教育平台100071
摘要:20世纪70年代发明的核酸测序技术为基因组学及其相关学科的发展做出了巨大贡献,本世纪初发展的以Illumina 公司的HiSeq 2000,
ABI 公司的SOLiD ,和Roche 公司的454技术为代表的高通量测序技术又为基因组学的发展注入了新活力。本文在阐述这些技术的基础上,着重讨论了新一代测序技术在微生物领域中的应用。
关键词:新一代测序技术,高通量,微生物学,应用,基因组学中图分类号:
文献标识码:A
文章编号:0001-6209(2011)04-0445-1320世纪70年代,由Frederick Sanger 发明的双脱氧链终止法核酸测序技术,为科学发展做出了重要贡献,成就了人类基因组的完成。Sanger 测序法也被称为第一代测序技术
[1]
,它的原理是以DNA 单
链为模板,
进行PCR 扩增,扩增体系中加入的碱基为dNTP 和荧光ddNTP ,对得到的不同长度产物进行电泳分离和激光诱导荧光颜色区分,经过信息转换,获得长达800bp 的DNA 链碱基组成序列。该方法已经在PCR 产物、载体克隆测序等方面得到广泛应用,
但其成本高和测序通量低的缺陷,限制了该方法在大规模测序中的应用。
新一代测序技术(next-generation quencing technology ,或被称为第二代测序技术)以Illumina 公司的Solexa ,ABI 公司的SOLiD ,和Roche 公司的454技术为代表
[2-4]
。这些测序平台以数据产出通量高为最大特点,以Solexa 技术为例,采用了该技术的HiSeq 2000测序仪,一台机器在两周内就可以产出
超过300G 的数据,
相当于把人类基因组重复测100遍以上。这完全改变了过去的研究模式,给人类和动植物基因组学、转录组学、宏基因组学研究等方面带来全新的变化,
并逐步深入到微生物学研究领域中。本综述旨在介绍代表性的高通量测序技术,同时着重阐述该技术在微生物学研究中的应用。
1
高通量测序技术简介
1.1
Illumina Genome Analyzer 和HiSeq 2000IIllumina 公司的新一代测序仪(包括Genome
Analyzer 及其升级版HiSeq 2000)利用基于单分子簇的边合成边测序技术(Sequencing by Synthesis ,SBS )和专有的可逆终止化学反应,可以在短时间内获得大量数据
[2]
。该测序技术将基因组DNA 的随
彷徨之刃电影
机片段附着到光学透明的玻璃表面,这些DNA 片段经过延伸和桥式扩增,形成了具有数以亿计Clusters
8月29Nan Qin et al./Acta Microbiologica Sinica(2011)51(4)
的Flow cell,每个Cluster就是具有数千份相同模板的单分子簇;然后对这些模板使用可逆终止并可移除的四色荧光染料,进行边合成边测序。这种新方法确保了高精确度和真实的单碱基连续测序,为同聚物和重复序列的测序难题提供了很好的解决方案。
测序特点:①通量高。目前一台机器在两周内最高可产出360G的数据;②准确率高。≥98.5%,同时也有效地解决了多聚重复序列的读取问题;③成本低。低于传统Sanger测序技术成本的1%;④DNA序列的读取长度不断增加,当前单条序列读长可达到150bp;⑤可以进行Pair-end(PE)双向测序,PE文库插入片段大小范围可由150bp到10kb。正确选择插入片段长度有利于高重复序列含量基因组的组装,这进一步扩展了该技术的应用范围。
1.2Roche GS FLX Titanium System
2005年底,454公司推出了革命性的基于焦磷酸测序法的超高通量基因组测序系统———Genome Sequencer20System,被《Nature》杂志以里程碑事件报道,开创了新一代测序技术的先河[3]。
最新的Roche GS FLX测序仪使用了一种叫做“Pico TiterPlate”(PTP)的平板,含有160多万个由光纤组成的孔,每个孔中载有一个乳化扩增(Emulsion PCR)过的DNA单拷贝磁珠,还有化学发光反应所需的各种酶和底物。测序时4种碱基依照T、A、C、G的顺序循环进入PTP板。如果发生碱基配对,就会释放一个焦磷酸,经过合成和化学发光反应,光信号被高灵敏度CCD捕获到,就可以准确、快速地确定待测模板的碱基序列。
测序特点:①速度快。一个测序反应耗时10h,获得4-6亿个碱基对。比传统的Sanger测序的方法快100倍;②读长长。单条序列的读长平均可达到450bp;③通量高。每个反应可以得到超过100万个序列读长;④准确度高。读长超过400bp时,单一读长的准确性可以超过99%;⑤可以进行Pair-End测序研究。
1.3AB SOLiD system
AB SOLiD quencer是由ABI公司研发的新一代高通量基因测序分析系统[4],该技术以用四色荧光标记寡核苷酸进行连续的连接反应为基础,能够对单拷贝扩增的DNA片段进行大规模高通量并行测序,根据双碱基编码原理进行数据比对。建库过程使用微反应板和乳液PCR/微珠富集。多轮测序反应和每轮多次连接反应,保证了每个碱基判读2遍,增加了序列读取准确性,使原始碱基数据准确度大于99.94%,而在15ˑ覆盖率时准确度可达99.999%。测序特点:①可制备Mate-paired文库测序,插入
片段范围600bp-10kb;②通量高,每台SOLiD TM4System测序仪在15天内能够获得100G 的数据量;③采用Primer ret方式,保证了较低的噪音,失败的Round可以重做;④测序时采用连接反应,稳定性高,准确性高,有效地解决了多聚核苷酸序列困难读取的问题;⑤每个DNA碱基检测2次,这增加了序列读取的准确性;2-ba encoding可以用来鉴别SNP。
1.4单分子测序技术
基因组学的研究随着Illumina,454,SOLiD等第2代测序平台的建立有了重大的突破,随着2008年Helicos Biosciences的第一台单分子DNA测序仪的研发成功,以及同样被称为第3代单分子测序技术的PacBio SMRT,Nanopore and modified forms和ZS Genetics TEM的相继研发,基因组学将迎来进一步的改革[5-7]。
Helicos单分子测序仪利用合成测序理论,将样本DNA数以百万碱基的单链分子绑定在该仪器特有的没有背景荧光的玻璃表面,通过加入荧光标记的核苷酸(一次加入4种核苷的一种)和聚合酶到单分子阵列中,核苷酸会结合到它的特异性接收位点上。激光激发结合上的核苷的标记,使标记物释放出荧光,相机以15毫秒速度快速扫描整个阵列,检测特异性结合到片段上的碱基。在此之后,结合的核苷酸对会被移除,同时通过重复加入标记核苷酸进行循环反应。
单分子测序技术具有操作简单和周期短等特点,目前第2代测序技术,一个细菌基因组测序完成的时
间也要在15天左右,而单分子测序技术省略了PCR的过程,可以在几小时内测序完成并得到有效数据,同时避免了PCR带来的误差。而针对微生物转录组等方面的研究,单分子测序技术中的RNA直接测序技术还可以直接读取细胞中的RNA pool,即转录组,避免了合成互补DNA,缩短了研发周期的同时也大大提高了准确率[7]。目前,已经有研究利用Helicos单分子测序仪对病毒M13进行了重测序[8]。测序过程中采用了所谓的two-pass
644
秦楠等:高通量测序技术及其在微生物学研究中的应用./微生物学报(2011)51(4)
quencing的技术,即对每个碱基进行2次读取,取2次一样的数据为可用数据,大大降低了错误率,并且通过对DNA模板中的每个分子单独的进行检测,避免了测序过程中片段的不同步合成导致的错误。
随着第2代测序技术的不断升级,以及第3代测序技术的研发和逐步走向市场,相信不久的将来测序成本还会快速下降,机器体积更小,通量更高的大规模测序仪器将会越来越大众化。
2在微生物学研究中的应用
2.1细菌分类学
自从2400年前亚里士多德提出物种的概念后,人们一直在追求着用自然分类的手段对物种进行分类。技术的进步以及分类概念的创新始终贯穿于原核生物分类体系的构建过程中[9]。20世纪60年代发展的DNA杂交和GC含量测定,使得细菌种的概念有了一个DNA同源性70%以上这个明确的指标,随着化学分类学和16S rDNA测序技术的发展,生物的分类概念从过去的五界和六界系统过渡到了Woe的三域理论[10-11]。随着核酸测序技术和化学分类技术的不断发展,人们又提出了数值分类和多相分类学的概念,旨在更全面地描述物种的分类[12]。但是,这些技术或多或少都存在不足,我们就像瞎子摸象一样,对物种的描述总是局部的,难以真正实现按照自然分类的理念对物种进行分类[9]。随着基因组测序技术的进步,人们尝试着用这些信息(如核酸序列,翻译后的蛋白质序列)进行自然分类,而且与常用的16S rDNA测序为基础的分类一致性很好[13-15]。Konstantinidis等利用基因组中的平均氨基酸标识(Average amino acid identity,AAI)分析了175株已经测定全基因组序列细菌的关系,结果表明,相近分类单元分类在一起,在遗传和基因方面具有明显亲缘关系[16];该研究小组还用平均核苷酸标识(Average nucleotide identity,ANI)分析了70株已经测定全基因组序列细菌的关系,结果显示,ANI在94%左右时,相当于传统意义上的70% DNA同源性的种的界限[17];Richter等综合利用ANI和四联核苷酸标识(tetranucleotide signatures),结果表明,ANI可以取代DNA杂交来定义种,进一步细化为以ANI95-96%为种定义的标准,同时,作者还编制了一个软件JSpecies,综合利用四联核苷酸标识,该参数与ANI直接相关,且可以帮助我们清晰的定义一个种[18]。作者还建议,从分类角度而言,只随机测定一个物种20%的基因序列就可以进行上述的比较和物种分类[18]。
高通量测序技术的发展,使我们能在短时间内测定大量物种的核酸序列,对某个菌种,我们可以测定上百株细菌的基因组序列,这就为我们进行基于全基因组信息的分类标准建立奠定了良好基础。为此,美国微生物学会建议首先将所有已分离的模式株进行测序,并建议如果用454技术测序的话,只需测定20x 覆盖度即可[19]。Wu等人综合分析了现有的1000多株细菌的全基因组序列,并测定了原核生物系统发育树关键分支上的56株菌,充分证明了全基因组序列在细菌分类和相关功能分析中的重要作用[20]。
2.2比较基因组学和演化基因组学
微生物基因组的演化主要包括以下5种机制:单碱基突变、基因组内重排、基因水平转移(基因获得)、基因缺失和重复序列拷贝数变异。通过这些突变机制,微生物获得了新特性,得以在与环境和宿主的相互斗争中生存下去[21]。
过去的研究中,一系列分子生物学方法被设计用来获取各类基因组多态性数据,并进一步用于推测微生物的种群结构。已经得到广泛应用的方法包括:16S rRNA分型技术、多位点序列分型(Multilocus quence typing,MLST)、多位点串联重复序列分析(Multiple loci VNTR analysis,MLVA)同义单核苷酸多态性(Synonymous single nucleotide polymorphism,sSNP)分型技术、差异区段(Different region,DFR)分型以及基于规律成簇的间隔短回文重复(Clustered repeats interspaced
short palindromic repeats,CRISPR,在结核分枝杆菌中又被称为Spoligotyping)的分型技术等[22-27]。一些国际数据库被建立起来,存储和管理这些方法所产生的海量生物学数据,方便了国际不同实验室之间的标准化数据比对与交流[28-29]。
尽管这些技术方法在微生物分型和演化历史重建方面发挥了重要作用,但其内在的缺陷是方法本身所不可避免的(图1)。如16S rRNA、MLST和CRISPR技术,由于分辨率低,在分析亲缘关系近、变异小的物种时,就会出现图1-B所示的问题,将多个邻近基因型的样本混为一体。通过比对已有的少数基因组序列,找到差异位点,然后针对这些位点对其
744
Nan Qin et al./Acta Microbiologica Sinica(2011)51(4)
他大量菌株进行扫描的方法,如MLVA,DFR等。由于考察的差异位点不全,将产生系统发育挖掘偏倚(Phylogenetic discovery bias),见图1-C和D[30]。sSNP变异不导致编码蛋白的变化,因此不受自然选择压力影响,其多态性能客观的反映细菌进化情况,并且在增加所考察的sSNP位点数目时,可以得到比较理想的分辨率。但该方法也无法避免系统挖掘偏倚的影响。为了提高分辨率,有些方法选取了变异速率较高的靶标位点,如检测串联重复序列拷贝数变异的MLVA方法等。变异速率快会带来高回复和趋同突变的可能性,在构建系统发育树时,将导致拓扑结构不稳定甚至错误(图1-E)
运动协调能力[31]
。不要再来伤害我歌词
图1传统分子生物学方法在重建系统发育结构时可能发生的问题
Fig.1The potential flaws in phylogenetic tree reconstruction bad on traditional molecular
methods.The numbers in all panels denote the different samples. A.Real phylogeny; B.The
phylogenetic tree bad on methods with low resolution;C.Phylogenetic discovery bias(sample1
and6were lected as reference strains);D.Lacking diversity between lected reference strains
will lead to more rious phylogenetic discovery bias(sample1and2were lected as reference
strains). E.High rever or conversion mutation rate of lected targeting loci can result in wrong
phlogenetic relationship.Panel C and D were cited from reference28with modification.
采用Sanger测序技术来获取全基因组序列并
进行比较基因组学分析,可以弥补上述方法的不足。
如通过对一种嗜甲烷菌的序列测定和分析,明确了
该菌的系统发育地位和甲烷代谢相关代谢通路的变
异、进化情况,丰富了对嗜甲烷菌多样性的认识[32]。
我国对采油微生物嗜热脱氮芽孢杆菌(Geobacillus
thermodenitrificans)的全基因组破译,首次发现了重
要的烷烃降解代谢路径,为清除石油污染带来新的
思路,对于微生物采油技术的革新具有重要意
义[33]。固氮斯氏假单胞菌(Pudomonas stutzeri)的
全序列解读,发现其固氮相关基因集中在一个基因
组岛上,该岛可能通过基因水平转移获得;对固氮代
谢网络的分析为根系相关固氮菌在可持续发展农业
中的应用提供了广阔前景[34]。为了解析鼠疫菌在
全球的传播演化,我们在世界各地选取11株代表性
菌株进行测序,与已发表的6株鼠疫完成图序列一
起进行比对,找到933个SNP,并基于此对更大范围
的286株全球分离株进行了系统发育地理学和进化
分析,全面揭示了鼠疫这种重要致病菌的传播历史
和进化规律[35]。
虽然Sanger测序法在微生物比较基因组学研
究中发挥了重要作用,但其成本高、速度慢、数据产
出量低的特点,阻碍了它的进一步广泛应用。与之
相反,新一代高通量技术所需要的测序时间大大缩
短,同时成本也越来越低,使得对所有目标样本进行
全基因组测序和差异比较分析成为可能。该技术方
法跨越了传统分子生物学研究方法所不能逾越的鸿
沟,为比较基因组学、流行病学和微生物演化研究掀却组词语
开了崭新一页。
第一,对全部目标样本全基因组序列之间进行
比对,可以提供极高分辨率和准确的系统发育结构,
word虚线并避免了系统发育挖掘偏倚问题。2010年1月
《Science》的一篇报道选取了63株抗药性金黄色葡
萄球菌(methicillin-resistant Staphylococcus aureus,844
秦楠等:高通量测序技术及其在微生物学研究中的应用./微生物学报(2011)51(4)
MRSA),其中包括20株7个月内,在同一医院的不同病房中分离到的菌株。尽管这些菌株间差异极小,使用全基因组测序和比对还是能够将其一一分开。通过构建菌株间的系统发育关系,可以追踪到院内传染的详细过程。该研究为阻断MRSA的院内感染提供了宝贵信息[36]。另一项研究对95株A
填制记账凭证族链球菌(Group A Streptococcus,GAS)进行了高通量测序和比对分析,揭示了GAS的每次流行都是由不同于以前流行的菌株所导致的,而不是同一菌株的死灰复燃;并建立起菌株基因型和病人表型之间的关系[37]。
第二,通过大样本的全基因组测序和比对,可以全面的发现自然压力选择下,变异规律特殊的基因位点,这些位点往往联系着重要的表型。在伤寒沙门氏菌(Salmonella Typhi)的研究中,26个基因被鉴定出受选择压力,其中半数编码表面暴露、输出或分泌相关蛋白,这可能跟病原菌改变抗原表型,逃避人体免疫系统压力有关[38]。MRSA研究中发现的38个趋同进化突变位点里,有10个跟已知的抗药性机制相关[36]。通过SNP在基因组上的非随机分布,研究者在GAS中鉴定出22个受正向选择的基因,其中包含多个已知的毒力因子,如ropB,emm3,covR 和covS等[37]。在29株艰难梭菌(Clostridium difficile)的测序研究中,使用dN/dS分析鉴定出的12个受正向选择的编码序列,这些序列编码应激调控蛋白和表面蛋白,提示了宿主免疫系统为该物种进化提供了选择压力[39]。以上这些研究中均发现了一系列潜在的受选择基因,这对于各物种进一步的功能研究具有重要意义。
第三,对尽量多样化的微生物基因组进行测序,可以更准确的建立整个微生物界的种群结构,确立各个物种在演化中的地位,并能够充分挖掘微生物资源,为人类服务。目前,已经有超过1200种细菌的基因组被完整测序[40]。这些测序对象的选择都是针对研究者的不同目的,如广受关注的致病菌等。结果导致对微生物基因组多样性的认知上产生严重偏倚[41]。德国GCMCC研究所(German C
ollection of Microorganisms and Cell Cultures)和美国JGI研究所(Joint Genome Institute)共同发起了古细菌和真细菌基因组百科全书计划(Genomic Encyclopedia of Bacteria and Archaea,GEBA)。在第一步56株菌的测序和分析中,发现了1768个全新的蛋白家族,对46个以前认为非同源的蛋白家族间建立了联系。另外也大大丰富了对非编码区域的认识,如在嗜盐粘细菌(Haliangium ochraceum)的807个CRISPR位点中,发现了目前已知最大的CRISPR元件,包含382个spacers。在接下来的几年中,他们将对更多的可培养微生物进行测序,建立完整、平衡的微生物生命之树[20]。
2.3转录组学
转录组学(transcriptomics),是一门在RNA水平上研究细胞中基因转录的整体情况及转录调控规律的学科。研究转录组最为广泛的方法是利用微阵列(microarray)技术检测有机体基因组中基因的表达。近年在微阵列技术基础上改进的瓦片阵列(tiling array)技术,使用了覆盖全基因组、相互交叠的探针,能够更精细的揭示RNA世界的状态和变化情况。该技术已经被成功应用到多种细菌的研究中[42-45]。但除了存在背景干扰,饱和度,探针密度和质量等影响实验准确度的因素外,微阵列技术的最大缺点是无法进行de novo转录组研究[46]。芯片探针设计要倚赖于已有的参考基因组序列,不能发现每株菌特有的转录序列以及这些序列的表达水平变化。而使用RNA-q方法,对全基因组cDNA进行高通量测序,可以从根本上解决这个问题。
RNA-q在细菌中的研究和应用相对滞后于真核生物,这是因为细菌总RNA准备液中含量达80%以上的rRNA和tRNA[47],直接进行反转录和测序会使结果产生很大的偏倚。与真核mRNA不同,大部分细菌mRNA没有poly-A尾,因此不能够通过杂交固定poly-T的方法直接对mRNA进行富集[48]。因此在对细菌进行RNA-q之前,必须选择适当的技术方法,尽量去除掉rRNA等干扰,从而间接的使mRNA富集起来。目前已应用于实际研究的方法包括:①使用包被了16S和23S rRNA的保守区域寡核苷酸探针的磁珠进行rRNA捕获;②使用专性消化rRNAs的新型核酸外切酶对RNA进行降解;③选择性反转录rRNA,利用核糖核苷酸酶及脱氧核糖核苷酸酶I消化去除反转录出的cDNA;④利用抗体捕获技术,去除与特定蛋白结合的rRNAs[49]。
通过上述富集方法,可以获得足够的mRNA进行反转录和高通量测序,从而揭开了RNA-q在细菌中应用的序幕:2009年,Yoder-Himes等使用Illumina测序方法,在Burkholderia cenocepacia中发
944