细菌基因组学
细菌基因组结构特点
(1)细菌的染色体基因组通常仅由一条环状双链DNA分子组成细菌的染色体相对聚集在一起,形成一个较为致密的区域,称为类核(nucleoid)。类核无核膜与胞浆分开,类核的中央部分由RNA和支架蛋白组成,外围是双链闭环的DNA超螺旋。染色体DNA通常与细胞膜相连,连接点的数量随细菌生长状况和不同的生活周期而异。在DNA链上与DNA国际象棋教学复制、转录有关的信号区域与细胞膜优先结合,如大肠杆菌染色体DNA的复制起点(OriC)、复制终点(TerC)等。细胞膜在这里的作用可能是对染色体起固定作用,另外,在细胞分裂时将复制后的染色体均匀地分配到两个子代细菌中去。有关类核结构的详细情况目前尚不清楚。
(2)具有操纵子结构(有关操纵子结构详见基因表达的调控一章)其中的结构基因为多顺反子,即数个功能相关的结构基因串联在一起,受同一个调节区的调节。数个操纵子还可以由一个共同的调节基因(regulatorygene)即调节子(regulon)所调控。
(3)在大多数情况下,结构基因在细菌染色体基因组中都是单拷贝但是编码rRNA的基因rr
n往往是多拷贝的,这样可能有利于核糖体的快速组装,便于在急需蛋白质合成时细胞可以在短时间内有大量核糖体生成。
(4)和病毒的基因组相似,不编码的DNA部份所占比例比真核细胞基因组少得多。
(5)具有编码同工酶的同基因(isogene)例如,在大肠杆菌基因组中有两个编码分支酸(chorismicacid)变位酶的基因,两个编码乙酰乳酸(acetolactate)合成酶的基因。
(6)和病毒基因组不同的是,在细菌基因组中编码顺序一般不会重叠,即不会出现基因重叠现象。
(7)在DNA分子中具有各种功能的识别区域如复制起始区OriC,复制终止区TerC,转录启动区和终止区等。这些区域往往具有特殊的顺序,并且含有反向重复顺序。
(8)在基因或操纵子的终末往往具有特殊的终止顺序,它可使转录终止和RNA聚合酶从DNA链上脱落。例如大肠杆菌色氨酸操纵子后尾含有40bp的GC丰富区,其后紧跟AT丰富区,这就是转录终止子的结构。终止子有强、弱之分,强终止子含有反向重复顺序,可形成茎环结构,其后面为polyT结构,这样的终止子无需终止蛋白参与即可以使转录终止。而
弱终止子尽管也有反向重复序列,但无polyT结构,需要有终止蛋白参与才能使转录终止。
细菌基因组学研究策略
细菌基因组的研究策略主要分为DNA 的提取及测序、基因组组装、基因组完成(Genome finishing)、基因预测、基因注释和基因组比较分析六大部分。
DNA 的提取及测序
首先是DNA 的提取及测序。DNA 提取时要保证DNA 纯度, 同时要避免DNA 污染。目前,主要用基因组测序有两种方法:1,基于第二代测序平台的策略-罗氏454+illuminaws851测序+ABI3730:二代测序读长(reads)有限,最长的是罗氏454,现在据说能有400bp吧,illumina测序和其他测序就只能有150bp,现在测序又是将基因组打断后测序,但仍然可能测得的读长可能不够长,导致一部分信息丢失,于是产生gap,这个只要根据其上下游已测得的序列信息进行引物设计,再用一代测序补gap即可消除,因此得到细菌基因组完成图;2,基于第三代测序平台的策略:PacBio RS II平台+ illumina测序:该方法采用的数据是Illumina生成的短读序片段、Pacific Biosciences生成的长读序,即可得到0 Gap 细菌基因组完成图。
细菌基因组学是研究细菌全基因组DNA 序列及其结构与功能的学科。1995 年, 科学家获得了流感嗜血杆菌(Haemophilus influenzae Rd)的全基因组序列, 这是第一个完整的基因组序列, 也是第一个完成的细菌基因组序列。紧接着古细菌詹氏甲烷球菌(Methanococcus jannaschii)基因组、大肠杆菌(Escherichia coli K-12)基因组等也相继完成。细菌基因组研究不仅有利于研究细菌的基本生命过程,同时也对高等真核生物的基因组学及后基因组学研究提供了参考和平台。到目前为止, NCBI 上记录了1 534 个细菌基因组, 包括了103 个古细菌和1 431清炒佛手瓜个真细菌(2011-4-24), 其中中国科学家完成了44个细菌基因组的测序工作。
基因组组装
常用的软件有Newbler、AMOScmp、Phred/Phrap/Cond和Velvet等, 可以根据自己的数据选择合适的组装软件, 也可以结合多种方法获得较好的组装结果。
基因组完成(Genome finishing)爱无处不在
基因组完成(Genome finishing)即确定组装获得的Contigs 之间的连接顺序并修补Gaps李白一生。可以按照以下几个步骤进行: 首先, 佛经歌计算Contigs 和基因组的平均Reads 覆盖度, 通过Contigs
与基因组平均Reads覆盖度的比较, 获得Unique contigs 和Repeat contigs以及Repeat contigs 的重复次数。
基因预测
常用的蛋白质编码基因预测软件有Glimmer、GeneMarkS和Prodigal,通常可以任选其中一款软件进行预测, 也可以结合多个软件以获得较好的预测结果。此外, ZCURVE是基于DNA 序列Z curve 理论的蛋白质编码基因识别软件, 具有较高的基因起始位点预测准确性;GS-Finder 是不依赖于rRNA 序列的细菌基因组翻译起始位点识别软件, 能大大提高翻译起始位点预测的准确性; OperonDB 是比较常用的操纵子预测软件, 可以用来预测共同转录的基因簇。
基因注释
这一步通常要整合多个数据库, 如NCBI 的nr 客愁库、InterPro、COG和KEGG等, 通过序列比对进行预测基因的注释。此外, 还可以利用一些特定功能的软件或者数据库进行相应的分析, 如用SignalP预测信号肽、TMHMM预测跨膜结构、ISfinder预测插入序列、VFDB 预测
毒力因子、Islander 数据库查询基因组岛、MobilomeFINDER和IslandViewer[鉴定基因组岛、PAIDB 预测潜在的致病岛、Repeat-match 预测基因组重复序列、Tandem repeat Finder寻找串联重复序列、CRISPR finder预测CRISPR 序列、Phage-finder寻找噬菌体序列、TCDB注释膜转运蛋白、Ori-Finder寻找复制起始位点、ARDB鉴定和注释抗菌素抗性基因、ACLAME注释可变遗传因子(Mobile genetic elementlements)和TADB圈圈乐数据库搜索Type2 toxin-antitoxin位点等。另外, 有些基因是生物体生存不可或缺的基因, 即必需基因, 它们是生命的基础。DEG数据库收集了一些物种的必需基因, 也可以用于注释必需基因, 这些必需基因是很好的抗菌药物靶基因。注释结束后, 对基因注释结果进行检查, 比如基因之间是否有Overlap、是否存在假基因等, 可以利用Mciobial Genome Submission Check程序进行检查。