生物信息学的现状与未来
郑伟国,郭英
中国民用航空学院理学院天津,300300
weiguozhejiang@
摘要:生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。
本文对生物信息学研究对象、重要技术、数据库建设及其研究现状等方面进行了综述,并展
望生物信息学的发展前景。
关键词:生物信息学;基因组学;蛋白组学;功能蛋白质组学;
随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运
算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了
快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命
科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形
成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展,被
誉为“解读生命天书的慧眼”。
生物信息学既是一门工程技术又是一门科学,自产生以来,大致经历了前基因组时代、
基因组时代和后基因组时代三个发展阶段。前基因组时代的标志性工作包括生物数据库的建
立、检索工具的开发以及DNA和蛋白质序列分析等;基因组时代的标志性工作包括基因识
别与发现、网络数据库系统的建立和交互界面工具的开发等;后基因组时代的标志则是大规
模基因组分析、蛋白质组分析以及各种数据的比较与整合。这三个阶段虽无明显的界限,却
真实地反映了整个研究重心的转移变化历程。
对生物信息学的定义,国内外众说纷纭,至今尚未形成统一的认识。以下是一些较有影
响的意见:
美国国家基因组研究中心认为,生物信息学是一个代表生物学、数学和计算机的综合力
量的新兴学科。
北京生物技术和新医药产业中心认为,生物信息学是在生命科学研究中以计算机为工具
对生物信息进行储存、检索和分析的科学
。
1995年,在美国人类基因组计划(HGP)第一个5年总结报告中给出了一个较为完整的生
物信息学的定义:生物信息学是包含生物信息的获取、处理、储存、传递、分析和解释的所
有方面的一门学科。
从广义上讲,生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象,组织
和分析大量生物学数据的一门学科;从狭义上讲,生物信息学主要是基因组信息学,它以计算
机及互联网为主要手段,并开发各种软件,对与日俱增的大量DNA和蛋白质序列及结构进行
收集、整理、发布、提取、加工和分析,从而破译DNA序列中隐藏的信息,揭示出人体生理
和病理过程的分子基础,并逐步认识生命起源、进化、遗传和发育的本质,为人类疾病的预测、
-1-
[2]
[1]
诊断、预防和治疗提供最为合理和有效的方法或途径。
纵观生物信息学丰富多彩的相关学科、研究领域及其由信息流方向主导的研究过程,笔
者归纳出如下定义:生物信息学是一门采用计算机技术和信息论方法对蛋白质及其核酸序列
等多种生物信息采集、加工、储存、传递、检索、分析和解读的科学,是现代生命科学与信
息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。
1.研究对象
生物信息学主要包括基因组学(Genomics)和蛋白组学(Proteomics),其实质就是分析和解
读核酸和蛋白质序列中所表达的结构与功能的生物信息。
1.1基因组学
一种生物的全部遗传构成称为该种生物的基因组,有关基因组的研究称为基因组学,它
包含对基因组信息的获取、处理、存储、分配和解释等。其中,序列基因组学(Sequencegenomics)
主要研究测序和核苷酸序列
,为绘制图谱提供材料;结构基因组学(Structuralgenomics)着
重于遗传图谱、物理图谱和测序等方面的研究;功能基因组学(Functionalgenomics)则研究以
转录图为基础的基因组表达图谱[3,4]
[3]
;比较基因组学(Comparativegenomics)的研究内容则包
[5]括对不同进化阶段基因组的比较和不同种群和群体基因组的比较。
1.2蛋白组学
由于基因表达水平并不能代表细胞中活性蛋白质的数目(准确的说是开放读框‘ORF’
的数目),基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量
的动态变化过程,澳大利亚学者Wasinger等
在1994年首次提出了蛋白组(Proteme)的概念。
在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组,代表这一有机体全部蛋白质组
成及其作用方式,有关蛋白组的研究称为蛋白组学。其中,蛋白组的研究技术与方法、双向
凝胶电泳图谱以及对不同条件下蛋白组变化的比较分析是蛋白组学的主要研究内容
。[7]
[6]
1.3两者的关系
基因组基本上是固定不变的,而蛋白质组是动态的,具有时空性和可调节性,能反映某基
因的表达时间、表达量,以及蛋白质翻译后的加工修饰和亚细胞分布等,因此提出了功能蛋
白质组学(Functionalproteonic)的概念,它是指在特定时间、特定环境
和实验条件下基因组
中活跃表达的蛋白质。
[8][9]
2.重要技术
2.1.1结构基因组学与生产线模式
我们把结构基因组的研究机构称之为蛋白质结构工厂,而把它的研究流程称为生产线
[10](见下图)。这一过程是以传统的结构解析法为基础设计的,但与传统的结构解析法相比,
生产线模式增添了自动化操作,使整个过程得以快速高效地完成,这也使得大规模解析蛋白质
结构得以实现。首先是基因组计划的圆满完成、cDNA文库的日趋完善等为结构基因组研
究提供了较好的基础,而与表达、纯化及结构测定相关的技术的发展与设备的改进也为这一
过程自动化提供了良好的条件。此过程中的重要步骤,蛋白质的结构测定技术——X光衍射
和核磁共振光谱法(NMR)[11],近几年也有了很多新的改进,出现了很多新的功能完善的仪器,
-2-
为生产线的顺利完成提供了设备保障。
原始基因
组信息库
蛋白结构
数据分析
选择感兴
趣的序列
制造DNA并
连接标记
表达系统中插
入DNA
在培养物中
大量生产蛋白
NMR色谱仪
用亲和层析或其
它方法纯化蛋白
X光衍射蛋白结晶
结构基因组研究生产线
2.1.2比较基因组学和模式生物体
鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平上所产
生的表型变化[12],这就需要建立一个有效的模式生物体(modelorganism)。迄今为止已有多
种生物被当作模型使用,如大肠杆菌、酿酒酵母、美丽线虫、果蝇、小鼠等,但在研究人类
疾病和哺乳动物发育时,小鼠显得更有优势。
所有生物都可以通过一株共同的进化树而联系在一起,因此研究一个生物可为其它生
物提供有用的信息。人类基因组计划(HGP)已把比较基因组学(Comparativegenomics)作
为今后工作重点之一,预计到2005年完成小鼠的全基因组测序,同时逐渐从结构的比较转向
功能的比较[13]。
2.1.3功能基因组与微点阵、SAGE技术
功能基因组学(Functionalgenomics)的研究通常被称为后基因组学(Postgenomics)研
究,它是利用结构基因组学提供的信息和产物,系统地研究基因功能,以高通量、大规模实验
方法及统计与计算机分析为特征[14]。高通量的基因表达分析方法需要借助新技术——微点阵
(microarray)技术和基因表达系列分析(rialanalysisofgeneexpression,SAGE)。
微点阵技术是指将几百甚至上万个寡核苷酸或DNA密集排列在硅片、玻璃片、聚丙烯等
固相支持物上,作为探针。把要研究的样品(称为靶DNA)标记后与微点阵进行杂交,用合适的
检测系统进行检测。根据杂交信号强弱及探针位置和序列,确定靶DNA的表达情况以及突变
和多态性的存在。根据制作方法的不同,微阵列技术可分为合成和点样两大系别。
SAGE技术的主要理论依据有两个:⑴一个9~10碱基的短核苷酸序列标签包含有足够信
息,能够唯一确认一种转录物;⑵如果能将9碱基的标签集中于一个克隆中进行测序,并将得