生物信息学的现状与未来

更新时间:2022-11-12 13:10:48 阅读: 评论:0


2022年11月12日发
(作者:房屋租赁终止协议)

生物信息学的现状与未来

郑伟国,郭英

中国民用航空学院理学院天津,300300

weiguozhejiang@

摘要:生物信息学已成为整个生命科学发展的重要组成部分,成为生命科学研究的前沿。

本文对生物信息学研究对象、重要技术、数据库建设及其研究现状等方面进行了综述,并展

望生物信息学的发展前景。

关键词:生物信息学;基因组学;蛋白组学;功能蛋白质组学;

随着生物科学技术的迅猛发展,生物信息数据资源的增长呈现爆炸之势,同时计算机运

算能力的提高和国际互联网络的发展使得对大规模数据的贮存、处理和传输成为可能,为了

快捷方便地对已知生物学信息进行科学的组织、有效的管理和进一步分析利用,一门由生命

科学和信息科学等多学科相结合特别是由分子生物学与计算机信息处理技术紧密结合而形

成的交叉学科——生物信息学(Bioinformatics)应运而生,并大大推动了相关研究的开展,被

誉为“解读生命天书的慧眼”。

生物信息学既是一门工程技术又是一门科学,自产生以来,大致经历了前基因组时代、

基因组时代和后基因组时代三个发展阶段。前基因组时代的标志性工作包括生物数据库的建

立、检索工具的开发以及DNA和蛋白质序列分析等;基因组时代的标志性工作包括基因识

别与发现、网络数据库系统的建立和交互界面工具的开发等;后基因组时代的标志则是大规

模基因组分析、蛋白质组分析以及各种数据的比较与整合。这三个阶段虽无明显的界限,却

真实地反映了整个研究重心的转移变化历程。

对生物信息学的定义,国内外众说纷纭,至今尚未形成统一的认识。以下是一些较有影

响的意见:

美国国家基因组研究中心认为,生物信息学是一个代表生物学、数学和计算机的综合力

量的新兴学科。

北京生物技术和新医药产业中心认为,生物信息学是在生命科学研究中以计算机为工具

对生物信息进行储存、检索和分析的科学

1995年,在美国人类基因组计划(HGP)第一个5年总结报告中给出了一个较为完整的生

物信息学的定义:生物信息学是包含生物信息的获取、处理、储存、传递、分析和解释的所

有方面的一门学科。

从广义上讲,生物信息学是用数理和信息科学的观点、理论和方法去研究生命现象,组织

和分析大量生物学数据的一门学科;从狭义上讲,生物信息学主要是基因组信息学,它以计算

机及互联网为主要手段,并开发各种软件,对与日俱增的大量DNA和蛋白质序列及结构进行

收集、整理、发布、提取、加工和分析,从而破译DNA序列中隐藏的信息,揭示出人体生理

和病理过程的分子基础,并逐步认识生命起源、进化、遗传和发育的本质,为人类疾病的预测、

-1-

[2]

[1]

诊断、预防和治疗提供最为合理和有效的方法或途径。

纵观生物信息学丰富多彩的相关学科、研究领域及其由信息流方向主导的研究过程,笔

者归纳出如下定义:生物信息学是一门采用计算机技术和信息论方法对蛋白质及其核酸序列

等多种生物信息采集、加工、储存、传递、检索、分析和解读的科学,是现代生命科学与信

息科学、计算机科学、数学、统计学、物理学和化学等学科相互渗透而形成的交叉学科。

1.研究对象

生物信息学主要包括基因组学(Genomics)和蛋白组学(Proteomics),其实质就是分析和解

读核酸和蛋白质序列中所表达的结构与功能的生物信息。

1.1基因组学

一种生物的全部遗传构成称为该种生物的基因组,有关基因组的研究称为基因组学,它

包含对基因组信息的获取、处理、存储、分配和解释等。其中,序列基因组学(Sequencegenomics)

主要研究测序和核苷酸序列

,为绘制图谱提供材料;结构基因组学(Structuralgenomics)着

重于遗传图谱、物理图谱和测序等方面的研究;功能基因组学(Functionalgenomics)则研究以

转录图为基础的基因组表达图谱[3,4]

[3]

;比较基因组学(Comparativegenomics)的研究内容则包

[5]括对不同进化阶段基因组的比较和不同种群和群体基因组的比较。

1.2蛋白组学

由于基因表达水平并不能代表细胞中活性蛋白质的数目(准确的说是开放读框‘ORF’

的数目),基因组序列并不能描述活性蛋白质所必需的翻译后修饰和反映蛋白质种类和含量

的动态变化过程,澳大利亚学者Wasinger等

在1994年首次提出了蛋白组(Proteme)的概念。

在一定条件下某一基因组蛋白质表达的数量类型称为蛋白组,代表这一有机体全部蛋白质组

成及其作用方式,有关蛋白组的研究称为蛋白组学。其中,蛋白组的研究技术与方法、双向

凝胶电泳图谱以及对不同条件下蛋白组变化的比较分析是蛋白组学的主要研究内容

。[7]

[6]

1.3两者的关系

基因组基本上是固定不变的,而蛋白质组是动态的,具有时空性和可调节性,能反映某基

因的表达时间、表达量,以及蛋白质翻译后的加工修饰和亚细胞分布等,因此提出了功能蛋

白质组学(Functionalproteonic)的概念,它是指在特定时间、特定环境

和实验条件下基因组

中活跃表达的蛋白质。

[8][9]

2.重要技术

2.1.1结构基因组学与生产线模式

我们把结构基因组的研究机构称之为蛋白质结构工厂,而把它的研究流程称为生产线

[10](见下图)。这一过程是以传统的结构解析法为基础设计的,但与传统的结构解析法相比,

生产线模式增添了自动化操作,使整个过程得以快速高效地完成,这也使得大规模解析蛋白质

结构得以实现。首先是基因组计划的圆满完成、cDNA文库的日趋完善等为结构基因组研

究提供了较好的基础,而与表达、纯化及结构测定相关的技术的发展与设备的改进也为这一

过程自动化提供了良好的条件。此过程中的重要步骤,蛋白质的结构测定技术——X光衍射

和核磁共振光谱法(NMR)[11],近几年也有了很多新的改进,出现了很多新的功能完善的仪器,

-2-

为生产线的顺利完成提供了设备保障。

原始基因

组信息库

蛋白结构

数据分析

选择感兴

趣的序列

制造DNA并

连接标记

表达系统中插

入DNA

在培养物中

大量生产蛋白

NMR色谱仪

用亲和层析或其

它方法纯化蛋白

X光衍射蛋白结晶

结构基因组研究生产线

2.1.2比较基因组学和模式生物体

鉴定基因功能最有效的方法是观察基因表达被阻断或增加后在细胞和整体水平上所产

生的表型变化[12],这就需要建立一个有效的模式生物体(modelorganism)。迄今为止已有多

种生物被当作模型使用,如大肠杆菌、酿酒酵母、美丽线虫、果蝇、小鼠等,但在研究人类

疾病和哺乳动物发育时,小鼠显得更有优势。

所有生物都可以通过一株共同的进化树而联系在一起,因此研究一个生物可为其它生

物提供有用的信息。人类基因组计划(HGP)已把比较基因组学(Comparativegenomics)作

为今后工作重点之一,预计到2005年完成小鼠的全基因组测序,同时逐渐从结构的比较转向

功能的比较[13]。

2.1.3功能基因组与微点阵、SAGE技术

功能基因组学(Functionalgenomics)的研究通常被称为后基因组学(Postgenomics)研

究,它是利用结构基因组学提供的信息和产物,系统地研究基因功能,以高通量、大规模实验

方法及统计与计算机分析为特征[14]。高通量的基因表达分析方法需要借助新技术——微点阵

(microarray)技术和基因表达系列分析(rialanalysisofgeneexpression,SAGE)。

微点阵技术是指将几百甚至上万个寡核苷酸或DNA密集排列在硅片、玻璃片、聚丙烯等

固相支持物上,作为探针。把要研究的样品(称为靶DNA)标记后与微点阵进行杂交,用合适的

检测系统进行检测。根据杂交信号强弱及探针位置和序列,确定靶DNA的表达情况以及突变

和多态性的存在。根据制作方法的不同,微阵列技术可分为合成和点样两大系别。

SAGE技术的主要理论依据有两个:⑴一个9~10碱基的短核苷酸序列标签包含有足够信

息,能够唯一确认一种转录物;⑵如果能将9碱基的标签集中于一个克隆中进行测序,并将得

到的短序列核苷酸顺序以连续的数据形式输入计算机中进行处理,就能对数以千计的mRNA

-3-

转录物进行分析。这种方法在癌组织基因的差异表达研究方面有独到的优点,有助于发现肿

瘤特异基因.

2.2功能基因组学与诱变技术

2.2.1定向诱变(targetedmutagenesis):定向诱变是利用同源重组技术,使胚胎干细胞

(embryonicstemcell,EScell)内目的基因产生定点突变。这些突变可进一步用于基因敲除、

转基因动物、显性负突变等研究。近几年发展了许多构建靶结构的新方法,如酿酒酵母中微

同源重组[15](microhomologousrecombination)。

2.2.2表型诱变(phenotype-drivenmutagenesis):定向诱变用于已知基因的突变,而表型

诱变是用于未知基因。主要优点是无需知道哪个基因以及这些基因的何种突变导致特定的表

型或疾病[16]。用表型诱变剂进行诱变后,可以用筛查整个基因组的办法来寻找新的显性或隐

性突变。

3.研究现状

3.1生物学数据库的建设

数据库是生物信息学的主要内容,至今世界各国纷纷建立了生物信息数据库[17],其数量

呈爆炸性增长,几乎涉及了生命科学的各个研究领域。目前主要有美国国立卫生研究院全国

生物技术研究中心(NCBI)的GenBank();欧洲生物信息学研

究所(EBI)的(EMBL)()数据库;日本国立遗传学研究所(NIG)

的DNA数据库(DDBJ)()瑞士生物信息学研究所(SIB)的SWISSPROT

(/);美国Brookhaven国家实验室(BNL)的

PDB(/pdb/);NCBI开发的ENTERZ系统综合了上述各大数据库的信息和

MEDLINE的文献信息。目前我国在生物信息数据库领域的主要任务[18]是:实验室数据信息化

管理、数据库标准化、数据库共享与集成;建立基因信息的评估与检测系统;构建我国自已特

殊需要的二级、三级数据库和专业数据库,并与国际常用数据库有效连接和及时更新。

3.2新型生物信息学研究方法

近年来,生物信息学家已经取得了多项研究成果,确定了数千个基因的功能,其中包括

搜索碱基对序列匹配的有效方法,统计学工具,利用新的计算机工具组装整个基因组等,但

生物信息学的发展面临新的挑战,迫切需要新的研究手段和研究方法。加利福尼亚大学能源

系结构生物学和分子医学实验室的主任DavidEinberg暗示,新的生物信息学方法[19],包

括罗塞塔石和系统发生图谱法,将“超越寻找氨基酸序列间相关性的传统测序方法”。

“罗塞塔石”法:如果两个蛋白来自于同一类型细胞,比如在酵母中,“它们融合为一个

蛋白质单链,我们推测这两个蛋白的功能是相同的,因为它们一直在同一个分子中,因此我

们推测:假如在大肠杆菌中它们也能发生相互作用,那么这两个信息为我们提供了关于此系

统的相同信息。”Einberg补充说:“通过使用这两种方法或更多的方法,我们就能构建出

交互蛋白质的网络。”

系统发生图谱可以预测蛋白质与蛋白质之间的相互影响,编录试验的交互作用,但这两

种类型的信息必须被建立,预测和比较,而且评估和区分预测的良莠的统计方法需要精炼。

系统发生图谱使科学家能把某个蛋白放置在细胞功能的环境下加以研究。Einberg说:“我

-4-

们先观察某个蛋白质所在的已测序的所有基因组,然后我们观察第二个蛋白质,它在同一个

基因组位置出现。因此这个两个蛋白的出现和不出现是一致的。我们推测这两个蛋白的功能

是共同的,所以它们同时出现或不出现的原因是它们一起工作,因此我们就能推测出许多相

关性。”

4.发展前景

《第三次技术革命》里有这样描述:“一场与工业革命和以计算机为基础的革命有相同

影响力的变化正在开始。下一个伟大时代将是基因组革命时代,它现在处于初期阶段。”基

因组学的发展已经进入后基因组研究阶段

秘,并带动多个学科的跨越式发展。

生物信息学的发展将对分子生物学、药物设计、工作流管理和医疗成像[21]等领域产生

巨大的影响,极有可能引发新的产业革命。此外,生物信息学所倡导的全球范围的资源共享也

将对整个自然科学乃至人类社会的发展产生深远的影响。有理由相信,今日生物学数据的

巨大积累将导致重大生物学规律的发现[22],生物信息学的发展在国内、外基本上都处在起

步阶段,因此,这是我国生物学赶超世界先进水平的一个百年一遇的极好机会。

[20],致力于蛋白质功能研究的蛋白质组学和功能蛋

白质组学正在蓬勃发展,在生物信息学发展的带动下,我们必定能够揭示各种生命现象的奥

参考文献

1.陈润生.生物信息学.生物物理学报,1999,15(1):5-13.

2.北京生物技术和新医药产业促进中心.世纪之交的新科学:生物信息学.生物技术通

报,1999,(8):49-54.

3.杨福愉.展望21世纪的分子生物学.生物物理学报,1999,15(1):1-5.

E,钟南.基因组学在基因组计划中的作用.生命的化学,1999,(1):9-10.

5.胡德华,方平.基因组数据的处理.生物技术通讯,2000,11(1):68-71.

erVC,CordwellSJ,CerpaPoljaKA,sswithgeneproductmapping

gofthe,Mollicutes:ophoresis,1995,16(7):1090~1094

7.胡志远,贺福初.蛋白质组研究进展.生物化学与生物物理进展,1999,26(3):202-204.

llSJ,BasaLDJ,BjeLLqvistB,terisationofbasicproteinsfromSpiroplasmamelliferum

ophoresis,1997,18(8):1393~1398~13986

rySmithL,CordwellSJ,momerearch:complementarityandlimitationswith

ophoresis,1997,18(8):1217~1242

,2000,408(6809):130~132

eA,er2000,supplement

7:973~977.

kRP,KlebigML,JusticeMJ,,1998,400(1~2):

3~14

s.F.S,Patrinos.A,Jordan.E,enomeproject:e,1998,

282(5389):682~689

P,onalgenomics:e,1997,278(5338):601~602

rySmithL,CordwellSJ,merearch:complementarityandlimitationsswith

ophoresis,1997,18(8):1217~1242

saKanP,WeberSC,McElverJ,-homologymediatedPCRTargetinginSaccharomyces

-5-

idsRes,1995,23(14):2799~2800

17.施季森何祯祥21世纪的生物信息学评述南京林业大学学报;2001,(3):1-5

18.郑国清等生物信息学研究进展与展望河南农业科学2003.(1):4-8

19.中华基因网首届生物信息学大会资料

20.李伟等基因组学相关概念及其研究进展生物学通报2000,35(11):1-3

n生物科学中的开放源码2002.11

22.张春霆生物信息学的现状与展望院士论坛22卷6期:17-20

ThecurrentstatesofBioinformaticsanditsfuture

ZhengWeiguo,GuoYing

CollegeofScience,CivilAviationUniversityofChina,Tianjin300300

Abstract:Bioinformaticshasbecameanimportantcomponentofthewholelife

science,ThepaperoverviewsonthemaintechnicsofBioinformatics,itscurrent

statusinerectionofbiologydatabaandrearchmethod,propectsitsforeground.

Keywords:Bioinformatics;Genomics;Proteonic;Functionalproteonic

-6-


本文发布于:2022-11-12 13:10:48,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/82/469386.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:现状
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图