文章编号 :1004-0374(2007)03-0272-09
代谢组研究
唐惠儒1*,王玉兰2
(1中国科学院武汉物理与数学研究所 波谱与原子分子物理国家重点实验室, 武汉430071;
2 Biomolecular Medicine, SORA Division, Faculty of Medicine, Imperial C我的理想演讲稿
ollege London, South Kensington SW7 2AZ UK)
摘 要:代谢是生命活动中所有(生物)化学变化的总称。代谢活动是生命活动的本质特征和物质基础。
代谢组是生物体内源性代谢物质的动态整体。代谢组学是关于生物体内源性代谢物质的整体及其变化规
律的科学。系统生物学研究的本质就是要求对研究对象的相关分子机理进行定量、普适、整体和可预
测性地认识。作为全局系统生物学的基础和系统生物学的一个重要组成部分,代谢组学是以物理学基
本原理为基础的分析化学、以数学计算与建模为基础的化学计量学和以生物化学为基础的生命科学等学
科交叉的学科。在过去七年多的时间里,这门新兴的学科得到了迅速的发展,并已广泛地应用到了分
子病理学、毒理学、功能基因组学、临床医学和环境科学等领域。本文就代谢组学的本质、代谢组
分析研究方法及其应用做了概述。
关键词:代谢组学;核磁共振;功能基因组;病理学;毒理学;全局系统生物学
中图分类号:Q1-0 文献标识码:A
Metabonomics
TANG Huiru1*, WANG Y ulan2
(1 State Key Laboratory of Magnetic Resonance and Atomic and Molecular Physics , Wuhan Institute of Physics and
Mathematics, Chine Academy of Sciences, Wuhan 430071, China; 2 Biomolecular Medicine, SORA Division, Facluty of
Medicine, Imperial College London, South Kensington SW7 2AZ UK)
Abstract: Metabolism is the total (b个人工作总结报告
io)chemical changes in living organisms and metabolic activities are the basic
features of living systems. Metabonome is the dynamic complement of the endogenous metabolites within the
integrated biological systems. Metabonomics is the branch of science concerned with the quantitative
understandings of the metabolite complement of integrated living systems and its dynamic responses to the
changes of both endogenous factors (such as physiology and development) and exogenous factors (such as
environmental factors and xenobiotics). As the foundation of “global systems biology” and an important
component of systems biology, which aims to achieve quantitative, universal, integrative and predictive (QUIP)
understandings to biological systems, metabonomics is a true multidisciplinary subject combining the physics-
based analytical chemistry, mathematics-based chemometrics and biochemistry-based biological sciences.
During the last seven years, metabonomics has experienced comprehensive development and found widespread
applications in fundamental biology, molecular pathology, toxicology, clinical and environmental sciences. In this
paper, we will discuss the essence of metabonomics, recent technical development and applications.
Key words: metabonomics; nuclear magnetic resonance; pathology; toxicology; global systems biology
收稿日期:2007-04-03
基金项目:国家自然科学基金(20575074); 中国科学院“引进国外杰出人才计划”(T12508-06S138);“973”
计划(2006CB503909) ; 雀巢公司瑞士研发中心(NRC)项目
作者简介:唐惠儒(1966—),男,研究员,博士生导师,*通讯作者,E-mail:huitu.tang@wipm.ac.cn
273第3期唐惠儒,等:代谢组研究
1 代谢组学的发展历史和精髓
代谢是生命活动中所有(生物)化学变化的总称,代谢活动是生命活动的本质特征和物质基础。因此,对代谢物的分析向来就是研究生命活动分子基础的一个重要突破口。生物代谢的系统化科学研究始于18世纪末到19世纪早中期,经过半个多世纪的努力,人们对代谢活动的物质基础和化学本质有了较为详尽的认识。结果,有数十名科学家因为其代谢研究的贡献而先后被授予了十余项诺贝尔生理学或医学奖和化学奖(http://www.nobelprize.org)。譬如,Hill 和Meyerhof因其对乳酸代谢的研究贡献而荣获1922年诺贝尔生理学或医学奖。事实上他们的贡献奠定了现代生物化学的基础。这些科学研究均以经典“还原论”为研究哲学基础,对代谢途径或者其中的某些环节进行了“各个击破”的详尽研究,充分认识了各代谢途径或环节的分子机理。然而,孤立的代谢途径或环节是不存在的。伴随着21世纪的来临,对生物体系的认识需要从整体(或系统)水平进行,随之而诞生了系统生物学的思想[1-3]。显而易见,要认识生物体系的整
体就需要从研究整体出发,于是,研究哲学发生了由“还原论”向“整体论”的过渡和变化。其实,“还原论”和“整体论”并不是矛盾和对立的,而前者是后者的一部分。这种研究哲学的转变引发了近两百种所谓“组”和“组学”思想和概念的出现。但这些组和组学可归纳为基因组和基因组学、转录组和转录组学、蛋白质组和蛋白质组学、代谢组和代谢组学[4]。本文只针对代谢组学这门发展迅速、辐射面广而引人注目的交叉学科进行讨论。
所谓代谢组是指生物体内源性代谢物质的动态整体[4-5]。然而,传统的代谢概念既包括生物合成也包括生物分解,因此理论上代谢物包括核酸、蛋白质、脂类以及其他小分子代谢物质。但为了有别于基因组、转录组和蛋白质组,代谢组目前只涉及相对分子质量约小于1 000的小分子代谢物质。从语源学角度看,生理意义上的代谢(metabolism)一词最早出现在1878年,源于原意为“变化或改变”(change)的希腊文“metabole”, 对应的形容词meta-bolic却源于德文的“metabolisch”一词,早在1845年就开始出现,取意为“有关变化的”(involvingchange)。不难看出,代谢一词的含义是经过相当长的一段时间后才得到了统一。代谢组学的概念也有类似情况,英语中有两套代谢组和代谢组学的名词,metabonome/metabolome与Metabonomics/metabolomics。按照传统语源学惯例,metabonomics一词来源于希腊文“metabole”和“nomos”的结合,前者取意为“变化或改变”而后者则取意为“规律或原则”(law or rule)(如
在economics中)[4,6]。迄今为止,尚未看到有关metabolomics一词的语源学解释,但可以理解为“metabole”和“omics”(组学)的结合。
代谢物组(Metabolome)是1998年由Tweeddale等[7]在研究大肠杆菌的代谢时首次提出的,其简略定义为“代谢物整体”(total metabolite pool),他们还指出,代谢物组成分析能够提供有关细胞代谢和调控的重要信息[7]。1999年,在近二十年生物代谢复杂系统研究的基础上,Nicholson等[8]提出了代谢组学(metabonomics)的概念并将其定义为 :对生物系统因病理生理或基因改变等刺激所致动态多参数代谢应答的定量测定(the quantitative measurement of thedynamic multiparametric metabolic responses of livingsystems to pathophysiological stimuli or geneticmodification)。从定义本身不难看出,代谢组学是将生物体作为一个动态的整体研究其内因或外因导致的代谢变化,这个定义的要害在于其整体性和动态性[4]。长期以来,Nicholson研究组以代谢组学思想为基础,从事包括动物生理、药物毒理、分子表型学、疾病诊断和全局系统生物学为基础的功能基因组学等方面研究工作。其工作和该学科诞生的关系就不难理解了。
Fiehn等[9]在2000年、Raamsdonk等[10]在2001年在公开发表的文献
中先后使用了metabolomics这个单词,强调把代谢物组分析技术用于研究植物和细胞基因的功能等方面的重要性,但直到2001-2002年该名词在科学论文中才首次被Fiehn等[11-12]定义为“生物体所有代谢物的系统分析”(comprehensive analysis of all the metabolites of anorganism)。目前,metabolomics至少有七个定义[4],但其本质是:给定细胞在给定时间和条件下所有小分子代谢物的定量分析[4] (the quantitative measurementof all low molecular weight metabolites in an organism’s cells at a specified time under specific environmentalconditions)。所以单纯从定义来看,metabolomics指的是静态生物体系代谢物组成分析,因此可以认为是metabonomics的一部分[4]。事实上,近年来也有“动态代谢物组学”(dynamic metabolomics)等提
274生命科学第19卷
法出现[4],说明metabolomics的含义正在朝metabonomics靠近。目前文献中metabolomics一词的含义在使用中较为混乱,时常有和metabonomics完全混淆使用的现象。
基于两个名词的含义,Tang和Wang[4]认为在中文的表述中,metabolomics可以译作“代谢物组学”而metabonomics可以译作“代谢组学”;但也认为,随着学科的进一步发展和不断深入的讨论,代谢物组学和代谢组学有可能最终出现融合。事实上,目前两个概念的定义均有其明显不足之处,我们认为更为准确的代谢组学的定义应当是[4] :Metabonomics is the branch of science concerned withthe quantitative understandings of the metabolite comple-ment of integrated living systems and its dynamic re-sponses to the changes of both endogenous factors(such as physiology and development) and exogenousfactors (such as environment and xenobiotics)。中文可以简练地描述为:代谢组学是关于生物体内源性代谢物质的整体及其变化规律的科学[4]。代谢组学的中心任务包括检测、量化和编录生物内源性代谢物质的整体及其变化规律,联系该变化规律与所发生的生物学事件或过程的本质[4-5]。
在基因组学、转录组学和蛋白质组学等概念存在的同时,为什么还需要代谢组学的概念呢?首先,这是因为对生物体系而言,基因、转录子和蛋白质的存在为某生物学事件或过程的发生奠定了物质基础,
但这个事件或过程有可能不发生;而代谢物的存在反映生命过程中已经发生了的生物化学反应,其变化正是对该生物事件或过程的反映。其次,绝大多数生物由宿主和与之共进化而共生的客体共同组成,是所谓的超级生物体(superorganism)[13]。譬如,一个健康的人体由人体和与之共生的菌群两部分组成[3,14-17]。因此,研究人体显然需要对人本身、菌群及其相互作用等在系统水平对所发生的生物事件进行整体性认识。但是,体内菌群中菌种繁多而且多数暂时无法进行体外培养,对这个共生体仅仅从基因组和蛋白质组水平进行研究,有必然的困难和方法上的不足。况且仅肠道菌群的细胞数量和基因组规模均至少为人体的10倍[14-16]!因此,仅仅研究宿主本身的基因或细胞,最多只能认识正常人体的一小部分。
而人体的整体代谢活动包括宿主机体本身的代谢、寄生菌群的代谢、两者的共代谢以及两者代谢物质交换引起的变化[1,3,14-17],建立这些生命活动的相互联系才可能完成所谓“系统水平的认识”。尿液和血液代谢组包含了人体内每一个细胞的代谢信息(包括宿主和菌群),也包含了宿主和菌群代谢活动的相互作用[1,3,14-17],人体尿液和血液代谢组也携带着宿主和菌群基因组成、调控和表达状态,以及蛋白质功能体现等等信息。因而,对该系统代谢组的分析也是对基因组、转录组和蛋白质组水平研究生物系统的一个重要补充。事实上,近来人们已经使用代谢组学方法研究宿主和菌群代谢的相互作用,证实了其可行性,而且已逐渐成为一个引人注目的研究热点[1,3,14-19]。如今,以代谢组学为基础的全局大黄鱼怎么做
系统生物学(global systems
biology)思想已经诞生[1,3,16-18]而且正处于快速发展阶段。代谢组学的出现和快速发展,主要得益于磁共振(NMR)和质谱(MS)等复杂系统分析技术与多变量海量数据挖掘和数学建模技术的发展。
代谢组学这门新兴学科发展迅速且应用广泛。自1999年诞生以来,代谢组学的研究论文数一直以指数的方式增长;高影响因子学术刊物上发表的论文数量较多,仅Nature系列刊物论文就达20余篇,核心论文引用率高,其中引用50次以上的有50多篇、100次以上的有11篇,单篇最高引用次数达到340余次(来自WOS, 截至2007年3月31日) ;新方法的出现日新月异和应用范围广泛并不断增加;仪器和分析技术的快速发展为代谢组学的进步提供了更加广阔的空间,也就带来了更多的机会和挑战。磁场强度的不断提高使核磁代谢谱分辨率逐步提高,超低温探头的完善让NMR的检测灵敏度有了相当程度的提高。LC-DAD-SPE-CryoNMR-MS联仪系统的问世使代谢物结构确定更为便捷和高效[20-21]。自动化技术的使用不断提高了代谢组检测通量,极大地缩短了大批量样品的检测时间。新的数据处理和运算方法的快速发展,提高了数据挖掘分析的速度和效率。以“统计全相关理论”[22-26]和“波谱集成理论”为基础的NMR-MS相关谱学方法[27]的诞生为新的代谢组学方法提供了新的发展空间。
2 代谢组学的研究方法
体液中的代谢物质与细胞、组织和整体水平的生物化学状态密切相关。正常状态下机体中的代谢物组成处在一个动态的平衡当中。当机体受到毒性物质、代谢障碍或者生理因素的影响时,在细胞、组织,甚至整体水平会发生代谢的变化应答,导致
275第3期唐惠儒,等:代谢组研究
代谢物种类和浓度的变化。出现异常时,生物体液的组成就会产生变化。代谢组学就是通过检测代谢物水平的整体和动态变化,提取相关的生物代谢标志物群体或标志物簇(biomarker clusters),在此基础上寻找所受影响的相关代谢途径或环节,从中上推寻找相关蛋白质组的对应变化,确立代谢网络调控机制,进而联系和认识转录组与相关的调控基因功能。
代谢物整体水平的检测分析:必须依赖分析化学中的各种谱学技术,包括磁共振波谱、质谱、色谱、红外和拉曼光谱、紫外-可见光谱等及其偶合联仪方法获取代谢组数据;利用分析化学中的化学计量学或化学信息学的研究方法将这些(海量)数据进行统计和归类分析,从而提取代谢女性更年期吃什么药
特征或代谢时空的整体变化轨迹[4-5]。因此,分析化学在代谢组学研究中具有基础性的重要作用。需要特别指出的是,代谢组学属于整体认识的思想,所强调的代谢特征或代谢时空整体变化,不是传统意义上的某种代谢物或少数几种代谢物含量和存在方式的变化,因此,常常需要采用多变量统计分析方法。另外,通过代谢组变化获取的“生物标志物簇”也只是代谢组学研究的一个初级阶段性目标,而建立代谢
特征或代谢时空变化规律与生物体特性变化之间的有机联系[4-5],才是代谢组学研究的根本目标。
面对如此繁多的分析检测方法,实际研究工作中如何进行选择呢?回答这个问题就必须对分析方法的优缺点进行系统分析。对于代谢组这样复杂的系统,理想的检测分析方法[4]必须具备同步检测的无偏向性、不依赖检测者的客观性、良好的分辨率和重现性、高灵敏度和系统或整体性、分子结构信息的丰富性和原位定量研究的可行性、样品制备的简易性和高通量分析可操作性、较低的先验性、知识依赖性、活体或原位检测分析的可能性和便捷性、劳动力低耗性、重复回头检测率低、较低的每个样品检测分析成本,等等。现有的分析方法基本上可以归为三类[4-5]: 色谱-质谱联仪方法、磁共振波谱法和色谱-核磁-质谱联仪法。色质联仪法总体来说具有良好的客观性和分辨率,一次性仪器购置投资相对较少,但该方法属于有偏向选择性检测方法,需要对样品有介入性和破坏性而不利于在体和原位分析;需要对样品进行较为复杂的制备而通量有限;对代谢组中各代谢物的原位定量十分繁琐;未知代谢物的定性(结构确定)有相当的难度。目前从重现性等角度看,超高效液相色谱-质谱和气相色谱-质谱方法有一定的优势。随着方法学的发展,该方法应该还会有较大的改进空间。其中,色谱的分辨率和色谱子宫囊肿是怎么形成的
柱进样前后的稳定性或重现性、质谱中对不同代谢物质的离子化效率以及离子化抑制问题对代谢物定量的影响,以及未知代谢物定性(确定结构)等方面问题,都亟待解决。
磁共振波谱法的优点包括:良好的客观性和重现性,因而便于不同实验室之间数据的交换和比较;样品不需要繁琐处理,可在接近生理条件下进行实验;具有无创性,不破坏样品的结构和性质,因而便于活体、原位的动态检测;代谢组中代谢物质的响应系数相同,因此可以进行一次性同步、无偏向的检测而且具有良好的原位定量效果;检测具有优异的重现性,其信号携带着原子之间连接关系、动力学性质和相互作用等丰富的分子信息,便于确定未知代谢物质的结构和性质;可以对细胞和组织等进行原位无创的检测分析而不受样品具体形态的限制,而且具有较高的通量和较低的单位样品检测成本;但它的缺点是检测灵敏度相对较低,采用现有成熟的超低温探头技术,其检测灵敏度在纳克级水平;另外仪器购置的一次性投入费用较大。上述分析不难看出,理想的代谢组分析技术应当是色谱-超低温核磁-质谱的结合。近来,STOCSY思想的诞生和方法学突破[22],使“波谱集成理论”和相应的方法[27]方面取得了长足进步,不仅为疾病和毒理相关的代谢途径相关性建立了研究方法[22-23],为系统生物学中转录组、蛋白质组和代谢组的整合提供了重要方法[24-26],解决了分子流行病学研究中药物服用的调查准确性问题[28],也为色谱-超低温核磁-质谱的有效结合奠定了基础[27]。
用于代谢组数据分析处理的化学计量学方法很多,但大体包括两类:非指导性(unsupervised)和指导性(supervised)方法。最常见的非指导性方法为主成分分析(principal component analysis,PCA),最常见的指导性方法为偏最小二
乘法为基础的分析(partial least square, PLS)。这两种方法常常以所谓的scores plot和loadings plot的形式输出分析结果,前者表征对比代谢组之间的区别和相似程度;而后者给出导致其区别(或相似性)的有贡献变量及其贡献程度。这些变量可以是核磁谱中的化学位移(即代谢物质)、色谱中的保留时间(代谢物或其色谱特性)、质谱中的质荷比(分子量或其分数)。PCA在
276生命科学第19卷
不作任何介入和无任何假设的前提下给出待分析各代谢组的内在区别,而PLS则有一定的假设。对这些方法,尤其是指导性方法的选择都是有一定条件的,也正因为如此,使用指导性分析方法时要格外注意假设的基础和成立性。事实上,当结合OSC等方法时,PLS有可能造成人为的区分而导致没有意义的结果。需要特别强调的是,任何数据分析方法都必须在生物学意义和知识的基础上进行。
代谢组研究的对象可以是细胞、组织或者生物机体整体。但由于研究对象十分复杂,影响因素较多,且数据挖掘需要使用多变量数据分析方法,代谢组学对实验设计要求格外严格。代谢组研究一般可以包括以下流程:首先,给研究对象引入一定的外源性刺激,该刺激既可以是基因的改变(剔除或导入)、转录水平的更改、蛋白质水平的变化,也可以是并不会导致基因和转录水平发生变化的某环境因素。其次,采集相关的如尿液、血液、组织、细胞和培养液,甚至整个生物体的生物样品,以反映
时空信息。实验设计中对样品收集的时间、部位、种类、样本群体等应给予充分考虑。再次,用磁共振、质谱、色谱等分析手段检测其中代谢物的种类、含量、状态及其变化,建立代谢组数据。而后使用多变量数据分析方法,表征代谢组特征的动态模型,确定和研究相关代谢物变化涉及的代谢途径,进而联系该变化规律,从不同层次和水平上阐述生物体对相应刺激的响应。
3 代谢组研究的应用
代谢组研究经过几年的发展,方法日趋成熟,在英国帝国理工学院等代表性的研究机构出现了“日新月异”的快速发展。其应用已经波及到基础生命科学、药物研发、疾病生理、营养与植物药学、环境科学等诸多方面,正日益彰显出其强劲的应用潜力和辐射力。
3.1 在基础生命科学研究中的应用 代谢组研究在功能基因组学中有了一定的应用。基因的改变常常伴随着性状等宏观水平的表型变化,这些表型变化一般会引起代谢组或者所谓代谢表型的变化。而基因表达的改变有时在宏观性状等表型上可能没有显著的改变,但这些一般也会引起生物内源性代谢组的变化,或者说其代谢表型可能会有较显著的变化。因此,代谢组变化的分析可以与基因或表达改变的后果联系起来,从而认识相关基因的功能。另外,通过分析敲除未知功能基因所引起的代谢组变化,通过比较代谢组学思路就有可能认识未知基因的功能。Raamsdonk等[10]利用FANCY(functionalanalysis by co-responses in y
east)方法对野生型FY23及6种选择性剔除了PFK26、PFK27、PET27、PET191、COX5a和r的酵母突变体进行了研究。通过分析指数生长中期的酵母代谢组,他们发现代谢组学方法能对具有相关生物活性的基因进行分类,能正确地区分性质上相似、程度上不同的表型突变,甚至基因表型缄默的几种突变体也能够被明显区分为呼吸缺陷突变体、部分呼吸缺陷突变体和控制组三类[10]。事实上,磁共振谱中不同区域的代谢物信号的变化本身也可以和相关的功能联系起来[29]。譬如,动物尿液核磁氢谱中高场信号常常与肾脏皮层S2/S3的状态有关;芳香区的马尿酸、苯乙酰谷氨酰胺和苯乙酰甘氨酸等是肠道菌群代谢的相关信号,其变化与菌群的状态有关;低场的ATP/ADP信号与能量代谢有关,等等。因此,尿液核磁谱不仅仅是该尿液的代谢组谱,而且是反映机体各部分所处状态的功能谱[29]。相关工作中关于动物发育代谢组学的研究已有了报道[30],有关动物宿主代谢和体内菌群代谢相关性的整合研究已经成为一个热点[1,3,14-19],这必将成为哺乳动物系统生物学研究的一个重要趋势和未来方向。同时需要指出,代谢组分析用于植物和动物功能基因组学的研究有待于进一步开展。
3.2 在药物研发中的应用 代谢组学方法可以用于药物筛选、药物毒理、药理和临床评价等诸多方面。目前化合物药物的研发过程漫长,费用昂贵,候选代合物淘汰率往往超过99%。近年来,即使上市的药物也时有因为其意想不到的不良后果而撤出市场。因此,在药物研发的早期阶段能够清晰地提供重要相关信息的方法常常备受青睐。代谢组学方法动漫画画
就是这种方法的一个新的典范。理论上讲,
无论是药物的毒性还是疗肌肉痛
效均是通过药物或者药物代谢物影响基因表达、改变蛋白质活性或功能、调控内源性代谢而对机体产生作用。药物或其代谢物通过血液分布到一些组织器官和细胞,进而对血液、尿液和组织代谢组产生影响。因此,分析这些体液或组织的代谢组就有可能获取丰富药物效应的信息。目前最引人注目的就是代谢组研究在药物毒理及相关的可预测性专家系统等方面的应用。
Nicholson研究组多年的研究实践证明,基于代谢组磁共振分析方法不仅能够有效判断毒性影响