Pathway通路与GSEA基因集有何区别?

更新时间:2023-05-17 15:45:32 阅读: 评论:0

Pathway通路与GSEA基因集有何区别?
成人网zhan大神一句话,菜鸟跑半年。我不是大神,但我可以缩短你走弯路的半年~
就像歌儿唱的那样,如果你不知道该往哪儿走,就留在这学点生信好不好~
这里有豆豆和花花的学习历程,从新手到进阶,生信路上有你有我!
影视化妆学校
adieu豆豆写于19.3.19
通常做富集分析时,我们会遇到两种方法Pathway和GSEA,它们到底有什么区别?
前言
我们通过差异分析会得到一些差异基因,那么如何知道这些基因是做什么的,都影响了处理组哪些过程?Pathway和GSEA都是为了说明这个问题的。但是它们之间存在着很大的不同。因为之前我也是存在疑惑,今天听人讲起,于是查了一下
原文在此:/ipathwayguide/pathway-analysis-vs-gene-t-analysis/
美国乔治华盛顿大学
另外结合了一下自己的认识
关于pathway
Wiki的解释:A ries of interactions among molecules in a cell that leads to a certain product or a change in a cell
pathway主要描述了一种机理或者现象,可以有信号通路、代谢通路等等,它的结果由点(nodes)和线(edges)组成,目的是描述某些现象、相互作用和依赖性。Pathway是一种描述细胞、组织或个体内的基因、蛋白或代谢产物互作关系的模型,并不是简单地基因列表。我们都知道有KEGG是做富集分析通路注释的,但是还有一些数据库,比如Reactome、Biocarta等也可以做pathway分析
关于GSEA
GSEA方法由Broad Institute提出的富集方法,核心是基因集(gene t),它就是无序、无结构的一组基因,我们可以将这些基因定义成参与特定生物过程(例如:细胞周期)、存在于某个位置(例如:1号染色体)、与什么疾病有关(例如:乳腺癌),或者直接可以取某个pat
hway中存在的一些就因(例如:参与KEGG细胞周期通路的128个基因)。可以看到,基因集除了仅仅包含了一些基因以外,似乎没有什么定义,也正因为这样,基因集的定义可以更加广泛,主要看人为需求。
Molecular Signatures Databa (MSigDB)数据库中就包含了超过17,000个这样的基因集分布在8大类别中(如:H: hallmark gene ts、C1: positional gene ts、C2:curated gene ts、C3 : motif gene ts、C4 : computational gene ts、C5 : GO gene ts、C6 : oncogenic signatures、C7 : immunologic signatures),让富集分析不仅可以从GO、KEGG这样的功能角度出发,还可以结合位置、表达量变化趋势等进行研究,更加拓展了富集分析的范畴。
有6种情况需要pathway分析更多
第一种:想知道基因是怎么相互作用时
上面👆疯狂主妇第二季说到了,pathway与基因集之间一个关键的不同就是基因集是无序的,而pathway是用于描述某个过程、机制或者现象的复杂模型。
bapa
左边👈的图【KEGG MAPK pathway 】画出了各种基因和基因产物(胞内/外/膜内)的位置、互作类型(激活、抑制、磷酸化等)、信号传递方向等等;右图【MSigDB gene t corresponding to the KEGG MAPK pathway 】只是可以让我们知道有这些基因。
第二种:想充分利用差异基因在不同样本表达量改变的大小和方向时
早期的基因集分析方法是采用ORA(Over-Reprentation Analysis)的方法,一系列差异基因作为输入,然后看这个列表中的基因是过表达还是低表达(比如可以看logFC值,FC=处理组表达量/对照组表达量)。这个需要事先定义一个阈值用来决定哪个基因作为差异基因(就像定义logFC=2还是等于1.5,都是人为定义的)。然后基于每个pathway中DE (Differentially expresd)基因的富集程度来评估每种pathway的重要性,富集程度越高的pathway更可能与给定的条件真正相关。简而言之,这种方法很大程度上依赖于定义DE的标准,包括统计方法和阈值的选择。
二代方法FCS(Functional Class Scoring )是基于所有基因表达量来消除DE选择标准的依赖性,其背后的假设是:除了表达量变化比较大的基因以外,还有一些变化小却可能其协同作用的基因也是重要的。主要方法包括:GSEA [25], Catmap [3], GlobalTest [10], s
igPathway [28], SAFE [2], GSA [7], Category [17], PADOG [26], PCOT2 [19], FunCluster [14], SAM-GS [4]。如果基因变化与表型存在相似性,那么FCS可以基于整体表达量
第三种:当想了解pathway的种类和其中各种联系的方向时
基因集的方法将pathway的联系视作无序排列,基因之间的关系也没有结构化,这样就丢弃了大量关于pathway描述的生物过程的信息,目前已经开发了一些基于拓扑的方法,想要在分析中加上这部分信息,也就是除了基因表达变化以外,还考虑每个pathway的所有基因的位置、作用以及互作信息。
第一种这样的方法是Impact Analysis[5],然后又陆续开发了30多种工具:us (Pathway-Express [5, 18], SPIA [27], ROntoTools [29], BLMA [22, 23]), as well as others (NetGSA [24], TopoGSA [9], TopologyGSA [20], DEGraph [16], PWEA [15], PathOlogist [11], GGEA [8], cepaORA, cepaGSA [12, 13], PathNet [6], etc.
第四种:想预测或解释下游/通路影响
基因集只是考虑某一pathway上的一组基因,并忽略了基因在通路上的位置,因此存在生
物学解释的限制。如果某个通路由单个基因产物触发或通过单一受体激活,并且不产生特定的蛋白,那么这个通路可能受到很大的影响甚至完全关闭。
例如:胰岛素通路中不存在胰岛素受体( insulin receptor, INSR)【图中黄色的节点】,那么整个通路将会关闭(左图)。相反,如果几个基因参与到一个通路,但是只出现在下游的某个地方,那么它们的表达水平可能不会对这个通路产生那么严重的影响。【也就是说,了解基因所处的位置是很重要的】。如果使用基因集分析,那么它只能考诉你这组通路的基因是否在所有差异基因中富集,而不能告诉我们差异基因的变化是否会影响整个通路。
第五种:想寻找实验中明显被影响的机制
英语影评
一些基因会具有多种功能或者参与到许多的通路,另外在每个通路中发挥的作用不同。例如,上面右图中显示的INSR(黄色节点)同样也是作为酪氨酸激酶受体蛋白参与Adherens Junction通路。如果INSR的表达发生改变,Adherens Junction通路可能并不会发生太大的影响,因为INSR仅仅是其中一个受体。
如果使用基因集,它不会考虑这些信息,如果不结合其他方法,仅仅用基因集分析时很难判断Adherens Junction通路或者胰岛素通路的变化幅度。
目前基因集虽然很全,但是其中各个通路中各种基因的互作关系还是没有被好好利用。而Pathway可以作为这一点的补充,因此如果想探究某一个特定的分子机制,首选还是pathway分析。
下面是iPathway的截图,其中对GSE47363数据集进行了pathway分析。实验利用了miRNA(miR-542-3p)处理细胞,想要理解这个miRNA的作用。利用iPathway Guide  分析了处理组和对照组中表达量变化涉及的通路分析。图中红色的部分是自动推断了所有信号与不同基因的依赖关系得到的机制,从而做出的判断。而这个结果是不能从GSEA分析得到的。
第六种:想要结果结合最新的知识做出判断
随着数据量的增加,我们对各种通路的理解也在不断加深。因此可以根据不断更新的知识,在pathway图上增加、删除或者重新定向通路。而基因集是不能感知这种变化的,基
因集能做的是:只要pathway中涉及相同的基因,即使它们之间相互作用随着我们研究的深入发生了改变,GSEA还是提供相同的结果。
如果只看上面6个特定,那么pathway分析好像更胜一筹,pathway具有更明确的生物学意义以及更准确的结果,但是为什么还要使用基因集富集分析(GSEA)呢?
想用GSEA第一种原因:想寻求更快的结果
GSEA的结果更加简单,因为不含有任何的拓扑结构信息,它们也更容易理解。通过计算富集的p值或者FCS打分(GSEA中提供的)就可以初步看下这一组基因是否可能与表型有关
absurdity想用GSEA第二种原因:当有自己定义的基因集
基因集分析不存在任何依赖关系,这也可能是一个优势。如果我们知道了一组基因可以在某一个通路中有协同作用,就可以快速将让它们定义为'基因集',然后找到与表型可能的相关性。当然,其中可能会包含一些比较'随意”或者相关性不那么大的基因,就会妨碍对真正生物学通路的理解。
References
1.blued是什么Marit Ackermann and Korbinian Strimmer. A general modular framework for gene t enrichment analysis. BMC Bioinformatics, 10(1):1, 2009.
2.William T. Barry, Andrew B. Nobel, and Fred Wright. Significance analysis of functional categories in gene expression studies: a structured permutation approach. Bioinformatics, 21(9):1943–1949, May 2005.
3.Thomas Breslin, Patrik Eden, and Morten Krogh. Comparing functional annotation analys with Catmap. BMC Bioinformatics, 5(1):193, 2004.航行英文

本文发布于:2023-05-17 15:45:32,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/78/669500.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:基因   通路   分析   表达   可能   变化   方法
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图