post-GWAS:使用coloc进行共定位分析(Colocalization)

更新时间:2023-06-07 11:30:32 阅读: 评论:0

post-GWAS:使⽤coloc进⾏共定位分析(Colocalization)GWAS找到显著信号位点后,需要解释显著信号位点如何影响表型。
常见的⼀个解释⽅法是共定位分析。
主流的共定位分析包括:
1)GWAS和eQTL共定位;
2)GWAS和sQTL共定位;财务总结范文
3)GWAS和meQTL共定位;
4)GWAS和pQTL共定位;卤碱
其中,GWAS和eQTL共定位应⽤最为⼴泛。
具体来说,当检测到GWAS信号和eQTL共定位时,我们会认为GWAS信号上的位点可能通过改变基因表达的⽣物学过程影响表型。
共定位分析有四种设想:
百度翻译在线翻译英语
第⼀种设想 H0: 表型1(GWAS)和表型2 (以eQTL为例)与某个基因组区域的所有SNP位点⽆显著相关;
第⼆种设想 H1/H2: 表型1(GWAS)或表型2(以eQTL为例)与某个基因组区域的SNP位点显著相关;
wpa是什么意思第三种设想 H3: 表型1(GWAS)和表型2 (以eQTL为例)与某个基因组区域的SNP位点显著相关,但由不同的因果变异位点驱动;
第四种设想 H4: 表型1(GWAS)和表型2 (以eQTL为例)与某个基因组区域的SNP位点显著相关,且由同⼀个因果变异位点驱动;
基于以上四种设想,我们希望第四种设想 H4 在统计学上概率更⾼,这样就能解释显著信号位点如何影响表型;
所以共定位分析,本质上是在检验第四种的后验概率;
讲完共定位分析的相关概念,接下来我们以“GWAS和eQTL共定位”为例讲⼀下如何使⽤coloc进⾏共定位分析。
1 下载、安装coloc
if(!require("remotes"))
install.packages("remotes")
install.packages("dplyr")
library(remotes)
install_github("chr1swallace/coloc",build_vignettes=TRUE)语文试卷分析
library("coloc")
library(dplyr)
2 下载测试数据
测试数据请在公众号“bio⽣物信息”后台回复"coloc"获取。
3 分析
3.1 导⼊表型1(GWAS)数据:
gwas <- read.table(file="E:/path_to_", header=T);ridiculousness
GWAS数据包括:rs编号rs_id,P值pval_nominal等:
注意事项:如果表型是⼆分类变量(ca和control),输⼊⽂件⼆选⼀:
1)rs编号rs_id、P值pval_nominal、SNP的效应值beta、效应值⽅差varbeta;
2)rs编号rs_id、P值pval_nominal、ca在所有样本中的⽐例s
3.2 导⼊表型2(eQTL)数据:
eqtl <- read.table(file="E:/path_to_", header=T);
eQTL数据包括:rs编号rs_id,基因gene_id,次等位基因频率maf、P值pval_nominal等:
注意事项:如果表型是连续型变量,输⼊⽂件三选⼀:
1)rs编号rs_id、P值pval_nominal、表型的标准差sdY;
2)rs编号rs_id、P值pval_nominal、效应值beta,效应值⽅差varbeta, 样本量N,次等位基因频率MAF;
3)rs编号rs_id、P值pval_nominal、次等位基因频率MAF;
3.3 合并GWAS和eQTL数据:
input <- merge(eqtl, gwas, by="rs_id", all=FALSE, suffixes=c("_eqtl","_gwas"))
head(input)
comments是什么意思3.4 共定位分析
result <- coloc.abf(datat1=list(pvalues=input$pval_nominal_gwas, type="cc", s=0.33, N=50000), datat2=list(pvalues=input$pval_nominal_eqtl, type="quant", N=10000), MAF=input$maf) datat1的type="cc"指的是GWAS的表型是⼆分类(ca和control);
datat2的type="quant"指的是eQTL的表型(基因表达量)是连续型
N指样本量;
3.5 筛选共定位的位点
通常情况下,很多⽂献认为PPA > 0.95的位点是共定位位点,也有⼀些⽂献会放松要求到0.75。
这⾥假定后验概率⼤于0.95为共定位位点:
library(dplyr)
电脑游戏的危害>in chinaneed_result=result$results %>% filter(SNP.PP.H4 > 0.95)
结果如下:
从图上可以看出,SNP.4811位点的后验概率为1。怎么找到这个位点呢?可以通过对应的P值(1.81e-42)找到这个位点的rs号;
4 结果解读
对于输出结果,我们只需要关注最后⼀列信息SNP.PP.H4,对应推⽂前⾯提到的第四种设想 H4。软件测试培训
SNP.PP.H4表⽰的是GWAS显著信号和eQTL位点为同⼀个位点的后验概率,范围在0-1之间,0表⽰概率为0%,1表⽰概率为100%。后验概率越⾼越好。
5 注意事项
1)由于共定位分析是基于某个基因组区域进⾏计算,所以请不要把全基因组的信息都丢进去(偷懒
该打),这么做⼀个是没意义,另外⼀个特别耗时,给计算机增加⼯作负担;
2)虽然我们没必要把基因组的全部信息丢进去,但也不意味着只放⼀个变异位点信息就⾏。
3)因此,正确的做法是,先提取GWAS中显著变异位点上下游区域(这个区域多⼤⾃⼰定,没有⾦标准)的GWAS summary数据,理想情况下,提取后显著变异位点所在基因组区域的SNP数量在1,000-10,000之间。
4)该⽅法的设想是只有⼀个causal 位点,所以如果表型1(GWAS)和表型2 (以eQTL为例)在某个区域有多个显著位点的话,⽤该⽅法是定位不出结果的,这是该⽅法的局限,所以如果某个基因组区域存在多个显著位点,请考虑其他⼯具(允许多个causal 位点共定位的⼯具)致谢橙⼦⽜奶糖(陈⽂燕),请⽤参考模版:We thank the blogger (orange_milk_sugar, Wenyan Chen) for XXX
感谢⼩可爱们多年来的陪伴,我与你们⼀起成长~

本文发布于:2023-06-07 11:30:32,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/136958.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:位点   定位   表型
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图