TCGA 基本流程和⽂件
此数据可以通过多种途径下载,但是还是要注意⼀些坑的。1) 最好的⽅法是直接去TCGA下载,更新的快,但看到443个病例有918个拷贝数变异数据。。。因为⾥边基本有⼀半是正常样本的数据不是肿瘤组织数据。2) 其次可以去 / 下载将多个样本合并好的数据,但是少了Num_probes这⼀列,对后续分析还是有⼀定影响的。 3) 使⽤/ 下载整合好的数据,
另⼀个相似的数据是 Masked Copy Number Segment, 此表是在上⾯数据上过滤掉了⼀些与⽣殖和性染⾊体相关的数据。
最后⼀个相关的表是 Copy Number Estimation ,是将序列区间聚焦到了基因上并评估基因是否是扩增或者缺失的。此数据是使⽤软件
TCGA Workflow: Analyze cancer genomics and epigenomics data using Bioconductor packages
GISTIC2.0 facilitates nsitive and confident localization of the targets of focal somatic copy-number alteration in human
总结下,分别使⽤了RAIG、GAIA、GISTIC2、Fisher exact test ⽅法,⼤概只有第四种最简单了吧。。
但好像也是依赖于GISTIC处理的。
我们就使⽤TCGA官⽅使⽤的GISTIC2.0 软件吧,虽然官⽅也⽤这个软件做了处理给出了我们⼀个阉割版的focal_data_
件,GISTIC2结果⽂件是很多的,在使⽤ R包 **vaftools **进⾏作图的时候需要多个结果⽂件作为输⼊。
GISTIC2使⽤
image.png