使⽤ROSE寻找超级增强⼦
⼀、⼯具介绍
⼆、ROSE在服务器上的安装
ROSE依赖软件有:Python 2.7.3, R 2.15.3, 和 SAMtools 0.1.18,因此在安装ROSE前,⾸先确保服务器上安装了这三个⼯具。关于这三个⼯具的安装,可以查看这篇博⽂: 。
ROSE安装⽅式见以下代码:
wget /young_computation/ro/get/1a9bb86b5464.zip
unzip 1a9bb86b5464.zip
# 解压后⽂件见下图,可以直接通过python *.py调⽤⼯具
三、具体使⽤
ROSE的最主要⽤法有ROSE_main.py和ROSE_geneMapper.py。其中ROSE_main.py ⽤于寻找增强⼦⽽ROSE_geneMapper.py ⽤于为增强⼦相关的基因进⾏注释。
ROSE_mian.py ⽤法
python ROSE_main.py -g GENOME_BUILD -i INPUT_CONSTITUENT_GFF \
-r RANKING_BAM -o OUTPUT_DIRECTORY \
[optional: -s STITCHING_DISTANCE -t TSS_EXCLUSION_ZONE_SIZE -c CONTROL_BAM]
# 参数解释
-g refq参考基因组faltto
-i 输⼊gff⽂件,⼀般为使⽤MACS鉴定得到的Med1富集区域(gff具体格式下⽂介绍)
-r 排序后的bam⽂件,同时需为bam添加index
-o 输出⽂件⽬录
#可选参数
适销对路
-s STITCHING_DISTANCE,合并两个region的最⼤距离,默认值为12.5kb
dandy 342
-t TSS_EXCLUSION_ZONE_SIZE,排除TSS区域⼤⼩,排除与TSS前后某距离内的区域,以排除启动⼦偏差(默认值:0;推荐值:2500)。如果设置该值为-c CONTROL_BAM,control样本的bam⽂件
输⼊⽂件格式要求:
保险费会计分录
bam⽂件格式要求:需要排序和构建index(samtools可以操作),bam⽂件的染⾊体id需要以chr开头。
ROSE也有转换bam为gff的⼯具,在运⾏ROSE_mian.py 时,会调⽤ROSE_bamToGFF.py 。
ROSE_main.py运⾏实例:
python $SOFT_PATH/ROSE_main.py -g HG38 -i $WORK_PATH/gtf/KYSE510_peaks.bed \
-r $WORK_PATH/samtools_sort/sort_treat1.bam -c $WORK_PATH/samtools_sort/sort_control1.bam \
-o $WORK_PATH/ROSE/KYSE510 -s12500 -t 20002>$LOG_PATH/KYSE510_enhancer.log
输出⽂件如下:
1.**OUTPUT_DIRECTORY/gff/*.gtf 该⽂件为输⼊gtf⽂件的副本;
计算机翻译器2.**OUTPUT_DIRECTORY/gff/*STITCHED*.gtf 该⽂件为通过在STITCHING_DISTANCE将INPUT_CONSTITUENT_GFF拼接在⼀起创建的
league是什么意思
gff⽂件;⽂件列数如下:
chrom, name, [blank], start, end, [blank], [blank], strand, [blank], [blank], name
其中 name 字段的命名⽅式为:拼接起来的区域数+最左端区域ID。
3.**OUTPUT_DIRECTORY/mappedGFF/*_MAPPED.gff 每个bam⽂件通过bamToGFF的输出⽂件,包含以下列:
(成分ID,测试区域,平均读取密度(单位为每百万位元每百万映射的单位读数密度))
4.**OUTPUT_DIRECTORY/mappedGFF/* _STITCHED * _MAPPED.gff 每个bam⽂件通过bamToGFF的输出⽂件,该⽂件中对增强⼦区域进⾏
了拼接,包含以下列:silence的意思
(拼接增强⼦ID,测试区域,平均读取密度(单位为百万映射每单位拼接增强⼦数))
5.**OUTPUT_DIRECTORY/STITCHED_ENHANCER_ bamToGFF计算后得到的拼接增强⼦密度⽂件,包含以下列:
(拼接增强⼦ID,染⾊体,拼接增强⼦起始位置,拼接增强⼦末端位置,拼接数,BAM信号等级,BAM信号)
6..**OUTPUT_DIRECTORY/*_ 增强⼦列表,包含每个增强⼦的排名和是否为超级增强⼦,包含以下列:
(增强⼦ID,染⾊体,拼接增强⼦起始位点,拼接增强⼦末端,拼接数,拼接成分⼤⼩,BAM的信号,BAM的等级,是否为超增强⼦:是
(1)否(0))
7.**OUTPUT_DIRECTORY/* _ 超级增强⼦的排名,为*_ ⽂件的⼦集。包含以下列:
(拼接增强剂ID,染⾊体,拼接增强⼦起始位点,拼接增强⼦末端,拼接数,缝合在⼀起的成分的⼤⼩,RANKING_BAM的信
号,RANKING_BAM的等级,超增强⼦的⼆进制(1)与典型(0))
8.**OUTPUT_DIRECTORY/*_Enhancers_withSuper.bed 可以加载到UCSC浏览器中可视化的增强⼦bed⽂件
9.**OUTPUT_DIRECTORY/*_Plot_points.png关于环保的英语作文
所有增强⼦散点图,如下图: ROSE_geneMapper.py ⽤法
ROSE_geneMapper.py 运⾏实例:
输出⽂件如下: 1.**OUTPUT_DIRECTORY/*ENHANCER_ enhancer重叠基因、附近基因以及最近的基因列表2.**OUTPUT_DIRECTORY/*GENE_ 以每个基因为列名的和其相关的增强⼦位置信息列表得到这两个表格即可对基因进⾏筛选然后进⾏GO及KEGG分析等。下图是运⾏两⼯具的结果截图:
Usage: ROSE_geneMapper.py [options] -g [GENOME] -i [INPUT_ENHANCER_FILE]
# 参数解释
-i INPUT 输⼊ROSE_mian.py ⽣成的enhancer table ⽂件
-g GENOME 输⼊genome 信息(MM9,MM8,HG18,HG19等)
西安网络培训
-o OUT 输出路径
# 可选参数
-
l GENELIST 要过滤的基因列表
-w WINDOW 搜索基因距离,默认值为50,000bp
-f format 如果使⽤此参数,将保持原输⼊⽂件格式输出经典英语散文
python $SOFT_PATH/ROSE_geneMapper.py -i $WORK_PATH/ROSE/TE7/TE7_peaks_ \-g HG38 -o $WORK_PATH/ROSE/TE7 2>$LOG_PATH/TE7_enhancer_anno.log
其中被红框标注的部分是ROSE_geneMapper.py 运⾏的结果。