首页 > 美文鉴赏

使用ROSE寻找超级增强子

更新时间:2023-05-14 13:21:17 阅读：评论：0

自己爱自己使⽤ROSE寻找超级增强⼦

⼀、⼯具介绍

⼆、ROSE在服务器上的安装

离歌原唱

ROSE依赖软件有：Python 2.7.3, R 2.15.3, 和 SAMtools 0.1.18，因此在安装ROSE前，⾸先确保服务器上安装了这三个⼯具。关于这三个⼯具的安装，可以查看这篇博⽂：。

ROSE安装⽅式见以下代码：

wget /young_computation/ro/get/1a9bb86b5464.zip

unzip 1a9bb86b5464.zip

# 解压后⽂件见下图，可以直接通过python *.py调⽤⼯具

三、具体使⽤

ROSE的最主要⽤法有ROSE_main.py和ROSE_geneMapper.py。其中ROSE_main.py ⽤于寻找增强⼦⽽ROSE_geneMapper.py ⽤于为增强⼦相关的基因进⾏注释。

ROSE_mian.py ⽤法

python ROSE_main.py -g GENOME_BUILD -i INPUT_CONSTITUENT_GFF \

-r RANKING_BAM -o OUTPUT_DIRECTORY \

[optional: -s STITCHING_DISTANCE -t TSS_EXCLUSION_ZONE_SIZE -c CONTROL_BAM]

# 参数解释

-g refq参考基因组

-i 输⼊gff⽂件，⼀般为使⽤MACS鉴定得到的Med1富集区域（gff具体格式下⽂介绍）

-r 排序后的bam⽂件，同时需为bam添加index

时间都去哪儿了歌词-o 输出⽂件⽬录

#可选参数

-s STITCHING_DISTANCE，合并两个region的最⼤距离，默认值为12.5kb

-t TSS_EXCLUSION_ZONE_SIZE，排除TSS区域⼤⼩，排除与TSS前后某距离内的区域，以排除启动⼦偏差（默认值：0；推荐值：2500）。如果设置该值为-c CONTROL_BAM，control样本的bam⽂件

输⼊⽂件格式要求：

bam⽂件格式要求：需要排序和构建index（samtools可以操作），bam⽂件的染⾊体id需要以chr开头。

规范研究法ROSE也有转换bam为gff的⼯具，在运⾏ROSE_mian.py 时，会调⽤ROSE_bamToGFF.py 。

ROSE_main.py运⾏实例：

python $SOFT_PATH/ROSE_main.py -g HG38 -i $WORK_PATH/gtf/KYSE510_peaks.bed \

-r $WORK_PATH/samtools_sort/sort_treat1.bam -c $WORK_PATH/samtools_sort/sort_control1.bam \

-o $WORK_PATH/ROSE/KYSE510 -s12500 -t 20002>$LOG_PATH/KYSE510_enhancer.log

输出⽂件如下：

1.**OUTPUT_DIRECTORY/gff/*.gtf 该⽂件为输⼊gtf⽂件的副本；

2.**OUTPUT_DIRECTORY/gff/*STITCHED*.gtf 该⽂件为通过在STITCHING_DISTANCE将INPUT_CONSTITUENT_GFF拼接在⼀起创建的

gff⽂件；⽂件列数如下：

chrom, name, [blank], start, end, [blank], [blank], strand, [blank], [blank], name

束手无策近义词

颜色性格测试其中 name 字段的命名⽅式为：拼接起来的区域数+最左端区域ID。

3.**OUTPUT_DIRECTORY/mappedGFF/*_MAPPED.gff 每个bam⽂件通过bamToGFF的输出⽂件，包含以下列：

（成分ID，测试区域，平均读取密度（单位为每百万位元每百万映射的单位读数密度））

4.**OUTPUT_DIRECTORY/mappedGFF/* _STITCHED * _MAPPED.gff 每个bam⽂件通过bamToGFF的输出⽂件，该⽂件中对增强⼦区域进⾏大班反思

了拼接，包含以下列：

（拼接增强⼦ID，测试区域，平均读取密度（单位为百万映射每单位拼接增强⼦数））

5.**OUTPUT_DIRECTORY/STITCHED_ENHANCER_ bamToGFF计算后得到的拼接增强⼦密度⽂件，包含以下列：

（拼接增强⼦ID，染⾊体，拼接增强⼦起始位置，拼接增强⼦末端位置，拼接数，BAM信号等级，BAM信号）

6..**OUTPUT_DIRECTORY/*_ 增强⼦列表，包含每个增强⼦的排名和是否为超级增强⼦，包含以下列：

（增强⼦ID，染⾊体，拼接增强⼦起始位点，拼接增强⼦末端，拼接数，拼接成分⼤⼩，BAM的信号，BAM的等级，是否为超增强⼦：是

（1）否（0））

7.**OUTPUT_DIRECTORY/* _ 超级增强⼦的排名，为*_ ⽂件的⼦集。包含以下列：

（拼接增强剂ID，染⾊体，拼接增强⼦起始位点，拼接增强⼦末端，拼接数，缝合在⼀起的成分的⼤⼩，RANKING_BAM的信

号，RANKING_BAM的等级，超增强⼦的⼆进制（1）与典型（0））

8.**OUTPUT_DIRECTORY/*_Enhancers_withSuper.bed 可以加载到UCSC浏览器中可视化的增强⼦bed⽂件

9.**OUTPUT_DIRECTORY/*_Plot_points.png

所有增强⼦散点图，如下图： ROSE_geneMapper.py ⽤法

ROSE_geneMapper.py 运⾏实例：

凉拌牛肉片

输出⽂件如下： 1.**OUTPUT_DIRECTORY/*ENHANCER_ enhancer重叠基因、附近基因以及最近的基因列表2.**OUTPUT_DIRECTORY/*GENE_ 以每个基因为列名的和其相关的增强⼦位置信息列表得到这两个表格即可对基因进⾏筛选然后进⾏GO及KEGG分析等。下图是运⾏两⼯具的结果截图：

Usage: ROSE_geneMapper.py [options] -g [GENOME] -i [INPUT_ENHANCER_FILE]

# 参数解释

-i INPUT 输⼊ROSE_mian.py ⽣成的enhancer table ⽂件

-g GENOME 输⼊genome 信息（MM9,MM8,HG18,HG19等）

-o OUT 输出路径

# 可选参数

l GENELIST 要过滤的基因列表

-w WINDOW 搜索基因距离，默认值为50,000bp

-f format 如果使⽤此参数，将保持原输⼊⽂件格式输出

python $SOFT_PATH/ROSE_geneMapper.py -i $WORK_PATH/ROSE/TE7/TE7_peaks_ \-g HG38 -o $WORK_PATH/ROSE/TE7 2>$LOG_PATH/TE7_enhancer_anno.log

其中被红框标注的部分是ROSE_geneMapper.py 运⾏的结果。

本文发布于:2023-05-14 13:21:17，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/89/897347.html

上一篇：2021普通党员个人述职报告三篇

下一篇：针织机针距与路数的关系

标签：增强拼接基因区域格式起始

留言与评论（共有 0 条评论）