Bulk-RNA-q流程——从测序数据到count⽂件(AGSdata)2022-2-11
软件安装
conda的安装和配置
wget -inuum.io/miniconda/Miniconda3-latest-Linux-x86_64.sh
chmod 777 Miniconda3-latest-Linux-x86_64.sh #给执⾏权限
bash Miniconda3-latest-Linux-x86_64.sh #运⾏
当命令⾏前⾯出现(ba)的时候说明现在已经在conda的环境中了
conda config --add channels bioconda
红衣男骇conda config --add channels conda-forge
清华镜像,哈⼯⼤镜像
与虎谋皮
conda config --add channels mirrors.tuna.tsinghua.edu/anaconda/pkgs/free/
conda config --add channels mirrors.tuna.tsinghua.edu/anaconda/pkgs/main/
conda config --add channels mirrors.tuna.tsinghua.edu/anaconda/cloud/conda-forge/
conda config --add channels mirrors.tuna.tsinghua.edu/anaconda/cloud/bioconda/
conda config --add channels mirrors.hit.edu/anaconda/cloud/
conda config --add channels mirrors.hit.edu/anaconda/pkgs/free/
conda config --add channels mirrors.hit.edu/anaconda/pkgs/main/
创建名为rna的环境变量:conda create -n rna python=2(许多软件依赖python2环境)环境退出:conda deactivate
#创建名为rna的环境变量,许多软件依赖python2环境
conda create -n rna python=2
To activate this environment, u
#
# $ conda activate rna
#
# To deactivate an active environment, u
#
# $ conda deactivate
conda安装⽣信软件
conda activate rna
# 很多软件需要python版本较低大城管
conda install multiqc
conda install trim-galore
conda install hisat2
conda install samtools
中国哈萨克conda install RSeQC
测序数据处理
数据下载
axel -a "下载链接"
质控QC
fastqc⽣成质控报告,multiqc将各个样本的质控报告整合为⼀个。
#! /bin/bash
# Ud for RNA-q data by FastQC and multiQC
#Usage
# fastqc -o [output dir] --(no)extract -f [fastq|bam|sam] -c [contaminant file] qfile1 .. qfileN #简写代码:fastqc -t 8 -o <out-dir> qfile1
cd /mnt/AGS_RNA-q/raw_data
ls *gz | xargs fastqc -t 64
multiqc ./
质控报告
Basic Statistics
从read⽔平来总览,判断测序质量。
Encoding :测序平台的版本,因为不同版本的 error p的计算⽅法不⼀样。
Total quence:测序深度。⼀共测序的read数。是质量分析的主要参数。
Sequence length:测序长度。
%GC:GC碱基含量⽐,⼀般是物种特异性,⽐如⼈类是42%左右。欧洲风情小镇
Perba quence quality
横坐标: 第1-100个测序得到的碱基
纵坐标: 测序质量评估。这⾥的Q=-10*lg10(error P),即20%代表1%的错误读取率,30%代表0.1%的错误读取率
箱型图: 红⾊线,是某个顺序下测序碱基所有测序质量的中位数。黄⾊块,是测序质量在25%-75%区域。蓝⾊线,平均数。
⼀般要求: 测序箱型图10%的线⼤于Q=20。Q20过滤法。
per tail quence quality
兵荒马乱造句横坐标:同上。
纵坐标:tail的index编号。
⽬的:防⽌测序过程中某些tail受不可控因素测序质量低。
标准:蓝⾊表⽰质量⾼,浅⾊或暖⾊表⽰质量低,后续的分析可以去除低质量tail
trim_galore去除低质量reads
trim_galore的参数
trim_galore [options] <filename>
--quality<int> #设定phred quality阈值。默认20(99%的read质量),如果测序深度较深,可以设定25
--phred33 #设定记分⽅式,代表Q+33=ASCII码的⽅式来记分⽅式
--paired # 对于双端结果,⼀对reads中若⼀个read因为质量或其他原因被抛弃,则对应的另⼀个read也抛弃。
--output_dir #输出⽬录
--length #设定长度阈值,⼩于此长度会被抛弃
--strency #设定可以忍受的前后adapter重叠的碱基数,默认是1学有所成的意思
-e<ERROR rate> #设定默认质量控制数,默认是0.1,即ERROR rate⼤于10%的read 会被舍弃,如果添加来--paired参数则会舍弃⼀
对reads
这⼩东西还挺贼,安装是连字符,运⾏就成了下划线
#! /bin/bash
cd /mnt/AGS_RNA-q/clean_data
ls /mnt/AGS_RNA-q/raw_data/*. >1
ls /mnt/AGS_RNA-q/raw_data/*. >2豌豆炒虾仁
paste 1 2 > config
dir='/mnt/AGS_RNA-q/clean_data'
cat config |while read id
do
arr=(${id})
fq1=${arr[0]}
fq2=${arr[1]}
trim_galore -q 20 --phred33 --length 36 --stringency 3 --paired $fq1 $fq2 -o $dir
done
数据⽐较⼤,2.5G的⼤概要⼗来分钟
再次QC检验cleandata
#! /bin/bash
ls /mnt/AGS_RNA-q/clean_data/*gz | xargs fastqc -t 64
multiqc ./
mapping
常⽤软件有star和HISAT2
下载索引⽂件
cd /mnt/AGS_RNA-q/index_hisat2
axel genome-idx./hisat/grch38_
tar zxvf grch38_
grch38_tran/
grch38_tran/genome_tran.5.ht2
grch38_tran/genome_tran.2.ht2
grch38_tran/genome_tran.3.ht2
grch38_tran/genome_tran.4.ht2
grch38_tran/make_grch38_tran.sh
grch38_tran/genome_tran.7.ht2
grch38_tran/genome_tran.8.ht2
grch38_tran/genome_tran.1.ht2
grch38_tran/genome_tran.6.ht2
HISAT2⽤法
HISAT2 version 2.1.0 by Daehwan Kim (, wwwb.jhu.edu/people/infphilo)
Usage:
hisat2 [options]* -x <ht2-idx> {-1 <m1> -2 <m2> | -U <r> | --sra-acc <SRA accession number>} [-S <sam>]