一步一步教你做转录组分析

更新时间:2023-07-24 07:28:54 阅读：评论：0

大量的一步一步教你做转录组分析（HISAT, StringTie and Ballgown）

六人行下载

该分析流程主要根据2016年发表在Nature Protocols

上的一篇名为Transcript-level expression analysis of

RNA-q experiments with HISAT, StringTie and Ballgown的文章撰写的，主要用到以下三个软件：HISAT ()利用大量FM 索引，以覆盖整个基因组，能够将RNA-Seq的读取与基因组进行快速比对，相较于STAR、Tophat，该软件比对速度快，占用内存少。StringTie()能够应用流神经网络算法和可选的de novo组装进行转录本组装并预计表达水平。与Cufflinks等程序相比，StringTie实现了更完整、更准确的基因重建，并更好地预测了表达水平。Ballgown ()是R语言中基因差异表达分析的工具，能利用RNA-Seq实验的数据(StringTie, RSEM, Cufflinks)的结果预测基因、转录本的差异表达。然而Ballgown并没有不能很好地检测差异外显子，而DEXq、rMATS和MISO可以很好解决该问题。

一、数据下载Linux系统下常用的下载工具是wget，但该工具是单线程下载，当使用它下载较大数据时比较慢，所以选择axel，终端中输入安装命令：$sudo yum install axel然后提示输入密码获得root权限后即可自动安装，安装完成后，输入命令axel，终端会显示如下内容，表示安装成功。

Axel工具常用参数有：axel ［选项］［下载目录］［下载地址］

courage什么意思-

s ：指定每秒下载最大比特数-n：指定同时打开的线程数-o：指定本地输出文件-S：搜索镜像并从X rvers服务器下载-N：不使用代理服务器-v：打印更多状态信息-a：打印进度信息-h：该版本命令帮助-V：查看版本信息号#Axel安装成功后在终端中输入命令：$axel 此时在终端中会显示如下图信息，如果不想该信息刷屏，添加参数q，采用静默模式即可。

#数据下载后，进行解压：$tar–zxvfchrX_解压后利用tree命令查看数据结构，它会以树状图的形式列出目录的内容。整个数据的结构如下图所示：

chrX_gtf是X号染色体的注释文件chrX.fa是X号染色体的序列文件indexes文件夹中是HISAT对于X号染色体的index 文件，该文件是根据序列文件chrX.fa利用hisat2-build构建的，samples文件夹中的12个fastq文件是英格兰岛和约鲁巴住民的X号染色体的数据。

二、软件安装首先安装bioconda，它是一个自动化管理生物信息软件的工具，安装简单，且各个软件依赖的环境一同打包且相互隔离，非常适合在服务器中搭建生信分析环境。#下载和安装miniconda$ wget 下载完成后在终端中安装$bash Miniconda-latest-Linux-x86_64.sh按照提示安装，完成后$source ~/.bashrc #使以上的安装立即生效#输入以下命令检验miniconda是否安装成功$ conda list显示如下图信

息说明安装成功

然后利用conda install 软件名+版本号安装软件即可，我们需要安装hisat2、stringtie、samtools三个软件，安装的命令为：$ condainstall hisat2$ condainstall stringtie$ condainstall samtools

三、分析流程1、使用HISAT将读段匹配到参考基因组上,

使用者可以提供注释文件，但HISAT依旧会检测注释文件没有列出来的剪切位点。2、比对上的reads将会被呈递给StringTie进行转录本组装，StringTie单独的对每个样本进行组装，在组装的过程中顺带估算每个基因及isoform的表达水平。3、所有的转录本都被呈递给StringTie的merge函数进行merge，这一步是必须的，因为有些样本的转录本可能仅仅被部分reads覆盖，无法被第二步的StringTie组装出来。merge步骤可以创建出所有样本里面都有的转录本，方便下一步的对比。4、merge的数据再一次被呈递给StringTie，StringTie可以利用merge的数据重新估算转录本的丰度，还能额外的提供转录本reads数量的数据给下一步的ballgown。5、Ballgown从上一步获得所有转录本及其丰度，根据实验条件进行分类统计。

lullaby for lucas四、实战

首先使用hisat2进行比对，具体用法：hisat2 [options]* -x {-1 -2 | -U | –sra-acc } [-S ]主要参数：-x ：参考基因组

索引文件的前缀。

逛街购物

shakira好听的歌

-1 ：双端测序结果的第一个文件。若有多组数据，使用逗号将文件分隔。Reads的长度可以不一致。

-2 ：双端测序结果的第二个文件。若有多组数据，使用逗号将文件分隔，并且文件顺序要和-1参数对应。Reads的长度可以不一致。

wssa-S ：指定输出的SAM文件。由于该样本采用双端测序，文件数稍多，利用脚本一次性执行$ for i in ;dohisat2 -p 4 -x chrX_data/indexes/chrX_tran -1

chrX_data/samples/ERR$_chrX_ -2

chrX_data/samples/ERR$_chrX_ -S

ERR$_chrX.samdone将该脚本保存为1.sh，在终端中运行即可，即：sh ~/脚本/所处/位置/1.sh脚本执行完即可得到右图中12个sam文件。SAM(Sequence Alignment/Map)格式是一种通用的比对格式，用来存储reads到参考序列的比对信息。下图是输出的比对结果，可以看到在比对样本ERR188044时，共有1321477条reads，其中8.53%一次也未比对上，89.68%比对上了一次，1.79%不止一次比对上，将其中8.53%一次也未比对上的不按照顺序进行比对，发现有4.08%比对上了一次，再将剩余的108188条reads进行单端比对，发现50.47%未比对上，48.33%比对上了一次，1.20%比对上不止一次，最后结果是，总共比对上了95.87%。其他的比对结果

就不一一解释了。最终我们获得了12个sam文件：

然后通过samtools将sam文件转换为bam文件，作为stringtie的输入文件，具体脚本为：$ for i in ;dosamtools sort -@ 4 -o ERR$_chrX.bamERR$_chrX.samdone此处sort默认输出的bam文件是按其基因组位置排序，而tophat的输出的bam文件即是按此顺序排序的。sort -n 则是按reads的ID排序。bam文件为二进制文件，占用的磁盘空间比sam 文本文件小；利用bam二进制文件的运算速度快将脚本保存为3.sh，直接在终端中执行脚本sh ~/脚本/所在/位置/3.sh，最终得到的结果如下图。接下来利用stringtie对转录组进行组装，会针对每个bam文件生成一个gtf文件，它主要记录了转录本的组装信息，同样用一个小脚本执行该步操作：$ for i in ;dostringtie -p 8 -G ./f -o

越狱全集

ERR$_f -l ERR$ ERR$_chrX.bamDone具体结果如下图：

然后利用软件stringtie将12个含有转录本信息的gtf文件合并成一个gtf，此时需要预先将12个GTF文件的文件名录入到文件中，下载的数据中已经给出该文件，执行完会多出一个GTF文件，即f：$stringtie--merge -p 8 -G ./f -o

术语英文f./神气的意思

参数--merge为转录本合并模式。在合并模式下，stringtie

本文发布于:2023-07-24 07:28:54，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/78/1114168.html

上一篇：fpkm值名词解释

下一篇：(案件概览)Ca View