宏基因组上机操作手册

更新时间:2023-07-22 15:51:25 阅读: 评论:0

目录
0. 准备工作    2
1. 宏基因组比对    2
2. 宏基因组组装    3
2.1 组装软件:SOAPdenovo    3
2.2 组装软件:Meta-Velvet    6
3 基因预测    6
4 构建基因集    7

0. 准备工作
上机步骤如下:
mkdir ~/Metagenome    #新建工作目录
房屋委托书怎么写cd ~/Metagenome    #进入工作目录
cp -R /RealBio_Train/Metagenome/01_clean_reads ./    #拷贝数据
1. 宏基因组比对
宏基因组的序列可以通过SOAPaligner比对软件,比对上目标基因组,从而进行物种注释或计算物种丰度。SOAPaligner需要先对目标基因组进行建库,建库命令如下:
2bwt-builder <quence file>
SOAPaligner用法:
soap –a <reads_a> -b <reads_b> -D <index.files> -o <PE_output> -2 <SE_output> -m <min_inrt_size> -x <max_inrt_size>
其他重要参数:
Option
Type
    Content
-r
INT
匹配到多处时的策略:
0:不显示;1:随机显示一个;2:全部
-M
INT
匹配模式:0:只允许完全匹配;1:允许一个错配;
2:允许两个错配;4:最佳匹配
-p
INT
程序运行的线程个数
上机内容为:
将拷贝得到的reads比对上微生物的基因组。
上机步骤如下:
cd ~/Metagenome    #先进入个人目录下的工作目录
mkdir 02_alignment    #新建02_alignment目录
cd 02_alignment    #进入比对目录
cp /RealBio_Train/Metagenome/02_aligner/soapaligner.sh ./    #拷贝比对脚本
less test01.pm    #查看比对结果
less test01.sm    #查看比对结果
2. 宏基因组组装
基因组组装是指将测序仪产出的大量的DNA片段(Reads)拼接成原始的待测物种的染色体序列,可以类比为拼图游戏。本手册指导你如何使用SOAPdenovo(2.04)组装软件对鸟枪法测序数据进行组装。
2.1 组装软件:SOAPdenovo
SOAPdenovo的功能是对二代测序数据进行从头组装。使用SOAPdenovo前首先要清楚的是它的组装配置文件,该文件包含以下信息:
Option
    Content
全局配置
max_rd_len
记录输入数据的最大读长,并根据这个配置输入缓存大小。
文库配置,每个文库需要以[LIB]表明
avg_ins
教师师德考核个人总结
记录当前文库插入片段大小。
asm_flags
用来配置流程中哪些步骤用到当前文库数据:
1,表示当前文库只在构建contig时用到;
2,表示当前文库只在构建scaffold时用到;
3,表示当前文库在构建contig与scaffold时都用到。
rank
配置构建scaffold时当前文库的使用优先级,由于单端的reads不用于构建scaffold,该文库不用设置rank参数。
q1/q2,q
配置当前文库数据路径,q1/q2用于配置双端的reads,q用于配置单端的reads
本次上机使用到的完整的配置文件内容如下:
配置文件完成后,即可开始进行组装。组装分四步骤操作。
四个步骤分别是:
1. pregraph,De Bruijn图构建。输入组装配置文件,输出图信息文件,主要参数如下:
Option
Type
    Content
-s
CONFIG
指定组装配置文件
-o
PREFIX
指定输出文件的前缀,由用户随意设定
-p
INT
指定使用的线程数目。SOAPdenovo使用了多线程技术以充分利用计算机资源,一般取运行机子的cpu核心数目即可,如你的机器是双核一个cpu的,那么可指定为2
-K
INT
指定需要构建De Bruijn图的kmer大小,应根据SOAPdenovo的版本设定。如使用31mer版本,则可取kmer为31,29,27等
-d
INT
指定构建完De Bruijn图后,需要对深度小于多少的kmer进行过滤,一般设置为1
2. 构建contig。输入上一步骤产生的图文件,输出contig序列文件,主要参数如下:
Option
Type
    Content
-g
PREFIX
输入图文件前缀,应该与上面步骤中的-o参数一致
-D
INT
设定在进行构建contig时,需要对深度低于该设定参数的contig连接边进行过滤。默认取值为1
-M
INT
数字分析
设定在进行构建contig时,可以先对相似的序列进行合并,参数最大取值为3,表示最大程度合并相似序列;最小取值为0,表示不对相似序列进行合并。这里取经验值2
-R
 
选择是否利用reads的相邻kmer信息解决短重复序列,一般选择利用
3.测序数据map回contig序列。在搭建scaffold前,需要先将输入数据比对回contig序列中,输出比对信息。SOAPdenovo在这一步中会将reads打碎成kmer,将一个个kmer比对回contig上,涉及到的参数有:
Option
Type
    Content
-s
STR
输入组装配置文件
-g
STR
输入De Bruijn图文件的前缀,应该与上面步骤1中的-o参数一致
-p
INT
指定多线程运行使用的cpu个数
4.搭建scaffold。输入上步产生的contig文件和原始数据的比对信息文件,SOAPdenovo将根据比对的pair关系信息,搭建scaffold,主要参数有:
Option
Type
    Content
-g
STR
输入De Bruijn图文件的前缀,应该与上面步骤1中的-o参数一致
-F
可选参数
选择是否在搭建完scaffold后对其进行补洞。SOAPdenovo内置有补洞流程,主要思路是把落在内洞中的reads进行局部组装,把装好的序列嵌入到内洞中去,完成补洞工作
-u
可选参数
选择是否需要对高深度的contig进行屏蔽后再搭建scaffold。SOAPdenovo默认会对高深度的contig进行屏蔽,以减少重复序列的影响,选择此参数,将不对高深度的contig进行屏蔽
-L
INT,可选参数
选择选取多长以上的contig进行scaffold搭建。SOAPdenovo默认选取kmer+2
上机内容为:
将上一步得到的clean reads进行SOAPdenovo组装,得到contig。
上机操作的步骤如下:
cd ~/Metagenome    #先进入个人目录下的工作目录
mkdir 03_asmbly    #新建03_Asmbly 目录
cd 03_asmbly    #进入组装目录
mkdir CFG
cp /RealBio_Train/Metagenome/03_asmbly/CFG/test01.cfg CFG/ #拷贝 组装的config文件到当前目录
mkdir shell    #新建脚本目录
天津城建大学研究生院cp /RealBio_Train/Metagenome/03_asmbly/shell/test01_Kmer31.sh shell/    #拷贝组装
脚本到脚本目录
mkdir asmble    #新建结果目录
mkdir asmble/test01
sh shell/test01_Kmer31.sh    #运行组装脚本
less asmble/test01/test01.scafSeq    #查看组装结果
ss.o asmble/test01/test01.scafSeq    #查看组装统计结果
模仿CFG/test01.cfg,生成test02文件的config文件CFG/test02.cfg,插入片段长度为412;模仿shell/test01_Kmer31.sh,生成关于test02文件的组装脚本shell/test02_Kmer37.shkmer值设为37
mkdir asmble/test02
sh shell/test02_Kmer37.sh    #运行组装脚本
less asmble/test02/test02.scafSeq    #查看组装结果
ss.o asmble/tets02/test02.scafSeq    #查看组装统计结果
2.2 组装软件:Meta-Velvet
Meta-Velvet是在原来基因组组装软件Velvet基础上改进的,适合宏基因组数据的组装软件。主要参数如下:
高铁票退票
Option
Type
    Content
-cov_cutoff
INT or auto
De Bruijn图中节点过滤参数,节点层数小于该参数即被过滤
-ins_length
INT
插入片段长度,reads长度加上gaps长度
-exp_cov
INT or auto
大数的认识测试题
基因组覆盖层数,这里选auto
上机内容为:
将上一步得到的test03样品的clean reads进行SOAPdenovo组装,得到contig。
上机操作的步骤如下:
鸡翅根的做法大全cd ~/Metagenome    #先进入个人目录下的工作目录
cd 03_asmbly    #进入组装目录
cp /RealBio_Train/Metagenome/03_asmbly/shell/test03_Kmer31.sh shell/    #拷贝组装脚本到脚本目录
mkdir asmble/test03
sh shell/test03_Kmer31.sh    #运行脚本
less asmble/igs.fa    #查看组装结果
ss.o asmble/igs.fa    #查看统计结果
3 基因预测
宏基因组一般使用MetaGeneMark预测contig中的cds(coding quence)序列。
Option
Type
    Content
-a
输出基因碱基序列
-d
输出基因蛋白序列
-f
可选参数
选择输出格式:L为lst文件,G为gff文件,一般使用gff文件作为输出格式
-k
利用RBS序列预测基因起始位点
-r
应用题五年级上册
输出RBS序列的打分与间隔序列
上机内容为:
将上一步得到的clean reads进行SOAPdenovo组装,得到contig。
上机操作的步骤如下:
cd ~/Metagenome    #先进入个人目录下的工作目录
mkdir 04_gene_predict    #新建04_Gene_predict目录

本文发布于:2023-07-22 15:51:25,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1092115.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:组装   进行   序列   文件   目录   使用   数据
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图