fastq、fasta、bed、gtf、gff、sam、bam生信分析常见文件格式查看

更新时间:2023-07-24 06:53:45 阅读: 评论:0

fastq、fasta、bed、gtf、gff、sam、bam⽣信分析常见⽂件格
式查看
⽣信分析过程中的⽂件格式:
除了原始测序数据fastq、fasta之外,还有基因组⽂件fasta格式,基因注释⽂件gtf格式。
在分析的过程中还会有众多中间⽂件的⽣成,如bed、bed12、sam、bam、wig、bigwig、bedgraph等。
1.测序数据FASTQ⽂件
1)⽂件⽤途:
测序返回的⼀般数据格式。通常是压缩⽂件的格式。
2)格式说明:
fastq⽂件每4⾏代表⼀条序列
第⼀⾏:记录序列测序时所⽤仪器以及在测序通道中坐标信息,以@开头;
第⼆⾏:测序的序列信息,以ATCGN表⽰,由于荧光信号⼲扰⽆法判断是什么碱基时就⽤N表⽰;
第三⾏:通常⼀个+;
第四⾏:与第⼆⾏碱基信息⼀ ⼀对应,存储测序碱基的质量值(ASCII字符显⽰)。
3)查看⽅式:
zcat查看gzip压缩的⽂件
head -n 8 显⽰前8⾏⽂件内容(前8⾏代表2条序列)
zcat | head -n 8
@SRR1039521.13952745/1
TTCCTTCCTCCTCTCCCTCCCTCCCTCCTTTCTTTCTTCCTGTGGTTTTTTCCTCTCTTCTTC
+
HIJIIJHGHHIJIIIJJJJJJJJJJJJJJJJJJJJJIIJJFIDHIBGHJIHHHHHHFFFFFFE
计算read数
wc -l: 计算⾏数
bc -l: 计算器 (-l:浮点运算)
echo "zcat N0378901_ | wc-l / (4*1000000)" | bc -l #为什么除以4,⼜除以1000000,先计算⾏数再计算的是million值
zcat trt_N0378901_ | awk'{if(FNR%4==0) ba+=length}END{print ba/10^9,"G";}' # 测序碱基数计算2.基因组FASTA⽂件
2.1 基因组FASTA⽂件
2.1)⽂件⽤途
这类fasta⽂件⽤于基因组或者基因的DNA或者蛋⽩的序列信息存储。
2.2)⽂件格式
以 > 符号开头,记录了该序列类型和所在基因组位置信息,也称“序列名字⾏”;
“序列⾏”:⼀⾏或者多⾏,为序列信息,soft-masked基因组会把所有重复区和低复杂区的序列⽤⼩写字母标出基因组,⼩写字母n标⽰未知碱基。
“不成⽂”的⼩规范:
1)第⼀部分是序列名字,与>相连。
2)第⼆部分⽤空格与序列名字相隔,表⽰注释信息,可以没有。
列如:>gene_00284728 length=231;type=dna
>1 dna_sm:chromosomechromosome:GRCh38:1:1:248956422:1 REF
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
.....
ttgggctggggcctggccatgtgtatttttttaaatttccactgatgattttgctgcatg
gccggtgttgagaatgactgCGCAAATTTGCCGGATTTCCTTTGCTGTTCCTGCATGTA
TTTAAACGAGATTGCCAGCACCGGGTATCATTCACCATTTTTCTTTTCGTTAACTTGCCG
.....
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
通常要求序列名字⾏简单为好,⽽且⼀般加chr作为开头
给第⼀⾏添加chr标签,并去掉其他多余信息
下⾯的写法复杂了些,是为了避免给已经有chr信息的名字再加⼀次,帮助⽆脑操作
d 's/^> \ ([^chr])/ > chr\1/' Homo_sapiens.GRCh38.dna.primary_asmbly.fa |cut -f 1 -d ' ' > GRCh38.fa
2.2 测序FASTA⽂件
2.1)⽂件⽤途
这类fasta⽂件产⽣于测序的reads的fasta格式,⼀般为测序的fastq⽤软件转换⽽来。
2.2)⽂件格式
以 > 符号开头,记录了reads序列号,样本信息等;第⼆⾏为测得的reads的碱基信息。
>HWI-ST531R 144:D11RDACXX:4:1101:1212:1946 1:N:0:ATTCCT
ATNATGACTCAAGCGCTTCCTCAGTTTAATGAAGCTAACTTCAATGCTGAGATCGTTGACGACATCGAATGGG 3. 基因组注释⽂件gff和gtf
gff全称General featureformat,主要是⽤来注释基因组。
gtf全称Gene transfer format,主要是⽤来对基因进⾏注释。tremme
两者均是⼀个9列的基因信息注释⽂件,前8列的信息⼏乎⼀样,区别在于第9列。
gff⽂件格式:
GFF⽂件是以tab键分割的9列组成,以下为每⼀列的对应信息:
1)q_id:序列的编号,⼀般为chr或者scanfold编号;
2)source: 注释的来源,⼀般为数据库或者注释的机构,如果未知,则⽤点“.”代替。
3)type: 注释信息的类型,⽐如Gene、cDNA、mRNA、CDS等;
4)start: 该基因或转录本在参考序列上的起始位置;(从1开始,包含);
5)end: 该基因或转录本在参考序列上的终⽌位置;(从1开始,包含);
6)score: 得分,数字,是注释信息可能性的说明,可以是序列相似性⽐对时的E-values值或者基因预测是的P-values值,.表⽰为空;
mote7)strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
8)pha: 仅对注释类型为“CDS”有效,表⽰起始编码的位置,有效值为0、12 。(对于编码蛋⽩质的CDS来说,本列指定下⼀个密码⼦开始的位置。每3个核苷酸翻译⼀个氨基酸,从0开始,CDS的起始位置,除以3,余数就是这个值,,表⽰到达下⼀个密码⼦需要跳过的碱基个数。该编码区第⼀个密码⼦的位置,取值0,1,2。0表⽰该编码框的第⼀个密码⼦第⼀个碱基位于其5’末端;1表⽰该编码框的第⼀个密码⼦的第⼀个碱基位于该编码区外;2表⽰该编码框的第⼀个密码⼦的第⼀、⼆个碱基位于该编码区外;如果Feature为CDS时,必须指明具体值。);
9)attributes: ⼀个包含众多属性的列表,格式为“标签=值”(tag=value),以多个键值对组成的注释信息描述,键与值之间⽤“=”,不同的键值⽤“;”隔开,⼀个键可以有多个值,不同值⽤“,”分割。注意如果描述中包括tab键以及“,= ;”,要⽤URL转义规则进⾏转义,如tab 键⽤ (空格)代替。键是区分⼤⼩写的,以⼤写字母开头的键是预先定义好的,在后⾯可能被其他注释信息所调⽤。
预先定义的键主要包括:
ID:注释信息的编号,在⼀个GFF⽂件中必须唯⼀;
name:注释信息的名称,可以重复;Alias:别名;Parent > >
Indicates:该注释所属的注释,值为注释信息的编号,⽐如外显⼦所属的转录组编号,转录组所属的基因的编号。
Parent指明feature所从属的上⼀级ID,⽤于将exons聚集成transcript,将transripts聚集成gene,值可以为多个;
Target 指明⽐对的⽬标区域,⼀般⽤于表明序列的⽐对结果。格式为 “target_idstart end [strand] ,其中strand是可选的(“+”或”-”),target_id中如果包含空格,则要转换成’ ‘。
Gap:T⽐对结果的gap信息,和Target⼀起,⽤于表明序列的⽐对结果。Derives_from:Note:备注;Dbxref:数据库索引。
gtf⽂件格式:
GTF格式⼤部分与GFF相同,但有两个硬性标准:
新思维培训学校
1. feature types是必须注明的;
abyss
新视野大学英语第二版第二册答案2. 第9列必须以gene_id以及transcript_id开头。⽽且GTF⽂件的第9列同GFF⽂件不同,虽然同样是标签与值配对的情况,但标签与值之间以空
格分开,且每个特征之后都要有分号;(包括最后⼀个特征);
gene_id “geneA”;transcript_id “geneA.1”;databa_id “0012”;modified_by “Damian”;duplicates 0;verna
gtf⽂件可通过下⾯的命令对⽂件进⾏加⼯查看:
gunzip Homo_sapiens.f.gz -c |grep -v '^#' | d '/ ^ [^ chr ] / s/^/chr/' |less # grep 匹配查询 -v 输出不匹配的⾏
gff⽂件与gtf⽂件相互转换:
使⽤Cufflinks⾥⾯的⼯具gffread
gff2gtf
gffread my.gff3 -T -f
gtf2gff
f -o- > merged.gff3
GTF ⽂件中提取转录本序列(.fa):
Cufflink中的gffread
f –g genome.fa –w transcripts.output.fa # 获取转录本序列
f –g genome.fa -x cds.output.fa # 获取CDS序列
f –g genome.fa -y protein.output.fa # 获取蛋⽩序列
日语能力等级考试Tophat中的gtf_to_fasta
gtf_to_f genome.fa out_file
从GTF中提取转录本信息
利⽤AWK命令:
d 's/"/\t/g' f | awk -F '[\t|;]' '{ OFS="\t" } $3 == "transcript" {print $1,$4,$5,$10,0,$7} ' |d 's/ transcript_id "//g'|d 's/"//g'|less -S &
4. bed⽂件die casting
bed⽂件⼀般代表区域信息,如表⽰peak位置的bed⽂件,表⽰基因注释的bed12⽂件。
表⽰基因注释时,gtf/gff和bed⽂件的区别
1)gtf/gff⽂件⼀⾏表⽰⼀个exon/CDS等⼦区域,多⾏联合表⽰⼀个gene;bed⽂件⼀⾏表⽰⼀个gene;
2)gtf⽂件中碱基位置定位⽅式是1-bad(即起始的碱基记为1),⽽bed中碱基定位⽅式是0-bad(即起始的碱基记为0)。
bed⽂件每⼀⾏对应信息
必须包含的3列信息:
1)chrom:染⾊体名字 (e.g.chr3, chrY, chr2_random或者scaffold10671)。
2)chromStart:基因在染⾊体或scaffold上的起始位置(0-bad)。
万圣节电影3)chromEnd:基因在染⾊体或scaffold上的终⽌位置 (前闭后开)。
可选的9列信息:
4)name:bed⽂件的⾏名。
5)score:本条基因在注释数据集⽂件中的评分(0-1000),在Genome Browr中会根据不同区段的评分显⽰对应的阴影强度(评分越⾼灰度越⾼)。
6)strand:链的⽅向+、-或. (.表⽰不确定链的⽅向)
7)thickStart:CDS区(编码区)的起始位置,即起始密码⼦的位置。
8)thickEnd:The endingposition at which the feature is drawn thickly (for example the stop codon ingene displays).
phonetic9)itemRgb:RGB颜⾊值(如:255,0,0),⽅便在GenomeBrowr中查看。
10)blockCount:bed⾏中外显⼦的数⽬。
11)blockSizes:逗号分割的列,数⽬与blockCount值对应,每个数表⽰对应外显⼦的碱基数。
12)blockStarts:逗号分割的列,数⽬与blockCount值对应,每个数表⽰对应外显⼦的起始位置(数值是相对ChromStart计算的)。5. sam和bam⽂件

本文发布于:2023-07-24 06:53:45,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/187031.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:信息   注释   序列   碱基   测序   位置   起始   转录
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图