⽣物信息学常⽤名词解释(六)出国留学人员须知
在⽣物信息中会出现很多的特殊名词,从这次内容开始,我们将逐渐推送⼀些⽣物
信息相关的⼀些名词解释。
Read:⾼通量测序平台产⽣的短序列就称为reads,也称为⼀个读段,reads可以是单独⼀条,成为Single End reads,简称SE read,也可以是两条具有物理关系的⼀对reads,根据reads⽅向,可以分为Pair-end reads和mate-pair reads,简称为PE reads。在很多分析中会利⽤管道reads之间的关系。
tresorContig:来⾃于单词contiguous,拼接软件基于reads之间的overlap关系,连接成为更长的序列为contig,contig序列之间不再具有overlap关系,也不包含N碱基。
Scaffold:基因组拼接得到contig序列之后,通过reads之间的pair-end或者mate-pair关系,连接成更长的⽚段成为scaffold,scaffold序列⼀般包含N碱基。
樱花国际日语怎么样
wind speed少儿英语电影N50:N50是基因组拼接之后⼀个评价指标,将拼接得到的所有的序列,根据序列⼤⼩从⼤到⼩进⾏排序,然后逐步开始累加,当加和长度超过总长⼀半时,加⼊的序列长度即为N50长度。N50越长,拼接得到的更长的序列越多,类似的还有N90等。
免费英文翻译
Coverage depth:(覆盖深度,亦简称覆盖度,也叫乘数),指每个碱基被测序的平均次数,是⽤来衡量测序量的⾸要参数。
Coverage ratio :(覆盖⽐率,亦简称覆盖率),指被测序到的碱基占全基因组⼤⼩的⽐率。覆盖⽐率随覆盖深度升⾼⽽提⾼,亦受测序bias的影响,如illumina测序会受到GC bias的影响⽽导致测序不均匀。
回⽂序列:palindromic quence;palindrome具有反向重复的DNA序列。通常是DNA结合蛋⽩的识别部位,也是限制性核酸内切酶识别位点的序列特征。
串联重复序列(Tandem Repeat quences):在染⾊体上⼀段序列的多次重复,称为串联重复序列。常⽤来作为物理图谱中的标记⼦。
LTR:长末端重复转座⼦(long terminal repeat),是由RNA反转录⽽成的元件,它在两端有长⼤数百碱基对的LTR。Length:1.5-10kbp Encode rever transcripta Flanked by 300-1000bps terminal repeats。
LINE:长散在重复序列(long intersperd nuclear elements),意为散在分布的长细胞核因⼦,是散在分布在哺乳动物基因组中的⼀类重复,这种重复序列⽐较长,平均长度⼤于
sw
1000bp,平均间隔3500-5000bp,如:rRNA,tRNA基因,形成基因家族。
SINE:为短散在重复序列(short intersperd nuclear elements)。SINE是⾮⾃主转座的反转录转座⼦,来源于RNA聚合酶III 的转录物,它的平均长度约为300bp,平均间隔1000bp,如:Alu家族,Hinf家族序列。
dad
SNP:单核苷酸多态性(英语:Single Nucleotide Polymorphism,简称SNP,读作/snip/)指的是DNA序列上发⽣的单个核苷酸碱基之间的变异,在⼈群中这种变异的发⽣频率⾄少⼤于1%,否则被认为是点突变。在⼈类遗传基因的各种差异,有90%都可归因于SNP所引起的基因变异。在⼈基因组中,每隔100⾄300个碱基就会存在⼀处SNP。每3个SNP中有两个会是胞嘧啶(C)和胸腺嘧啶(T)的相互转变。
同义突变(synonymous mutation):由于⽣物地遗传密码⼦存在兼并现象,是碱基被替换之后,产⽣了新地密码⼦,但新旧密码⼦是同义密码⼦,所编码的氨基酸种类保持不变,因此同义突变并不产⽣突变效应。
错义突变(misn mutation):是编码某种氨基酸的密码⼦经碱基替换以后,变成编码另⼀种氨基酸的密码⼦,从⽽使多肽链的氨基酸种类和序列发⽣改变。错义突变的结果通常能使多肽链丧失原有功能,许多蛋⽩质的异常就是由错义突变引起的。
⽆义突变(nonn mutation ):是指由于某个碱基的改变使代表某种氨基酸的密码⼦突变为终⽌密码⼦,从⽽使肽链合成提前终⽌。编码氨基酸的密码⼦突变为终⽌密码⼦,使肽链合成中断。
移码突变(frameshift mutation):在正常地DNA分⼦中,碱基缺失或增加⾮3地倍数,造成这位置之后的⼀系列编码发⽣移位错误的改变,这种现象称移码突变。
InDel:⼀般把基因组突变⼩于50bp的插⼊和缺失成为InDel,⼀般50bp⼩于⼀个reads长度,可以通过reads进⾏检测。
CNV:copy number variation:基因组拷贝数变异,基因组拷贝数变异是基因组变异的⼀种形式,通常使基因组中⼤⽚段的DNA形成⾮正常的拷贝数量。
基因组结构变化,Structure Variation,简称SV:染⾊体结构变异是指在染⾊体上发⽣了⼤⽚段的变异。分为⼴义和狭义之分,⼴义上来说基因组上所有的变化都可以成为SV,⽬前主要使⽤其狭义的概念,主要是指基因组结构变化超过50个碱基的突变,包括染⾊体⼤⽚段的插⼊和缺失,染⾊体内部的某块区域发⽣翻转颠换,两条染⾊体之间发⽣重组(inter-chromosometrans-location)等。
Segment Duplication:⼀般称为SD区域,串联重复是由序列相近的⼀些DNA⽚段串联组成。串联重复在⼈类基因多样性的灵长类基因中发挥重要作⽤。在⼈类染⾊体Y和22号染⾊体上,有很⼤的SD序列。
NT库:NCBI⾮冗余的核酸数据库,包括GeneBank、Refq和PDB。
NR 库:NR库是由NCBI收集的⾮冗余蛋⽩数据库,包括所有⾮冗余GeneBank CDS的翻译序列 + 参考序列蛋⽩ + PDB数据库 + SwissProt蛋⽩数据库 + PRF蛋⽩数据库,内容丰富。third
SwissProt:SwissProt数据库是经过注释的蛋⽩序列数据库,由欧洲⽣物信息学研究所(EBI)维护。每个条⽬包括蛋⽩质序列、引⽤⽂献、分类学信息和注释等。注释包括蛋⽩质的功能、转录后修饰、特殊位点、⼆级结构等信息。
TrEMBL :TrEMBL数据库中⼤多数蛋⽩序列不是直接由实验得到,⽽是通过DNA序列翻译⽽得到,是⼀个计算机注释的蛋⽩质数据库,作为SwissProt的补充。该库主要从
ecrEMBL/GeneBank/DDBJ核酸数据库中根据CDS翻译⽽得到蛋⽩质序列。
---------- END ----------