gtf文件学习+读取

更新时间:2023-06-30 21:26:14 阅读: 评论:0

gtf⽂件学习+读取
1.基本
GFF和GTF是两种最常⽤的数据库注释格式,基因注释⽂件。
GFF全称为general feature format,这种格式主要是⽤来注释基因组。
GTF全称为gene transfer format,主要是⽤来对基因进⾏注释,对染⾊体上的基因进⾏标注。
//我这⾥关注的主要是GTF⽂件。
2.格式
以tab键分割为9列:
q_id:染⾊质名称;
source:注释团队;
type: 注释信息的类型,⽐如{gene, transcript, exon, CDS, UTR, start_codon, stop_codon, Selenocysteine } start:该基因或转录本在参考序列上的起始位置
end: 该基因或转录本在参考序列上的终⽌位置
score: 得分,数字,是注释信息可能性的说明客服经理
蓝色搭配
农村基层组织建设strand: 该基因或转录本位于参考序列的正链(+)或负链(-)上;
3.读取gtf格式⽂件查看
罗非鱼
尝试⽤read.csv打开也失败:
桑苗
使⽤
install.packages("refGenome")
BiocManager::install("refGenome")
安装,均不可。
可能性2:gtf⽂件存在问题,所以重新下载。
并且尝试导⼊
library(rtracklayer)
报出以下错误:
沙丘之谋
之后就尝试在命令⾏⽽不是Rstudio上操作,先卸载了这个包,然后安装,虽然出现了这个问题:
Installation path not writeable, unable to update packages: codetools,但是尝试不更新n所有包,之后library居然可以了,⽽且可以正常读取。
之后我重启Rstudio
.rs.restartR()
就可以读取gtf⽂件了。
看来以后安装包的操作都应该在命令⾏进⾏,⽽不是Rstudio。
4.查看GTF⽂件内容
跆拳道比赛规则
上海市简介最新版的相较于之前有了很多新的描述信息,⽐如基因id,基因名称等等。共有26个特征。
附加的键值对信息:
gene_id : ENSG(Enmbl 基因ID)
gene_type:基因类型
gene_name:基因名称
level:feature 的注释⽔平 {1, 2, 3}:level1:验证的位点,level2:⼿动注释的位点,level3:⾃动注释的位点transcript_id :ENST(Enmbl 转录本ID)
transcript_type:转录本类型
transcript_name:转录本名称

本文发布于:2023-06-30 21:26:14,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/89/1062130.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:注释   基因   信息   转录   操作   参考   问题
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图