解读SRA数据库规律一文就够

更新时间:2023-05-06 01:18:07 阅读: 评论:0

解读SRA数据库规律一文就够
做数据分析的朋友都知道NGS测序数据一般会上传到SRA数据库里面,而这个数据库是可以免费无限制下载的,所以对它有基本的了解是一个生物信息学工程师的基本素养。下面就跟着我一起来掌握它吧。
一般的文章里面会给出数据地址,如下:根据文章的GSE号进入GEO数据库里面,就可以看到其对应的SRA数据库ID号。
/geo/i?acc=GSE84498 看到如下:
层级结构是:SRP(项目)—>SRS(样本)—>SRX(数据产生)—>SRR(数据本身)
伴随数据库是project,层级是PRJNA —> SAMN 
链接如下:
/sra?term=SRP078156 查看样本列表
/Traces/study/?acc=SRP078156 下载样本ID表格
/bioproject/PRJNA327548
/sra?term=SAMN05341212
首先是SRP开头的ID
一般的文章如果提到其数据上传到了SRA数据库,那么就会给出SRP开头的ID,比如:
The quencing data have been deposited in the NCBI Sequence Read Archive (SRA) databa under the accession code SRP078156.
第一步就是去SRA数据库里面查询:/sra?term=SRP078156
可以看到这个数据集有276个数据。
然后查看该project有哪些数据
链接:/Traces/study/?acc=SRP078156
可以看到该项目包含的数据多少,以及下面的信息:
BioProject:PRJNA327548
BioSampleModel:Human
Connt:public
InrtSize:0
Organism:Homo sapiens
SRA Study:SRP078156
总共有 1.53 Tb 的数据,有点大。
然后看PRJNA开头的ID
进入链接:/bioproject/PRJNA327548 等同于 SRP开头的
可以看到发表的文章,以及涉及到的样本。
这个实验共50个样本
然后进入每个样本
链接:/sra?term=SAMN05341212 等同于SRS开头的ID
可以看到每个样本都有6个不同的数据,如下:
RNA-Seq of OSCC patient: OSCC
1 ILLUMINA (NextSeq 500) run: 35.5M spots, 10.7G bas, 3.9Gb downloads
Accession: SRX1922019
RNA-Seq of OSCC patient: adjacent normal
1 ILLUMINA (NextSeq 500) run: 37.9M spots, 11.5G bas, 4.3Gb downloads
Accession: SRX1922018
Whole-exome quencing of OSCC patient: OSCC
1 ILLUMINA (Illumina HiSeq 2000) run: 123.6M spots, 25G bas, 10.2Gb downloads
Accession: SRX1969884
Whole-exome quencing of OSCC patient: PBMC
1 ILLUMINA (Illumina HiSeq 2000) run: 114.1M spots, 23G bas, 9.5Gb downloads
Accession: SRX1969883
Targeted gene quencing of OSCC patient: OSCC
1 ION_TORRENT (Ion Torrent Proton) run: 20.5M spots, 2.3G bas, 1.2Gb downloads
Accession: SRX1923057
Targeted gene quencing of OSCC patient: PBMC
1 ION_TORRENT (Ion Torrent Proton) run: 20.1M spots, 2.3G bas, 1.2Gb downloads
Accession: SRX1923056
接着进入SRX开头每个数据描述
每个样本有6个数据,还可以再进入每个数据,查看详情:/sra/SRX1922019
最后进入以SRR开头的数据本身
链接是:/Traces/sra/?run=SRR3820386
有些样本数据缺失
我根据构造的ftp链接下载了一个项目,共276个数据,但是有2个数据是缺失的,我仔细检查了一下:
/Traces/sra/?run=SRR3943893
/sra/SRX1969880
ftp://v/sra/sra-instant/reads/ByRun/sra/SRR/SRR394/SRR3943893
发现的确是没有,但是另外的274个样本又都没有问题, 看样子根据构造的ftp链接下载sra文件的方法可能要过时了,wget本来就慢,现在还出错,好尴尬。
但是,还好有prefetch
~/biosoft/sratoolkit/sratoolkit.2.8.2-1-centos_linux64/bin/prefetch SRR3943893
prefetch下载的数据一般存放在~/ncbi/public/sra/文件下,prefecth在下载前会先查找该文件下是否已经存在该文件。

本文发布于:2023-05-06 01:18:07,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/82/536199.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:数据   下载   样本   数据库   文件   进入   看到
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图