NCBI资源介绍及使用手册
NCBI资源介绍
本文目录:
NCBI(美国国立生物技术信息中心)简介
NCBI站点地图
NCBI癌症基因组研究
NCBI-CoffeeBreak
NCBI-基因和疾病
NCBI-UniGene
ClusterofOrthologousGroupsofproteins(COG)介绍
GeneExpressionOmnibus(GEO)介绍
LocusLink介绍
关于RefSeq:NCBI参考序列
NCBI(美国国立生物技术信息中心)简介
介绍
理解自然无声但精妙的关于生命细胞的语言是现代分子生物学的要求。通过只有四个字母来代表
DNA化学亚基的字母表,出现了生命过程的语法,其最复杂形式就是人类.阐明和使用这些字母来组
成新的“单词和短语”是分子生物学领域的中心焦点。数目巨大的分子数据和这些数据的隐秘而精
细的模式使得计算机化的数据库和分析方法成为绝对的必须.挑战在于发现新的手段去处理这些数
据的容量和复杂性,并且为研究人员提供更好的便利来获得分析和计算的工具,以便推动对我们遗
传之物和其在健康和疾病中角色的理解。
国立中心的建立
后来的参议员ClaudePepper意识到信息计算机化过程方法对指导生物医学研究的重要性,发起了
在1988年11月4日建立国立生物技术信息中心(NCBI)的立法。NCBI是在NIH的国立医学图书馆
(NLM)的一个分支。NLM是因为它在创立和维护生物信息学数据库方面的经验被选择的,而且这可
以建立一个内部的关于计算分子生物学的研究计划.NCBI的任务是发展新的信息学技术来帮助对那
些控制健康和疾病的基本分子和遗传过程的理解。它的使命包括四项任务:
建立关于分子生物学,生物化学,和遗传学知识的存储和分析的自动系统
实行关于用于分析生物学重要分子和复合物的结构和功能的基于计算机的信息处理的,先进方法的
研究
加速生物技术研究者和医药治疗人员对数据库和软件的使用。
全世界范围内的生物技术信息收集的合作努力。
NCBI通过下面的计划来实现它的四项目的:
基本研究
NCBI有一个多学科的研究小组包括计算机科学家,分子生物学家,数学家,生物化学家,实验物理
学家,和结构生物学家,集中于计算分子生物学的基本的和应用的研究.这些研究者不仅仅在基础
科学上做出重要贡献,而且往往成为应用研究活动产生新方法的源泉。他们一起用数学和计算的方
法研究在分子水平上的基本的生物医学问题。这些问题包括基因的组织,序列的分析,和结构的预
测。目前研究计划的一些代表是:检测和分析基因组织,重复序列形式,蛋白domain和结构单元,
建立人类基因组的基因图谱,HIV感染的动力学数学模型,数据库搜索中的序列错误影响的分析,
开发新的数据库搜索和多重序列对齐算法,建立非冗余序列数据库,序列相似性的统计显著性评估
的数学模型,和文本检索的矢量模型。另外,NCBI研究者还坚持推动与NIH内部其他研究所及许多
科学院和政府的研究实验室的合作。
数据库和软件
在1992年10月,NCBI承担起对GenBankDNA序列数据库的责任.NCBI受过分子生物学高级训练的
工作人员通过来自各个实验室递交的序列和同国际核酸序列数据库(EMBL和DDBJ)交换数据建立起
数据库。同美国专利和商标局的安排使得专利的序列信息也被整合.
GenBank是NIH遗传序列数据库,一个所有可以公开获得的DNA序列的注
释过的收集。GenBank同日本和欧洲分子生物学实验室的DNA数据库共同构成了国际核酸序列数据
库合作。这三个组织每天交换数据.
GenBank以指数形式增长,核酸碱基数目大概每14个月就翻一个倍.最近,GenBank拥有来自47,000
个物种的30亿个碱基。
孟德尔人类遗传(OMIM),三维蛋白质结构的分子模型数据库(MMDB),唯一人类基因序列集合
(UniGene),人类基因组基因图谱,分类学浏览器,同国立癌症研究所合作的癌症基因组剖析计划
(CGAP)。
Entrez是NCBI的为用户提供整合的访问序列,定位,分类,和结构数据的搜索和检索系统。Entrez
同时也提供序列和染色体图谱的图形视图。Entrez是一个用以整合NCBI数据库中信息的搜寻和检
索工具。这些数据库包括核酸序列,蛋白序列,大分子结构,全基因组,和通过PubMed检索的MEDLINE。
Entrez的一个强大和独特的特点是检索相关的序列,结构,和参考文献的能力。杂志文献通过PubMed
获得,PubMed是一个网络搜索界面,可以提供对在MEDLINE上的九百万杂志引用的访问,包含了链
接到参与的出版商网络站点的全文文章。
BLAST是一个NCBI开发的序列相似搜索程序,还可作为鉴别基因和遗传特点的手段。BLAST能够在
小于15秒的时间内对整个DNA数据库执行序列搜索.NCBI提供的附加的软件工具有:开放阅读框寻
觅器(ORFFinder),电子PCR,和序列提交工具,Sequin和BankIt。所有的NCBI数据库和软件工
具可以从WWW或FTP来获得。NCBI还有E—mail服务器,提供用文本搜索或序列相似搜索访问数据
库一种可选方法。
教育和训练
NCBI通过赞助会议,研讨会,和系列演讲来培养在应用于分子生物学和遗传学的计算机领域的科学
交流。一个科学访问学者项目已经成立,来培养同外部科学家的合作。作为NIH内部的部分研究项
目,也提供博士后工作位置。
NCBI站点地图-—-关于Databa的一般介绍
GenBankOverview基本信息
什么是GenBank?GenBank是一个有来自于70,000多种生物的核苷酸序列的数据库.每条纪录都有
编码区(CDS)特征的注释,还包括氨基酸的翻译.GenBank属于一个序列数据库的国际合作组织,
包括EMBL和DDBJ。
纪录样本-关于GenBank的各个字段的详细描述,以及同Entrez搜索字段的交叉索引。
访问GenBank—通过EntrezNucleotides来查询。用accessionnumber,作者姓名,物种,基
因/蛋白名字,还有许多其他的文本术语来查询.关于Entrez更多的信息请看下文.用BLAST来在
GenBank和其他数据库中进行序列相似搜索.用E-mail来访问Entrez和BLAST可以通过Query和
BLAST服务器.另外一种选择是可以用FTP下载整个的GenBank和更新数据。
增长统计-参见公布通知的2。2。6(每个分类的统计),2。2.7(每个物种的统计),2.2.8(GenBank
增长)小节。
公布通知,最新-最近和即将有的变化,GenBank的分类,数据增长统计,GenBank的引用。
公布通知,旧-同上相同,是过去公布的统计。
遗传密码—15个遗传密码的概要。用来确保GenBank中纪录的编码序列被正确的翻译.
(向)GenBank提交(数据)
关于提交序列数据,收到accessionnumber,和对纪录作更新的一般信息.
BankIt—用于一条或者少数条提交的基于WWW的提交工具软件。(请在提交前用VecScreen去除
载体)
Sequin—提交软件程序,用于一条或者很多条的提交,长序列,完整基因组,alignments,人群/
种系/突变研究的提交。可以独立使用,或者用基于TCP/IP的“networkaware"模式,可以链接到
其他NCBI的资源和软件比如Entrez和PowerBLAST。(请在提交前用VecScreen去除载体)
ESTs-表达序列标签,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和RACE实
验的cDNA序列。
GSSs-基因组调查序列,短的、单次(测序)阅读的cDNA序列,exontrap获得的序列,cosmid/BAC/YAC
末端,及其他。
HTGs—来自于大规模测序中心的高通量基因组序列,未完成的(阶段0,1,2)和完成的(阶段
3)序列。(注意:完成的人类的HTG序列可以同时在GenBank和HumanGenomeSequencing页面上
访问.)
STSs-序列标签位点.短的在基因组上可以被唯一操作的序列,用于产生作图位点。
注:SNPs—人类的和其他物种的遗传变异数据可以提交到NCBI数据库的单核苷酸多态性库中
(dbSNP)。
国际核苷酸序列数据库合作组织
GenBank,DDBJ,EMBL—合作计划的概述,并链接到相应的主页.GenBank,DDBJ(DNADataBankof
Japan),andEMBL(EuropeanMolecularBiologyLaboratory)数据库共享的数据是每天都交
换的,因此他们是相等的。数据纪录的格式和搜索方式可能会不一样,但是accessionnumber,序
列数据和注解都是一模一样的。即,你可以用accessionnumberU12345在GenBank,DDBJ或EMBL
中查找相应纪录,得到的结果是完全一样的序列数据,参考内容等等。
DDBJ/EMBJ/GenBank特性表—特性表格式和标准被合作数据库用在序列记录的注释上,使得数据
共享成为可能,包括详细的描述生物特性和特性限定语的附录,以及IUPAC规定的核苷酸和氨基酸
的代号。
FTPGenBankandDailyUpdatesGenBank普通文件格式-参见GenBank记录样本和在GenBank
公布通知中的详细描述,下载大多数最近的完全公告和日常积累或非积累更新数据。
ASN.1格式—摘要句法记号1,国际标准组织(ISO)数据表示格式,下载大多数最近的完全公告
和日常积累或非积累更新数据。
FASTA格式-定义行号后只跟随序列数据(示例),参见描述数据库的readme文件,包括nt。Z(每
天更新的非冗余BLAST核酸数据库,包括GenBank+EMBL+DDBJ+PDB序列,但是不包括EST,STS,GSS,
orHTGS序列),nr。Z(每日更新的非冗余蛋白质),est.Z,gss.Z,htg。Z,sts.Z,和其它文
件。
分子数据库概览
核酸序列
Entrez核酸-用accessionnumber,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜索
核酸序列记录(在GenBank+PDB中).更多的关于Entrez的信息见下。如果要检索大量数据,也可
使用BatchEntrez(批量Entrez)。
RefSeq—NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNAcontigs,已知基因的
mRNAs和蛋白,在将来,整个的染色体.Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,
和NC_xxxxxx的形式来表示。
dbEST—表达序列标签数据库,短的、单次(测序)阅读的cDNA序列。也包括来自于差异显示和
RACE实验的cDNA序列。
dbGSS—基因组调查序列的数据库,短的、单次(测序)阅读的cDNA序列,exontrap获得的序
列,cosmid/BAC/YAC末端,及其他。
dbSTS—序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,用于产生作图位点。
dbSNP-单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。
完整的基因组
参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,
病毒,viroids,质粒。
UniGene-被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,
有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,
完整的数据可以从FTP站点repository/UniGene目录下下载。
人类UniGene
小鼠UniGene
大鼠UniGene
斑马鱼UniGene
BLAST—将你的序列同核酸库中的的序列比较,检索相似的序列.(更详细的信息见下面
Tools/Sequence相似搜索部分)
蛋白序列
Entrez蛋白-用accessionnumber,作者姓名,物种,基因/蛋白名字,以及很多其它的文本术语来搜
索蛋白序列记录(在GenPept+Swiss—Prot+PIR+RPF+PDB中)。更多的关于Entrez的信息见下。
如果要检索大量数据,也可使用BatchEntrez(批量Entrez)。RefSeq-NCBI数据库的参考序列。
Curated,非冗余集合包括基因组DNAcontigs,已知基因的mRNAs和蛋白,在将来,整个的染色
体.Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,和NC_xxxxxx的形式来表示。
FTPGenPept-下载“genpept。fsa.Z”文件,这个文件包含了从GenBank/EMBL/DDBJ记录中翻译过来
的FASTA格式的氨基酸序列,这些记录都有一到两个CDS特性的描述.完整基因组
参见下面Genome和Maps部分,包括各种物种资源,人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,
病毒,viroids,质粒。
Entrez基因组—提供了一个编码区的概要和各种物种的分类表(TaxTable)。编码区概要列出了在
基因组中所有的的蛋白,并提供链接到FASTA文件和BLAST。分类表总结了蛋白BLAST分析的结
果,建议他们的可能功能,并用颜色编码的图来显示物种同其它物种之间的关系(参见下面’Genomes
和Maps,’部分Entrez基因组的一般描述)
FTP基因组蛋白—从ftp站点的genbank/genomes目录下下载各种物种的FASTA格式的氨基酸序
列*。faa和蛋白表文件*。ptt.参见readme文件.蛋白表也可以在Entrez基因组中看到。
PROW—Web上的蛋白资源,关于大约200种人类的CD细胞表面分子的简短官方向导。互相检索,
为每个CD抗原提供大约20中标准信息的分类(生化功能,配体,等等)
BLAST—将你的序列同蛋白库中的的序列比较,检索相似的序列。(更详细的信息见下面
Tools/Sequence相似搜索部分)
结构
结构主页—关于NCBI结构小组的一般信息和他们的研究计划,另外也可以访问分子模型数据库
(MMDB)和用来搜索和显示结构的相关工具。
MMDB:分子模型数据库—一个关于三维生物分子结构的数据库,结构来自于X—ray晶体衍射
和NMR色谱分析.MMDB是来源于Brookhaven蛋白数据库(PDB)三维结构的一部分,排除了那些理
论模型。MMDB重新组织和验证了这些信息,从而保证在化学和大分子三维结构之间的交叉参考。
数据的说明书包括生物多聚体的空间结构,这个分子在化学上是如何组织的,以及联系两者的一套指
针.利用将化学,序列,和结构信息整合在一起,MMDB计划成为基于结构的同源模型化和蛋白结构
预测的资源服务.MMDB的记录以ASN。1格式存储,可以用Cn3D,Rasmol,或Kinemage来显示。
另外,数据库中类似的结构已经被用VAST确认,新的结构可以用VASTarch来同数据库进行比较.
Cn3D—“Seein3—D”,一个用于NCBI数据库的结构和序列相似显示工具,它允许观察3-D结构
和序列—结构或结构-结构同源比较.Cn3D用起来就象你浏览器上的一个帮助工具。
VAST-矢量同源比较搜索工具—一个在NCBI开发的计算算法,用于确定相似的蛋白三维结构。
每一个结构的“结构邻居”都是预先计算好的,而且可以通过MMDB的结构概要页面的链接访问。
这些邻居可以用来确认那些不能被序列比较识别的远的同源性。
VAST搜索-结构—结构相似搜索服务。比较一个新解出的蛋白结构和在MMDB/PDB数据库中的
结构的三维坐标。VAST搜索计算一系列可能会被交互浏览的结构邻居,用分子图形来观察重叠和同
源相似。
分类学
NCBI的分类数据库主页—关于分类计划的一般信息,包括分类资源和同NCBI分类学家合作的
外部管理者的列表.
分类浏览器-搜索NCBI的分类数据库,包括大于70000个物种的名字和种系,这些物种都至少在
遗传数据库中有一条核酸或蛋白序列。可以检索一个特定种或者更高分类(如属,科)的核酸,蛋
白,和结构记录。如果有新物种的序列数据被放到数据库中,这个物种就北加到(分类)数据库
中.NCBI的分类数据库的目的是为序列数据库建立一个一致的种系发生分类学。
文献数据库概要
PubMed-一个关于生物医药科学的检索系统,包括引用,摘要,和杂志的索引术语。它包括直接
由出版商提供给NCBI的文献引用以及链接到在出版商网址上的全文的URLs。PubMed包括
MEDLINE和PREMEDLINE的完整内容.它还包括一些被MEDLINE认为超出范围的文章和杂志,
(这些文章或杂志)由于内容或在某一时期不在索引范围内。因此PubMed是比MEDLINE的更大的
集合.杂志浏览器—允许你去查找收录到PubMed系统的杂志的名字,MEDLINE的缩写,或ISSN
号码。PubRef(开发中)—一个关于来自于广大范围的科学杂志的数目记录,和链接到出版商网
址的全文.PubRef包含了PubMEd,加上了来自其它学科的杂志出版商提供的引用和摘要。因此它是
比PubMed更大的集合。这个计划的启动是因为NAS要求为科学领域的电子杂志提供一个“白皮书"
服务。PubMed中心(开发中)-PubMed中心是一个无障碍的NIH资源,用于在生命科学领域中
同业互查的基础研究报告。从2000年一月开始接受杂志文章。所有在PubMed中心的材料将由目前
任一主要的摘要和索引服务中列出的杂志提供,或者在编辑委员会中拥有3个以上有主要资金机构
的研究经费的拥有人的杂志提供。OMIM—在线人类孟德尔遗传—经常更新的人类基因和遗传失
调的目录,有链接到其它相关的文献参考,序列记录,和相关数据库。书籍—同书籍出版商合
作NCBI为网络改编了教科书,并把他们链接到PubMed—生物医药书目数据库.这是为了给PubMed
提供背景信息,这样使用者可以探究在PubMed搜索结果中不熟悉的概念。目前收录的书有:
MolecularBiologyoftheCell,sB.,BrayD。,LewisJ。,RaffM。,RobertsK。,WatsonJ。
D.,1994,GarlandPublishing。外部链接—一个登记服务,用于建立从在Entrez中的特定的文章,
杂志,或生物数据到外部网址的链接.第三方可以提供一个URL,资源名字,关于他们网址的简要的描
述,和关于从NCBI数据的哪里他们希望建立链接的详细说明。这个详细说明可以用对Entrez有效的
布尔查询来写,也可以用特定的文章或序列的标志列表来写。这样NCBIPubMed的用户将可以通过
“NCBI小房间”服务(开发中)来选择哪个外部链接在他们的搜索中是可见的。引用匹配—允许你
找到任何一篇在PubMed数据库中的文章的PubMedID或MEDLINEUID,给出书目信息(杂志,卷,
页码等).单篇文章的引用匹配。许多文章的批量引用匹配。E-mail引用匹配也是可以的,也可
以用于单篇或许多文章。如果要获得帮助文件,给citation_matcher@ncbi。写一封只有内
容为HELP的E-Mail.
GenomesandMapsOverview
Entrez基因组:人,小鼠,大鼠,酵母,线虫,疟原虫,细菌,病毒,viroids,质粒,和真核细胞器。
Entrez基因组(各种物种)
Entrez基因组-超过800种在GenBank中被完整测序的物种,包括大于500种病毒,〉25种细菌,
酵母,和许多viroids,质粒,和细胞器。还包括正在进行中的基因组,比如人,小鼠,线虫,疟原虫,
果蝇,利什曼原虫,水稻,和玉米。提供完成的基因组/染色体的图形概览,并可以探究那些逐步细化
的区域。也提供那些已经被NCBI工作人员分析过的物种的编码区的摘要和TaxTables.另外,Entrez
MapViewer,Entrez基因组的一个软件组成部分,提供整合的果蝇(细胞遗传学和序列图谱)和人
类(细胞遗传学,遗传连锁,序列,放射杂交,和其它图谱)的染色体图谱的浏览.
通过每个物种的Entrez基因组页面来下载〈350kb的基因组。
通过NCBIftp站点来下载〉350kb的基因组—参见在genbank/genomes目录下的readme文件,ftp
链接在每个物种的Entrez基因组页面上也有。
NCBI站点地图—-—HumanGenome人类基因组数据介绍
向导
人类基因组资源向导—可用的人类基因组数据资源概览。包括关于人类基因组的公告和进展报告
和提供对以前分离的数据的集中访问。
人类基因组序列数据的状态—描述了目前在GenBank中的数据的范围,包括完成的和草图高通量
基因组序列数据的讨论.
染色体
人类基因组测序—每一条染色体,概述了人类基因组计划的测序进展(图示和统计)。提供对基
因组序列数据的访问,也有链接到参与的国际基因组中心,各种STS图谱,疾病基因信息,和选择
出的参考文献。列出完成的contig的大小和位置。Contig可以被显示出来,以表示组成他们的
GenBank中的记录的成分,或者那些由e-PCR确定的位于其上的STS标记。Contig用在GenBank
中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang,etal描述的过程,并给于一个
NT_*的accessionnumber,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见HTG网
页。
Entrez图谱浏览器—整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分,用来
显示一个或多个用共同标记或基因名字互相align过的图谱,以及用相同序列进行比较过的序列图
谱.在人类基因组数据和搜索技巧文件中有关于20种序列,细胞遗传,遗传连锁,放射杂交,和其
它的图谱。Entrez图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。
FTP—每个染色体都有一个文件目录包含各种格式的完成的基因组contig(NT_*记录):
hs_chr*。asnASN。1格式(descriptionabove)
hs_chr*。A格式(descriptionabove)
hs_chr*。ankflatfile格式
(目前注解包括STS标记,已知和预期的基因将被在将来几个月中加入)
hs_chr*.gbsGenBanksummary格式
(这个格式不含有序列数据,但是包含一个“CONTIG"字段,表明这个contig是如何有独立的
GenBank记录组装起来的。)
BLAST人类基因组序列数据
BLAST人类染色体—将一个核酸或蛋白序列同已经完成的HTGcontig比较。Contig用在GenBank
中处于第三期的HTG序列记录来组装起来,组装的办法是用Jang,etal描述的过程,并给于一个
NT_*的accessionnumber,作为RefSeq计划的一部分。关于各期HTG序列的详细说明见HTG网
页。同人类染色体作BLAST是人类基因组测序页面的一个组成部分。
BLASThtgs数据库-将一个核酸或蛋白序列同未完成的HTG序列(第0,1,2期)进行比较(关于
各期HTG序列的详细说明见HTG网页).尽管htgs数据库包含有来自许多物种的序列,你可以使用
AdvancedBLAST页面来限定你的搜索只在人类。
BLASTgss数据库—将一个核酸或蛋白序列同随机的“单次(测序)阅读”的基因组调查序列比较,
如同cosmid/BAC/YAC末端序列,exontrap获得的基因组序列,和AluPCR序列.尽管gss数据库包
含有来自许多物种的序列,你可以使用AdvancedBLAST页面来限定你的搜索只在人类。
基因
位点链接(LocusLink)-为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink
给每个位点发布一个稳定的ID,并提供官方的命名,同名,序列accesssionnumber,表型,EC号码,
OMIM号码,Unigene簇,图谱信息,和相关的网址。LocusLink是NCBI,人类基因命名委员会,
OMIM和其它组织的合作结果。LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种
可以被分开或合在一起查询。
OMIM—在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文
献参考,序列记录,和相关数据库.
RefSeq—NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNAcontigs,已知基因的
mRNAs和蛋白,在将来,整个的染色体.Accessionnumbers用NT_xxxxxx,NM_xxxxxx,NP_xxxxxx,
和NC_xxxxxx的形式来表示.
UniGene—被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的人类基因,
有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,
完整的数据可以从FTP站点repository/UniGene目录下下载.
序列
人类基因组测序-每一条染色体,概述了人类基因组计划的测序进展(图示和统计)。提供对基因
组序列数据的访问,也有链接到参与的国际基因组中心,各种STS图谱,疾病基因信息,和选择出
的参考文献。列出完成的contig的大小和位置。Contig可以被显示出来,以表示组成他们的GenBank
中的记录的成分,或者那些由e-PCR确定的位于其上的STS标记.Contig用在GenBank中处于第三期
的HTG序列记录来组装起来,组装的办法是用Jang,etal描述的过程,并给于一个NT_*的
accessionnumber,作为RefSeq计划的一部分.关于各期HTG序列的详细说明见HTG网页。
RefSeq—NCBI数据库的参考序列。校正的,非冗余集合,包括基因组DNAcontigs,已知基因的
mRNAs和蛋白,在将来,整个的染色体。Accessionnumbers用NT_xxxxxx,NM_xxxxxx,
NP_xxxxxx,和NC_xxxxxx的形式来表示。
Entrez—对GenBank,EMBL,DDBJ,PIR—International,PRF,Swiss-Prot,andPDB数据库中
的核酸和蛋白序列数据提供整合的访问,同时提供对3D蛋白结构,基因组图谱信息和PubMed
MEDLINE的访问.Entrez包含了对每个数据库记录的预先计算好的相似搜索,产生一个相关序列,
结构,和MEDLINE记录的表.包括了来自>70000个物种的序列数据,可以用物种字段来限制记录
只在人类搜索。
克隆
克隆登记-由多方人类基因组测序中心使用的数据库,用来记录哪些克隆已经被选来测序,哪些正
在被测序,哪些已经完成,哪些已经被送到GenBank中去了.包括BACs,PACs,cosmids,fosmids。
使用统一的克隆名字表示克隆在微量板上的位置(板号,行,和列),位置前面加上库的缩写,来产
生唯一的名字.包括了克隆定购的信息。
基因组图谱
Entrez基因组-链接到人类基因组测序站点的人类染色体视图。Entrez基因组同时包括了一个人类
线粒体的视图(通过真核细胞器来访问),可以查看完整情况或查看逐步详细的信息。
Entrez图谱浏览器—整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分,用来
显示一个或多个用共同标记或基因名字互相align过的图谱,以及用相同序列进行比较过的序列图
谱.在人类基因组数据和搜索技巧文件中有关于20种序列,细胞遗传,遗传连锁,放射杂交,和其它
的图谱。Entrez图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明.
GeneMap’99-〉35000个人类基因标记的物理图谱,由国际放射杂交图谱联合用一致的RH试剂和
方法建成.提供了突出了染色体上关键标志(富含基因区)的框架,从而加速了测序,代表了超过100
名科学家的国际合作努力。
NCBIRH图谱—NCBI整合的RH图谱,包括来自GeneMap’99的G3和GB4的RH单子上的23723
个标记.这些标记相对于1084个框架标记(一个G3和GB4共同的子集)被绘制。所有的标记被统
一在GB4的尺度上.R。Agarwalaetal。的文章提供了详细的整合策略,以及评估整合图谱质量的
方法。
Mitelman癌症染色体变异摘要—由Drs。Mitelman,Mertens,和Johansson建立的基因组范围
的人类癌症中染色体断裂位点图谱。参见NatureGenetics,Vol.15(Spec。No。):417—74(April1997)
的超文本版本.
OMIM基因图—被报道的和被许多定位方法决定的基因的细胞遗传位点。可以用基因代号或细胞
遗传染色体位点来搜索。可以从OMIM页面上访问。
OMIM致病图—按字母排列的疾病和相应的细胞遗传图位点,链接到OMIM的条目。可以从
OMIM页面访问.
人类/小鼠同源图—UniversityofCaliforniaatDavis的M.F。Seldin建立,一张比较人和老鼠在同
源区段DNA上基因的表,按在每个基因组上的位置排列.
绘制的标记
dbSTS—序列标签位点的数据库,短的在基因组上可以被唯一操作的序列,因而可以确定在物理图
谱上的特定位置。
电子PCR(e—PCR)—找到一个查询序列的假设位点图。用于在DNA序列上发现STS位点计算
过程。
GeneMap'99-〉35000个人类基因标记的物理图谱,由国际放射杂交图谱联合用一致的RH试剂和
方法建成。提供了突出了染色体上关键标志(富含基因区)的框架,从而加速了测序,代表了超过
100名科学家的国际合作努力。
人类基因组测序—绘制的标记已经用e—PCR自动被放到完成的HTG序列组成的contig上。标记
来源于dbSTS,GeneMap’99(基于基因的标记),StanfordG3RH单子(又有基因标记也有非基因
标记),WhiteheadGB4RH单子和YAC图谱(又有基因标记也有非基因标记),Genethon遗传图谱,
和一些染色体特异的图谱,如NHGRI的7号染色体图谱,WashingtonUniversity的X染色体图谱。
OMIM基因图-被报道的和被许多定位方法决定的基因的细胞遗传位点。可以用基因代号或细胞
遗传染色体位点来搜索.可以从OMIM页面上访问。
基因表达
CGAPcDNA表达谱-在UniGene簇和cDNA库中的ESTs分布。可以在CGAP页面上访问。
SAGEmap—CGAPSAGE(SerialAnalysisofGeneExpression)库的差异显示.也包含了对在人类
GenBank记录中的SAGE标签的完整分析,在人类GenBank记录中一个UniGene的标志被分配给
了每个含有一个SAGE标签的人类序列
遗传变异
dbSNP—单核苷酸多态性数据库,包括SNPs,小范围的插入/缺失,多态重复单元,和微卫星变异。
DbSNP包含种族特异的频率和基因型数据,实验条件,分子上下文,及中性多态和临床变异的定位
信息。
OMIM—在线人类孟德尔遗传-约900个OMIM记录的等位变异。为了查看这些OMIM记录的列
表,在等位变异字段上搜索“0001”。或者,把一个疾病的名字同“0001"放到一起。如:Gaucher&0001.
位点特异突变数据库—从OMIM主页和相关的LocusLink条目链接到许多外部数据库.
失调
基因和疾病—介绍遗传因素和人类疾病的关系。有约60种遗传疾病的概要信息,以及链接到相
关数据库和组织。
Mitelman癌症染色体变异摘要—由Drs。Mitelman,Mertens,和Johansson建立的基因组范围的
人类癌症中染色体断裂位点图谱。参见NatureGenetics,Vol.15(Spec。No.):417-74(April1997)
的超文本版本。
OMIM—在线人类孟德尔遗传—经常更新的人类基因和遗传失调的目录,有链接到其它相关的文
献参考,序列记录,和相关数据库。
OMIMMorbidMap—alphabeticallistingofdiasandcorrespondingcytogeneticmaplocations,
withlinkstoOMIMentries。AccessiblefromOMIMpage(eGenes).
OMIM致病图-按字母排列的疾病和相应的细胞遗传图位点,链接到OMIM的条目.可以从OMIM
页面访问。
癌症研究
CCAP-癌症染色体变异计划-计划用来加速同恶性转移相关的显著染色体变异的定义和详细的特
征描述。
CGAP—癌症基因组剖析计划—交叉学科项目,目的是基于cDNA库,鉴定在不同癌症阶段的
人类基因表达,和决定正常,癌前和恶性细胞的分子表达谱.是NCI,NCBI和其它许多实验室的合
作.
Mitelman癌症染色体变异摘要-由an,Mertens,和Johansson建立的基因组范围的人
类癌症中染色体断裂位点图谱。参见NatureGenetics,Vol.15(。):417—74(April1997)的
超文本版本。
SAGE分析—在癌症库中的SAGE标签的差异表达
NCBI站点地图--—其他基因组数据介绍
小鼠基因组
小鼠基因组资源向导—把从各个中心来的各种小鼠相关的资源整合在一起,包括序列,图谱,和克
隆信息以及指向小鼠种系和突变资源的指针.
小鼠基因组测序-小鼠基因组计划的测序进展,HTG序列contigs(可以用大小和染色体号来浏览)
由测序中心的数据建立,可以contig或染色体的形式来下载。
小鼠UniGene-被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的基因,
有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,
完整的数据可以从FTP站点repository/UniGene目录下下载
位点链接(LocusLink)-为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink
给每个位点发布一个稳定的ID,并提供官方的命名,序列accesssionnumber,Unigene簇,图谱信息,
和相关的网址。LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结果。LocusLink
目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
Entrez-包括了来自〉70000个物种的序列数据,可以用物种字段来限制记录只在小鼠搜索。
人类/小鼠同源图—UniversityofCaliforniaatDavis的M。建立,一张比较人和老鼠在同
源区段DNA上基因的表,按在每个基因组上的位置排列.
大鼠基因组
大鼠UniGene-被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的基因,
有定位图和表达信息以及同其它资源的交叉参考.序列数据可以以cluster形式在Unigene网页下载,
完整的数据可以从FTP站点repository/UniGene目录下下载
位点链接(LocusLink)-为校正过的序列和遗传位点的描述信息提供一个单次查询界面.LocusLink
给每个位点发布一个稳定的ID,并提供官方的命名,序列accesssionnumber,Unigene簇,图谱信
息,和相关的网址.LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结
果.LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询。
斑马鱼基因组
斑马鱼UniGene-被整理成簇的EST和全长mRNA序列,每一个代表一种特定已知的或假设的基因,
有定位图和表达信息以及同其它资源的交叉参考。序列数据可以以cluster形式在Unigene网页下载,
完整的数据可以从FTP站点repository/UniGene目录下下载
位点链接(LocusLink)—为校正过的序列和遗传位点的描述信息提供一个单次查询界面。
LocusLink给每个位点发布一个稳定的ID,并提供官方的命名,序列accesssionnumber,Unigene簇,
图谱信息,和相关的网址.LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结
果。LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起
查询。
果蝇基因组
黑腹果蝇主页—提供所有可使用的果蝇资源的概要,用图形的方式显示了染色体,允许你通过
Entrez基因组浏览器的方法来搜索整个基因组的细胞遗传和序列信息。Entrez基因组提供了对于一
个物种一致的遗传,物理,和序列数据的图形界面。当你用一个基因的代号来搜索时,它给出搜索
结果的一个图形的基因组视图,从那你可以放大到你所感兴趣的区域的更详细的图谱视图,并且链
接到序列数据和包含更多信息的相关资源。
黑腹果蝇基因组测序的状态—描述了目前在GenBank,EntrezGenomes,和FTP站点中的数据的范
围
Entrez图谱浏览器-整合的染色体图谱—图谱浏览器是Entrez基因组的一个软件组成部分,用来显
示一个或多个用共同标记或基因名字互相align过的图谱,以及用相同序列进行比较过的序列图谱。
在人类基因组数据和搜索技巧文件中有关于目前可以使用的果蝇的序列和细胞遗传学图谱.Entrez
图谱浏览器的帮助文件提供了关于如何使用这个工具的一般说明。
位点链接(LocusLink)-为校正过的序列和遗传位点的描述信息提供一个单次查询界面。LocusLink
给每个位点发布一个稳定的ID,并提供官方的命名,序列accesssionnumber,Unigene簇,图谱信
息,和相关的网址.LocusLink是NCBI,人类基因命名委员会,OMIM和其它组织的合作结
果.LocusLink目前包含人类,小鼠,大鼠,斑马鱼,和果蝇的位点,物种可以被分开或合在一起查询.
线虫基因组
Entrez基因组—染色体的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关的序列数
据.
酵母基因组
Entrez基因组—染色体的图形表示,可以整个的查看,也可以逐步放大的看.链接到相关的序列数
据。
COGs—相邻类的聚簇—来自于完整基因组的基因家族自然系统.COGs用比较21种完整的基因
组的编码的蛋白序列描绘了17个主要的种系发生系统。每个COG包含至少来自3个世系的独立蛋
白或蛋白家族的相邻体,所以对应了一个古老的保守domain。
疟原虫基因组
疟原虫遗传学和基因组—提供与疟原虫遗传学和基因相关的数据和信息。资源包括物种特异的序
列BLAST数据库(恶性疟原虫,所有疟原虫,以及弓形虫),基因组图谱,连锁标记,以及遗传学研
究信息.链接到其他的疟原虫网站和相关的寄生虫遗传学数据库包括弓形虫。
Entrez基因组—恶性疟原虫的染色体全长的图形视图,完整的染色体序列数据(2和3),链接到正
在进行的染色体的分离数据表(来自于HB3XDd2杂交的染色体),链接到其他基因组测序中心。
FTP站点(pub/Malaria目录)—用于查找在DNA序列中STS的电子PCR疟原虫版。
NCBI,使用手册,介绍
FTP站点(genbank/genomes目录)—下载各种格式的完整的染色体序列数据(2和3),包括GenBank
的flatfile(*.gbk),GenBank的概要文件(*.gbs),FASTA核酸文件(*.fna),FASTA氨基酸文件(*。
faa),蛋白表(*。ptt)和其他。
细菌基因组
Entrez基因组—完整细菌基因组的图形表示,可以整个的查看,也可以逐步放大的看。链接到相关
的序列数据.对每一个细菌都提供了一个编码区域的概要和TaxTable。
微生物基因组测序计划-完成的和正在进行的测序计划,链接到NCBI的图形视图和测序中心。
COGs—相邻类的聚簇—来自于完整基因组的基因家族自然系统.COGs用比较21种完整的基因
组的编码的蛋白序列描绘了17个主要的种系发生系统。每个COG包含至少来自3个世系的独立蛋
白或蛋白家族的相邻体,所以对应了一个古老的保守domain。
FTP站点—下载各种格式的完整的细菌染色体序列数据,包括GenBank的flatfile(*。gbk),
GenBank的概要文件(*.gbs),FASTA核酸文件(*。fna),FASTA氨基酸文件(*.faa),蛋白表(*.ptt)
和其他.
微生物基因组BLAST数据库—与完成的和未完成的微生物基因组进行BLAST
本文发布于:2022-11-14 03:26:29,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/88/15072.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |