历史考研NCBI的检索疑神疑鬼电影
NCBI包括五个部分,第一部分是欢迎进入NCBI,包括NCBI的最新信息、计划与活动、读者来信、服务地址和用户评论等。第二部分是基因序列数据库(GenBank),包括基因库概述、检索与投稿。第三部分是数据库服务,包括免费的PubMed检索、Entrez检索、BLAST序列族性检索、电子邮件服务(详见本章第四节)、匿名FTP服务。第四部分是NCBI的其它资源。
GenBank的检索
在NCBI主页的第二部分点击“Searching GenBank”,即可进入GenBank的检索屏幕。NCBI提供了五种检索,即Entrez浏览检索、BLAST序列类似性检索、dbEST检索、dbSTS检索和文本检索(Text Searching)。
一、Entrez浏览检索
1.Entrez检索的数据库及其检索信息
Entrez浏览器(Entrez Browr)可以检索以下与NCBI链接的基因序列数据库的分子生物数据和书目文献资料。
(1) GenBank、EMBL、DDBJ中的DNA序列;
(2) SWISS-PROT、PIR、PRF、PDB中的蛋白质序列以及DNA序列数据库中翻译的蛋白质序列;
(3) 基因和染色体图像数据;
(4) PDB以及收入NCBI分子模型数据库(MMDB)的蛋白质三维结构;
(5) 通过PubMed检索Medline和PreMedline数据库。
2.Entrez检索功能
Entrez提供了以下三种检索功能。
(1)自由词检索功能
用户可以通过文本词、关键词、截词、期刊名或文献的作者检索Entrez数据库。截词用*号,期刊名必须用Medline刊名缩写,作者姓名必须是姓在前,名在后,用首字母缩写。
(2)索引词表(List Terms)检索功能
索引词表检索是当你键入检索词,Entrez在你选定的字段中显示从该检索词开始的一个索引词表窗口,这时,你可以选择一个或几个词进行检索,这对单词拼写不准确时非常有用。例如:在输入框中键入“P53”,选择文本字段(Text Words)和索引词表(List Terms)检索功能,再点击“Search”,这时返回一个以“P53”开始的索引词表窗口,浏览选择一个或几个索引词,点击“Search”,Entrez将返回检索结果。
weeds
(3)自动检索功能
自动检索功能就是Entrez浏览器根据用户输入的检索式自动进行检索,返回当前检索式检出的文献数,如满意,可进一步取得检索结果,如不满意,则可对当前检索式进行修改,直到用户满意为此。例如在输入框键入“P53”,选择所有字段和自动检索功能,点击“Search”,Entrez返回一个Web页,包括当前检出文献数、加词检索和修改当前检索
三个部分。如果你对检出文献数不满意(过多或过少),可以在加词检索部分增加更专指的检索词,以提高查准率,也可以在修改当前检索部分选择某一布尔算符(AND、OR、NOT、ANDNOT),对当前的检索策略进行修改,直到你满意为止。
对于检出文献,用户可以选择浏览格式进行浏览,也可以打印或存盘。
3 Entrez检索规则
(1)Entrez高中试卷网支持“*”号截词检索;
(2)Entrez对你键入的词可以进行逻辑识别。例如:键入“Lipman DJ Genomics”,Entrez将它识别为作者的姓名Lipman DJ和自由词Genomics,并将提问式转换为“Lipman DJ”AND Genomics。对于Entrez不能识别的提问式,如 bac 1,必须加双引号,系统就会将它们作为一个词进行检索;
(3)Entrez支持复杂的布尔逻辑检索;
(4)Entrez支持限定字段检索;
字段标识符的全称如下:
WORD=Text Word, TITL=Title Word, MESH=Mesh Term, MAJR=MeSH Major Topic, AUTH=Author Name, JOUR=Journal Name, ECNO=EC/RN Number, GENE=Gene Name, DATE=Publication Year, PDAT=Publication/Creation Date, MDAT=Modification Date, PAGE=First Page, VOL=Volume, KYWD=Keyword, ORGN=Organism, ACCN=Accession Number, PROT=Protein Name, SUBS=Substance,PROP=Property, FKEY=Feature Key 和 PTYP=Publicaton Type
二、BLAST序列类似性检索
序列类似性检索就是将新测定的核酸或蛋白质序列对核酸或蛋白质序列数据库进行检索,找出与之相似的序列,从而评判新测定的序列是重复别人的工作,还是在前人的基础上有所创新,或是发现了新的序列。现在用于序列类似性检索的软件很多,下面主要介绍GenBank的序列类似性检索工具棗BLAST。
助理造价工程师1. BLAST简介
BLAST是Basic Local Alignment Search Tool的英文缩写,意即碱基局部对准检索工具,是一种序列类似性检索工具。它采用统计学记分系统,能将真正配对的序列同随机产生的干扰序列区别开来;同时采用启发式算法系统,即采用的是局部对准算法(Local Alignment Algorithm),而不是全序列对准算法(Global Alignment Algorithm)。全序列对准算法是在检索结果中两个被比较序列所有片断均类似;而局部对准算法是找出两个被比较序列的“最类似”片断,并得出可能只包含两个序列的某个部分的对准结果。
在BLAST的基础上,NCBI又开发了BLAST 2.0、Gapped BLAST和PSI-BLAST。BLAST 2.0是一种新的BLAST检索工具,它对BLAST作了改进,运行速度更快,灵敏度更高,同时具有Gapped BLAST和PSI-BLAST两种软件的新功能。Gapped BLAST允许在对准的序列中引入空位(碱基缺失或插入),引入“空位”(Gaps)意味着在比较两个相关序列时不会出现中断(Break)现象。这些空位对准的记分系统更能反映相关序列的类似程度。PSI-BLAST的全称是Position-Specific Iterated BLAST,意即特殊位置重复BLAST,它提供了自动、易用的概貌(Profile)检索,是查找序列同源(Sequence Homologues)的有效方法。目前,PSI-BLAST仅用于比较蛋白质查询序列与蛋白质数据库中的序列的类似程度。
navy2. 使用NCBI BLAST服务的四种基本方法
(1)经由WWW使用的BLAST
使用BLAST最容易的方法是WWW方式。在用户的浏览器中键入NCBI的URL地址:龙舌兰英文http//bi.v,进入NBCI主页,然后链接到BLAST主页。BLAST主页提供了好几种BLAST检索软件,包括BLAST、BLAST 2.0、Gapped BLAST和PSI-BLAST等,其中BLAST和BLAST 2.0提供了基本检索和高级检索两种模式。
(2)网络版的BLAST
BLAST2是标准的网络BLAST客户软件,它可以通过NCBI匿名的FTP服务器(ftp://ncbi.v)下的/blast/network/blast2/获取。
PowerBlast是用于大规模分析基因序列的网络BLAST客户应用软件,它可以通过NCBI匿名的FPT服务器(ftp://ncbi.v)下的/blast/network/blast2/powerBLAST/获取。
(3)独立运行的BLAST
BLAST 2.0可以在本地计算机上独立运行,也可以在自建的序列数据库中进行BLAST检索,哈尔滨雅思哪里好
还可以下载NCBI数据库中的记录。BLAST运行的软硬件环境为IRIX 6.2、Solaris 2.5、PEC OSF1(第四版)和Win32系统。可独立运行的BLAST 2.0在NCBI匿名的FTP服务器(ftp://ncbi.v)下的/blast/executables/获取。
(4) 电子邮件的BLAST
通过电子邮件对基因库进行BLAST检索(详见本章第四节二)。
3. BLAST的检索方法
(1) BLAST数据库的选择
BLAST检索的数据库包括两大类:一类是肽序列数据库,另一类是核酸序列数据库。
① 肽序列数据库包括:
nr: 所有无冗余基因库CDS转录产物、PDB、SwissProt以及PIR序列
英文吻别month: 最近30天注释的所有新增的或修订的基因库CDS转录产物、PDB、SwissProt和PIR序列。
SwissProt: SwissProt蛋白质序列数据库中最新的主要注释(无更新)序列。
yeast: Yeast(Saccharomyces Cerevisiae)蛋白质序列。
E.coli: E.coli基因CDS转录产物。
pdb: 从Brookhaven蛋白质序列数据和三维结构衍生出来的序列。
Kabat [Kabatpro]: 免疫学上感兴趣的蛋白质序列Kabat数据库。
alu: 从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。通过匿名FTP从ncbi.v下的/pub/jmc/alu目录中获取。
② 核酸序列数据库包括:
nr: 所有无冗余的GenBank+EMBL+DDBJ+PDB序列;但不包括EST、STS、GSS或HTGS序列。
month: 最近30天注释的新增加的或修订的GenBank+EMBL+DDBJ+PDB序列
dbEST: GenBank+EMBL+DDBJ+PDB中EST部分的无冗余数据。
dbSTS: GenBank+EMBL+DDBJ+PDB中STS部分的无冗余数据。
htgs: 高允许能力(High Throughput)基因序列。
yeast: yeast(Saccharomyces Cerevisiae)基因核酸序列。
E.coli: 大肠杆菌(E.coli)基因核酸序列。
pdb: 蛋白质数据库。
Kabat[Kabatnuc]: 免疫学上感兴趣的核酸序列Kabat数据库。
Vector: GenBank载体数据库。
拉拉p是什么意思
mito: 线粒体序列数据库。
alu: 从重复序列数据库(REPBASE)选取的Alu重复序列,适用于过滤查询序列中Alu重复序列。通过匿名FTP从ncbi.v下的/pub/jmc/alu目录中获取。