收稿:2008年10月(特约)
3国家自然科学基金项目(N o.90612015,20673119,20221603)资助33通讯联系人 e 2mail :xxia @home.ipe.ac
I nternet 推动的化学信息学重要进展
3
李晓霞
33
郭 力 袁小龙 夏诏杰 聂峰光
(中国科学院过程工程研究所多相复杂系统国家重点实验室 北京100190)
摘 要 Internet 的普及为专业人员获取数据信息、利用计算工具提供了统一的平台,由此为化学信息学的发展带来了新的空间,推动了化学信息学以网络为基础,以化学相关的数据、信息及计算资源共享为目
标的快速发展。本文将从不同侧面回顾近10年来化学信息学的重要进展,包括:(1)网络化学信息检索:索引对象从化学浅层网向化学深层网发展;检索工具从web 化学信息资源导航向化学专业搜索引擎(包括文本信息和化合物标识信息)、及化学深层网检索引擎(化合物物性数据提取)发展;索引粒度从web 站点向页面、乃至页面中的特定内容发展,一般页面特定内容的数据提取(即非结构化数据提取)是未来发展的方向。(2)可共享的化学数据库:从可免费访问和使用的化学数据库向数据库内容通过集成多来源数据(包括数据库拥有者主动收集、多来源数据主动提交达到共享的方式,repository )实现数据库内容免费下载和共享,以及不同数据库之间的相关内容实现无缝连接的方向发展(如NIH 建成的药物小分子共享数据库PubChem )。(3)开源(open s ource )化学软件工具包:从化学结构基本处理模块如C DK 、JOE Lib 向集成开发环境如化学信息学与生物信息学集成环境Bioclip 发展。(4)与化合物及其数据共享相关的推荐标准:包括用于共享数据交换的化学标记语言C M L 、I UPAC 推荐的学术论文相关热力学实验数据提交标准Therm oM L 及化合物结构唯一描述码InChI 。(5)计算化学资源共享及基于网格的应用:从可执行程序的下载向在线计算、基于网格的应用发展。(6)eChemistry 和虚拟研究环境:网络也成为化学相关日常的科学活动中不可缺少的平台。构建以网络为平台、支持开展科研活动的数字化基础设施和服务的eChemistry 探索开始出现,根据需要自主集成多来源数据和计算资源,形成不同层次的支持协同工作的虚拟研究环境是未来数据和计算资源共享方式的发展方向。
关键词 化学信息学 化学浅层网 化学深层网 开源软件(open s ource s oftware ) repository 网
格 虚拟研究环境 eChemistry 中图分类号:O6239 文献标识码:A 文章编号:10052281X (2008)1221849211
I nternet Motivated Progress in Chemoinformatics
Li Xiaoxia
33
Guo Li Yuan Xiaolong Xia Zhaojie Nie Fengguang
(State K ey Laboratory of Multipha C om plex Systems ,Institute of Process Engineering ,
Chine Academy of Sciences ,Beijing 100190,China )
Abstract As the major media ,often the only s ource for chemical information ,Internet provides both challenges and opportunities for chem oin formatics ,which fosters the advancement of chem oinformatics to meet the ever increasing demands for sharing of chemical data and com putational tools over Internet.This paper will review the progress of chem oinformatics m otivated by Internet in the past 10years.Firstly ,Internet chemical information arching tools that started from index of text
chemical information with web chemistry directory and chemistry arch engines for Surface Web to index of chemicals for arching distributed chemical databas by multi 2s ources index deposit integration and Deep
第20卷第12期2008年12月
化 学 进 展
PROG RESS I N CHE MISTRY
V ol.20N o.12
Dec.,2008
Web data extraction,further to index of physical and chemical property data by in formation extraction will be discusd. Other topics will cover standards for open access and data interchange am ong chemical databas and com putational applications,com putational chemistry res ource sharing via online web rvices,open s ource packages for chemical in formation processing,grid bad applications,and efforts for eChemistry and virtual rearch environment that might be constructed by automated integration of data and com putational res ources on demand.
K ey w ords chemin formatics;chemistry surface web;chemistry deep web;open s ource s oftware;repository; grid;virtual rearch environment;eChemistry
1 引言
随着W orld Wide Web在1995年左右出现并迅速成为人们获取网络信息的主要方式,Internet得到快速普及。经过10余年的飞速发展,Internet已经成为各类信息发布和获取的平台,很自然地,也成为化学信息发布和获取的主要途径。美国印第安纳大学的G arry Wiggins一篇论文的标题“Chemistry on the Internet:The Library on Y our C om puter”准确地描绘了Internet为化学专业人员获取信息带来的变化,即如果不考虑是否收费,利用一台连接Internet的计算机,理论上你可以访问和获取所有已经电子化的化学信息[1]。美国化学会会志JACS在庆祝其创刊125周年时曾发表编者评论[2]认为,Internet及相关的信息技术,以及所带动的电子出版已经改变了科学研究的方式和学生学习新知识的方式。
Internet为化学信息学的发展带来的影响主要体现为以网络为基础,以化学相关的数据、信息及计算资源共享为目标的相关方法、标准及工具等的快速发展。由G asteiger等编著,在化学信息学领域有较广影响的化学信息学专著[3,4]对互联网上的化学信息、网络化学信息资源导航系统、网上的化学数据库进行了简要概述,但主要着眼于列出有用的工具,并未对建立工具的方法、新的进展和发展趋势作深入探讨。本文将从网络化学信息检索工具、可共享的化学数据库、开源(open s ource)化学软件工具
包、与化学相关数据共享及open access相关的推荐标准、基于网络的计算化学资源共享方式、基于网格的应用与虚拟研究环境等方面回顾Internet为化学信息学带来的相关进展,并对未来的发展趋势进行讨论。
2 网络化学信息检索工具
Internet飞速发展给化学专业人员带来的最大变化是网络已经成为获取化学信息(常常是唯一的)的来源。在享受信息时代带来的前所未有方便的同时,由于Internet具有节点平等、自由发布的特点,网络资源体现为分布式、高度动态、数量巨大、信息的质量良莠不齐。如何从海量信息中检索所需要的、高质量的化学信息,是人类所面临的前所未有的挑战。解决网络信息资源检索的基本思路是建立网络资源的索引,索引对象与可检索的对象相对应,索引的粒度决定着检索结果中能直接定位到的内容。建立面向网络化学信息专业检索工具的努力从建立网络化学信息的文本索引(chemistry text index)开始,逐步向建立化合物索引、以及向建立化合物相关的数据的索引发展(图1)。其中建立化学文本索引形成的工具从网络化学信息资源导航系统(chemistry web directory)向化学(文本)专业搜索引擎(chemistry arch engine)发展
。
图1 Web化学信息专门检索工具从文本检索引向化合
物索引、乃至化合物性质数据的索引发展
Fig.1 The ev olution of web arching tools specific for chemical in formation,from text index to com pound index, further to chemical property data index
情人节祝福语简短10字最近两三年值得关注的热点是建立化合物索引(com pound index)的努力,目标是建立化合物搜索引擎(chemicalΠcom pound arch engine)实现分布在网络上多来源化学数据库的统一检索。一类方法是通过各个化学数据库主动将自己库的化合物索引提交到一个中心站点(DB index deposit),在此基础上生成化合物的统一索引;另一类方法是通过化学深层网(chemistry deep web)深层数据结构挖掘和目标数据
・
5
8
1
・化 学 进 展第20卷
提取(data extraction)实现多来源数据的检索。
更进一步发展的方向是建立化合物物性数据的索引(chemical property data index),目标是将那些富含数据的web页面如一篇文章、一篇专利中的目标数据识别和提取出来,以建立化合物性质数据的搜索
引擎(Chemical Property Search Engine),实现化合物性质数据的统一检索,目前已经出现一些尝试。下面按照索引的类型对所形成的工具、建立工具的方法和发展方向分别进行介绍。
2.1 化学信息的文本索引
文本索引的对象是包含化学信息的web站点或web页面,索引的本质是通过链接分析发现新的信息资源。可形成两类工具:一类是网络化学信息资源导航系统(chemistry portals,chemistry web directories or link listings);一类是网络化学信息专业搜索引擎(chemistry arch engine)。2.1.1 网络化学信息资源导航系统
网络化学信息资源导航系统也可称为网络化学资源目录系统,其主要特点是人参与了网络化学信息资源的发现、评估和组织。索引的基本单元是一个web站点或一个web页面,基本使用方式是用户可以按照某种分类浏览被索引的web站点或页面。网络化学信息资源导航系统出现于1993年,网络上存在着众多、规模各异的系统,一些知名的综合性的化学信息资源导航系统得到广泛的认可,如英国谢费尔德大学建立和维护的ChemDex(1993—)[5]、英国利物浦大学的Links for Chemists(1995—)[6]、美国印第安那大学的CHE MI NFO(1993—)[7];中国科学院过程工程研究所建立的国家科学数字图书馆化学学科信息门户ChI N(1997—)[8,9],虽然建立得晚一些,但整体性能已经超过了最为知名的ChemDex[5]和Links for Chemists[6],ChI N[9]与二者的比较见表1。
表1 ChI N与两个知名网络化学资源导航系统的比较
T able1 C om paris on of ChI N with the tw o recognized chemistry web directory
Items in com paris on Chem Dex Links for Chem ists ChIN
s ources linked≥7208>8500>10518
chem ical databa≥148≥107≥400,50%free
chem ical s otfware≥114≥200(com panies)≥200,60%free
quality g ood—rated in5levels
res ource description short none detailed,17data m odels,6keyw ords in average classification m ix of types&topics m ix of types&topics tw o categ ories:types,disciplines
arching quick&advanced none quick&advanced
language English English,root list in G erman and French Chine&English
表1中的3个系统均被Thoms on公司的ISI Web of K nowledge[10]平台中的Current Web C ontents(CWC)收录,ISI CWC是ISI专门收录网络资源的系统,其收录标准秉承了ISI在收录科技期刊、科技论文方面的传统,被收录的Web站点或系统要符合权威性(authority)、准确性(accuracy)和及时性(currency)的标准,全球化学相关的化学站点目前仅收录200多个,ChI N是中国唯一被收录的化学相关站点(图2)。综合性的网络化学信息资源导航系统也得到化学相关专业人员的广泛应用,例如我国建立的ChI N已经被国内出版的12部化学信息学相关的专著所推荐(表2),1998年以来的ChI N的访问请求数[11]已经超过2亿次,其中国内用户约占70%,充分说明ChI N 在帮助国内化学相关专业人员获取网络化学信息方面发挥了权威门户的作用
。图2 ChI N被ISI Web of K nowledge平台中的ISI Current Web C ontents收录
Fig.2 ChI N is indexed by ISI Current Web C ontents available in ISI Web of K nowledge
・
1
5
8
1
・
第12期李晓霞等 Internet推动的化学信息学重要进展
表2 2000—2005年在中国出版的、推荐ChI N[8,9]的12部专著的目录[8,9]
T able2 The list of12books published in China from2000to2005that recommends ChI N[8,9]
Qiao Y Y,Zhang M T.Brief Introduction to C om puter Chem istry.T ianjin:Nankai University Press,2005.147—148
Cai Z Y.Chem ical In formation and Related W eb Res ources.Beijing:National Defen Industry Press,2004.3—16
离任感言简短Y ang X L.The Internet In formation Res ources on Pesticides.Beijing:Chem ical Industry Press,2004.49,85,147
机票英语Y u X C.H ow to Find Chem ical Literature.3rd ed.Beijing:Science Press,2003.338—346
W ang R M.Searching and U of Chem ical In formation and W eb Res ources.Beijing:Chem ical Industry Press,2003.17,44
Li M L,et al.Internet and Introduction to Chem ical In foram tion.Beijing:Chem ical Industry Press,2001.61,62,79,83
Shao X G,Cai W S.Chem oin formatics.Beijing:Science Press,2001.116—119
Y uan Z Z,X iao X,Chen X Y.Searching and Application of Chem ical In formation.Nanjing:Jiangsu Science and T echnology Publishing H ou,2001.73—74,119,122,205
顺德大良美食攻略
M iao Q.Introduction to Chem oin formatics.Beijing:China Higher Education Press,2001.10,11,21,29,32
Shen Y,Zhang D J,Zheng K C.The Basics on M odern Chem ical In formation.G uangzhou:Sun Y at2Sen University Press,2000.147—150
Y u Q S,Shang Z C,Y ang M.The Chem ical In formation on Internet.Beijing:Chem ical Industry Press,2000.3,4,22,23,224—226
Hu L J,Y ou H,Zheng Z C.Internet and Chem istry.Beijing:Science Press,2000.143—146
综合性的网络化学信息资源导航系统的规模在最近几年比较稳定,各个系统新增的化学信息资源数量减少;CHE MI NFO[7]的资源导航部分于2007年初改为wiki版[12],意在鼓励志愿者参与系统的维护、更新,但目前看来参与度有限。另外值得注意的是,一些系统的重要性在悄然发生变化,综合性网络化学信息资源导航系统在G oogle化学资源目录系统(G oogle Directory:Chemistry)中按照PageRank的排名情况[13]在2008年有较大变化(PageRank是G oogle搜索引擎衡量一个web站点或页面重要性的算法), ChemDex[5]的排名从原先的第1位下降为第12位, Links for Chemists[6]由第2位上升为第1位,ChI N[9]从第13位上升为第10位。由于参与G oogle化学资源目录系统排名的仅为ChI N的动态页面版本[9],未包括访问量仍十分可观的、ChI N的静态网页版本[14],因此ChI N的实际排名要
比第10位高。
总之,综合性网络化学信息资源导航系统作为最早的面向网络化学信息检索的工具已经成熟,知名系统为专业人员广泛使用。由于人参与了资源的发现与组织,较好利用了人的领域知识,与通用资源搜索相比,资源导航系统更符合专业人员的需要,但系统长期维护的代价较高,系统规模受到局限。为此,建立网络化学文本信息索引的努力从资源导航进一步向化学信息的专业搜索引擎发展。
2.1.2 网络化学信息搜索引擎
搜索引擎通常由爬行器(web crawler)、索引器(indexer)、检索器(archer)三部分组成,其中爬行器利用链接分析(hyperlink analysis)自动发现新的资源,索引器则对爬行器收集到的web页面进行解析并利用全文检索技术建立索引,检索器则响应用户的查询请求将按照一定规则排序的结果返回给用户。搜索引擎爬行和索引的基本单元是web页面,通过所爬行页面当中包含的超链接,以及通过这些链接对所爬行到的页面之间的关系进行分析,实现和优化新资源的自动发现、索引和结果排序是搜索引擎的主要特征。虽然通用搜索引擎已经成为人们获取网络信息的日常工具,也被专业人员用于获取网络化学信息,但是通用搜索引擎并非完美无缺,最知名的G oogle估计只索引了web空间约76%的资源[15,16],特别是检索化学信息时结果中常包含专业相关性小或不相关的内容。通用搜索引擎发展的趋势之一是从通用向专门化发展,例如G oogle于2004年11月推出的G oogle Scholar[17]是专门检索学术内容的搜索引擎,E lvier于2001年推出的Scirus[18]是专门搜索科技内容的搜索引擎。
与通用搜索引擎如G oogle、百度类似,面向文本的网络化学信息搜索引擎索引的基本单元是web页面,所不同的是页面内容与化学相关。因此评价一个网络化学信息搜索引擎的性能不仅要考察其组成搜索引擎的3个基本模块,即网络爬虫(web crawler)、索引器(indexer)、检索器(archer)的基本功能,更重要的是考察其对web页面内容的相关性判断如何实现。目前已经在Internet上运行的网络化学信息搜索引擎屈指可数,基本上只有美国化学文摘(C A)的网络版SciFinder[19]所集成的eScience服务[20]所推荐的两个系统,一个是ChemG uide[21],另一个是[22]。
ChemG uide也是最早称为化学搜索引擎的系统(chemistry specific arch engine)[21],由德国FIZ Chemie Berlin于2000年推出在网上运行,当时的索引规模约100万页,仅包括德国、美国、英国、加拿大4个国家的网络化学资源;到2005年ChemG uide索青菜英文
绿豆孕妇可以吃吗
・
2
5
8
1
・化 学 进 展第20卷
引规模约为868万页,2006年10月达到909万页;在界面风格保持稳定多年后,2008年该系统的界面进行了改版,自称“ChemG uide———Y our arch engine for chemical information”。该系统的实现算法从未发表过,所实现的页面缓存功能仅为单词集组成的文本,而非通常的、能反映web页面原貌的HT M L格式;化学信息资源的覆盖面有明显缺陷,很可能没有新页面的自动发现能力,似乎可推测它不是一个严格意义上的化学专业搜索引擎。
<是位于美国加州的一个公司推出的化学工业搜索引擎[22],内容侧重于化学相关的商业服务。该系统是在Mark C ouhig编辑的网络化学工业信息资源导航系统的基础上发展而来,该导航系统索引的资源数从1994年约1000个站点,发展到2000年的12000个站点,2005年索引的站点规模达到45000个。该系统在2000年得到1000万美元的风险投资而得到壮大,据称目前系统规模大于200万页面,每月的访问量超过250万。与ChemG uide类似,该系统的实现算法也不曾发表过,目前用户检索结果的排序是将投放广告的网站优先列出,其余的则以字母序排列,这意味着该系统没有采用任何检索结果的排序算法。考虑到该系统相关导航系统的规模超过4万个,如果一个站点的页面规模平均为几十页到上百页,那么该搜索引擎索引的似乎仅仅是导航系统所索引全部站点的所有页面镜像的集合,那么很可能该系统也没有新页面的自动发现能力,也不是一个严格意义上的化学专业搜索引擎。值得注意的是,该系统除美国总部外,仅在国内浙江海宁、上海设立了办事处,说明国内众多的
化工小企业是该系统重要的目标客户。
中国科学院过程工程所近年来致力于化学专业搜索引擎的研究[23—32],将通用搜索引擎技术与化学相关的领域知识相结合,设计并建立了一个规模为1000万页面的化学(文本)搜索引擎原型系统ChemEngine。ChemEngine的系统结构如图3所示,与通用搜索引擎的结构类似,由网络爬虫、索引器和检索器三大块组成,所不同的是ChemEngine的爬虫是一个化学主题爬虫(chemistry focud crawler),其检索器(archer)可根据化学相关主题进行检索结果的自动分类[23—32]。ChemEngine所解决的关键问题是如何在化学相关领域知识的指导下实现化学相关的web页面的自动发现和选择性爬行。ChemEngine利用ChI N[8,9]所积累的网络化学信息源知识如ChI N的UR L库、ChI N
所索引资源的描述数
图3 化学专业搜索引擎ChemEngine的系统架构图
Fig.3 The architecture of chemistry focud arch engine ChemEngine
据、化学化工专业字典等领域知识,采用文本自动分类方法用于web页面的化学相关性判断,系统分析了建立化学主题爬虫的各种影响因素,包括web页面分类器(支持向量机S VM、简单贝叶斯Na ve Bayes、中心向量法Center Vector)、基于关键词匹配、基于链接分析、基于UR L字符串、多主题页面的分块算法(基于文档对象模型DOM、基于视觉)和初始UR L的影响,结果表明初始UR L对化学主题爬虫有较大影响,证明了ChemEngine以ChI N积累的UR L 库作为爬行的种子UR L策略的合理性;基于支持向量机方法的化学主题爬虫表现最好;页面分块算法可在支持向量机化学主题爬虫的基础上进一步提高爬行页面化学主题相关度。
2.2 多来源化学数据库的化合物索引
网络化学信息资源导航系统和网络化学信息搜索引擎都是利用web页面链接分析来发现新的化学信息页面,这一方法无法应用于web化学数据库所存储的化合物及其数据的发现与索引。仅当用户向web化学数据库中提交一个检索数据的查询请求(query)后,包含查询结果(检索的目标数据)的web 页面才
由服务器端的数据库接口程序自动生成后返回给用户,该结果页面在查询前并不在服务器端存在,查询后也不在服务器端保存,因此无法被基于链接分析的搜索引擎所索引。Web数据库的集合也被称为深层网(deep web)[33,34],相应地,可将web化学数据库的集合称为“化学深层网”(chemistry deep web),可利用web页面链接分析来发现的化学web 页面称为化学浅层网(chemistry surface web,图1)。
不聚集不扎堆
利用一个查询能同时检索分布在网上的Web 化学数据库是人们近年来努力的方向。最早的努力
・
3
5
8
1
邮件撤回・
第12期李晓霞等 Internet推动的化学信息学重要进展