数字资源互操作协议OAI与Open URL之比较研究
林绮屏
(华南师范大学 广州 510631)
摘 要 分析了两种资源互操作协议OAI和OpenURL的框架及传输机理,并从上下文相关性、运作方式、响应速度、可维护性等方面对二者进行了比较。
关键词 openurl OAI 数字资源互操作协议 资源共享
随着数字图书馆建设的进一步发展,不同系统、不同数据拥有者之间如何实现信息资源共享和互操作已成为建设数字图书馆面临的最大问题之一。其原因是各种图书电子资源分布于不同的系统中,数据的内部格式各异,数据发布系统也不一样,这给资源共享和互操作带来一定的困难。OAI(Open Archive Initia2 tive)和OpenURL数字资源互操作框架是为了实现不同机构、不同系统间的信息资源共享和互操作而产生的,并逐渐被采纳成为协议标准。二者在资源互操作方面各有优点,本文对二者进行了分析比较,希望对数字图书馆的建设有所裨益。
1 OAI框架
OAI开放文献先导框架是在1999年10月一次学术出版联合组织的会议上提出的,它受到了网络信息联盟(CNI,The Coalition for Networked Information)和数字图书馆联盟(DL F,Digital Library Federation)的支持。目前版本为2002-06-14发布的2.0版本。OAI元数据获取协议OAI-PHM(The Open Archives Initiative Protocol for Metadata H数学创意画
arvesting)主要有两个方面的交互操作组成:数据提供者(Data Provider administer system)和服务提供者(Service Providers)。服务提供者与数据提供者之间的消息传递是通过OAI request和OAI respon实现的。服务提供者通过OAI request从数据提供者中获取元数据,数据提供者对来自服务提供者的OAI request作出响应并以OAI respon格式向服务提供者提供元数据。一个数据提供者可以向多个服务提供者提供元数据,一个服务提供者可从多个数据提供者处获得元数据。
1.1 数据提供者 数据提供者拥有信息仓库(Repository),仓库由多个条目(item)组成,一个条目是对一个具体资源的描述,它具有一个唯一的标识符。一个条目可由多种元数据格式描述,每一种元数据描述为一个记录,但它们均对应同一个标识符。由于每个数据提供方各自拥有自己的元数据,其元数个人消费信贷
据的形式也不尽相同,OAI规定数据提供方可发布多种格式的元数据,但一定要有一种是以都柏林核心集(DC)元数据形式提供元数据,若原先无都柏林核心集形式的元数据,要先转化为都柏林核心集元数据格式。元数据被封装为XML格式记录进行通讯,数据提供者提供给服务提供者的是XML元数据记录。
为了提供选择性获取,OAI协议规定了两种方式:基于时间戳方式和分组方式。数据提供方给每一条记录加入一个时间戳(datestamp),标明其最后修改日期,以提供基于时间戳方式的元数据提取。同时,数据提供方还漫画美女图片
可对条目进行分组,各个小组的主题各不相同。每个小组里的元数据记录都有共同的主题,如果一条元数据记录涉及到多个主题,可以将记录划分到多个组内。在获取元数据时,可以只选择在某一特定组内的元数据记录。
1.2 服务提供者 服务提供者从多个支持OAI-PHM协议的数据提供者处获取元数据,对得到的元数据进行整合、分类等加工,再映射到本地数据库中,建立起一个大型的索引数据库,提供增值服务。服务提供者获取元数据是通过一个被称为元数据获器(Harvester)的客户端程序来实现的。为了使元数据能保持及时更新,服务提供者要经常向数据提供者发出获取元数据的请求,根据服务提供者的服务内容和性质,可对元数据进行选择性获取。比如,数据提供者中有文学、经济、数理等子集,而当前服务提供者是提供经济信息的,则可只选择经济子集中的元数据进行获取。每次获取时可指出一个时间范围,则数据提供者根据这个时间范围,只返回服务提供者在这个时间范围内更新过的数据。
1.3 OAI的传输机理 在OAI-PHM协议中,对服务提供方的请求(request)及数据提供方的响应(respon)格式均作了规定, OAI-PHM的请求是通过Http的GET/POST方法实现的。每个请求包括一个基本的URL地址以及关键字参数。这个基本URL 地址包括数据提供者的主机名、端号,有时还可能包含一个目录。关键字参数与基本URL之间用“?”号分隔开,其形式为key=val2 ue对;关键字参数可以
有多个,每个之间用“&”号分隔。OAI-PHM还规定了每个请求至少含一个形式为“verb=OAI-PHM request”的参数,其中“verb”是一个关键字,表示要指出本次请求的动作,“OAI-PHM request”为具体的动作描述。OAI-PHM中规定了以下六种数据获取的动作:G et Record:获取一个特定记录的内容,要指出条目号和元数据格式;Identify:获取关于仓库的基本信息,不需另带其它参数;List Identifiers:获取信息仓库中相关条目的头标信息,可通过指定日期或子集进行选择性获闪光少女电影
取;List metadata format:获取仓库支持的元数据格式,除了协议规定的必须支持的都柏林核心格式OAI-dc外,还有哪些元数据格式,可通过指定某一条目号得到一个具体条目支持哪些元数据格式;List Records:获取一个记录集,可通过指定一个日期范围、子集、元数
・情报技术・ J o ur nal of Inf or m a ti o n No.7,2004
据格式等,进行选择性获取;List ts:获取仓库中记录的分类结构,为选择性获取作准备。
数据提供方在接收到数据获取请求后,以XML记录形式将元数据返回给请求方。当返回记录数太多时,可分步传输。分步传输的主要思想是将大记录集分割成多个部分,一次返回其中一部分,并附加一个重新开始标志,请求方收到有这种标志的结果时,重新发请求。当数据提供方将记录集的最后一部分发出时,将重新开始标志置空,这样请求方知道已接收到完整的记录集。请求方将被分割的部分串接起来就可得到完整的记录集。
2 OpenURL框架
OpenURL框架是由Los Alamos National Laborator y的Herbert Van de Sompel和Patrick Hochstenbach以及Ex Libris(USA)公司的Oren Beit-Arie等人于1999年提出的一个上下文相关的开放链接框架,使信息服务者与信息的提供者相分离,实现同时对不同机构的多个数据库或信息资源进行统一的检索。2001年美国国家信息标准组织(NISO)成立专责委员会,制定关于OpenURL 的美国国家标准(ANSI)Z39.88-200X。该标准于2004年1月26日至2004年3月10日在网上公开接受评议,有望在近期内正式成为ANSI/NISO标准。Z39.88协议的核心是用于描述上下文环境的上下文对象及其传输机制。为了规范对上下文对象内各实体的描述,以及建立统一的上下文对象传输方法,协议定义了一套完整的OpenURL框架。Z39.88协议具河北野山坡
有很强的开放性,不同机构、不同领域的异构资源可通过对各组件元素进行注册来实现对OpenURL的支持。
2.1 上下文对象(Contex Object) 在OpenURL框架中定义一种叫上下文对象的信息结构,用于对参考链接的上下文环境进行描述,该信息结构包含了对6种信息实体的描述。a.被参考资源(Referent):在一个特定的网络上下文环境中被参考的对象资源,它是上下文对象的核心元素,如果没有所指资源,上下文对象就没有产生的必要。b.参考者(ReferringEntity):在一个特定的网络上下文环境中对其它资源进行参考的实体。c.请求者(Re2 quester):对被参考者发出服务请求的实体。d.服务类型(Service2 Type):对服务类型进行定义的实体,如全文还是摘要等。e.链接服务器(Resolver):服
务请求所发向的目标,链接服务器以OpenURL为输入,接收到OpenURL后对其进行分析,分析和评估传来的元数据(metadata)并动态计算出合适的目标连接。f.上下文对象产生者(Referrer):产生上下对象的实体。
2.2 OpenURL的传输机理 在OpenURL方式中,对其它资源参考方并不产生直接指向参考目标的链接,而是通过一个挂接点产生一个http请求,该请求就是OpenURL。OpenURL以http 协议的get/post方法将上下文对象提交到一个第三方的链接服务器。链接服务器接受到OpenURL请求后,根据上下文对象动态计算出链接的目标。为了实现这种上下文敏感的链接服务,必须解决以下两个问题:
21211 判别出当前使用者是否有这个服务的使用权。为了避免在一个没有资源使用权的上下文环境中显示出一个无效的链接点,必须首先得到用户当前上下文环境的致位
描述,然后根据上下文环境判断是否有使用权。对于有使用权的则显示一个链接点,否则不显示。为达到这一目的,可采用CookiePusher、用户配置文件等多种方法来实现。
21212 对有权限的用户为每个元数据对象提供一个OpenURL链接。OpenURL的语法为:
OpenURL::=BASE-URL“?”QU ER Y
其中,BASE-URL为链接服务器的URL,QU ERY是对上下文对象的描述,是用“&”号分隔的K ey=Value对。
例:要向链接服务器地址为/demo提出查询书名为《oracle8完全参考手册》,出版社为机械工业出版社的图qq备忘录
书,其OpenURL为:
/demo?title=oracle8完全参考手册&publisher =机械工业出版社
3 OAI与OpenURL的比较
3.1 OAI与OpenURL的相同点 二者的目的都是实现资源共享和互操作,均将服务提供者与数据提供者相分离,服务提供者只提取元数据信息,对元数据信息进行重新组织,提供整合检索等增值服务。服务提供者无需了解数据提供者的内部数据格式,通过http的get/post方法,并遵循协议的格式将参数传给数据提供方即可得到所需的元数据。因此,服务提供者在对不同系统、不同结构的资源进行整合时无需对不同格式不同结构的数据进行复杂的数据转换,只需对从不同数据提供者处得到的元数据进行简单的重新组织,就可提供增值服务。
3.2 OAI与OpenURL的不同点
31211 上下文相关性。OAI方式中,对用户当前的上下文环境是不敏感的。用户直接在服务提供方的联合目录中进行信息检索,只有在查看详细信息时才需要连接到数据提供方。因此,服务提供方对用户的当前上下文环境并不关心,他可为任何用户提供元数据级的检索服务。OpenURL链接方式中,是
上下文敏感的。由于在服务提供方并不存贮元数据,而是提供一个挂接点,将当前的上下文环境提交给链接服务器,由链接服务器根据传来的上下文环境动态计算出目标链接,与使用者的需求及使用情境是密切相关的。该方式的好处是不存在失效链接,用户友好性较好。
31212 运作方式。OAI方式中,服务提供方要建立一个集中式的联合目录,数据提供方的数据更新后,用户方并不能马上感觉到,只有在服务提供方执行元数据获取过程中并将获取到的元数据追加到联合目录后,才能体现在用户的检索结果中。OpenURL方式采用通过链接服务器动态生成目标链接的方式,即时、分散地连接资源,每个链接在用户的当时上下文环境中都是有效的,并且一旦数据提供方的数据发生更新,用户即时可查到已更新的数据。
31213 响应速度。OpenURL同时链接到多个目标,当链接的目标较多时,速度会较慢。OAI由于是集中式的目录,所以查询速度较快。
31214 可维护性。OAI方式中,由于检索是在服务提供方进行的,因此服务提供方要定期向各个数据提供方进行元数据获取,若数据更新不及时会影响检索结果的质量,并且服务提供方必须有足够的空间存贮不断增派出所工作
长的联合目录,并对其软、硬件进行日常维护。为减少维护工作量,可采用定时自动数据获取方式进行元数据采集。OpenURL方式中由于链接服务器是根据元数据动态产生目标链接的,只要目标的基本URL不发生改变,数据提供方的数据变更不会影响链接的准确性。更新(下转第16页)
情报杂志2004年第7期 ・情报技术・
图3 Web 页面主题识别运行效果
向量计算法、神经网络方法、最大平均熵方法、最近K 邻居方法和贝叶斯方法等等。系统在权衡速度和效率之后,选择了比较简单但非常有效的计算向量距离匹配法。
该方法的思路十分简单,先计算出主题训练文本集的中心向量,即取训练文本集中各向量算术平均值,然后在待识别网页来到时,确定该网页文本的向量,计算该向量与中心向量间的距离(相似度),如果相似度超过某一阈值则认为该网页文本与主题相关,具体步骤如下:
第一步:计算每类文本集的中心向量,计算方法为所有训练文本向量简单的算术平均;
第二步:新文本到来后,分词,将文本表示为特征向量;
第三步:计算新文本特征向量和每类中心向量间的相似度,公式为:
Sim (d i ,d j )=
6M
k =1
W ik W jk
(6M
k =1W 2ik )(6M
k =1
W 2
jk )(3)
其中,d i 为新文本的特征向量,d j 为第j 类的中心向量,M 为特征向量的维数,W k 为向量的第K 维。
第四步:比较相似度与初始阈值,判定网页文本是否与主题相关。
要说明的是,阈值的确定是十分困难的,在进行主题识别之前,主题识别器必须通过训练文本反复测试,反复调整,最后确定一个查全率和查准率都比较令人满意的阈值(图2是Web 页面主题识别过程图)。4 运行效果
为了验证Web 页面主题识别算法的效果,主题信息采集系统在Web 环境中,根据事先构造的“军事武器”主题词典,对实时采集回的Web 页面进行主题识别的试验,结果表明系统的主题识别算法是很有效的,识别准确率达95%以上,测试时的运行效果如
图3所示。
参考文献
1 Andrew McCallum ,K amal Nigam.A Comparison of Event Models for Naive
Bayes Text Categorization.AAA I -98Workshop on “Learning for Text Catego 2rization ”,1998
2 庞剑锋,卜东波,白 硕.基于向量空间模型的文本自动分类系统的研究与
实现.计算机应用研究,2001;(9)
3 李 勇,桑艳艳.网络文本数据分类技术与实现算法.情报学报,2002;(1)4 尹 锋.汉语自动分词研究的现状与新思维.现代图书情报技术,1998;(4)5 梅伯平.网络信息组织的分类主题一体化研究.情报科学,2003;(4)6 冯书晓,徐 新,杨春linu
梅.国内中文分词技术研究新进展.情报杂志,2002;
(11)
7 牛忠兰,陈跃新,徐正同等.网络文本自动分类系统的研究与设计.微处理
机,2001;(2)
8 刁 倩,王永成,张惠惠等.文本自动分类中的词权重与分类算法.中文信息
学报,2000;(3)
(责编:愚王京)
(上接第13页)维护集中于链接服务器中,主要是对用户权限配置、基本URL 变更等少量的维护工作。4 结 论
OAI 框架和OpenURL 框架均为数字资源的共享和互操作提
供了标准和依据,各机构只要加入框架中,均可实现资源共享和互操作。OAI 和OpenURL 框架各有优点,在实际应用时,可根据应用的不同选择加入到不同的框架中。如要实现集中式的快速检索服务,可考虑采用OAI 方式;要实现上下文相关的链接导航、统一检索服务,则可考虑采用OpenURL 方式。
参考文献
1 The Open Archives Initiative Protocol for Metadata Harvestin g.http ://www.
2 罗 昊.互操作———数字图书馆元数据方案的关键.情报杂志,2003;(12)3 张 萍.OA I 元数据获取协议.情报理论与实践,2003;(6)
4 王蜀安等.支持OA I -PMH 的元数据互操作体系结构设计与实现.计算机
工程与应用,2003;(20)
5 The OpenURL Framework for Context -Sensitive rvices 1http ://www.niso.
org/standards/balloting.html
6 Herbert Van de Som pel ,Patrick Hochstenbach ,Oren Beit -Arie.O penURL
Syntax Description .http :///openurl/openurl.html ,20011117 李富玲,卢振波.SFX ———信息资源整合新工具.现代图书情报技术,2002;
(6)
8 柯皓仁.OpenURL SFX and工匠精神心得体会
Open Linking 1http ://www.lib.pu.edu.tw/~jiang/lib -science/openURL.htm >
(责编:亦愚)
・情报技术・
J o ur nal of Inf or m a ti o n No.7,2004