eminence
1 关联数据概述关联数据采用RDF(资源描述框架)数据模型,利用URI(统一资源标识符)
命名数据实体,在网络上发布和部署实例数据和类数据,从而可以通过HTTP(超文本传输协议)揭示并获取这些数据,同时强调数据的相互关联、相互联系以及有益于人和计算机所能理解的语境信息。
关联数据可以在不同来源的数据之间创建链接。这些数据源可能是两个处于不同地理位置的机构所维护的数据库,也可能是一个机构内的无法在数据层面上进行互操作的不同系统。从严格意义上讲,关联数据是指发布于网络上的数据,该数据具有机器可读性和明确的含义,并链接至其他外部数据集,同样也可被来自外部数据集的数据所链接。图1显示了链接开放数据项目的数据集以及数据集与数据集之间的链接(截至2009年7月),其中包括著名的DBpedia,Freeba和Thomson Reuters的Open Calais项目等。
关联数据网络和当前的超文本网络有所不同,超文本网络的基础单元是由超链接所连接起来的HTML(超文本标记语言)文件,而关联数据并非是简单地连接这些文件,而是使用RDF形成链接世界上任何事物的网络,也即数据网络,数据网络可被描述为由网上数据描述世界上所有实体的网络。关联数据网络的出现不但对当前的超文本网络进行了扩展,同时也对当前网络上纷繁混乱的信息资源进行甄别、选择和定位。
消防工程师考试科目 Tim Berners-Lee认为所有已发布的关联数据都是一个统一的全球数据空间的组成部分,进而概括出在网上发布关联数据的四条
原则
(1)使用URI作为任何事物的标识;
(2)使用HTTP URI使任何人都可以访问这些标识;大犰狳
(3)当有人访问某个标识时,使用(RDF,SPARQL)标准提供有用的信息;
(4)尽可能提供相关的URI,以使人们可以发现更多的事物。
nadia bjorlin
可以看出,这四条原则尽管简洁,却提供了在遵从统一的网络结构和标准的前提下发布和链接数据的基本方法。这也符合Tim Berners-Lee的“最少设计”原则,即把简单的东西简化,让复杂的东西变得可能;开发简单的应用,着眼于未来的复杂性。正是由于这一原则,万维网取得了意想不到的成功,相信也将继续引领关联数据的发展。
原则[6]。
建筑工程施工合同 (1)使用URI作为任何事物的标识;
(2)使用HTTP URI使任何人都可以访问这些标识;
(3)当有人访问某个标识时,使用(RDF,SPARQL)标准提供有用的信息;
(4)尽可能提供相关的URI,以使人们可以发现更多的事物。
可以看出,这四条原则尽管简洁,却提供了在遵从统一的网络结构和标准的前提下发布和链接数据的基本方法。这也符合Tim Berners-Lee的“最少设计”原则,即把简单的东西简化,让复杂的东西变得可能;开发简单的应用,着眼于未来的复杂性。正是由于这一原则,万维网取得了意想不到的成功,相信也将继续引领关联数据的发展。
数据的发布是关联数据极为重要的环节,数据提供者根据上述四条原则发布数据,从而将他们的数据加入到全球数据空间并使得数据能够被各种应用程序发现和使用。在网上发布关联数据包括以下三个基本步骤[7]:
(1)将URI分配给被数据集描述的实体,并提供逆向引用至RDF的URI;
(2)将RDF链接至其他网上数据源,从而使用户能够随RDF链接遍历数据网络;
(3)提供所发布数据的元数据,从而使用户能够评价所发布数据的质量并选择合适的访问途径。
2 关联数据的层次模型
作为语义网的一种实现方式,关联数据并不是一种全新的技术,它以成熟的URI、HTTP和RDF技术为基础,开发出多种关联数据的发布、链接和存储工具。关联数据浏览器和关联数据搜索引擎使得用户可以在数据网络中进行浏览和检索。据此,可构建关联数据的层次模型如图2所示。bankholiday
图2 关联数据的层次模型
(1)基础层。关联数据依赖于两项网络基础技术:URI(统一资源标识符)和HTTP(超文本传
输协议)。和人们所熟知的作为文件和其他网上可定位实体的地址的URL(统一资源定位符)不同,URI提供了一个更加普遍的标识存在于世界上的任何实体的方法。URI可以是一个网页路径,也可以是某位专家或员工的联络方式,或是某个文件的物理存放位置。总之,资源无论以何种形式存放,其存储位置都是唯一确定的,因此可以用URI进行唯一标识由使用“”开头的URI所定义的实体可以简单地通过在HTTP协议上逆向引用URI进行检索。在这种方式下,HTTP协议提供了一种简单而通用的检索机制,不但可以定位网络上的数字资源,如一只狗的照片,还可以检索那些自身无法通过该方式在网络上进行传输的实体的描述比如那只狗[7]。
如果说HTML(超文本标记语言)提供了在网上架构和链接文件的一种方式,RDF则提供了一种普遍的、基于图形的数据模型,如图3所示。通过这种模型可以架构和链接描述世界上事物的数据。kele
热销品在RDF中,所有的资源都能够用一个URI来指定,属性是用来描述资源的特征或关系,每一个属性都有其特定的含义,用来定义对应的属性值、资源类型,以及和其他属性之间的关系[8]。RDF把以上体系统称为一个声明语句,其中资源是主体,属性是谓词,属性值则是客体。RDF模型以“主体、谓词、客体”三元组对数据进行编码。主体和客体都是URI,它们从字面上各自分别定义了一个资源,谓词定义了主体和客体之间的联系,它也由一个URI表示。链接不同数据的RDF语句和将万维网连为一体的超文本链接有相似之处,语句的主体是一个数据集命名空间的URI引用,语句的客体是另一个数据集命名空间的URI引用。
RDFS(RDF词汇定义语言)和OWL(网络本体语言)奠定了可用于描述世界上的实体及其关系的词表的基础。词表是类别和属性的集合,其自身使用RDFS和OWL中的术语并通过RDF表达。任何人都可以发布数据网络词表,这些词表可以通过RDF语句链接,从而定义相关词表之间的映射。
通过使用URI定义资源,将HTTP协议作为检索机制以及使用RDF数据模型描述资源,关联数据便在网络整体结构之上奠定了坚实的基础。
小学五年级下册英语
(2)工具层。目前已有多种关联数据发布工具被开发出来,这些工具使得数据发布者无需关注技术细节,而只需关注数据本身。此外,这些工具往往是基于关联数据领域的成功应用开发的,其可用性和先进性均可得到保证。所有的工具均支持URI到RDF描述的逆向引用,其中一些工具还为数据集提供SPARQL访问并支持RDF集的发布。这些工具包括D2R Server、Virtuoso Universal Server、Tail Platform、Vapour、Pubby、Triplify、SparqPlug、OAI2LOD Server、SIOC Exporters等,其中D2R Server用于将关系型数据库转换为关联数据,Virtuoso Universal Server提供RDF模式的关联数据的存储与检索服务,这些数据可以直接存储到Virtuoso服务器中,也可以存储到关系型数据库中,然后映射为关联数据[7]。
(3)应用层。随着大量关联数据发布到网络上,基于关联数据的应用方面的研究亦层出不穷,目前大体上可分为三类:关联数据浏览器、关联数据搜索引擎以及特定领域的应用。
关联数据浏览器使得用户能够跟随由RDF语句表达的链接在不同的数据源之间浏览,一个用户可以从一个数据源开始逐渐遍历网络。Disco浏览器即使用了这一方法,可以被视为关联数据的一项直接应用[9]。DBpedia Mobile是一款运行于iPhone及其他手机设备上的关联数据浏览器,可定位和显示DBpedia(维基百科语义版)中的地名等信息。
4860
关联数据搜索引擎通过跟踪RDF链接从而可以在网络上抓取关联数据,并提供在大量数据中进行检索的功能[10]。大体上来看,关联数据搜索引擎可分为两类,即面向用户的搜索引擎和面向应用的索引。
图书馆、企业和政府部门纷纷开展关联数据在特定领域的应用研究,例如美国国会图书馆已将其主题词表转换为关联数据,Google将关联数据应用于视频内容的标记和搜索结果的摘要中,BBC利用关联数据在其音乐和节目之间建立链接,雷诺通过关联数据为企业
(1)用户界面。目前已有的关联数据浏览器和搜索引擎的功能还十分有限。为了使用户能够更好地应用关联数据,浏览器和搜索引擎应对当前的用户交互模式进行改进,例如提供和万维网浏览器类似的前进和后退按钮,使用户能在数据网络中自由的翱翔,以及浏览器应允许用户增加或删除当前视图中的资源等。
(2)数据整合。关联数据一般来源于分布、异构的多个数据源,因此在用户浏览或作进一步处理前,应进行数据整合,但目前绝大部分的关联数据应用在此方面尚有欠缺。数据整合可分为词汇映射和数据集成,其中词汇映射是将多个词表或本体中的词汇通过一定的规则对应起来,如等同于、属于等;而数据集成则是将现实世界中某对象在数据网络中的不
同含义集成为一个清晰的、稳定的表述。
(3)链接维护。关联数据网络中的数据并不是一成不变的,新的数据会不断加入,过时的数据需要修改或删除,数据之间的链接也应随之变化。虽然当前的网络结构允许死链接的存在,但过多的死链接将使客户端发出大量的无效HTTP请求,从而影响数据网络的效率。可供考虑的解决方案有:定时对数据链接进行扫描检查;建立一个注册中心,当有数据发生变化时,由注册中心通知和其有链接关系的其他数据源。
(4)隐私保护。近年来,随着众多“人肉搜索”事件的出现,网络中的隐私保护成为人们关注的话题。关联数据的目标是将不同来源的数据整合到一起,这就为侵犯隐私提供了机会。如何在更快更好地获取信息的同时保护好个人隐私成为实际应用中的一个难题。关联数据环境中的隐私保护需要技术和法律手段相结合,同时也需要用户增强保护自身隐私的意识,在适当的场合提供适当的个人数据。