湖畔人家
语义网
胡宗鹏1+
1(四川大学计算机学院,四川省成都市610207)
Semantic Web
HU Zong-Peng1+
1(Department of Computer Science,Sichuan University, Chengdu 610207, China)
+ Corresponding author: Phn +86-151********, E-mail: zongpeng_
Abstract: Semantic technology as important support technology for mantic Web and knowledge management are actively rearched and implemented now. Prents the mantic technology’s basic princip les, mantic model, language for knowledge modeling, and introduces the key mantic technologies concretely. The typical application architecture for mantic technology and who main applications fields are also given.
Key words: mantic web; XML;RDF;Ontology.
摘要: 语义技术成为当前语义Web 与知识管理的重要支撑技术.就现代语义技术的基本原理、语义模型、知识表达语言及其关键技术给出了具体的论述,介绍了语义技术的典型应用架构及当前主要应用领域.
关键词: 语意网;XML;RDF;Ontology.
中图法分类号: TP393.01文献标识码: A
“如果说HTML 和WEB 将整个在线文档变成了一本巨大的书,那么RDF, schema, 和inference languages 将会使世界上所有的数据变成一个巨大的数据库。”
--- Tim Berners-Lee, Weaving the Web, 1999 1 语义网简介
1.1 概念
语义网就是能够根据语义进行判断的网络。换句话说,语义网是一种使用可以被计算机理解的方式描述事物的网络。
通过“语义网”,可以构建一个基于网页内数据语义来进行连接的网络,从而使网络能按照用户的要求自动搜寻和检索网页,直至找到所需要的内容。
作者简介: 胡宗鹏(1990-),学号:0943041310,男,山东省滨州市人,在读本科,主要研究领域为计算机科学与技术.
1.2 实现
语义网的实现需要三大关键技术的支持:XML、RDF和Ontology。
XML(eXtensible Marked Language,即可扩展标记语言)可以让信息提供者根据需要,自行定义标记及属性名,从而使XML文件的结构可以复杂到任意程度。它具有良好的数据存储格式和可扩展性、高度结构化以及便于网络传输等优点,再加上其特有的NS机制及XML Schema所支持的多种数据类型与校验机制,使其成为语义网的关键技术之一。
RDF是一种描述WWW上的信息资源的一种语言,解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范。
Ontology是一份正式定义名词之间关系的文档或文件。一般Web上的Ontology包括分类和一套推理规则。分类,用于定义对象的类别及其之间的关系;推理规则,则提供进一步的功能,完成语义网的关键目标即“机器可理解”。本体的最终目标是“精确地表示那些隐含(或不明确的)信息”。
1.3 特点
1、语义网不同于现在WWW,它是现有WWW的扩展与延伸。
2、现有的WWW是面向文档而语义网则面向文档所表示的数据。
3、语义网将更利于计算机“理解与处理”,并将具有一定的判断、推理能力。
4、内容的可获取性,即基于Ontology而构建的语义网网页目前还很少。
5、本体的开发和演化,包括用于所有领域的核心本体的开发、开发过程中的方法及技术支持、本体的演化及标注和版本控制问题。
6、内容的可扩展性,即有了语义网的内容以后,如何以可扩展的方式来管理它,包括如何组织、存储和查找等。
7、多语种支持。
8、本体语言的标准化。
2 结构体系
人事专员年终总结Berners-Lee于2000年提出了语义网的体系结构,并对此做了简单的介绍。该体系结构共有七层,自下而上其各层功能逐渐增强。
2.1 第一层
第一层:Unicode和URI。Unicode是一个字符集,这个字符集中所有字符都用两个字节表示,可以表示65536个字符,基本上包括了世界上所有语言的字符。数据格式采用Unicode的好处就是它支持世界上所有主要语言的混合,并且可以同时进行检索。URI(Uniform Resource Identifier),即统一资源定位符,用于唯一标识网络上的一个概念或资源。在语义网体系结构中,该层是整个语义网的基础,其中Unicode负责处理资源的编码,URI负责资源的标识。
2.2 第二层
第二层:XML+NS+xmlschema。XML是一个精简的SGML,它综合了SGML的丰富功能与HTML 的易用性,它允许用户在文档中加入任意的结构,而无需说明这些结构的含意。NS(Name Space)即命名空间,由URI索引确定,目的是为了避免不同的应用使用同样的字符描述不同的事物。XML Schema 是DTD(Document Data Type)的替代品,它本身采用XML语法,但比DTD更加灵活,提供更多的数据类型,能更好地为有效的XML文档服务并提供数据校验机制。正是由于XML灵活的结构性、由URI 索引的NS而带来的数据可确定性以及XML Schema所提供的多种数据类型及检验机制,使其成为语义网
体系结构的重要组成部分。该层负责从语法上表示数据的内容和结构,通过使用标准的语言将网络信
息的表现形式、数据结构和内容分离。
2.3 第三层
第三层:RDF+rdfschema。RDF是一种描述WWW上的信息资源的一种语言,其目标是建立一种供多种元数据标准共存的框架。该框架能充分利用各种元数据的优势,进行基于Web 的数据交换和再利用。RDF解决的是如何采用XML标准语法无二义性地描述资源对象的问题,使得所描述的资源的元数据信息成为机器可理解的信息。如果把XML看作为一种标准化的元数据语法规范的话,那么RDF就可以看作为一种标准化的元数据语义描述规范。Rdfschema使用一种机器可以理解的体系来定义描述资源的词汇,其目的是提供词汇嵌入的机制或框架,在该框架下多种词汇可以集成在一起实现对Web资源的描述。
2.4 第四层
第四层:Ontology vocabulary。该层是在RDF(S)基础上定义的概念及其关系的抽象描述,用于描述应用领域的知识,描述各类资源及资源之间的关系,实现对词汇表的扩展。在这一层,用户不仅可以定义概念而且可以定义概念之间丰富的关系。
战国红玛瑙2.5 第五至七层
第五至七层:Logic、Proof、Trust。Logic负责提供公理和推理规则,而Logic一旦建立,便可以通过逻辑推理对资源、资源之间的关系以及推理结果进行验证,证明其有效性。通过Proof交换以及数字签名,建立一定的信任关系,从而证明语义网输出的可靠性以及其是否符合用户的要求。
企业成本管理会计3 现状
3.1 研究现状
3.1.1 国际进展
W3C组织(World Wide Web Consortium)是语义网主要的推动者和标准制定者,在它的呵护之下,语义网技术羽翼渐丰。2001年7月30日,美国斯坦福大学召开了题为“语义网基础设施和应用”的学术会议,这是有关语义网的第一个国际会议。2002年7月9日,在意大利召开了第一届国际语义网大会。此后语义网大会每年举行一次,形成惯例。同时,HP、IBM、微软、富士通等大公司,斯坦福大学、马里兰大学、德国卡尔斯鲁厄大学、英国曼彻斯特维多利亚大学等教育机构都对语义网技术展开了广泛深入的研究,开发出了Jena、KAON、Racer、Pellet、Protégé等一系列语义网技术开发应用平台、基于语义网技术的信息集成以及查询、推理和本体编辑系统。
3.1.2 国内进展
中国也非常重视语义网的研究,早在2002年,语义网技术就被国家863计划列为重点支持项目,清华大学、东南大学、上海交通大学和中国人民大学都是国内语义网及其相关技术的研究中心。东南大学的语义网本体映射研究有一定的国际影响,清华大学的语义网辅助本体挖掘系统SWARMS、上海交通大学的本体工程开发平台ORIENT都代表了国内语义网研发水平。
3.2 技术应用
3.2.1 RSS
RSS是目前最成功的以语义网支撑技术为基础的应用,是站点用来和其他站点共享内容的一种简易方式。用户只要安装RSS阅读器,它就会自动收集和组织用户定制的新闻,按照用户希望的格式、地点和时间直接传送到用户的计算机上。目前国内外大型门户网站如新浪、搜狐、网易等都支持RSS应用,标记为“XML”或“RSS”的橙色图标就是该网站支持RSS应用的记号。
3.2.2 知识共享版权识别
知识共享(CC)版权识别是语义网技术的另一个现实应用。非营利性组织“知识共享组织”旨在为创造性作品提供灵活的著作权许可协议。2006年3月,中国大陆版CC发布。基于语义网支撑技术RDF的CC
搜索引擎,能自动识别和理解作品版权信息,为用户合法使用具有不同级别的知识产权网络作品提供了极大方便,例如在线图片存储网站巴巴变()就已经集成了CC中国大陆版许可协议,“巴巴变”的用户可以选择知识共享中国大陆项目提供的许可协议,授权他人使用自己拥有著作权的图片作品。
3.2.3 谷歌杀手——Powert
刚问世就被称为“Google杀手”的Powert,则是巴尼·佩尔(Barney Pell)追逐的一个关于自然语言搜索引擎的梦想。38岁的佩尔认为,Google只能通过关键字来搜索,不能分辨“儿童看的书”、“儿童写的书”和“关于儿童的书”之间的区别,而自然语言引擎却能够分析“功能词”,理解哪怕是最小的关键词的意思。他相信Powert搜索引擎很快就可以推向市场,成为语义网的催化剂。
3.3 2010年十大语义网产品
未必3.3.1 Freeba
2010年七月,Google收购了一家语义技术领先公司Metaweb。Metaweb运营着一个开放的语义信息数据库Freeba。Freeba和维基百科类似,不同的是,它完全专注于结构化数据及个人用户可行性操作。Google此前已和Freeba建立合作关系,引入Freeba的信息,在谷歌新闻里提供智能搜索
结果。在完成对Metaweb的收购后,谷歌现在可以更充分地利用Freeba的工具和数据,尤其是在基本的Web搜索结果范畴。Freeba也是去年语义网十大产品之一,能被Google收购,正是其发展潜能的证明。
有出息的男人3.3.2 GetGlue
对GetGlue来说,2010年是个转折点。在GetGlue网上,用户在观看电视节目、阅读书籍、听音乐时候都可以“签到”。去年十一月,GetGlue改换品牌名称,并启用新网站。一夜之间,它从一个名为Blue Organizer的浏览器插件摇身变为名为“GetGlue”的目标网站。随后不久,它又推出了移动应用程序,用户在观看电视时或者在娱乐场所都能登录应用GetGlue。品牌变更给GetGlue带来良好的效应。今年,GetGlue的用户量呈现出强劲的增长势头,截至九月末用户人数已超过60万。
3.3.3 Flipboard
2010年iPad的问市激起了应用软件界新一波的革新浪潮。Flipboard是一款专为iPad开发的杂志阅读应用程序。很少有创业公司能像Flipboard如此充分地利用触摸屏用户界面,为客户创造无与伦比的体验。原来Flipboard不仅外观精美,而且采用了语义技术。Flipboard收购了语义技术新创公司Ellerdale,其智能资料剖析算法在此之前已被应用于实时搜索引擎的创建及趋势追踪。Ellerdale公司的技术被Flipboard用于设计更具个性化的实时体验,能够为您选择重要的最新社会新闻,然后以您熟
悉的酷似杂志的布局呈现出来。
3.3.4 Hunch
Hunch最初提供问答(Q&A)服务,今年八月它进行了重新定位,将自己定义为一个提供个性化服务的产品:是能向你展示你喜欢的电影、书籍、度假地点及其他类似项目的推荐引擎。该公司的目标是“将互联网上的每个人和每个目标进行比配,即使是一个产品、一项服务、一个人。”共同创始人Caterina Fake十月份透露,Hunch通过另一种搜索方式即决策树模型,为用户提供更多个性化信息。
3.3.5 Apture
Apture是一家提供语义语境搜索引擎服务的公司,它一直保持着强劲发展的势头(去年它也位列十大语义网产品之一)。今年八月,Apture推出了一款新插件Apture Highlights,能让用户深入了解在网络上任一网页上发现的主题。早几年前,当我们第一次关注Apture时,它还只是一家网络服务公司,要
求发布者上传弹出式窗口链接时自我选择是否加载多媒体。随着八月份Apture Highlight的问世,Apture 现已消除此项限制。一切均自动化,此插件几乎处处可用。
3.3.6 Facebook
四月份Facebook公布了一个大规模的新平台Open Graph(开放图谱),这成为语义网本年度最重大的新闻。Open Graph通讯协定的预期目标是让发布者能够将个人网页整合到社交图中去。实质上,现在每个网页都可以成为一个Facebook的社交图“对象”(社交图是Facebook对于人们在其网络系统中如何联系彼此所用的专业术语。)这意味着在所有社交网用户个人资料页、博客文章、搜索结果、Facebook 个人主页信息流等等中的网页都可以被引用和相关联。Open Graph是一个涉猎广泛的平台,包括诸如“赞”按钮和为发布商提供的插件等。它还包括一个简单的、基于RDF的标记。这就要求发布者的每个发布项至少包含4个元数据属性:名称、类型、图像、网址,还有一些额外的属性,如:域名和描述,可能有选择地进行补充和说明。
3.3.7 Google Squared
在网络搜索技术中人们梦寐以求的目标是能够以自然的语言提出一个简单的问题,并得到一个简单的答案。五月份,Google宣布将Google Squared添加到其搜索结果中。2009年推出的Google Squared 为Google的搜索结果添加了额外的信息。Google通过两个层面将该功能添加到其传统搜索结果中:首先,简单的查询,如:凯瑟琳·泽塔琼斯的出生日期,这将在搜索结果中引出有用的数据:通过点击基于Squared提供的结果的“显示来源”,来源列表会向您显示Google是如何找到这个答案的。
其次,Google Squared还被用于为Google工具条(2010年搜索巨头的另一创新)增加“不一样”的新功
能:此功能提供了相关搜索,列出您可能感兴趣的清单,由您确定当前的搜索关键词。Google也通报了Rich Snippets功能上的增强,Rich Snippets功能同样也为谷歌的搜索结果增添了新信息——点评类数据。
3.3.8 Best Buy
2010年的热议主题之一是语义网技术越来越多的被Facebook和Google这类大型商业公司所用。美国领先的零售商百思买(Best Buy)是另一个在2010年凭借运用语义技术给人们留下深刻印象的大公司。具体来说,Best Buy采用了RDFa的语义网标记语言,从而向网页中加入语义。
<首席网站开发工程师Jay Myers今年早些时候接受读写网采访时说,使用语义技术的主要目标是提高BestBuy产品和服务的知名度。通过使用RDFa标记如商店名称、地址、商店营业时间和地理数据的数据,搜索引擎能够更容易的确定每个组件数据,从而将它们投入语境。Myers告诉我们,语义技术的使用,使得交易量增加,而他们也能更好的服务于客户。
上升星座是什么
3.3.9 v.uk
2010年一月,由英国政府支持的v.uk发布非个人数据采集应用,可供软件开发商使用。半年后,美国政府推出了v,但是从一开始这个网站就拥有三倍以上的数据。发布时,v.uk
已有近3000套数据集可供开发商用于混搭。到今年年底,数据集已超过4600。v.uk是链接数据库的亮点之一。组织或政府向网络上传数据时,以能够被再次使用和建立的形式进行上传。链接数据库仅是广泛语义网发展的一小子集。
3.3.10 BBC世界杯网
2010年体育界的盛事就是被媒体广泛报道的世界杯。BBC2010世界杯网站采用“动态语义发布”技术来提升加强其每日世界杯报道。该网站有700多个专题网页,都由一个语义发布框架所支持。它包含一个综合本体(即一个概念图),动态输出自动化元数据驱动网页。
4 语义网研究过程中所面临的困难与挑战李浑
语义网的实现是一种美好的愿望与期待,但其具体实现起来却是一项复杂的工程。要真正实现实用的语义网,还有很多难题亟待解决。语义网的研究和应用大多处于试验阶段,成熟的语义网技术商业应