开放数据及其对图书馆信息资源共享的影响
余红;刘娟
【摘要】Badontheintroductionoftheorigin,definition,connotation
andappliedfieldsofopendata,thispaperfocu-sontheeffectonlibrary
y,veralissuesare
summarized.%文章在介绍开放数据的源起、定义、内涵、应用领域的基础上,重
点介绍了开放数据对图书馆信息资源共享的影响,最后总结了需要关注的若干问题。
【期刊名称】《图书馆》
【年(卷),期】2014(000)004
【总页数】4页(P87-90)
【关键词】开放数据;信息资源共享;图书馆
【作者】余红;刘娟
【作者单位】中国科学院文献情报中心北京100190;北京大学信息管理系北京
100871
【正文语种】中文
【中图分类】G250
1开放数据概述
1.1源起
张晓林等学者们〔1〕认为:开放数据是开放获取处于全面推广阶段的产物。可以说,
开放数据其实是开放存取(OpenAccess)运动的一个衍生品。在布达佩斯开放获取
计划(BudapestOpenAccessInitiative)中,开放存取是指“将科研成果在互联网
上公开发布,允许公众免费阅读、下载、复制、分发、打印、查找,或者链接到文
章的全文,抓取文章进行索引,以数据方式传递到软件中,或者用于任何其他合法
目的的使用,而没有财政、法律或者技术方面的障碍,除开那些从互联网本身获得
的信息。复制和分发中唯一的限制以及版权在这个领域中的唯一角色,应当是保持
作品的完整性以及给作者正确承认和引用的权利。”〔2〕这项运动开展的如火如
荼。但我们从它的主要表现形式:OA期刊和OA机构库中可以看出,开放存取更
多的是男生背头 对学术论文、图书、科研成果的开放,而对于更小粒度的“数据”的开放尚
未得到重视。“它们大多是基于原文的,对于科学实验等原始数据仍然是不可重复
使用的,对于出版商来说他们或者没有能力处理,只是作为全文文献的辅助信息印
刷出来而已,并没有实现太多的增值。”〔3〕正如Miller等所认为的那样,尽管
大家关注比较多的是开源以及开放获取,但数据的公开发布目的也非常明显,即实
现互操作。〔4〕正是这一局限性激发了人们对于数据开放存取的呼吁,这种呼吁
“不仅来自于期刊同行评审员和希望更加有效使用数据的人,还来自于那些希望深
入评析科研结论的市民!”〔5〕开放数据便应运而生。
1.2定义
对于开放数据,目前尚无统一的定义。欧盟使用“政府数据开放”的视角加以定
义:“开放数据是指公共机构产生、收集或支付的所有信息,包括地理信息数据、
统计资料、气象资料,由政府资助的研究项目的数据,并包括数字图书,这些公共
数据可以随时访问和咨询,也可以重新再利用。”〔6〕
开放数据手册采用OpenKnowledge的定义:“开放数据是一类可以被任何人免
费使用、再利用、再分发的数据——在其限制上,顶多是要求署名和使用类似的
协议再分发。”〔7〕开放数据中心联盟(OpenDataCenterA中国摄影师 lliance)从“公司”
的角度认为它是公司IT基础设施、云计算的应用模式与解决方案。〔8〕学术出版
和学术资源联盟(SPARC)从学术科研的角度认为,开放数据是科学数据的一种新型
学术出版模式、理念。〔9〕
1.3内涵的理解
开放数据早已突破学术出版的范畴,应用领域广泛,从政府、企业到科研,从根本
上说它就是一种信息资源共享模式。开放数据的对象是数据,信息粒度比开放存取
和开源软件小。这里的数据是广义的,既包括地理信息数据、统计资料等一次信息,
也包括文件资料、研究报告等二次或三次信息。数据必须具有一定的格式,便于机
器理解与分析,才能实现数据的共享、存储和重用。这也是开放数据区别于开放存
取的一个方面,开放存取所提供的文献格式往往是PDF格式,机器难以拆分并提
取出一些有意义的数据或知识单元。〔10〕开放数据就旨在从数据发布之初,就
保证以机器可理公证书格式 解的数据或知识单元的形式进行展现。
开放数据的核心是“开放”的理念。在开源软件(opensource)中,“open”通
常意味着“自由”(libre),开放存取(openaccess)运动使“open”的概念逐步向
“免费”(gratis)扩展。〔11〕开放数据和这两项活动一样,都强调对一定信息对
象向公众开放,使人们可以自由阅读、分享、发布和使用。
注重对数据的“重用”。“重用”是上述几个定义中都提到的概念,它代表的是对
数据的使用、聚集、模拟、整合,从中体现数据的价值,实现“增值”,这有两层
含义〔12〕:一方面是数据本身通过开放实现了二次加工,从一次信息变成二次或
三次信息,决策价值增加,实现增值;另一方面,数据的开放相对于期刊、影视作
品、书籍等资源的开放来说,更容易实现重用,分布在不同地域、时空范围内的用
户可以对同一条数据进行多次共享和获取。所以从用户的角度来看,有更大的群体
能够获取这些开放数据传达出来的价值,实现整个信息共享空间的增值。
与开放存取一样,开放数据的目的也是消除共享障碍,赋予用户的使用权利。数据
该以何种形式开放,是否无条件共享,应该确立哪种许可机制就成了开放数据的基
本问题。P.Miller等学者〔13中国童话故事 〕认为,目前数据很少以一种直接被第三方使用的
方式获取,随着数据进入到网络范围内,社会规范本身将不足以完全依赖,需要许
可声明来使数据在任何情况下被使用的条目予以清晰化。
1.4应用领域
开放数据自提出之后,就在电子政务、生物、化学、医学、计算机、企业等领域应
用。英、美、加、澳、欧盟、世界银行、国际货币基金组织等政府信息公开及电子
政务的开放数据走在了实践的最前列。美国更是把开放数据确立为所有联邦政府部
门必须遵守的基本政策,奥巴马还于5月份签署法令,要求所有新增政府数据都
必须以电脑文件方式向公众开放。白宫管理预算办公室和科技政策办公室同时颁布
了开放数据(OpenData)政策〔14〕。英国政府还资助了开放数据研究所(ODI)项
目,旨在协同企业、创业公司、学术机构、政府和社会的力量共同探索和发掘政府
公开数据(OpenData)的商业和社会价值。〔15〕
在科研领域,开放知识联盟(OpenKnowledgeFoundation,OKF)〔16〕制定了
“开放数据共享”系列许可,如《开放数据库许可》、《公共领域的贡献与许可》
等文件。医学、生物、化学、农业等实验数据的开放也成为各国关注的焦点。如欧
洲药品管理局(TheEuropeanMedicinesAgency,EMA)于3月发起开放临床实
验数据项目〔17〕,美国也已经要求确保药品安全的临床实验数据要以公共在线
的方式提供,国家医学协会(NIH)的国家医学图书馆还建立了ClinicalTrials.gov
站点,提供临床研究的基础数据。〔18〕开放知识基金会(OpenKnowledge
Foundation,OKF)也发起号召,推动AllTrialsRegistered,AllResults
Reported项目的实施,建立了专门的数据开放站点www.alltrials.net/,
目前获得了包括科学公共图书馆PloS、英国医学研究委员会(TheMedical
RearchCouncil)等在内的7,000份签名认可。
此外,淘宝开放平台(TaobaoOpenPlatform,TOP)等也是企业应用的代表。
2开放数据对图书馆信息资源共享的影响
2.1开放数据根本上是一种信息资源共享方式
开放数据从根本上说是一种信息资源共享的形式,不管是“开源软件”所传达出来
的“自由”,还是“开放存取”所传达的“免费”,也不论开放的是软件、论文还
是数据,或是哪个领域的数据,开放数据都是对信息资源的开放和共享。
从目的上看,开放数据最终是要实现信息资源共享的“5A”目标。前面提到,开
放数据的核心是开放,根据OpenKnowledge对“开放”的定义,信息资源只有
满足11项条件才能算是真正的开放〔19〕,其中的无技术限制(Abnceof
TechnologicalRestriction)、无个人或者群组歧视(NoDiscriminationAgainst
PersonsorGroups)、无领域歧视(NoDiscriminationA-gainstFieldsof
Endeavor)、许可不是只针对特定的包(LicenMustNotBeSpecifictoa
Package)四项条件与《图书馆合作与信息资源共享武汉宣言》中提到的5A理论
相契合,开放数据与传统信息资源共享一样,致力于实现“使任何人在任何时候、
任何地点,均可以获得任何图书馆的任何信息资源”〔20〕的最终目标。
从形式和对象上看,开放数据是信息资源共享理念和对象的双重进步。5A理论指
出信息资源共享的主体、对象、时空应该是没有限制的,完全开放的,从这一点说,
开放存取和开源软件是这种“无限制性”的理念的进步,而开放数据既是理念的进
步,也是共享的信息资源对象范围的扩展。从图书馆的书刊资源、开源软件的软件
资源、开放存取的科研成果资源,到开放数据低粒度、涵盖一次信息、二次信息、
三次信息的扩展正是对5A理论的真正实践。所以说,在信息资源共享的大目标之
下,开放数据是信息资源共享理念和对象的双重进步,有着比开放存取更加深远的
意义。
从主体上看,各个图书馆之间进行开放数据的探索将是实践信息资源共享理念的重
要方式。图书馆作为最大的信息资源收藏机构,理应成为信息资源共享的主体。除
了传统的图书馆书刊、多媒体、电子资源的共建共享之外,图书馆也积极参与到开
放存取的运动之中,作为开放理念更加深化,开放对象更加拓展的开放数据运动,
图书馆也理所当然成为积极的响应者和主动的参与者。但是前面的分析显示,目前
参与开放数据的图书馆大多是某个专业领域的附属图书馆,如国家医学图书馆,他
们仅仅以响应者和支持者的身份参与,服务于科研机构、基金会、出版商和政府的
信息资源共享,尚未把这一理念与图书馆信息资源共享实践相结合,图书馆需要加
强对这一问题的重视和思考,更好地实践信息资源共享的目标。
2.2开放数据对图书馆信息资源共享的影响
(1)共享对象范围更广,粒度更小
传统信息资源共享以传统文献信息资源为对象,通过协调采购、联合编目、资料交
换、通用借书证、馆际互借、文献复制等多种形式〔21〕实现共享。随着网络技
术的发展,图书馆信息资源共享的对象逐步扩展,除了传统图书期刊之外,还包含
了数字化的电子资源。
根据开放数据的理念,图书馆信息资源共享的对象将会更加宽泛,除了二次信息和
三次信息之外,还有以数据为代表的一次信息。具体表现形式有:编目数据、科研
统计数据、学科统计数据、文章/图书中的知识节点等。事实上,图书馆编目数据
的共享应该是对开放数据最敏感的部分,国外也不乏这方面的实践案例。早在
2010年,世界上首批科学图书馆之一的欧洲核研究中心(CERN)图书馆就已经将其
所有的图书馆目录中的书目记录数据对外发布,〔22〕允许任何第三方机构和个
人通过cern.ch/bookdata自由下载和复用,并可以在“开放图书馆工程
(OpenLibraryProject)”为每本书提供的页面上增加图书目录、分类号和摘要等
内容,进而改善数据。西班牙国家图书馆(TheNationalLibraryofSpain)、德国
国家图书馆、编目数据平台biblios.net〔23〕也已经使用公共领域许可的工具
发布书目信息,促进数据的共建共享。〔24〕
(2)共享的对象将突破馆藏限制
现有信息资源共享所针对的是现有的馆藏纸质资源和馆藏电子资源,虽然图书馆网
站上还会设立外部资源的链接,但大都限于图书类电子商务网站,用户获取所需信
息往往要受到馆藏限制。
在开放数据的理念下,图书馆可以突破本馆和本系统限制,实现馆藏资源与外部资
源的互联,为用户搜索一切在互联网上开放、可重用的资源。OCLC的
PerceptionsofLibrariesandInformationResources(2005)《图书馆与信息资
源的理解2005》报告〔25〕显示,只有1%的用户把图书馆作为搜索信息的起点,
84%的人都使用搜索引擎。图书馆要成为共享的主体,就必须成为信息资源的主
体,扩充信息资源共享的对象,尽可能地补充这84%的资源量,才能提升五香羊蹄 用户对
图书馆的认知。
(3)共享范围更广,突破图书馆系统限制
图书馆信息资源共享根据范围不同,大致划分为4种:区域性系统、全国性系统、
区域性跨系统、全国性跨系统。〔26〕调查显示,参加系统内信息共享活动的图
书馆占72%,参加跨系统的占28%。〔27〕可以看出,图书馆现有的信息资源共
享大多是在系统内进行,包括同级图书馆之间、各级图书馆之间、高校图书馆系统
之间、科研系统之间、总分馆之间,而跨级图书馆,乃至于图书馆与其他机构的共
享几乎是没有。一方面,以图书馆、博物馆、档案馆为代表的信息收藏者之间的共
享不充分,相同职能的机构之间互相分割,图书馆系统内CALIS、CASHL、NSTL
三大系统也因为自身的资源和孔繁森纪念馆 服务定位的差异“单打独斗”,造成了严重的资源浪
费。信息共享的畅通性和开放性受到了来自不同系统规制和定位差异的制约。另一
方面,信息发布者之间和用户之间的共享并没有集成在图书馆信息共享的服务范畴
之中。
而开放数据并没有对共享的范围做出限制,信息资源共享只是一种“信息提供者”
和“信息需求方”之间的一个简单的平衡关系。根据这一理念,信息共享的范围将
更广,图书馆、博物馆、文化馆、政府、企业、信息提供商和服务商、用户都可以
成为共享的主体,图书馆可以和系统之外的资源进行互换,信息流生产者、发布者、
收藏者和用户能够形成一个完整的信息资源链条,不同的结点都可以进行资源的共
享。加拿大国家图书馆与档案馆(LibraryandArchivesCanada,
www.collectionscanada.gc.ca/index-e.html)对信息资源的集成
就是一个很好的例子。从根本上来说,在开放数据的推动下,共享的内容不仅有文
化资源,还会有政府、科研,甚至是商业资源,保证它们在一最快的歌 个系统内流通会大大
提高共享效率,也就必然要求不同领域的信息资源建设者联合起来,共同参与。
(4)降低共享成本,提高共享效率
现有信息共享方式更多地依赖人工专送、传真等方式,图书馆运输成本高,一次共
享服务(如馆际互借)还需要支付一定的时间成本和物质成本,共享书刊的送达有时
滞性,影响了共享服务的效率和读者满意度。
在开放数据环境下,各个系统、机构的信息资源均以相同格式存在于语义网中,网
格中的各个结点都可以毫无障碍地与其他节点进行共享;另一方面,数据粒度的共
享信息可重用性很高,一次共享意味着同时满足了多个用户的需求,资源共享大都
可以通过互联网完成,减少了运输成本和时间成本,共享的效率会更高。
(5)需求驱动性更强,更加精准化
现有信息共享方式下,图书馆往往被动地向用户提供共享资源;在资源建设的时候,
往往是馆员根据自己的判断,结合专业教职人员的建议进行采购。而开放数据环境
下,图书馆的需求驱动性更强,用户的信息需求往往可以精准到某个学科某个机构
某个时间的某个数据,在这个程度上能够大大减少图书馆的采购成本,同时也对馆
员的信息检索和发现能力提出了更高的要求。
(6)帮助公共图书馆开展政府信息服务
2008年5月1日《中华人民共和国政府信息公开条例》(以下简称《条例》)正式
实施,引起了我国图书馆界的重视,并作为2008年初“中国图书馆学会新年峰会”
的一个议题〔28〕开放数据理念下,图书馆能够扩充并集成来自政府的开放资源,
通过科学组织、加工整合和深度揭示向用户提供,并形成不同地区的政府开放资源
的共建共享,进而帮助公共图书馆开展政府信息服务,履行社会职能。
3需要关注的问题
3.1版权问题
传统共享方式可以通过最长借阅时限、高昂的复印费用、珍贵资料不与共享的方式
来尽可能减少版权冲突。但是开放数据的共享粒度小,小到图书中的一个案例、一
段引文,在开放的互联网共享环境之下,共享的数据更有可能发生版权侵犯。因此,
完全无限制的、大范围的、跨系统的数据共享无法在短期之内实现,必须在建立一
个可行的数据共享版权约束机制的前提下进行。尽管目前还没有针对开放数据的统
一标准〔29〕,但国外在共享许可机制方面有较为丰富的实践经验。例如解决公
共领域内数据或数据库许可问题的公共领域贡献与许可(PublicDomain
DedicationandLicen,PDDL),另一个是解决署名(Attribution)以及相同方式
共享(ShareAlike)问题的开放数据库许可(OpenDatabaLicen,ODbL),该
许可下针对数据库内容的有具体的数据库内容许可(DatabaContentsLicen,
DbCL)〔30〕;对一般著作权保护的作品采用的4种创作共用许可:署名
(Attribution)、相同方式共享(ShareAlike)、非商业用途(Noncommercial)、非
衍生作品(NoDerivativeWorks)〔31〕。
笔者认为,针对图书馆购买了版权、只有使用权、外部免费资源、商业资源、政府
资源等不同的资源类型应该采取不同的版权政策。外部免费资源和政府信息等有明
确共享权限的资源版权限制小,操作起来很容易;对于只有使用权和商业性质的资
源则需要确立一套可行的版权限制措施,尽可能减少版权纠纷。而在此之前,关键
的困难在于如何评估共享的数据对象的权限和版权归属方式。如果读者需求的是文
章中的一个数据,而原文是作者引用了其他作者的文章,在引文标注不清晰或根本
没标注的情况下,图书馆也无法判别资源来源及使用权限。所以确定共享版权政策
不仅是对图书馆的挑战,也是对学术研究人员学术规范性的挑战,二者共同参与协
作才是最佳方式。
3.2安全问题
前面提到,开放数据环境下,图书馆共享信息资源的传输更多会通过网络实时进行,
传输过程中的数据加密和安全也是重要的问题,尤其是涉及到国家安全和商业机密
的数据更要谨慎。从需求提出、数据获取、数据传输、数据重用、返回过程中的每
一个环节都需要进行控制。
需求提出环节的控制直接反映了图书馆对可共享资源范畴的界定,即共享的边界问
题。数据获取阶段则是信息发布者基于对信息内容的评审的基础上进行,不管是政
府还是企业,信息的开放和共享都是有界限的。这两个环节的控制至关重要,能够
从根本上减少安全隐患。数据传输阶段则需要图书馆提供先进的信息加密技术保障。
数据重用阶段,现有的图书馆信息资源共享往往通过借阅时限、费用来避免不合理
的复用,但是开放数据环境之下读者之间的共享更加容易,也就越难控制,单纯的
时间和费用限制已经不能满足需求,图书馆需要探索更加多样、严格的控制手段。
3.3共享资源的存储问题
现有的图书馆单次共享资源数量较少,图书馆往往把共享资源存放在图书馆外借处,
开放数据环境下,资源存储量以量级速度增长。在系统端,图书馆需要提供足够空
间的存储设备;在用户端,图书馆是否有必要自己开放一个数据共享平台,与现有
的数据堂(www.datatang.com/)之类的科研共享平台在功能、定位、
受众群体、资源下载和获取方式上作何区别,以及如何避免数据重复等问题都需要
考虑。
虽然开放数据能够为图书馆信息资源共享带来极大的推动和影响,创新资源共享方
式,提升资源共享效率,但真正接受并开展相应的实践活动却是一个漫长的过程,
其中还有许多问题亟待探索解决思路。
参考文献:
1.张晓林等.科技信息开放获取的历史进程.图书情报工作,2009(7):63-68,
14
2.OpenSocietyInstitute.BudapestOpenAccessInitiative.Budapest,
Hungary:OpenSocietyInstitute.〔2013-06-
06〕.www.soros.org/openaccess/read.shtml
3,11.RUSTPM.Opendatainscience.SerialsReviews,2008(1):52-64
4.MILLERP,STYLESR,HEATHT.Opendata女孩发型 commons,alicenfor
opendata.〔2013-06-
20〕.events.linkeddata.org/ldow2008/papers/08-miller-styles
-open-data-commons.pdf
5.GeoffreyBoultonetal.Scienceasapublicenterpri:thecaforopen
dataScienceasapublicenterpri:thecaforopendata.TheLancet,
2011(5):1633-1635
6.EuropeanCommission.Digitalagenda:commission’sopendata
strategy,questions&answers.〔2013-07-
03〕.europa.eu/rapid/pressReleasAction.do?reference=MEM
O/11/891
7.Opendatahandbook.〔2013-07-
03〕.opendatahandbook.org/zh_CN/what-is-open-
data/index.html
8.OpenDataCenterAlliance.DefiningaNewClassofDataCenterand
CloudinfrastructureSolutions.〔2013-03-
15〕.www.opendatacenteralliance.org/the-alliance
9.SPARC.OpenData.〔2013-03-
15〕.www.arl.org/sparc/opendata/
10.Machine-readableOpenAccessscientificpublishing.〔2013-06-
26〕.michaelnieln.org/blog/machine-readable-openaccess-
scientific-publishing/
12.李佳佳.信息管理的新视角:开放数据.情报理论与实践,2010(7):35-39
13.吴旻.开放数据在英、美政府中的应用及启示.图书与情报,2012(1):127-
130
14.KellyBurkeforIntellectualPropertyWatch.ObamaAdministration
BacksNewOpenDataPolicy(2013-5-10).〔2013-06-
24〕.www.ip-watch.org/2013/05/10/obama-administ椴树蜜的功效 ration-
backs-new-open-data-policy/
15.NereaRial.OpenDataInstituteopensitsdoorsinUK(2012-12-
3).〔2013-06-26〕.www.neurope.eu/article/open-data-
institute-opens-its-doors-uk
16.OpenKnowledgeFoundation.〔2013-05-
27〕.okfn.org/
17.DanielCresy.Drug-companydatavaultstobeopened(2013-3-
27).〔2013-06-26〕.www.nature.com/news/drugcompany
-data-vaults-to-be-opened-1.12679
18.WhatInformationCanIFindonClinicalTrials.gov?.〔2013-06-
27〕.www.clinicaltrials.gov/ct2/about-
site/background#WhatInformationCanIFind
19.OpenDefinitionversion1.1.〔2013-06-
28〕.opendefinition.org/okd/
20.中国大学图书馆馆长论坛图书馆合作与信息资源共享武汉宣言.大学图书馆
学报,2005(6):3-5
21.向英明,罗爱静.我国信息资源共建共享研究述评.中国图书新翻羽调绿腰 馆学报,
2005(5):76-81
22.CERNLibraryPublishesItsBookCatalogasOpenData.〔2013-06-
29〕.newsbreaks.infotoday.com/Digest/CERN-Library-
Publishes-Its-Book-Catalog-as-Open-Data-60894.asp
23.About?biblios.net.〔2013-06-25〕.biblios.net/faq
24.NationalLibrariesandaMuumopenuptheirdatausing
CC0.〔2013-06-
20〕.creativecommons.org/weblog/entry/31853
25.OCLC.PerceptionsofLibrariesandInformationResources(2005)-A
ReporttotheOCLCMembership:Conclusion.〔2013-06-
18〕.www.oclc.org/reports/2005perceptions.htm
26.高波.文献信息资源共建共享模式新论.中国图书馆学报,2002(6):24-27
27.高波,刘兹恒,于丽凤.网络环境下我国图书馆信息资源共建共享现状调查
报告.中国图书馆学报,2001(4):48-52
28.中国图书馆学会2008新年峰会在济南召开.〔2013-06-
29〕.www.lsc.org.cn/CN/News/2008-01/EnableSite_Read-
News1120800.html
29.李佳佳.国外开放数据许可及相关机制研究.情报理论与实践,2010(8):20
-23,28
30.OpenDatabaLicen(ODbL)v1.0.〔2013-06-
25〕.opendatacommons.org/licens/odbl/1.0/
31.AboutTheLicens.〔2013-06-
25〕.creativecommons.org/licens/
本文发布于:2023-03-26 14:33:19,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/zuowen/16f7d753faaf70427ed54018c94cb22e.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:任何书.doc
本文 PDF 下载地址:任何书.pdf
留言与评论(共有 0 条评论) |