第5章第1节-数字化报刊资源及其检索系统

更新时间:2024-11-07 12:30:58 阅读: 评论:0


2022年8月6日发
(作者:道博律师事务所)

第五章报刊资源与论文资料的查考

第一节数字化报刊资源及其检索系统

20世纪90年代中期以来,中国报刊资源及其检索工具数字化、网络化的进

展迅速。具体表现,一方面是一些传统的、影响大的印刷版报刊资源检索工具大

都实现了数字化、网络化,形成了电子版与印刷版并存的局面;另一方面,出现

了一批脱离印刷形态而基于计算机和网络环境的报刊资源检索系统。到目前为

止,查考20世纪80年代以后的中国报刊资源,完全或主要依靠电子版检索工具

已经基本上可以满足需要。

一、中国期刊全文数据库(CJFD)

清华大学开发研制的“中国期刊全文数据库”是目前国内有代表性的报刊资

源检索系统之一。该系统1996年开始投入使用,目前有光盘版(简称“CAJ—CD”)

和网络版(简称“中国期刊网”)两种形式。

全文数据库收录国内6000多种核心与专业特中英文期刊的全文。到2004

年初,已经积累了1994年至今的全文文献800多万篇,题录1500万余条,分9

大专辑,126个专题文献数据库,被称为是“目前世界上最大的连续动态更新的

中国期刊全文数据库”。

全文数据库的网络版通过CKI知识网络服务平台系统建立了中国期刊网

镜像站点,经过授权后,为通过互联网的使用者提供网上检索服务。网络版数据

每日更新。

全文数据库的光盘版每月每专辑出版一期(文史哲双月出版),与印刷版期

刊基本同步发行,被称为是“当今世界上最大的集成化全文电子期刊”。

中国期刊全文数据库划分的9个专辑是:

·理工A辑(数理科学)

·理工B辑(化学化工能源与材料)

·理工C辑(一般工业技术)

·农业辑

·医药卫生辑

·文史哲辑

·经济政治与法律辑

1/26

·教育与社会科学辑

·电子技术及信息科学辑

中国期刊全文数据库网络版的基本使用方法是:论文资料检索→论文资料下

载→使用专用阅读器阅览。

数据库的主要功能包括:

(1)基本检索以字段词作为检索词进行检索。该数据库系统目前为文献

确立的字段包括:

·篇名·作者·关键词

·机构·中文摘要·引文

·基金·全文·中文刊名

·ISS·年·期

·主题词

在进行基本检索时,可以作两方面的限定:一是检索时限限定(1994年~

目前),二是检索结果的排序方式限定。排序方式有3种:一是不限定排序方式,

二是限定按相关度排序,三是限定按文献的发表时间排序。三是每页记录条数的

限定,即对显示界面容纳内容的限定。

检索结果可以直接显示的,首先是命中文献的题名列表;点击题名,可以直

接显示文献的内容提要。若要阅读全文,需要点击文献提要栏内的“下载”标记,

将文献下载保存到计算机磁盘,在计算机已安装专用阅读器阅读“Cajviewer”

的情况下(专用阅读器可以随时下载安装),便可即时阅读。

例如,查考张岱年先生发表的有关“国学研究方法”的论文,基本过程如图

5.1.1。

2/26

3/26

(2)类聚检索数据库中与命中文献有相关关系论文的链接检索。包括:

·同类文献。数据库中与命中文献性质相同的论文。

·引用文献。命中文献引用过的数据库中的文献。

·被引用文献。命中文献被数据库中的文献引用的情况。

图5.1.2是《经济全球化与中国文化发展的道路》一文的同类文献检索结果。

类聚检索功能的设立,为相关文献源的拓展和文献的定量分析提供了方便。

4/26

(3)二次检索以字段词在检索结果中进行再次检索。在上面的图5.1.1

中,以作者“张岱年”、时间“1994~2004”为检索条件,命中结果有91篇文献。

在这一结果中,以“国学”为篇名字段词进行二次检索,命中的结果缩小为3

篇。查准率大为提高。

(4)高级检索该系统的“高级检索”即布尔逻辑检索,可以进行不同字

段检索词的逻辑“与”、逻辑“或“、逻辑“非”的组配检索。图5.1.3以相同

的字段检索词进行了不同的逻辑组配,检索结果不一样。

图5.1.3

(5)全文检索以任意词为检索词对数据库中所有文献全文的检索。全文

检索可以在基本检索界面内进行,也可以将检索条件组配起来在“高级检索”界

面内进行。图5.1.4是将全文任意词“天人合一”、“机构”字段词“北京大学”

和“中文刊名”字段词“北京大学学报”以逻辑“与”组配以后进行检索。

5/26

图5.1.4

(6)检索词字典在高级检索界面提供作者、关键词、机构、基金、中文

刊名、主题词6个检索词字典。检索词字典是具有检索功能的检索词列表。它将

数据库收录的文献的相关字段按一定顺序加以排列,并具有快速检索和自动添加

到检索界面的功能。使用检索词字典,便于浏览数据库包含的相关检索词,也便

于准确选择、快速添加需要的检索词。如图5.1.5是在“关键词”检索词字典

中检索与“信息检索”相关的关键词。如果确定用于检索的关键词是“社科信息

检索”,只要点击该词,则自动切换到高级检索界面,并且检索词被自动添加到

相应的文本框内。

图5.1.5

6/26

二、中文科技期刊全文数据库

这是国内另一个有代表性的大规模数字化期刊全文检索系统。由重庆维普资

讯公司开发,习惯上简称为“重庆维普”。

重庆维普资讯有限公司是科技部西南信息中心下属的一家大型的专业化数

据公司,是我国较早开展中文资源数据库研制开发的单位之一。早在1989年,

重庆维普就开发出了软盘版的“中文科技期刊数据库”,90年代初,实现了产品

的光盘化,90年代末又推出了网络版产品。目前,数据库产品有有全文版、文

摘版和引文版3种。

中文科技期刊全文数据库入库期刊达8000多种,涉及的时限从1989年开始

至今,积累的数字化期刊文献近800万篇。数据库覆盖的学科范围,分为自然科

学、工程技术、农业科学、医药卫生、经济管理、教育科学和图书情报7个专辑,

27个专题。专题细目如下:

数理科学

机械和仪表工业

冶金工业

电子学和电信技术

图书情报

农业科学

化学

经济管理

能源与动力工程

自动化和计算机

航空航天

医药卫生

天文和地球科学

一般工业技术

原子能技术

化学工业

环境和安全科学

生物科学

矿业工程

教育科学

金属学与金属工艺

石油和天然气工业

电器和电工技术

轻工业和手工业建筑科学与工程

水利工程交通运输

该数据库的主要特点是,入库期刊数量多,时间跨度长;覆盖的学科范围以

自然科学、工程技术、管理学科为主;不能提供全文数据的资源较同类数据库相

对较少。

数据库的使用方法和“中国期刊网”基本相同,也是需要安装专用阅读器才

能进行全文阅读。数据库的主要功能和使用方法如下:

(1)分类检索该数据库有比较强大的分类检索功能。分类表镶嵌于数据

库首页。点击类目名称,分类体系逐层展开,直至相应的篇目列表。

(2)高级检索即不同检索字段的逻辑组配检索。可选字段共有9个,分

别是:关键词、刊名、作者、第一作者、机构、题名、文摘、分类号和任意字段。

同时可以进行检索限定,包括学科范围限定、期刊范围限定(“全部期刊”、“重

要期刊”或“核心期刊”)、查时限限定。

7/26

高级检索是该数据库的主要检索途径。

(3)传统检索在中文科技期刊全文数据库中,所谓“传统检索”实际上

是一个具有综合检索功能的界面,如图5.1.6。

图5.1.6

在这个界面中,单个检索词的简单检索、多个检索词的逻辑组配检索、二次

检索等都可以进行,也可以进行期刊范围、检索时限的限定。值得注意的是以下

3种检索方法。

·整刊检索即以刊物为单位,查考该刊物每一期所发表的文章。通过点击

“中刊库分类导航”和“中刊库刊名导航”列表,都可以实现这一功能。这一功

能,为了解某一刊物的整体面貌提供了方便。

·关键词字段的同义词扩展。在“检索入口”选择“关键词”字段的前提下,

选中“同义词”选项,如果数据库的同义词表中有该检索词的同义词,就会自动

显示,供选择添加。如图5.1.7,输入的关键词是“电脑”,显示的同义词是“计

算机”、“微电脑”,选择添加“计算机”,查考结果就是数据库中所有关键词包含

了“电脑”和“计算机”的文献。关键词的同义词扩展,是实现智能化检索的重

要手段,对确保查全率有重要意义。

8/26

·作者字段的同姓名区分。这一功能的原理与同义词扩展类似,是用来对数

据库中涉及的同姓名作者加以区分的。在“检索入口”选择“作者”或“第一作

9/26

者”的前提下,选中“同名作者”选项,如果输入的作者有同名,系统自动显示

同名作者列表,以供选择。如图5.1.8,是名为“张红”的同姓名作者列表。通

过列表提供的作者单位信息,就可以准确地选择目标作者。这一功能对缩小检索

范围、提高查准率有重要意义。

图5.1.8

三、CGRS全文检索系统

天宇资讯开发的“CGRS全文检索系统”是以中国人民大学书报资料中心编

辑的《复印报刊资料》和《报刊资料索引》为主要内容的网络版报刊资源检索系

统,习惯上简称为“人大报刊检索系统”。

复印报刊资料是一种在国内人文社科领域影响较大的报刊资源检索工具。目

前选收范围为全国3000多种公开出版发行的报刊,划分为100多个专题。印刷

版按专题主要以月刊和双月刊的周期出版。

《复印报刊资料》的内容是分专题选录报刊论文的原文和篇目出处。“原文”

部分,全文影印各专题范围内的重要论文和重要动态,提供经过选择的原始文献。

选择的基本标准是:含有新观点、新材料、新方法,或具有一定的代表性;反映

学术研究或实际工作部门的现状、成就及其发展。“篇目”部分,全面汇集专题

范围内报刊资料的篇目出处,提供的是经过编辑的二次文献。

与同类印刷版检索工具相比,《复印报刊资料》具有鲜明的特点。在内容上,

偏重选收学术性、理论性的资料信息;在编辑形式上,一次文献和二次文献相结

合,对研究需求的满足程度较高;专题划分精细,具有较强的针对性。目前,被

《复印报刊资料》全文选收,已经成了国内学术界评价论文质量的基本指标之一。

报刊资料索引是一种以年度为单位分类揭示报刊论文资料出处的线索型检

索工具。它和《复印报刊资料》关系密切——包括了《复印报刊资料》全年各期

全文复印及仅列论文篇目出处的全部篇目;但又不完全相同——《报刊资料索引》

还收录了《复印报刊资料》限于篇幅而未能反映的篇目。所以,《报刊资料索引》

所揭示的篇目总数大于《复印报刊资料》年度各期篇目之和。印刷版的《报刊资

10/26

料索引》按学科、专题分7册编辑出版,另有著者索引1册。

网络版“CGRS全文检索系统”中的“人大全文数据库”是《复印报刊资料》

的数字化形式,截至2004年初,收录1995年~2003年间的全文文献近20多万

篇;“人大索引类”数据库是《报刊资料索引》的数字化形式,截至2004年初,

收录1978年~2002年间的论文题录280多万条。

除上述两部分主体内容外,该系统平台还包括了如下几种数据库:

·中国法律法规数据库,收录法律、法规、规范性文件5万多件;

·诉讼法索引及全文数据库,收录文献2万多篇;

·民事诉讼法学数据库,收录文献600多篇;

·中国法律年鉴1987—2002年卷全文数据库;

·《文史哲》杂志1951—2002年全文数据库。

CGRS全文检索系统的基本查询是以任意词作检索词进行全文检索,检索的

对象数据库可以根据需要选定。图5.1.9是基本查询的一个过程。

图5.1.9

由于基本查询是以任意词为检索词进行全文检索,所以,检索结果的数量一

般来说都很庞大,因此,在当前检索结果中恰当地进行二次检索就显得尤为重要。

只有经过多次的二次查询,才能逐渐缩小查询范围,逼近检索目标。

CGRS全文检索系统有特点的检索功能主要包括:

(1)任意检索词的逻辑组配检索和模糊检索在任意词查询界面中进行。

逻辑组配检索用符号“*”表示逻辑“与”,符号“+”表示逻辑“或”,

符号“-”表示逻辑“非”(符号为半角)。如图5.1.10是以“北京大学*京师大

学堂”为检索条件进行检索。

11/26

图5.1.10

模糊检索通过对检索词的截断实现。两个词或字之间允许以通配符“?”或

“!”(半角)截断。一个“?”代表一个汉字,最多允许出现9个“?”;一个

“!”代表0~1个汉字,最多允许出现9个“!”,表示两个词或字之间可以出现

0~9个汉字。如图5.1.11的检索条件是“信息????建设”,图5.1.12的检索条

件是“信息!!!!建设”。

图5.1.11

12/26

(2)检索词的优先处理该系统默认的逻辑运算优先次序为:逻辑非优

先级最高,逻辑与次之,逻辑或最低。当多个检索词以逻辑关系组配起来作为检

索条件而又需要改变默认的检索词优先次序时,就需要对检索词作优先处理。需

要优先处理的检索词放入符号“()”(半角)中。

如检索式“(北京大学+北大)*五四”——“(北京大学+北大)”为优先处理

部分。本来,按照默认的优先顺序,“北大*五四”的优先级高于“北京大学+北

大”,在这种情况下,“北京大学”无法和“五四”直接组配。。现在,对“北京

大学+北大”做了优先处理,意味着“北京大学”或“北大”都要和“五四”进

行逻辑“与”组配,因此,整个检索式表达的意思就变为:命中对象是“北京大

学与五四”或“北大与五四”。简单地理解,检索式“(北京大学+北大)*五四”=

“北京大学*五四+北大*五四”。

相反,如果不对“北京大学+北大”作优先处理,则检索式变为:“北京大

学+北大*五四”。这时,首先运算的是“北大*五四”,然后才是“北京大学”。

命中对象变为“北大与五四”、“北京大学。简单地理解,“北京大学+北大*五四”

=“北大*五四+北京大学。检索式没有对“北京大学+北大”做优先处理,体现

在检索结果上,就是不能实现“北京大学”和“五四”的组配。由于没有对“北

京大学”必须和“五四”进行逻辑与组配的限定,只要出现“北京大学”就是命

中对象之一,所以,“北京大学+北大*五四”的命中结果数量一定多于“(北京大

学+北大)*五四”。

图5.1.13是做了优先处理的检索结果,图5.1.14是未做优先处理的检索

结果。

13/26

图5.1.13

图5.1.14

(3)多个检索条件的组合检索在高级查询界面中进行。高级查询界面

是多个查询条件的列表框,不同列表框之间是逻辑“与”关系。逻辑表达符号、

通配符以及优先处理符号在列表框中同样可以使用。图5.1.15是将“原文出处”、

“作者”、“关键词”3个条件组合起来进行检索,查考的是厉以宁所写的发表在

《北京大学学报》上的有关“效率的双重基础”的论文。多条件的组合检索,可

以大大提高检索结果的准确性。

14/26

图5.1.15

(4)关联检索检索结果中任意词的链接检索。如果在浏览全文的过程

中遇到了需要进一步检索的内容,这项功能可以方便地实现随文链接检索。方法

是:首先选定作为检索词的词语,点击“关联”按钮,此后的操作和基本检索相

同。图5.1.16是关联检索的一个过程。

15/26

16/26

5.1.16图

17/26

(5)检索结果排序CGRS全文检索系统还具有对检索结果的排序功能。

排序在题录列表界面中通过点击“排序”按钮进行。系统确定的字段都可以作为

排序的依据,同时可以区分第一排序字段和第二排序字段。排序之后还可以还原。

图5.1.17是对检索结果的排序过程。

图5.1.17

此外,该系统的显示方式可以切换为全屏显示和多篇显示。已经进行过的

检索,可以作为“检索历史”加以保存,以方便随时调阅。

四、万方数据资源系统

万方数据资源系统是中国科技信息研究所、万方数据集团公司开发的网络数

据库检索系统。该系统目前容纳了数字化期刊、学术会议论文全文、科技信息、

商务信息4大子系统,前二者与查考论文资料相关。

数字化期刊子系统容纳了5大学科(基础科学、农业科学、人文科学、医药

18/26

卫生、工程技术)70多个专业的2500多种中文期刊的原文。大学学报数量较多、

理工类文献丰富是其突出特点。

数据库的检索系统有4大功能:一是分类查询,二是刊物查询,三是论文查

询,四是引文查询。

分类查询该系统类聚刊物的方式包括按学科专业分类、按刊物性质分类、

按刊物出版地分类。见图5.1.18。

图5.1.18

查询方法是:刊物分类方式与刊名列表链接,刊名列表与刊物的入库卷期链

接,入库卷期与摘要和原文链接,只要依次点击即可查询。阅读原文,需要下载

专用阅读器。

论文查询按照数据库确定的文献字段,通过输入字段词检索论文原文。系

统的该项功能支持多条件逻辑组配检索(逻辑“与”和逻辑“或”)和二次检索,

并可以限定检索时限。图5.1.19是一个论文查询实例,要求检索2002年以来属

于北京大学的作者在国内大学学报上发表的题名中含有“法律”的论文。

19/26

20/26

5.1.19图

中国学术会议论文全文数据库(PACC)是万方数据资源系统中另一个与查考

论文资料相关的子数据库,也是目前国内规模较大的数字化会议论文数据库库。

截至2004年初,数据库共收录1998年以来在国内召开的全国性学术会议近2000

个,会议论文近13万篇。

对一般利用者来说,查考会议论文主要是解决两方面的问题。首先,了解某

一学科领域召开过哪些学术会议;其次,了解某一主题的论文在哪些学术会议上

发布过。适应这些需求,该数据库有针对性地设计了如下3种检索方法:

(1)“浏览”检索分学科给出召开过的学术会议列表。由此列表,可以直

接链接到学术会议的论文目录及原文。如图5.1.20是“经济管理”学科领域学

术会议的列表。

图5.1.20

21/26

(2)“会议名录”检索以会议的名称、地点、时间、主办单位等要素作为

检索词进行检索,可以将两个检索条件进行逻辑组配。如图5.1.21是查在北京

召开的以“计算机“为主题的学术会议。会议列表同样和会议论文的目录和原文

建立了链接。

图5.1.21

(3)“会议论文”检索通过字段词的逻辑组配,直接查考会议论文。数据

库确定的揭示会议论文的字段包括:论文题目、作者、会议名称、会议时间、文

摘、关键词、全文。在数据库的论文检索界面上,任意两个字段词都可以组配起

来进行检索。如图5.1.22检索的是在与“信息”有关的学术会议上发布的内容主

题涉及“信息资源管理”的论文。

22/26

万方数据资源系统的专用阅读器具有“缩略图”和“保存副本”功能。缩略

图是对命中文献所占页面的整体显示,点击缩略图,具有移动页面或翻页功能。

保存副本是在本地计算机上保存检索到的文献。在万方数据资源系统中,只要下

载并安装了专用阅读器,检索到的文献可以直接在线阅读,不需要在阅读前先下

载保存。有了保存副本功能,就可以把需要事后反复利用的文献保存在本地计算

机中。

五、全国报刊索引数据库

全国报刊索引数据库是由上海图书馆在印刷版《全国报刊索引》基础上开发

的中文报刊题录数据库,是目前国内大型文献题录数据库之一。

印刷版《全国报刊索引》的前身,最早是1955年3月上海图书馆编辑的《全

国主要期刊资料索引》,至1956年收录范围扩大到报纸,名称亦随之改为《全国

主要报刊资料索引》。自1959年起,索引将“哲学社会科学”和“自然技术科学”

分册编辑出版。1966年10月至1973年9月,索引的编辑和出版因“”而

停顿。1973年10月复刊,名称变更为《全国报刊索引》。自1980年起,索引又

分“哲社版”和“科技版”分别编辑,每月各出版一册,一直延续至今。印刷版

《全国报刊索引》是1949年以后我国持续编辑出版时间最长的报刊论文资料检

索工具。

1993年开始,印刷版《全国报刊索引》的计算机化工程启动。此后,该索

引“哲社版”的电子版“中文社科报刊篇名数据库”问世。2000年,数据库开

始以“哲社版”和“科技版”两个单库发行,数据库的名称亦改为“全国报刊索

引数据库”。目前,该数据库有网络版和光盘版。

《全国报刊索引》的突出特点是在选材范围上贯彻注重学术性、专业性、参

考性,兼顾地区与民族特点的原则,收录的报刊范围广泛,数量齐全。例如,它

所收录的报刊,就包括了国内邮发的和非邮发的。目前,哲社版收录的期刊有

6000多种,报纸200多种,每年揭示的报刊信息线索在20万条以上。电子版《全

国报刊索引》数据库所包含的人文社科方面的报刊题录信息,追溯时间最早的子

23/26

数据库已经延伸至1857—1911年,是截至目前国内涉及时间最长的报刊资源数

据库。

图5.1.23是网络版《全国报刊索引》(社科版)数据库的首页。该数据库的

基本检索方法是题录字段词检索。可检索字段共有8个,代号和字段名分别是:

A=分类B=题名

C=著者D=单位

E=刊名F=年份

G=主题H=文摘

I全字段

其中,题名和文摘字段支持全文检索,其余字段为整词索引字段检索,但支

持不完整词形后缀通配符“?”,检索结果为前方一致;同时支持同一字段不同

检索词的逻辑组配检索。所谓“全字段”,是对上述8个不同字段的逻辑组配检

索。

图5.1.23

在检索操作过程中需要注意以下技术细节:

·进行逻辑组配检索时,包含的检索词最多为15个。

24/26

·检索式中的字符除汉字外必须是半角西文字符。

·在检索式中,逻辑算符左右需各空1格。

·逻辑运算的优先次序为:“-”(逻辑非)优先级最高;“*”(逻辑与)次

之;“+”(逻辑或)最低。如果需要改变优先级别,欲改变部分加括号。

·进行不同字段的逻辑组配检索时,检索表达式需在各检索词前添加其字段

代码和等号。当前字段的检索词代码和等号可以省略。

图5.1.24和图5.2.25是两个检索实例。前者要求在2002年子数据库中查考

题名中包含了“北京大学”(或“北大”)与“五四”的文献;后者要求在2002

年子数据库中查考题名中包含了“北京大学”、作者单位不包括“北京大学”、出

处不包括“北京大学学报:哲社版”的文献。

图5.1.24

图5.1.25

在使用《全国报刊索引》数据库时,以下问题需要注意。

由于该数据库在形成检索式时要求除汉字外必须是半角西文字符,而且要求

逻辑算符左右需各空1格,可能会给直接输入带来不便,所以,简单的办法是直

接使用检索式输入框下的符号按钮。

由于该数据库要求进行不同字段的逻辑组配检索时,除当前字段外,检索表

达式必须在各检索词前添加其字段代码和等号,也会给直接输入带来不便,所以,

要注意充分利用数据库系统提供的字段索引词列表式字典。具体操作方法是:点

击“索引词”按钮,即弹出“索引词”对话框。“途径”用于选择字段。“定位”

25/26

用于快速选定需要的检索词。确定检索词后,点击相应的“检索词”按钮,该检

索词就会自动添加到检索式输入框。如果在非当前字段状态下,字段代码和等号

一并自动添加。

该数据库系统中的“格式控制”功能,用于指定检索结果的显示字段。可以

根据需要作不同的设置。

该数据库系统中的“检索历史”功能,用于保留最近20次检索结果。如有

需要,只要点击每一条检索历史列表后的“浏览”链接点,就会显示该次检索的

结果。

检索结果的输出包括存盘和打印。在检索结果中选定需要存盘或打印的记

录,点击“存盘/打印”按钮,即切换到“存盘/打印”界面。这时,只要在浏览

器中进行保存或打印操作即可。

26/26


本文发布于:2022-08-06 15:42:54,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/falv/fa/82/59678.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 站长QQ:55-9-10-26