语料库与英汉词典编纂
徐海江
网购的好处 语料库究其本质是大量语言资料的集合,借助于计算机对语料库中的语料进行,研究具有很强的操作性,它以机器为阅读媒体,可对语料库中的语料进行彻底的检查,并可处理大批量的语料,为多种研究目的提供资料的反复处理。国外著名的语料库有收100万美语词的美国布朗大学的美国英语语料库(Brown University Corpus)、收100万书面英语词的英国兰开斯特/挪威奥斯陆—伯根语料库(The Lancaster/Oslo Bergen Corpus)、收2000万书面英语词的英国伯明翰大学语料库(Birmingham University Corpus)、收1亿英语词的英国国家语料库(British National Corpus)等,国内的语料库主要有收词达1000万的中国社科院文研所的汉语语料库、收词近1000万的台湾古代、近代和现代汉语语料库以及由南京大学和商务印书馆共同研制的收词近3000万的英汉语料库等。
Biber,Conrad和Reppen(1998)认为以语料库为基础的研究方法与传统的研究方法相比,其主要特点体现在以下几个方面:①对自然语言文本中的实际模式进行分析;②利用计算机的自动和互动技术对语言进行分析;③对语料进行定量和定性分析。通过对语料库的研
万物一马究,语言研究人员在决定词义、词频和例证等方面找到了一种新的途径,从而开创了词汇研究的新时代。
众所周知,词典的编纂是以大量的文字资料为基础,词典的核心应包括词目、释义和例证等。词典的编纂是一项长期的工作,需要编写者们花费大量的时间和精力,往往经过几年甚至几十年的时间才能完成一部词典。这主要是由于词典的词目的确立和例证的取舍是一项浩大的工程,这种编写方法主要是以手工操作为主,以有形的纸为媒介,而建立在语料库基础上的词典编纂则呈现出明显的优势。
豆皮的做法大全一、语料库与词典词目的确定
黄花观
词目是词典的一个核心组成部分,它直接影响了词典的使用性。在传统的词典编纂中,词典工作者根据自己的经验来确立词典的词条,这种方法既缺乏科学性,也无法满足使用对象的需要,使其实用性相对比较差,这在学习词典方面尤为突出,而“利用原始语料库进行词汇统计和调查,并充分利用前人的研究成果,就可为选词范围提供量化根据”。(解建和,1997:58)据此确定的词目具有很强的针对性,能更好地服务于词典的使用者,从而使编纂出的词典更加科学。国外已有多部词典是根据语料库来确定其词目的,如《朗文当
代英语词典》(Longman Dictionary of Contemporary English,1995版)、《柯林斯合作英语词典》(第2版)(Collins COBUILD English Dictionary,cond edition)及《剑桥国际英语词典》(Cambridge International Dictionary of English)等。Sinclair
(1991:143)对COBUILD语料库中的语料进行了词频统计,得出的结果列于下表。根据他的方法,词典编写者可以创建自己的语料库,在其中输入各个时期、各种体裁、各种语体、各个区域的英语文献,然后对此词频统计并按从高到低的顺序排列,据此确定编写者所编词典的词条。频率统计结果
the 309497 with 35844of 155044 as 34755and 153801 be 29799to 137056 had 29592a 129928 but 29572in 100138 they 29512that 67042 at 28958I 64849 his 26491it 61379 have 26113was 54722 not 25419is 49186 this 25185he 42057 are 23372for 40857 ……
you 37477
on 35951
二、语料库与例证的选择
例证在词典中起着至关重要的作用,它为使用者提供了丰富的语用知识,这正是语言学习者所追求的目标之一。以往的词典大多是采用传统方式所编纂的,使用的例证大多是以现有的原版词典和外文书刊为主要素材,词典编纂者需要花费大量的时间和精力从浩瀚的资料中搜集、整理并筛选出合适的例证,这无形中延长了词典的编纂周期。由于语言的变化日新月异,词典使用者常常觉得在新近编纂的词典中无法查寻到一些新出现的语言现象。为此,词典编纂者努力寻求一个能解决这一难题的途径,语料库的建立正好满足了这种需求。
借助于语料库,词典工作者可以在几秒或几十秒的时间内选出大量的可选例证,然后经过筛选确立能代表某种语言现象的例证,如词语间的搭配、名词的单复数性征及主谓的一致性等语法现象,这种方法既节省了时间,又提高了例证的可信度,增强了语法的表现力,丰富了词典的知识性,使其颇具独创性。三、利用语料库进行统计
语料库的应用使词典编纂者可以完成那些采用传统方法的词典工作者们所无法解决的问题,如精确统计一部词典中的词目数量、词典全文的字数以及评估该词典用词的难易程度等。(1)词频统计 词典编纂者在编写过程(尤其是在编写学习词典等具有很强针对性的词典时)很难确定其所用单词是否超出所列词目的范围,利用人工统计显然是无法做到的。但是利用语料库中的词频统计功能对词典正文中的所有词汇按其出现频度进行统计,将结果与词目的统计结果作比较,将两个结果中只出现一次的单词从词典正文中剔除。通过上述对例证难度的调整,词典编纂者可以确保他们词典中的选词没有超出预期目标,真正做到有的放矢。
(2)词典词目和全文统计
一部词典中往往有十几万甚至几十万条词条,采用传统工艺的词典工作者要对这些词目进行完整的统计需要花上相当长的时间,而词典的全文统计对他们来说更无能为力,最终只能作出一个粗略的估计。建立在语料库基础上的词典编纂以计算机为媒介,利用其统计功能能够在短时间列出统计结果,使用这种方法不会漏掉任何一个词条,甚至一个字。
词典编纂者还可以利用语料库对词典中的各类词性进行统计,如名词、动词、形容词、副
自述作文
词
、介词等,据此可以评价词典的编纂风格。
四、利用语料库有效地缩短词典的修订周期
词典随着语言的变化需要不断地更新。英语在其漫长的发展过程中经历了几个主要时期——从古英语到中世纪英语,从中世纪英语到现代英语,从现代英语演变成当代英语。英语词典同样也随之发生了变化——从塞缪尔·约翰逊的《英语词典》到詹姆斯·默里的《牛津英语大词典》,直至今天的《兰登英语词典》以及牛津出版社和朗文出版社出版的系列英语词典,汉英词典也不例外,从商务印书馆的《英汉大词典》和《英华大词典》至上海译文出版社的《新英汉词典》和《英汉大词典》等。这些词典大多经过一次或多次修订,其间间隔几年或几十年的时间,然而这些修订后的词典仍然无法收录最新的语言动态。 语料库的建立为缩短词典的修订周期提供了条件,利用语料库编纂词典,“可以达到一次录入,多次使用的目的”(麻静,1997:33),所录入的语料可以在正文输出和全文修改等过程中重复使用,进而提高语料的利用率。词典编纂者还可以随时将收集的新兴语言现象直接补充到语料库中或把最新的一些出版物输入语料库,然后对这些语料进行分析,发现
新的语言现象,如旧词新意和新词等,及时把这些内容补充到已编纂的词典中,不断地更新和扩充词典的容量,使词典日趋完善。五、利用语料库生成新词典(1)从大型词典生成小词典
词典工作者以语料库为工具根据其编纂思想和不同的读者层从一部大容量的词典中生成多种形式的小型词典,其中以学习词典为主要体裁。COBUILD在这方面已经取得了成功的经验,在极短的时间内“制造”出了数部小词典,可谓是硕果累累,而国内读者所使用的小型学习词典基本上都是编纂者们另起炉灶,历时数年才编成一部。(2)从英汉词典生成汉英词典 汉英词典的编纂较英汉词典更为困难,目前国内比较成功的要数外语教学与研究出版社的《汉英词典》,它是在1978年完成的汉英词典的基础上修订而成的,先后用了十几年的时间。 借助语料库,从英汉词典派生出汉英词典使得这个过程变得相对容易,而且由于英汉词典的英语例证都取材于英语原文,汉语例证也经过编写者的精雕细镂,颇具水准,此类汉英词典中的释义和例证就更加可靠。正如祝启波(1997:67)指出的那样,由机器生成的汉英词典具有“可读性……词典的译文当然没有中国式的英语的味道,不会有生造、难懂的英语短语”,因此具有相当的学术水平和使用价值,对使用者大有裨益。参考文献Biber,D.,Conrad,S. & Reppen,R. Corpus Linguistics. Cam
bridge: Cambridge University Press,1998.Sinclair,J. Corpus,Concordance,and Collocation. Shanghai: Shanghai Foreign Language Education Press,1991.
微信名字大全女生麻静,“‘计算机辞典编辑系统’在《中国图书大辞典》编辑工作中的应用”,《辞书研究》1998年第4期。
物态解建和,“语料库与双语词典”,《辞书研究》1997年第5期。
祝启波,“一部专业技术双语词典的计算机转换及其结果分析”,《辞书研究》1997年第5
期。
(作者单位:南京大学双语词典研究中心)_
________________________________________________________