中国法律法规汉英平行语料库
在全球化、信息化的当今世界,翻译已成为了解全球信息、扩大对外宣传、获取国际资源的重要手段。同计算机技术结合而兴起的双语平行语料库建设,则为语言研究、翻译研究、外语教学、词典编纂和跨语言信息检索等提供了最好的平台,同时还可用来考察和验证基于单语语料库或者基于直觉提出的假设,具有广阔的应用前景。
平行语料库承载着相互对应的两种语言,与语言对比研究有着天然的联系,成为语言对比研究中的默认数据源;平行语料库中的两种语言互为对应,记载着两种语言中的对应词和对应单位,成为词典编纂者最可靠的数据来源;平行语料库中的源语言和目标语言互为对应,在翻译教学和外语学习中的用途更是不言而喻。
除此之外,平行语料库对机器翻译和自然语言处理也极为重要。对齐的平行语料能为基于例句和统计的机器翻译系统提供实证模型,同时也可以为基于规则的机器翻译提供验证规则,为机助翻译提供大量翻译记忆。正如欧赫(Och 2002)所言,“只要给我足够的双语对应数据,几个小时内我可以给你一个机器翻译系统”。然而现有的英汉平行语料库规模有限,且大多是利用现有同质翻译资源建立的,并非平衡语料库,常常不能较好地代表广泛含义上的源请客英文
早教好
语—译语关系,依此生成的语言模型常常不能够有效地解释翻译语言,这极大地阻碍了翻译和词典编纂等学科研究的深入,已成为提高机器翻译译文质量的瓶颈。
鉴于此,我们提出设计和研制更大规模、更多功能的超大型平行语料库,即一亿词以上的“中国英汉平行语料库”,以满足各方面研究的需求和语料库事业的发展。
1)由于大型双语平行语料库规模超大、采样严格,能够较好地代表源语—译语关系,因此能为翻译研究、语言对比研究、语言演化研究、口笔译比较研究等提供可靠的翻译实例和量化数据,从而提高上述研究的可信度。
2)在超大型双语平行语料库建设的基础上,我们还将展开多项具有理论意义的语言和翻译研究。这些研究主要包括历时研究、类比动态描写。研究分析时间跨度大,涉及层面多。
1)在研究方法上,我们将据此探索基于语料库的翻译语言动态类比和描述,为语言的共时与历时比较研究提供有效的、可操作性强的分析模式和研究平台。
全国两会常用词汇2)在大型双语平行语料库的采样和加工方面,将提出更有借鉴价值的模板和方法。
文科生可以报哪些专业
cpsp
总之,“中国英汉平行语料库”这一超大规模的英汉/汉英平衡语料库,为今后其他语对的双语平行语料库或多语平行语料库的研制、双语对比与研究、英汉语言接触与现代汉语历时变化研究等,提供共同的大型的实证研究基础,为中国的语料库研究走向世界前沿作出贡献。
上述这些语料库基本上都是文本来源单一、标注也简单的欧洲语言专用语料库,主要用于语言识别、文档级对齐、术语提取等自然语言处理研究,而非从语言学角度研究语言。汽锤
除此之外,也有少数几个精心设计的平行语料库,如由挪威奥斯陆大学研制的最早的英语—挪威语平行语料库,包含英语和挪威语各100个1-1.5万词的英-挪对应母语文本及其挪-英翻译文本,共260万词,语料采样考虑到平衡性而非局限于少数几个语域或语体,涉及小说(儿童小说、侦探小说、一般小说)和非小说(宗教、社会科学、法律、自然科学、医学、艺术、历史地理)。该语料库不仅在句子层面对齐,而且对英挪语料均作了词性标注和词形还原(lemmatisation)处理。
英语—瑞典语平行语料库则是采用英语-挪威语平行语料库的建库标准、由隆德大学(Lund University)和哥特堡大学联合研制的平衡语料库,包括64个英语原文文本及其瑞典语译文
和72个瑞典语原文文本及其英语译文,共计280万词。昙花的英文
汽车机油常识
在这两个语料库的基础上,近年来奥斯陆大学又以同样标准开发了奥斯陆多语种语料库(OMC),除了英语、挪威语、瑞典语外还涉及到了德语、法语、荷兰语、芬兰语、和葡萄牙语。这些精心设计的平行语料库适合于翻译与跨语言对比等研究,但局限于欧洲语言。
在我国内地,双语平行语料库的建设近十年来也取得了重大进展,已有多个英汉及日汉等双语平行语料库建成。如北京大学计算语言学研究所的汉英平行语料库(5万多句对)及其所承担的863项目所建的英汉平行语料库(20万句对),哈尔滨工业大学的英汉双语语料库(40-50万句对)。不过这些语料库有一个共同之处,即建库目的主要是自然语言处理而非语言学研究,因此所谓的句对通常是脱离上下文、打乱次序的孤立的句子,英译汉与汉译英语料夹杂,用户不易识别翻译方向。另外,国内近年来也建成了一些专门用途语料库,如上海交通大学的莎士比亚戏剧英汉平行语料库,燕山大学的红楼梦译本平行语料库,绍兴学院的鲁迅小说汉英平行语料库等。这些语料库因为是专门性的,语料来源单一,规模比较小,适合专门研究而不适合通用语言研究。
上面对国内外研究现状的简述表明,平行语料库研究目前主要涉及欧洲语言,而且欧盟机构和欧洲国家的研究基金愿意在该领域投入大量研究经费。现有涉及英语和汉语的双语语料资源现状与这一“大语种”语对的地位还不相称,与研究的需要也不相适应,亟需一个大型、平衡的英汉双向平行语料库,使之成为既适用于自然语言处理与语言工程,又能应用于英汉语言对比研究(包括共时与历时对比)和翻译研究、翻译教学与实践、双语词典编纂的共同研究平台,以便从不同角度展开的研究能真正揭示语言的本质,避免由于不同研究使用不同数据而造成的差异。我们希望通过研制这个中国英汉平行语料库,并在此基础上开展上述各项研究,使中国的双语平行语料库研制与加工走在世界前列。