摘要文章分析了大数据时代词典编纂可用或可参考数据的特点,探索如何从海量数据中挖掘汉英语际对应词等词汇知识,还简要探讨了与数据或语料使用相关的问题。挖掘实践表明: 充分利用可用资源,从纷杂的大数据中可以挖掘出所需的词汇知识,但目前仍需专业人员进行筛选、认定和解读。词典要保持生命力必须及时修订和收录新词。对于汉英词典来说,提供汉语词语的地道英语对应词会提升其实用价值。研究语际对应词挖掘不仅有助于编纂出符合用户需求的双语词典,对构建大数据语言资源库和开发挖掘分析软件也有参考价值。
大历年间 关键词大数据时代对应词新词挖掘汉英词典 男士钱夹
一、 研究背景
移动互联网的飞速发展加快了媒体融合的进程,也使传统的词典学研究和词典编纂实践面临挑战。不仅纸质词典,就连掌上型电子词典也遭到了前所未有的冷遇。人们更喜欢通过智能手机或计算机查询在线网络词典或离线电子词典。
大数据的应用前景广阔。但是,词典学研究和词典编纂可用的数据是大数据吗?词典学研究和词典编纂真的需要大数据吗?我们尝试从大数据时代词典学研究和编纂实践可用数据的
特点出发回答第一个问题,结合汉英语际对应词的挖掘实例分析回答第二个问题,还简要探讨与数据或语料使用相关的问题。
二、 大数据与编纂词典的可用数据
1. 大数据的特点
传统意义上的“数据”指的是“有根据的数字”。现在,“数据”不仅指“数字”,还统称一切保存在电脑中的信息(包括文本、声音、视频等)。(赵勇,徐轲2014)在这个信息爆炸的时代,经过一定时间的积累就会出现海量或巨量的数据。过去,计算机存储信息或数据的计量单位用gb/gigabytes(1gb=1024mb)就已经很大了。现在用到tb/terabytes(1tb=1024gb),pb/petabytes(1pb=1024tb=1048576gb),甚至更大的计量单位。但是,不能简单地认为数量大就是大数据。大数据的体量巨大,不仅存储量大,计算量也大,超出了传统数据处理方法所能管理和处理的能力。
现在具有代表性的观点是大数据具备4v特征: (1) 数据量庞大(volume)。(2) 数据呈现多样性(variety),不但类型多(如文本、网页、图片、音频、视频和位置信息等)
,而且来自多种数据源,不仅有结构化数据,更多的是半结构化数据和非结构化数据。(3) 时效性(velocity),即数据增长速度快、变化速度快,处理速度也要求快,包括大量的在线或实时数据分析处理。例如电子商务对销售数据的实时快速分析就意味着能及时抓住商机。(4) 数据价值高(value),但价值密度低,即价值与数据总量之比很低,需要对海量的数据进行挖掘分析才能形成用户价值。如在长时间连续的监控视频中查找犯罪线索,有用的数据可能只有短短几秒钟。(赵勇,徐轲2014;严霄凤,张德馨2013;宗威,吴锋2013)
2. 大数据的定义
信息时代的“数据”概念是明确的,但是对于“大数据”至今还没有一个公认的标准定义。 春节为什么叫春节
美国国家科学基金会(nsf)将大数据定义为:“由科学仪器、传感设备、互联网交易、电子邮件、音频视频软件、网络点击流等多种数据源生成的大规模、多元化、复杂、长期的分布式数据集。”(黄南霞,谢辉,王学东2013)
李战怀、王国仁和周傲英(2013)从数据库研究者的视角对大数据进行了解读,认为大
数据是个笼统的概念。他们指出:“与应用密切相关的各类数据都属于大数据范畴,大数据强调支持实际应用所涉及到的多个来源且相互关联的大量、高速、异构数据;世界上凡是可以表达出来的信息都是数据;当为了一个具体的应用而需要把大量的不同类型、质量各异的数据及时进行处理时,这些数据就进入了大数据的范畴。”
胡雄伟、张宝林和李抵飞(2013)认为:“不存在严格意义上的大数据资源的定义,任何已有数据资源的汇集和整合就可以构成所谓的大数据资源。……大数据是各种类型的小数据的集合,通过各种类型的小数据整合、集合、集成处理,从中挖掘出潜在的新价值。所以说,大数据是小数据的再次利用和多次重复利用。”
3. 编纂词典的可用数据及特点
怎么查公积金账户余额
各行各业都有可能产生大数据,但是并非所有的数据都能用于词典编纂。
从是否付费的角度看,编纂词典的可用数据包括自有内部数据,可免费使用的外部数据和需交费使用的外部数据。
通过互联网等各种途径搜集或积累起来的单语、双语,甚至是多语语言资源,为词典编纂
怎么写歌词
提供了丰富的语料或知识来源。但是将收集到的海量或巨量数据进行挖掘,找出规律并有效地加以利用才能创造价值。因此,挖掘和提炼出有价值的词汇知识对词典编纂工作来说至关重要。
三、 汉英语际对应词及其挖掘
1. 语际对应词
语际对应词(interlingual equivalents)指的是可插入性对应词(inrtible equivalents),包括两种语言间的绝对对应词和部分对应词。
包双喜和斯日古楞(2007)指出: 一种语言的词,在基本意义上可以与另一种语言直接对译的词,彼此之间称为“对应词”;对应词是大量存在的,否则不同语言之间的翻译和交流就不能实现。
李明和周敬华(2000)在《双语词典编纂》一书中详细介绍和探讨过对应词的分类、在双语词典中提供对应词的方法、辨别对应词意义的手段,以及对应词的质量问题。他们发现双语词典编纂者在寻找(语际)对应词时可能会遇到三种情况: (1) 能找到绝对对应
词(absolute equivalents;或称对等词);(2) 只能找到部分对应词(partial equivalents;或称局限对应词bound equivalents);(3) 找不到对应词,出现词汇空缺(lexical gap)。李明和周敬华(2000)认为: 除了绝对对应词和部分对应词,还可以把对应词分为翻译对应词(translational equivalents,又称插入对应词inrtible equivalents)和解释性对应词(explanatory equivalents,又称描写性对应词descriptive equivalents)。他们建议把对应词分成插入性对应词和非插入性对应词。因为非插入性对应词只是词语的解释性翻译或描写性释义,所以不是严格意义上的对应词。插入性对应词有助于产出,而非插入性对应词有助于理解。在两者都可用的情况下,双语词典提供的插入性对应词在翻译方面对读者的帮助更大。
2. 现存问题 属虎和属猪
提供语际对应词是编纂双语词典的重要任务,也是专家们的共识。但是,提供地道实用的语际对应词的难度不小。正如曾泰元(2005)指出的那样,双语词典中对应词不够地道或不准确的现象并不少见,冗长的解释性释义依然存在。李安兴(2010)的研究显示: 国内一些汉英词典编纂者未能将前人(尤其是国内外翻译家)已经给出的一些汉语词语的佳译提供给读者。
通过构建语料库获取对应词的研究早已有之。我国的语料库建设和应用也有了实质性进展。尽管不少研究机构和出版社已经或正在构建与词典编纂和出版相关的语料库,但是各方都是专注建设自己的语料库或数字出版资源库,没有采用统一的数据标准。而且,仅仅依靠现有的语料库不能完全满足词典编纂的需要。再加上建设周期、更新速度和使用权限的限制,词典编纂人员实际可用的语料库并不像人们想象的那样全面。
3. 汉英语际对应词的挖掘探索
大数据时代的到来为充分利用包括网络资源在内的各种资源和技术编纂汉英词典打开了更广阔的视野。下面结合实例探索如何从纷杂的大数据中挖掘出编纂汉英双语词典所需的语际对应词等词汇知识。汉英语际对应词的挖掘是指从带噪声非结构化或半结构化的语料中找出未知的或未收录的汉语词语的英语对应词。 日记账的登记方法
(1) 挖掘方法和步骤
(2) 挖掘实践
因为汉英语际对应词的挖掘涉及面很广,所以我们选取了十项有代表性的挖掘任务,结合
素食主义典型实例展示大数据在词典学研究和词典编纂实践中的重要应用价值。
根据语料库词频数据对比,不仅可以找出“车展”的地道对应词,还可以判断出对应词的使用地域分布特点(见表1)。
2) 区分义项,标注所属学科。如果专业术语的使用范围不断扩大,也会进入普通词汇。词典收录时,应根据学科领域划分义项并标注。例如: 近几年,中国人喜欢为所有健康、乐观、积极向上的人,以及催人奋进、给人力量和充满希望的事贴上“正能量”的标签。“正能量”源自英语中的positive energy。在心理学领域,“正能量”的意思是“积极的能量;正向的能量;积极进取的动力”。但是“正能量”原是物理学领域的一个概念,与心理学领域“正能量”的英语对应词相同,意思不同(见例4)。
3) 验证两个或多个近义汉语词语是否有共同的对应词。例如: 英汉对照文本显示“民意测验”和“民意调查”有共同的高频英语对应词poll和opinion poll(见例5至例7的对照)。
5) 梳理对应词并分类。词典对词语的收录不应回避社会生活的负面状况。有些词语描述的是社会转型过程中出现的负面状况,汉语中有,英语中也有。如“傍大款”就是个典型的
例子。从互联网上能搜索到“傍大款”的多种英译表达。表3是必应网络词典中“傍大款”的网页挖掘结果(根据2015年3月1日的检索结果复制)。这个挖掘实例既展示了网页文本挖掘的重要作用,也暴露出自动挖掘结果的不足之处。
从表3可以筛选出“傍大款”的英语对应词,但必须排除噪声干扰。首先是第一项中的of a girl被错误提取并列为对应词。它出现的频率高,但只是括注。接下来是第一项和第六项中都有lean on a moneybags。看上去moneybags的前面加冠词a不符合语法,但实际上moneybags是单复数同形,其前用冠词a是可以的。而第五项和第八项中的a moneybag只有“钱袋”之意,没有“大款;阔佬”的意思。第四项与第七项给出的对应词结构相似,但是一个用介词for,另一个用to。第五项列出的结果是lean on a moneybag,接下来的第六项却出现了与之不一致的to lean on a moneybags。第八项错误地提取出beer belly(将军肚;啤酒肚)作为“傍大款”的英语对应词。
经人工整理,并参考其他来源的挖掘结果,能提炼出下列可用的英语对应词: (of a girl) find/have a sugar daddy; (be a) gold digger; lean on/live off a moneybags; find a fat cat; be a rich mans mistress。例10至例12是应用实例。