英⽂分词的关键:词性还原和词⼲提取
⼈⼯智能时代,能让计算机⾃动化进⾏⽂字语义理解⾮常重要,因此,进⾏语义理解的第⼀步——如何正确地根据语义完成词语切分(即分词)就是⼀个⾮常具有挑战性的任务,⼀旦切词发⽣失误,会导致后续的⽂本处理产⽣连锁问题,给正确理解语义带来障碍。
在上篇⽂章中,我们讲到了中⽂分词的相关内容,本⽂将对英⽂分词的关键:词性还原和词⼲提取进⾏介绍。
——
我们知道,在现代汉语中能够清晰表达完整含义的最⼩单位是词⽽不是字,⽽且在每句话中不存在分隔符。与之相对的,英⽂单词之间则通过空格来进⾏分隔,因此在进⾏英⽂⽂本处理时,可以⾮常容易的通过空格来切分单词。
虽然通过空格就能将句⼦拆分并获取单词,让英⽂单词的提取⽐中⽂简单的多,但相⽐较于中⽂,英⽂还有⼀个特有的现象——即单词存在丰富的变形变换。
过程方法
为了应对这些复杂的变换,英⽂分词过程相⽐中⽂还存在⼀些独特的处理步骤——词形还原(Lemmatization)和词⼲提取(Stemming)。喜庆的成语
被动语态的构成什么是词形还原(Lemmatization)和词⼲提取(Stemming)
词⼲还原
因为英⽂单词有丰富的单复数、主被动、时态变换等情况,在语义理解时需要将单词“恢复”到原始的形态从⽽让计算机更⽅便地进⾏后续处理。
词形还原不是简单地将前后缀去掉,⽽是基于词典,将单词的复杂形态转变成最基础的形态。
例如“does,done,doing,did”,需要通过词性还原统⼀恢复为“do”,⽅便后续计算机进⾏语义分析。
英⽂中也存在⼀词多义的情况,因此词形还原通常还需要配合词性标注⼀起进⾏以确保还原准确度,避免歧义发⽣。例如calves,即可以作为
calf(名词,⽜犊)的复数形式,也可以是calve(动词,⽣育⼩⽜)的第三⼈称单数。所以词形还原也有两种选择,需要按实际所表⽰的词性来挑选合适的还原⽅法。
词⼲提取
词⼲提取是英⽂中另⼀项独有的处理技术。
在英⽂中,单词虽然是句⼦中的基础表义单元,但并⾮是不可再分的。英⽂单词内部都是由若⼲个词素构成的。词素⼜分为词根和词缀(前缀或后缀),⽽词根的原形称为词⼲。例如单词disability,dis-就是表⽰否定意思的常⽤前缀,-lity是名词常⽤后缀,able是表⽰“能⼒”的词⼲,这些词素合并在⼀起就构成了单词的含义。词⼲提取是去除单词的前后缀得到词根的过程。
英⽂的词素种类⾮常多,提取词素对理解英⽂单词的含义起着⾮常重要的作⽤,例如miannually这个单词,可能我们并不认识,但通过词素拆分来看:前缀mi-表⽰“⼀半”的意思,词⼲annul表⽰年,-ly是副词后缀,miannually这个单词的含义是“每半年进⾏⼀次的”。
相⽐英⽂,中⽂⾥是没有词⼲的概念的,也⽆需进⾏词⼲提取。但在中⽂⾥有⼀个相近的概念是偏旁部⾸。和英⽂中“单词不懂看词⼲”类似,中⽂⾥“汉字不识看偏旁”。例如“猴、狗、猪、猫、狼”这些汉字,显然都是动物名词。当出现汉字“狁”时,即使不认识也能通过部⾸“犭”猜出这是⼀个动物名称,且发⾳类似“允”字。
遗传密码
为什么要做词⼲提取和词形还原?
举个例⼦,当我们在搜索“play basketball”时,playing basketball可能也符合我们的查询需求,但对计算机来说,play和 playing 是 2 种完全不同的东西,所以我们需要将 playing 转换成 play。
有创意的聚会邀请词词⼲提取和词形还原的⽬的就是将长相不同,但是含义相同的词统⼀起来,这样⽅便后续的处理和分析。
词⼲提取和词形还原的异同点
异同点
安全教育一分钟
词⼲提取和词形还原的狗血喷头
1.4个相似点
1)⽬标⼀致。词⼲提取和词形还原的⽬标均为将词的派⽣形态简化归并为词⼲或原形的基础形式,都是对词的不同形态统⼀归并的过程。
2)结果部分交叉。词⼲提取和词形还原不是互斥关系,其结果是有部分交叉的。⼀部分词利⽤这两类⽅法都能达到相同的词形转换效果。
3)主流实现⽅法类似。⽬前实现词⼲提取和词形还原的主流实现⽅法均是利⽤语⾔中存在的规则、词典映射来提取词⼲或获得词的原形。
4)应⽤领域相似。主要应⽤于信息检索和⽂本、⾃然语⾔处理等⽅⾯。
2.5个不同点
1)原理不同。词⼲提取主要是采⽤“缩减”的⽅法,将词转换为词⼲,如将“effective”处理为“effect”。⽽词形还原主要采⽤“转变”的⽅法,将词转变为其原形,如将“drove”处理为“drive”。
金融小故事2)复杂度不同。词⼲提取⽅法相对简单,词形还原则需要返回词的原形,需要对词形进⾏分析,不仅要进⾏词缀的转化,还要进⾏词性识别,区分相同词形但原形不同的词的差别。词性标注的准确率也直接影响词形还原的准确率,因此,词形还原更为复杂。
3)实现⽅法不同。虽然词⼲提取和词形还原实现的主流⽅法类似,但⼆者在具体实现上各有侧重。词⼲提取的实现⽅法主要利⽤规则变化进⾏词缀的去除和缩减,从⽽达到词的简化效果。词形还原则相对较复杂,有复杂的形态变化,单纯依据规则⽆法很好地完成,其更依赖于词典,进⾏词形变化和原形的映射,⽣成词典中的有效词。
4)反馈结果不同。词⼲提取的结果可能并不是完整的、具有意义的词,⽽只是词的⼀部分,如“ailiner”词⼲提取的结果为“airlin”。⽽经词形还原处理后获得的结果是具有⼀定意义的、完整的词,⼀般为词典中的有效词。
5)应⽤侧重点不同。虽然⼆者均被应⽤于信息检索和⽂本处理中,但侧重不同。词⼲提取更多被应
⽤于信息检索领域,⽤于扩展检索,粒度较粗。词形还原则更主要被应⽤于⽂本挖掘、⾃然语⾔处理,⽤于更细粒度、更为准确的⽂本分析和表达。