ISSN1004-9037,CODEN SCYCE4
竞争对手英文
cellular是什么意思Journal of Data Acquisition and Processing Vol.34,No.4,Jul.2019,pp.577—584 DOI:10.16337/j.1004-9037.2019.04.001
©2019by Journal of Data Acquisition and Processing
http://sjcj.nuaa.edu
E-mail:sjcj@nuaa.edu Tel/Fax:+86-025-********
融合语言特性的越南语兼类词消歧
郭剑毅赵晨I刘艳超1毛存礼余正涛「2
(1.昆明理工大学信息工程与自动化学院,昆明,650500;2.昆明理工大学云南省人工智能重点实验室,昆明,650500)
摘要:兼类词歧义直接影响词性标注的准确率。本文针对越南语兼类词歧义问题提出一种融合语言特性的越南语兼类词消歧方法。通过构建越南语兼类词词典和兼类词语料库,分析越南语的语言特征和兼类
词特点,选取有效的特征集;然后利用条件随机场能添加任意特征等优点,在使用词和词性上下文信息的同时,引入句法成分和指示词特征,得到消歧模型。最后在兼类词语料上实验,准确率达到了87.23%。实验表明本文所提出的越南语兼类词消歧方法有效可行,可以提高词性标注正确率。
南京师范大学自考网
关键词:兼类词消歧;兼类词词典;兼类词语料库;语言特征;条件随机场模型;越南语
布鲁克大学中图分类号:TP391文献标志码:A
Vietname Multi-category Words Disambiguation Combined with Language Features
Guo Jianyi1,2,Zhao Chen1,Liu Yanchao1,Mao Cunli1,Yu Zhengtao1,2
(1.School of Information Engineering and Automation,Kunming University of Science and Technology,Kunming,650500,China;
2.Yunnan Key Laboratory of Artificial Intelligence,Kunming University of Science and Technology,Kunming,650500,China)
Abstract:Multi-category words disambiguation directly affects the part of speech(POS)tagging accuracy. This paper propod a statistical disambiguation method combined with linguistic characte
ristics of Vietname multi-category words.First,the paper builds Vietname multi-category words dictionary and Vietname multi-category words corpus,and lects effective feature ts for multi-category words by analyzing of Vietname language and multi-category words.Secondly,the paper takes into account the advantages of adding any features of CRFs model,introduces the syntactic and lexical features excepting the features of words and POS,and then builds up the disambiguation model.Finally,testing is carried out on the real multi-category category words corpus,and the accuracy is87.23%.Experimental results show that the propod Vietname multi-category words disambiguation model is effective and feasible,which can improve the correct rate of POS tagging.
Key words:multi-category words disambiguation;multi-category words dictionary;multi-category words corpus;linguistic characteristics;conditional random fields model;Vietname
基金项目:国家自然科学基金(61262041,61562052,61662041)资助项目;国家自然科学基金重点(61732005)资助项目。
neea edu cn收稿日期:2017-10-31;修订日期:2019-06-28
578数据采集与处理 Journal of D ata Acquisition and Processing Vol. 34, No. 4, 2019引 言
兼类词是指一个词具有两个或者两个以上的词性⑴。词性(Part of speech, POS )自动标注是自然 语言处理中的基础课题;由于兼类词歧义影响着词性标注的准确率⑵,直接影响着词性语料库的质量; 而越南语词性语料库的质量是后续语言处理工作的保证,这使它广泛地应用于多个方面,例如:名词短 语分析间、句法分析⑷和机器翻译【5甸等。因此,解决越南语兼类词消歧问题是构建高质量的越南语词性 语料库的必要条件。
nail近年来,国内外学者对兼类词消歧方法进行了研究,主要有以下3种:(1)基于规则的方法呵。根 据北印度语语法,Gupta 等⑺提出基于规则的方法,对兼类词进行消歧;Liu 等闾提出基于配置的定量分 析现代汉语中动词和名词兼类的分类方法来解决汉语中动■■名词兼类问题,根据句法和语义特征对动- 名词兼类进行研究;Li 等间针对中-英专利机器翻译中的动词和介词的兼类,提出基于规则的识别方法, 提高了机器翻译质量。(2)基于统计机器学习的方法〔》切。Dinesh 等回针对马拉雅拉姆语提出有监督语 言模型,同时该模型引入命名实体识别器和词法分析器,进行兼类词消歧;针对电子商业领域的兼类 词,FeiF 等问提出了基于条件随机场消歧方法,减少汉语中电子商业的歧义,同时提高了用户检索体 验。(3)基于混合的方法[11'12]o Zhang 等M 对汉语中的兼类词采用集成模型进行词性消歧,准确率达到 89.69% ;Xia 等问针对汉语提出基于规则和统计的方法进行兼类词消歧,使用多种统计方法进行消歧, 对消歧结果中不理想的兼类词采用规则方法再次进行消歧,以上的研究都已取得较好的结果。
上述研究主要针对英语、汉语等语言,就越南语兼类词消歧而言,相关研究相对较少。兼类词歧义 消歧属于词性标注范畴,在越南语词性标注方面,文献[13]在支持向量机(Support vector machine, SVM )模型中融入普通特征(词汇特征、词的上下文特征、词性特征和拼写特征)和特殊特征(重复特征、 前缀和后缀特征),进行词性标注,正确率为93.51%;文献口 4]将词特征和音节特征融合到统计模型 SVM 、最大炳模型(Maxinum entropy model, MEM )和条件随机场(Conditional random fields , CRFs )中 建模并进行分词,比较3种模型的结果;文献[15]提出了最大爛方法融入基本特征和音节特征,正确率达 到93.40%,但这些研究几乎没有考虑兼类词问题。
目前,随着中越两国文化和经济交流的日益频繁,汉越自然语言处理越来越重要,越南语兼类词消 歧工作迫在眉睫。但越南语兼类词消歧研究工作很少,为了提高越南语词性标注质量,本文通过分析 越南语的语言和兼类词特点,
提出了融合语言特性的越南语
兼类词消歧方法。
1兼类词消歧框架
借鉴已有的兼类词消歧方
法和思路,本文提出的方法原
理框架如图1所示,主要包括:
越南语语料预处理、构建越南质问的意思
语兼类词字段和越南语兼类词
词典、构建基于条件随机场的
消歧模型和语料测试等过程。
图1中,越南语兼类词消
歧的具体流程如下:(1)越南语
语料预处理。本文从越南语网 站中抽取具有政治、文化、经济 图1越南语兼类词消歧框架图
Fig.l Vietname multi-category words disambiguation framework
郭剑毅等:融合语言特性的越南语兼类词消歧579
和新闻等类型题材的网页,通过爬虫程序,获得越南语文本语料;对其进行去噪等操作,使用分词工具进行分词,使用词性标注工具进行词性标记,并完成校对;(2)构建字段语料库和越南语兼类词词典。通过人工对越南语字典分类整理得到1659条的兼类词词典;以此为基础,从已构建的词性标注语料库中通过编程抽取396946条越南语兼类词字段语料;(3)构建基于条件随机场的消歧模型。根据越南语中兼类词的特点,选取消歧特征,将其与已抽取的越南语兼类词字段向融合,形成训练语料,使用条件随机场模型进行建模,获得基于条件随机场的消歧模型;(4)语料测试。用构建的基于条件随机场的消歧模型对测试语料进行消歧,得到消歧结果。
2越南语兼类词消歧模型
2.1越南语及其兼类词特点
越南语属于南亚语系,和汉语一样是孤立语,但其由拉丁字母、表音文字及标点符号等构成。越南语的主要特点如下:(1)由一个或多个词素构成;(2)修饰语位于被修饰词之后;(3)越南语由于受多元文化的影响,在书写及表达方式上显示出复杂性和多样性。越南语兼类词的特点主要有:(1)大多数的越南语兼类词都是常用词,主要集中在名词、动词、形容词和量词(单位词)等词性之间的转化上,如,thu6c men(药品、用药,名词兼动词);又如,bdt(碗,名词兼量词),mot cai bat(—个碗),mot bat cam(—碗饭);(2)在某些词前出现其他词时,这些词的词性会发生转
变,例如动词前有“s.(事),vi?c(事情)…”时,该动词会变成名词使用;(3)词的语义搭配关系存在一定的优先关系。兼类词消歧工作的复杂程度一般随着词性标注集划分规模程度来决定,一般来说,越是常用的词其词义活用的现象越严重,词的兼类情况就越复杂。造成越南语兼类词现象的主要原因有:(1)吸收外来文化;(2)词义的派生;(3)越南语词的活用等,以上现象给越南语兼类词消歧工作带来困难和挑战。
2.2统计消歧模型
从上分析可知,越南语兼类词消歧需要结合越南兼类词和语言的结构特点。与传统消歧模型相比,条件随机场模型具备融合不同特征的功能,能够使用复杂、有重叠性和非独立性的特征进行训练和推理,能够充分利用上下文信息和其他外部信息作为特征;同时能适当地避免数据标注偏执问题和歧义问题。因此本文选取条件随机场建立消歧模型。
2.2.1条件随机场原理
CRFs是由John Lafferty等提出的一种统计机器学习模型,它结合了最大爛模型和隐马尔科夫模型的特点,近年来在分词、POS标签和名词组块识别等序列标注任务中取得了很好的效果。它是一种无向图模型,在待标注的观测序列确定的情况下,无向图模型可以被用来在标注序列上定义一个联合概率分布。假设X,Y分别表示需要标注的观察序列和它对应的标注序列的联合分布随机变量E。对于给定的一
个长度为"的序列,X=Z1,Z2,Z3,…,Z”,则输出丫=力,力,『3,…,y”的概率可以定义为
P(y/X)=)eX P|1-^)j⑴式中:Z(z)为归一化常量,使得所有的状态序列的概率和为1。z&)的计算公式为
Z(z)=⑵
y S=i 丿
式中:Z(z)为一个归一化因子关是对整个序列的X标记位于/和L1位置上标记的转移概率九是每一个特征特征权重向量。
在本文的越南语兼类词消歧模型中,条件随机场通过训练语料得到模型参数的最优值,使消歧结果最优化。
580
数据采集与处理 Journal of D ata Acquisition and Processing Vol. 34, No. 4, 2019
2. 2. 2 特征选取条件随机场模型的性能取决于特征的选取。根据越南语的语言特性和兼类词特征,本
文主要选取 以下4种特征,其特征模板如表1所示。其中w 表示词,p 表示词性,g 表示句法成分,Pz/Sz 表示指示词 特征,具体含义在实验结果与分析中进行说明。
表1特征模板
我是李小龙Tab. 1 Feature template
特征特征符号
特征含义w(—2), w( — 1), w(0), W ⑴,w(2);
表示选取当前词与上下文信息作为有 效特征词及上 下文信息w( —2)/w(— 1), w (— l)/w(0), w(0)/w(l), w(l)/w(2);
w( —2)/w(— l)/w(0), w(—1)/w(0)/w(l), w(0)/w(l)/w(2)
词性及p( —2),p(—l),p(l),p(2);
表示选取当前词词性周围信息作为有上下文信息
p(-2)/p(-l),p(l)/p(2);效特征句法成分特
g(-l),g(O),g(l)
关系搭配特征及上下文征g( —1)/g(0), g(0)/g(l),g(—1)/g(O)/g(l)
Pz 表示前指示词/Sz 后指示词,若无,
指加词特征Pz/Sz 表示N U LL
(1) 词特征。由于词形态的改变能表征词以及其含义的改变,上下文的词能当前词产生影响。例 如“cu6c ”词在与搭配时,词性为动词,在与“Cdi ”搭配时,词性为名词。因此,本文选取词以及上下 文信息做为有效特征。
(2) 词性特征。兼类词的词性会受到其前后两个词的词性的影响,如“bdt (碗)”有量(单位)词和名 词两种词性,在"mQt bat com ( —碗饭)"中,由于"mQt ( —)"是数词,"com"是名词,从而可以判断"bdt (碗)”是量词。因此,本文选取词性以及上下文词性信息作为有效特征。
(3) 句法成分特征。在越南语中,语义搭配关系符合一定规律。例如越南语句子结构一般为“主-谓 -宾”,兼类词作为宾语成分接在动词后面时,一般为名词词性;越南语中,被修饰语的词性,可以通过位 于被修饰词后面的修饰语来确定;副词或者形容词前面一般搭配谓语,被修饰词应该首先优先考虑动 词等等,如果无成分特征,则表示NULL,否则表示主语(S)、谓语(V)和宾语(O)等。因此,本文选
取当 前兼类词所充当句法成分和周围成分特征作为有效特征。
个人陈述 范文
(4) 指示词特征。在越南语中,一些特定的指示词出现在某些词前时,这些词的词性会发生转变, 例如“su (事),viec(事情),cuqc (量词)”等词出现在动词前时,该动词会变为名词词性;“m@( —)”等词 出现在名词前时,该名词会变为量词词性。在越南语中,前指示词和后指示词特征需要考虑;如果缺失 指示词,表示为NULLo 因此,本文选取指示词作为有效特征。3实验分析
3.1实验评价标准
为了评估本文方法的消歧效果,实验将采用中英文消歧常采用的评价标准:准确率(Precision)(正确 消歧越南语兼类词个数与消歧兼类词总数的比值)来作为本文评价标准。
准确率(Precision )=正确消歧兼类词个数 消歧兼类词总数X 100%(3)
式中准确率数值在0和1之间,越接近1,就表明本文的方法越有效。
郭剑毅等:融合语言特性的越南语兼类词消歧581
3.2实验数据
本文实验所用实验数据包括兼类词词典和兼类词字段语料。目前,由于越南语兼类词的相关研究资源匮乏,故本文需要构建语料库。兼类词词典是由越南语字典经过本文人工处理所得到的,包含1 659个兼类词;越南语兼类词字段库是本文通过编写程序对越南语文本语料,经过抽取得到的(包括新闻、政治、经济等方面),共有396946条兼类词字段信息,所有字段保存为“UTF-8”格式,在本文实验语料中不存在未登录兼类词,其采用的词性标注集是文献[16]制定的词性集合(19种类型)。其中分词方法使用文献[17]中的方法,准确率在96.86%。抽取兼类词字段流程图如图2所示。
图2越南语兼类词抽取流程图
Fig.2Vietname multi-category words extraction flowchart
越南语兼类词抽取算法如下:
输入:预处理后的语料库。
第1步:从预处理后的语料中抽取1条越南语句子级语料,执行第2步;
第2步:根据越南语兼类词词典,判断获取到的句子级语料中是否含有兼类词出现,执行第3步;
第3步:如果句子级语料中存在兼类词,用程序抽取兼类词,执行第4步;否则,执行第1步;
第4步:抽取得到兼类词字段,返回第1步。
赞助商英文输出:越南语兼类词字段。
3.3实验结果与分析
本文实验的实验语料选用的是3.2节中得到的396946条兼类词字段语料,除实验2外所用的语料是将所有语料分为5份,选用其中4份用于训练,另外1份用于测试。具体格式如表2所示。
表2兼类词字段语料具体格式
Tab・2Specific format of the multi-category words corpus
越南语词性指示词句法词性
tham_quan V o—1_root V
di_tich N o—l.dob N
lich_su O o—l_nmod N
,O o—3_punct CH
v3n_hoa N o—4_sub N
tren O o—4_loc E
dia_bdn N o—l_pob N
Thanh_ph6O o—l_nmod N
Ho_Chi_Minh N o—2_nmod N
O o—9punct CH