3
土耳其语音节切分方法研究
坏学生阿布力米提・乎杰克,艾孜尔古丽,玉素甫・艾白都拉
(新疆师范大学,新疆乌鲁木齐830054)
摘要:土耳其语文本信息处理技术需要准确、快速、高效的音节自动切分的支持。目前对于现代土耳其语音节自动切分
的研究刚起步,相关资料极少并研究浅薄。文章初步研究土耳其语音节切分规则,以计算语言学的角度分析并与自然语言处理技术相结合,创建了现代土耳其语音节切分规则库,提出了基于规则的土耳其语音节切分方法,以此为对音节自动切分技术提供一些可供选择的方法和思路。关键词:土耳其语;音节;切分;C#;数据库中图分类号:TP311文献标识码:A 文章编号:1673-1131(2016)11-0003-02
1引言
土耳其语是土耳其的官方语言,使用人数达到7562多万。现代土耳其语言属于乌古斯克普恰克语支,是黏着型语言。目前,国内以传统语言学方面对现代土耳其语,有了初步的研究及成果。如:周正清的《
土耳其语汉语词典》等。但以计算语言学的角度对土耳其语的研究成果几乎没有。虽然现代土耳其语音节这一语音层的结构单位并不像汉语那样带有语素的性质而具备语义价值,但音节这一语音结构单位在现在土耳其语里音系中价值并不低。比如说:词语的音节末尾的开音节或者闭音节性往往影响后缀的追加或者影响到语音的变化等。因此研究并归纳土耳其语的音节并找出音节切分的规则是非常必要的。如,语音合成和语音识别研究中,音节是最基本的语音单位;文字校对处理中,根据词语的音节结构可以找出部分拼写错误;文字识别技术中,根据切分结果是否符合现代土耳其语音节切分规则可初步判断和修正识别结果。因此音节切分技术是土—维机器翻译、跨语言检测等自然语言处理领域的基础工作,是处理土耳其语的重要环节,同时也是机器翻译的基础处理工作之一。
现代土耳其语有29个字母,其中有8个元音,21个辅音字母。土耳其语词语间以空格、逗号等符号来分开,词语由音节组成,音节之间没有专用标志。音节是最小的语音结构,是人的听觉能够自然感受到的最小语音片段。土耳其语中,单词由若干音节构成,而每个音节都符合一定的音节规则。在土耳其语音节切分研究中,主要难点是不符合土耳其语原有音节规则的外来词的音节切分。本文通过分析音节结构,建立音节切分规则,在没有使用附加音节库的情况下,首次解决了包括外来词在内的土耳其语自动音节切分问题。
数据工程师2土耳其语音节结构分析研究
土耳其语固有的音节是由起音、领音、收音构成的,其中领音必须是元音,音节中可以没有起音和收音,但是不能没有领音。通过分析现代土耳其语词典的三万个词汇,归纳出了土耳其语的基本音节结构。众所周知,音节是语言学家根据发音的感悟和听觉划分出来的因素。所以,各个语言的音节类型和规模大体上相同但也有差别。比如,在土耳其语,单独一个元音可以代表一个音节,但是这种情况很少见,而一个元音带有一个或前后各一个辅音作为一个音节出现的情况更多。
土耳其语的音节像其他亲属语言一样首先可分为开音节和闭音节。以元音结尾的叫做开音节,以辅音结尾的叫做闭
页面访问升级紧急音节。(V 表示元音,C 表示辅音,—表示音节分割线)
土耳其语的单音节词的音节有11种形式,表1所示。
表1
土耳其语音节结构类型表
吱的组词表1中,第1~6号音节结构主要是土耳其语原有的音节类型,第7~10号音节结构主要用于记录外来词。第8号音节结构的每个音节有两个元音,主要用于记录来自汉语等语言中有两个元音的词语。如Mao Zedong “毛泽东”、Guangdong “广东”、Sichuan “四川”。
3土耳其语的音节切分规则分析研究
根据以上的音节类型,利用最大匹配方法,人机交互分析,可总结出9种基本音节切分规则,如表2所示:
表2
土耳其语音节切分规则表
注:表2中,#表示词语开始。
4音节切分存在的问题及解决方法
4.1音节自动切分存在的问题
(1)表1所示的第7-11音节结构用于记录主要用于土耳其民族借用外来词描述使用,是实现自动音节切分的主要技术难点。土尔其音节特征是1个音节只包含1个元音,可以不包含辅音,词语的元音数量理论上等于该词语的音节数量,但是汉语等借词中有时可出现2个元音,如tuan hua 等。
(2)土耳其语音节里,元音前面的辅音不会超过1个,但是大量外语借词则存在元音前面有1个以上的辅音,如Stalin 、Strategiya 等。在确定当前音节边界时,有些汉语借词的2个元音的音节结构和外来词的多个辅音的音节结构容易使切分
2016
(Sum.No 167)
信息通信
INFORMATION &COMMUNICATIONS
2016年第11期(总第167期)
4
算法产生歧义,如音节类型11(cvvc )从结构上看是音节类型2和类型3的结合,则一个词语里出现cvvc 结构的字符串时,该字符串是1个音节还是2个音节,是必须解决的问题,也是其他切分唯一的方法用规则库和附加音节库来实现音节切分的主要原因。
4.2基于规则的切分算法
步骤一,如果词的类型为vcv/vcvc/vcvcc ,且第一个字母为元音时,将第一个字母划分为第一个音节。
步骤二,如果词的类型为vcvc/vccv/vccvc/vccvcc ,且第一个字母为元音时,第二个字母为辅音,那么前两个字母为一个音节,后面的字母另一个音节。
步骤三,如果词的类型为cvv/cvvc/cvcv/cvcvc/cvcvcc 时且第一个字母为辅音,第二个字母为元音,那么取两个字母为一个音节,后面的字母一个音节。
步骤四,如果词的类型为vcccvc 时,且第一个字母为元音,后两个字母为辅音,那么取前三个字母作为一个音节,后面的字母一个音节。
步骤五,如果词的类型为cvcv/cvccv/cvccvc 时,且前三个字母cvc ,那么取前三个字母一个音节,后面的字母一个音节。
步骤六,如果词的类型为cvcccv/cvcccvc 时,且前四个个字母为cvcc ,那么取前四个字母第一个音节,后面的字母一个音节。
步骤七,如果词的类型为CCCVCC 时,且前五个字母为CCCVC ,那么取前五个字母第一个音节,后面的字母一个音节。
4.3土耳其语音节处理方法
4.3.1音节处理分析方法
(1)土耳其语语料预处理技术:收集语料,对语料进行预处理,并形成文本文件。
(2)土耳其语语料统计技术。①对调查语料统计:研究项目包括音节次、音节种、音节长等项目,最终形成土耳其语音节频率表,为获得调查对象的音节种等有关数据分析,进一步正确、科学音节切分、分析打基础。
音节次(频次):每一调查对象的频次同其前调查对象频次的累加和。频次是一个具体的数字,他直观地反映了某个词语在语料中真实、
原始的使用情况。
其中:Ai 为调查对象i 的累加频次,ni 为调查对象i 的出现次数。
频率:每一调查对象的词次的累加和,与所有语料中调查对象总次数的比值,
即:
其中:Bi 为调查对象i 的累加频率,ni 为调查对象i 的出现次数,N 为所有语料中调查对象出现的总次数。
我想变成什么作文
一般来说,频率愈高的词其常用程度愈高。这是最直观,且大多情况下都颇有成效的统计方法。4.3.2验证方法
采用计算准确率P 来评测实验结果。计算公式如下:P =A /B *100%其中,A 表示自动切分正确的词数;B 表示语料中的词汇总数;P 衡量的是切分方法的准确度。
5实验结果分析
5.1音节测试方法
方法1首先土耳其教育部的官方网站(v.tr )
收集到的新闻收集词汇,对生语进行消重、检查拼音是否正确。然后对语料进行切分,最后人工检查切分结果是否符合音节切分规则。测试结果:语料包括的词汇数量为30000,没有重复出现的词汇。切分错误的词汇的数量为2100个。正确率为93%。
切分出现错误的词汇大部分是音节结构不标准的外来词,比如:yuan (元)。方法2因为我们不能保证实际语料覆盖到全部的音节结构类型,所以以10种切分规则的基础上,建立了一个模拟词汇语料库。对33个模拟词汇进行切分,切分的正确率为100%。
如表3所示:
劳动小报内容表3
测试结果意大利肉丸
5.2音节统计结果分析
通过对30000个土耳其语词汇作为测试语料,人工和机器翻译相结合,对其做了两种测试。根据音节测试方法1和方法2的结果可知,两种方法测试结果相同且节分结果与原规则匹配,准确率较高,正确率达到93%。实现各类土耳其语文本信息处理技术需要准确、快速、高效的音节自动切分。
如表4所示:
表4
想对你们说
音节统计结果分析
统计切分测试结果是30000种词汇共有88025个音节,
从音节结果类型的角度分析,土耳其语基本的六种音节结构
类型占大部分,属于7-10的音节类型属于外来词的音节结构
很少。
音节的自动切分通过建立规则来实现。本文通过分析语料,归纳现代土耳其语的音节结构类型,总结音节切分的规则来实现现代土耳其语的音节自动切分。测试结果表明,现代土耳其语的外来词较多,而且这些词汇不符合现代土耳其语原有的基本音节规律。音节切分和音节统计结果表明,本方法可行有效。
信息通信
阿布力米提・乎杰克等:土耳其语音节切分方法研究