2024年2月19日发(作者:德音莫违)
我国哈萨克族词汇与哈萨克斯坦词汇间自动转换的研究
古丽扎达·海沙;古丽拉·阿东别克
【摘 要】由于居住在不同地区的哈萨克族长期受到不同文化、不同历史等因素的影响,我国哈萨克族使用的词汇与啥萨克斯坦啥萨克语词汇之间发音、术语、口语等方面均有所不同.处理这方面差异的方法是先将用户输入的词汇根据系统所构建的对照词典自动转换,如果词典里未找到该词汇,则根据哈萨克阿拉伯字母和哈萨克斯坦斯拉夫字母之间的对应关系自动转换,其系统词典是基于哈萨克语规则和首字Hash表的词典结构,具有较强的扩展性和使用性.%The Kazakh vocabulary ud
by the Chine Kazakhs has differences to that by Kazakhstan Republic in
pronunciation, terminology and tongue as the Kazakhs people living in
different regions have been influencing in long-term by the factors
including different culture and different history, etc. The method
introduced in this article in regard to dealing with the differences is that,
first, the words the ur inputted are to be automatically converted
according to the vocabulary comparison dictionary constructed by the
system. If the words can not be found in the dictionary, then they will be
automatically converted according to the corresponding relations between
the Kazakh Arabian letters and the Kazakhstan Slavic letters. The system
dictionary is bad on the Kazakh word rules and in the structure with
initial character Hash table, and has strong scalability and availability.
【期刊名称】《计算机应用与软件》
【年(卷),期】2012(029)007
【总页数】3页(P3-5)
【关键词】哈萨克语;对照词典;词典结构;哈希
【作 者】古丽扎达·海沙;古丽拉·阿东别克
【作者单位】新疆大学信息科学与工程学院 新疆乌鲁木齐830046;新疆大学信息科学与工程学院 新疆乌鲁木齐830046
【正文语种】中 文
【中图分类】TP391
0 引言
哈萨克族作为跨境民族居住在全球不同的国家和地区,因此跨境文化交流的程度和效率对哈萨克族的发展状况具有重大影响。由于历史的原因,同一哈萨克语言发展出两种不同的文字形式——以阿拉伯文字母为基础的中国哈萨克阿拉伯文字和以斯拉夫文字母为基础的哈萨克斯拉夫文字这两种文字形式。
随着全球经济一体化发展,中国和哈萨克斯坦等国的经济贸易往来日益频繁,哈萨克语的使用交流范围扩大,哈萨克语成为我国哈萨克族同其他国家地区的哈萨克族经济文化交流的重要载体。由于双方术语和外来词汇的不同,需要先转换对方使用的书籍、文件、合同、书信等文字资料的词汇,现在的传统做法是人工转换,这种转换方式不适用于跨国民族交流的深入快速发展,而且耗费人力、物力、财力,阻碍了经济文化交流的程度。
为了适应这方面的需要,本文研究在Windows环境下,哈萨克语的同一词汇的两国词汇间对照和相互转换的实现。
1 不同词汇及外来词汇的收集工作
1.1 两国间不同哈萨克词汇构建规则的研究[2,3]
词汇是构建电子词典的素材,电子词典纳入的词汇的数量和词汇构建的规则直接影响到系统翻译的质量和应用范围[1]。
由于哈萨克族居住在不同国家和地区,受到不同的文化及经历不同的历史,在哈萨克语中产生了同一个词汇或者同一个词组的不同说法。其中,中国与哈萨克斯坦间哈萨克语在发音、术语、口语等方面的差异特别明显,如表1所示。这种差异主要体现在以下几个方面(如表1所示):
1.1.1 元音的差异
(1)在国内的哈萨克语中的后元音在哈萨克斯坦哈萨克语中变成它不仅表现在口头表达上,而且也在书面语里都能见到。
(2)在国内哈萨克语中的轮后元音在哈萨克斯坦哈萨克语中变成或者a。
1.1.2 辅音的差异
(1)在国内的哈萨克语中的在哈萨克斯坦哈萨克语中读为。
(2)在国内哈萨克语中的b有时在哈萨克斯坦哈萨克语中读成为p。
1.1.3 外来词的介入
由于该民族居住地区的不同而引进了不同外来词,中国哈萨克族外来词的来源多数是汉语,而哈萨克斯坦外来词来自俄语等,使同一个语言中出现不同的外来词[3]。
表1 同一词汇之间的不同解释?
本文中以《友邻》杂志和《汉俄哈对照对话》及2008年由哈萨克斯坦阿斯塔纳出版社整理的《考古,人种学和艺术史词典(哈俄英)》书作为词汇语料,从中搜集了两千条以上中国与哈萨克斯坦哈萨克语之间,同一词汇的不同解释和外来词,其中大多数词汇包含了常用的哈萨克语专业词汇。
2 词典的设计与实现
2.1 词典的组织结构
本文采用的电子词典是基于整词二分结构,基于整词二分的分词词典机制是一种使用较广的分词词典机制,该机制的词典结构分为首字Hash散列表,词索引表词典正文三级[4]。词典正文是以词为单位的有序表,词索引表是指向词典中每个词的指针表。词首字散列函数根据哈萨克语字母的编码特点,通过1次Hash哈希运算即可直接定位哈语字母在字散列表中的序号,再结合索引表很容易确定指定词在词典正文中的可能位置范围,进而在可能范围内通过整词二分进行定位。这种机制比较适合于“确定词条查询”方式。这种算法的优点是数据结构简单,占用空间小,构建及维护简单易行。缺点是由于查询过程采用全词匹配,故效率较低。但是本文词汇库里的词条只有2000条左右完全能用这个方法。
2.2 词典结构
为了电子词典高度形式化的信息和规则表示法描述词典词条的综合属性。电子词典由很多项组成,其中每个词项还包含不同属性描述信息[5]。用简单化的Jakson图来描述的词典的结构如图1所示。
图1 电子词典的结构
此结构可以用下面的BNF形式描述:
<电子词典>::={<词项>}
<词项>::={<词条><综合属性>}
<综合属性>::={<描述信息><词性>}
在上面的BNF形式的描述中,词汇的<综合属性>采用复杂特征表示,每一个特征采用属性-值结构表示,具体说明如下:
<描述信息>—提供该单词用哈萨克斯坦和中国哈萨克语的不同描述的说明性信息
<词性>—指出该词条的词性
2.3 索引表设计与实现
索引表文件提供哈萨克文原形单词和该词条有关信息记录在词条信息库中的偏移地址与词条信息的长度。对于词典的构造首先准备哈萨克斯坦与中国哈萨克之间同一词汇的不同描述的信息词条,录入计算机并生成索引。索引文件中的索引项按组成哈萨克文单词字母的Unicode编码从小到大的顺序排序。如果两个哈萨克单词的前N个字符相同,则比较两个单词第N+1个字符编码的大小进行排序。查询的算法如下:
Step1 接受用户的输入。
Step2 把以词作为索引的查询设计成哈希映射的形式,从索引表读取相应的单词及其属性集的长度和在词条信息库中的偏移量。
Step3 从词条信息库读取与用户查找的单词有关的详细信息。
Step4 如未找到匹配词条,词根据哈萨克阿拉伯字母和哈萨克斯坦斯拉夫字母之间的对应关系自动转换、自动列出相关词汇。
这种查询方式速度快,效率高。在查询之前,要将词典文件映射到一块内存中去,这样在内存中查询,既方便查询,查询速度又快。
2.4 词条信息库设计
词条库文件的组织和构造对本系统质量的影响非常大。词条信息库除了提供正确、完整的单词信息以外,还必须考虑单词信息查找和提取效率。词条信息库的结构分析在词典构造中占据非常重要的地位。词条信息库是本词典的核心,它提供与中国哈萨克文单词有关的综合属性信息和哈萨克斯坦斯拉夫字母对应的描述信息。
2.5 程序流程图
哈萨克语同一词汇在中国与哈萨克斯坦词汇间转换流程[6]如图2 所示。
图2 字母转换流程图
3 词条文件的加密和解密
本词典使用的词条库是以文本文件的形式存储在机器上。对该文件先用8位移位加密然后用“异或”加密方法进行加密。本词典用C#语言编写词条文件加密(OnEncry)算法,其中key为一个字节长度的密钥。
解密算法是加密算法的逆过程,密钥不变。更换密钥时,需将算法中的key值做相应变动。词条文件加密(OnDecry)算法,其中key为一个字节长度的密钥。
4 结语
电子词典是哈萨克斯坦哈萨克语和中国哈萨克语词汇级翻译软件的基础,因此研究一种有效的对比词汇和外来词库的自动构建具有重要的现实意义。本词典是用整词二分法,基于规则和基于哈希表的哈萨克语词典搜索法,使它把所学专业知识和母语联系起来。其重要特点是:(1)建立中国与哈萨克斯坦哈萨克语同一词汇之间的不同对照词汇库。(2)建立中国与哈萨克斯坦哈萨克语同一外来词之间的对照词汇库。(3)词库里没有的词根据哈萨克阿拉伯字母和哈萨克斯坦斯拉夫字母之间的对应关系自动转换、自动列出相关词汇及自动升级等功能。
本词典是在不同词汇转换领域研究工作中实现的第一个研究成果,因此它需要进一步完善,如词典存储容量的控制、用户词条的扩充等。
参考文献
[1]贺胜,曲维光,许超.面向中文自动分词的可扩展式电子词典研究[J].计算机工程与应用,2008,44(21):199-201.
[2]阿力肯·阿吾哈力.哈萨克斯坦哈萨克语教程[M].民族出版社,2006:12-76.
[3]Garipolla Em,Kamal Burhan,Almas ary of the
archeological,ethnographic and art history terms(Kazakh-Russian-English)[M].Astana Publishing,2008:5-46.
[4]杨毅,王禹桥.一种改进逐字二分中文分词词典设计[J].湘潭大学自然科学学报,2009,31(4):124-128.
[5]热西旦·塔依,吐尔根·依布拉音.汉文一维吾尔文双语语料库中基于词典译文的句子对齐方法研究[J].新疆大学学报:自然科学版,2009,26(3):359-363.
[6]巩政,郭莉,杨旭华.非标准蒙古文字符编码转换为国际编码的一种方法[J].内蒙古大学学报,2008,39(2):216-219.
本文发布于:2024-02-19 13:25:29,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/88/50283.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:我国哈萨克族词汇与哈萨克斯坦词汇间自动转换的研究.doc
本文 PDF 下载地址:我国哈萨克族词汇与哈萨克斯坦词汇间自动转换的研究.pdf
留言与评论(共有 0 条评论) |