面向军事领域的土耳其语术语自动抽取研究
点钞方法作者:张贵林 易绵竹 李宏欣 闫丹辉 孙玥莹
来源:《中国科技术语》2022年第01期
摘 要:文章以土耳其語军事领域术语语言特征研究为基础,提出一种规则与统计相结合的术语抽取方法,先后通过关键词、停止词、形态分析序列模式、点互信息、左右信息熵和临接词缀等特征对单语文本中的候选项进行筛选,在W-data和N-data大小两组单语文本中进行实验,结果表明该方法能够有效地从实验数据中抽取土耳其语军事术语。
关键词:土耳其语军事术语;过滤词典;自动抽取方法
中图分类号:H512;H083;E91 文献标识码:A DOI:10.12339/j.issn.1673-8578.2022.01.003
Rearch on Auto-Extraction of Turkish Terminology in Military Field//ZHANG Guilin, YI Mianzhu, LI Hongxin, YAN Danhui, SUN Yueyingchinaeagle
Abstract: Bad on the analysis on the linguistic features of Turkish military terminologies, we propod a terminology extraction method using combination of rules and statistics algorithm, and experimentally verified this method on monolingual W-data and N-data. The candidate items in the monolingual text are filtered through keywords,
stop words, morphological analysis quence pattern, pointwi mutual information, left and right information entropy and adjacency suffixes. Our results show that the propod method can effectively extract Turkish military terminologies from the experimental data.
Keywords: Turkish terminology extraction; filtering dictionary; automatic extraction methodologies
vgr 引言博物馆的英语
fwa 当今世界各学科发展迅速,术语规模也随之不断增量扩容,完全依靠人工抽取术语非常耗时耗力。为了快速高效构建或维护术语词典,人们提出了很多术语自动抽取方法,如左右信息熵与互信息算法、word2vector相似词算法、BERT-BiLSTM-CRF融合方法等[1-2],这些方法虽然能够取得一定的效果,但远非完美,自动获取的术语仍然需要人工检查和验证,在本质上,术语自动抽取仍是一个半自动实现的过程。因此,如何利用知识库来改善术语抽取性能而减轻人工筛选的工作量是术语自动抽取研究的一个重要方向。
术语学家或翻译人员先前编制的术语词典,其本身词法、语法和语义等领域属性对动态发展的术语具有天然的指导作用,在自动抽取术语过程中,对相关特征的提取和利用有助于提高术语抽取的效果。基于这一前提,本文提出根据现有土耳其语军事术语词典中术语的语言学特征,构建术语抽取关键词、停止词和形态分析序列模式列表,采用语言学规则与统计方法相结合的策略,利用背景语料中的点互信息、左右信息熵和临接词缀来实现土耳其语军事领域术语的自动抽取。
论文第一部分简要介绍了术语的定义和术语自动抽取的常见方法;第二部分主要阐述了军事术语自动抽取的具体方法、策略及相关算法,分析了土耳其语军事术语特有的语言学特征,构建了用于术语自动抽取的相关知识库;第三部分基于背景语料进行了土耳其语军事术语自动抽取实验,通过实验结果评测和分析,验证了本文所提方法的有效性;第四部分对全文进行总结,并对今后的研究方向进行了展望。
症状英文 1 术语定义及术语自动抽取方法概述proposal
1.1 术语的定义beginning
术语是表示科学、艺术、专业或学科等领域知识相关特定概念的词汇,在句子中一般作主语和谓语[3]。术语通常与特定的单一概念、对象、事件或状态相对应,多为复合型名词结构,在某一特定学科范围内具有单义性特点,是确保领域专家之间有效沟通的基本信息承载单元,也是翻译质量评估中被广泛使用的多维质量度量标准的核心范畴之一[4]。军事术语可视为军事领域的专门用语,与一般词语相比,在军事领域使用的频率较高,在其他领域使用的情况则很少,具有十分明显的领域流通性。
1.2 术语自动抽取常见方法
术语自动抽取方法归纳起来可分为基于规则、基于统计、规则与统计相结合的方法三大类。基于规则的方法主要是利用现有术语资源的语言学特征,总结设置术语抽取的规则模板,然后通过模式匹配的方式完成候选术语的识别和抽取,如文献[5]。这类方法对受限领域特定类型的术语抽取效果较好,且在准确率方面具有一定的优势,但缺点是规则的制定通常需要一定规模的受限领域标记语料的支持,且要求规则制定者具备较强的语言功底和背景知识,当规则设置出现偏差时,容易出现覆盖面不全和规则之间相互冲突的情况。基于统计的术语抽取方法又可分为基于统计学的方法和基于词向量机器学习的方法[6-8],
其主要思想是根据统计特征,通过概率判断出多词字符串是否为稳定的语言结构,并衡量组成成分与领域特征之间的关联程度。相比于规则方法,统计方法的领域适应性较强,自动化程度较高,但容易受到测试语料规模和质量的影响。规则与统计相结合的方法,主要利用两种方法各自的优点,通过先抽取、后筛选的步骤来完成候选术语的抽取,其中统计和规则的使用顺序并不固定,通常取决于研究内容的具体需要。混合方法从理性主义和经验主义融合角度出发,可有效提高术语抽取的准确率和召回率,是领域术语抽取研究最为主流的方法,也是目前研究的重点和热点。
2 基于混合方法的术语抽取策略furtherly>richstar