中华人民共和国国家标准
术语工作 计算机应用 词汇
Terminology work—Computer applications—Vocabulary
GB/T 17532—1998
eqv ISO/DIS 1087-2-2:1996
0 导言描写树木的成语
本标准的条目按顺序给出,每部分设一个一般性的标题。在通常的情况下,后面的条目原则上应该由前面出现的条目来定义。
条目的格式按GB/T 1.6—1997的规定。
条目的内容顺序如下:
条目编号
优先术语(黑体)
缩写形式(黑体)
许用术语
拒用术语;括号中注明“(拒用)”
专业领域用尖括号< >
定义 引用的术语用黑体标出,并在后面用括号注明条目编号
例
注
除了条目编号之外,优先术语和定义仅在适当的地方出现。
1 范围
本标准规定了在术语工作和术语编纂中用于语言和信息处理的术语。
本标准适用于术语数据库的研究、开发、维护及管理工作,在其他涉及术语数据处理的工作中也可参考使用。
2 引用标准
下列标准所包含的条文,通过在本标准中引用而构成为本标准的条文。本标准出版时,所示版本均为有效。所有标准都会被修订,使用本标准的各方应探讨使用下列标准最新版本的可能性。
GB/T 12200.2—1994 汉语信息处理词汇 02部分:汉语和汉字
GB/T 12991—1991 信息处理系统 数据库语言SQL(idt ISO/IEC 9075:1989) GB/T 15237—1994 术语学基本词汇(neq ISO 1087:1990)
GB/T 5271.8—1993 数据处理 词汇 08部分:控制、完整性和安全性(eqv ISO 2382—8:1986)
ISO/IEC 2382—1:1993 信息技术 词汇 第1部分:基本术语
学校走廊文化设计
ISO 2382—4;1987 信息处理系统 词汇 第4部分:数据的组织
ISO 2382—6,1987 信息处理系统 词汇 第6部分:数据的准备和处理
ISO/IEC 2382—9:1994 信息技术 词汇 第9部分:数据通信 ISO/IEC 2382—23:1994 信息技术 词汇 第23部分:文本处理
3 一般概念
3.1 信息 information
<;信息处理)关于客体(如事实、概念、事件、思想、过程等)的知识,它在一定的上千文中具有特定的意义。
诗经里的好名字注
1本条引自ISO/IEC 2382-1。
2在其他的应用领域,信息的定义不同。
3.2 数据 data
为进行通信、解释和处理而使用的信息(3.1)的形式化表现形式。
注:本条改自ISO/IEC 2382-1。
3.3 数据处理 data processing
DP
对数据(3.2)进行的系统操作。
例:对数据进行算术运算或逻辑运算,数据的归并(9.5)或分类(9.4),程序的汇编或编译,以及对文本(3.6)的操作,如文本编辑(12.3)、分类、归并、存储、检索、显示(9.6)、打印等。
注:本术语不能作为信息处理(3.4)的同义术语。
3.4 信息处理 information processing
对信息(3.1)进行的系统操作,它包含数据处理(3.3)。
注
1本条改自ISO/IEC 2382-1。
2本术语不能作为数据处理(3.3)的同义术语。
3.5 语言处理 language processing
对语言进行的系统操作,它包括数据处理(3.3)。
3.6 文本 text
以字符(6.1)、符号、词、短语、句子、段落、表格或其他的符号序列的构成的用于表达意义的结构化数据(3.2)。其解释主要根据阅读文本的人对于某种自然语言或人工语言的知识来进行。
注:本条引自ISO/IEC 2382-1。
3.7 文本语料库 textcorpus
语料库 corpus
<;自然语言处理>根据预先确定的规则所准备、编码或存储的机器可读文本(参阅7.4)或文本的某些部分的有组织集合。
注:文本语料库可按专业领域、容量或时代做不同的限定,例如,从1986年以来的某些特定的期刊、数学文本等。
文本语料库可用作进一步的语言分析或术语工作的原材料。
3.8 类型 type
<;自然语言处理>文本(3,6)中代表一个确定类别的浯言单位。
注:这种语言单位通常是未用定界符(3.10)隔开的不间断的字符串。
3.9 类例 token
<;自然语言处理>类型(3.8)在文本中的具体表现形式。
例:在英语中,如果把good的所有词形定义为类型,那么good,better和best 等都是词形good的类例。
3.10 定界符 delimiter
分隔符 parator
用于指明一个字符串(6.13)的开始或结尾的一个或多个字符(6.1)。
注
1本条引自ISO 2382-4。
2空白或标点符号经常用作定界符。
3.11 词形 word form
给定词的任何形态句法变体。
例:在英语中,indicate;indicates,
visitor:visitor'S.
注
1在屈折语中,词形经常是屈折形式,例如,英语的go,goes;以及go,went,gone。 2这个定义不包含正词法方面的变体。
3.12 词形变化范型 paradigm
<;自然语言处理>属于某一给定词的各个词形(3.11)的类聚。咳血的原因
3.13 基本词形 ba form
参照词形 reference form
根据词典编纂学的惯例选出的用以表示一个词形变化范型(3.12)中的各个形式的词形(3.11)。
例:在英语中,bind是bind,bound,binds,binding等的基本词形。
注
1本条改自GB/T 15237-1994。
2术语“基本词形”也可以应用于词组型术语。
3.14 词组型术语multi-word term
包括两个以上词的术语。
3.15 压缩形 compresd form
清一色的意思
规定形 normalized form(拒用)
缩减形 reduced form(拒用)南少林寺
经过压缩(8.4)的字符串。
例:字符串“input/output-algorithm”变成其压缩形“inputoutputalgorithm”。 注:术语“缩减形”和“规定形”可能会导致误解,建议避免使用这两个术语。 3.16 屈折 deinflection
取消词形(3.117)中的屈折成分。
3.17 取消屈折的词形 deinflected word form
在取消屈折(3.16)之后余下的词段(3.18)。
3.18 词段 word part
词片 word gment
为了某种特殊用途从一个词形(3.11)中取出的字符串(6.13)。
3.19 词形还原 lemmatization
从某一给定词形(3.11)生成基本词形(3.13)的过程。
迄今为止什么意思
例;在英语中,“go”是“goes”通过取消屈折(3.16)而得到的基本词形(3.13);而“go”是“went”通过不规则动词变换得到的基本词形(3.13),这种变换不符合标准的屈折规则。
注:这样的结果也称为词形还原。
3.20 剖折 parsing
根据给定的算法,将给定的结构分解为其组成成分的操作。
例:在英语句子“all unsaturated fatty acids are not degradable by biological methods”中,“all unsaturated fatty acids”和“biological methods”可看成是词组型术语(3.14),它们可以被抽取 (8.9)。
注:剖析不一定必须提供对某一句子的完整分析。
3.21 术语数据集合 terminological data collection
包含特定专业领域有关各种概念的信息(3.1)数据(3.2)集合。
3.22 术语条目 terminological entry
术语数据集合(3.21)中所包含的关于一个概念的术语数据(3.2)。
注:一个术语条目可以包含两个以上的记录(7.9)。
3.23 同形词 homograph
两个以上的具有相同书写形式但表示不同的概念(语义同形)或不同句法功能(句法同形)的词形或词。
例:在英语中,lead(铅Pb)和lead(领导);
bark(吠)和bark(树皮)。
在汉语中,仪表(人的外表)和仪表(测量温度、压力等的仪器);
杜鹃(布谷鸟)和杜鹃(映山红)。
注:具有不同书写形式但经过压缩(8.4)2后变为同形的词形(3.11)不算同形词。3.24 歧义消解 disambiguation
通过赋予同形词贴切的概念或贴切的句法功能从而分化同形词(3.23)的过程,或者通过赋予同形词组以不同的语言解释来分化同形词组的过程。
例:在汉语中,分化“白跑”和“白纸”中的“白”分别为副词和形容词;分化“学习文件”的句法结构分别为动宾结构和偏正结构。
4 数据组织
4.1 分类值 sort value
排序值 sorting value
根据预先确定的顺序,字符集(6.2)中某一元素的位置。
例:在法语中,字母A具有比字母B较低的分类值。一个小写字母是否与它相应的大写字母具有相同的分类值,取决于实际应用的需要。带发音符号的字母有时按其相应的基本字母来处理,有时按不同的字母来处理。
4.2 分类关键字 sort key
排序键
用于满足分类(9.4)和归并(9.5)操作要求的字符串(6.13)。
例:当给图书数据分类以便产生作者目录时,作者的姓是第一分类关键字,作者的名是第二分类关键字。如果同一个作者有两个题目,则把出版年份或题目作为附加的分类关键字。
4.3 字母排序 alphabetical ordering
在组织字符串(6.13)时,表中的每一个串(6.12)的位置唯一地由从该串(6.12)头部开始的分类值(4.1)来确定。
注
1带有发音符号和连音符号的字母以及带有数字、上标、下标的其他符号都可以作
为特殊的分类值。
2字母排序的规则可以因语言的不同而不同。
4.4 逆字母排序 rever alphabetical ordering
在组织字符串(6.13)时,表中的每一个串(6.12)的位置唯一地由从该串(6.12)尾部开始的分类值(4.1)来确定。
4.5 频度顺序 frequency order
在特定的文本(3.6)或文本语料库(3.7)中,根据类例(3.9)出现频度上升或下降的顺序来排列的类型(3.8)的顺序。
注:在通常情况下,表的类型是词形(3.11)频度表或原形词频度表。
4.6 轮排 permutation
使词组型术语中每个实词都作为关键词进行的排序。
例:在英语中,对字符串“millions of instructions per cond”[MIPS]轮排时,“instructions,millions of per conds”,“cond,millions of instructions per”等形式分别出现在“instructions”和“cond”等实词的排序表中,这样可以保证术语中任何想要的成分都可以出现在相应字母的排序位置。
注:本条改自GB/T 15237-1994。
4.7 毗连 concatenation
两个以上的字符串(6.13)按特定的顺序合并,形成一个新的串(6.12),其长度等于各个字符串(6.13)长度的和。
5 术语数据的筛选
5.1 非用词表 exclusion list
停用词表 stop word list
在数据处理(3.3)中任意选择的不予考虑的字符串(6.13)组成的表。
注
1在术语工作中,产生忽略功能词(代词、冠词等)的词表可能是有益的。
2有时,非用词表中的字符串可以被保留下来(例如在词语索引(5.4)中),但是不注明其频度。
5.2 拟用词表 inclusion list
加用词表 plus word list
要保存或认为要进一步数据处理(3.3)的字符串(6.13)组成的表。
例:凡包含“bank”(银行)或“credit institution”(信用机构)的所有的句子都抽出;
凡以“M”起头的所有的条目在名字索引中都检索出来;
凡以“anti-”开头的所有的单词都选出来。
注:如果适合的话,拟用词表也可以包含词段(3.18)或其他的字符串(6.13)。 5.3 自由文本搜索 free-text arch
在文本语料库(3.7)中进行的,能够检索任何类型(3.8)的搜索(8.7)。
5.4 词语索引 concordance
婚纱韩国电影
<;自然语言处理>按字母顺序排列的词形(3.11)表,其词形(3.11)是从原文中抽取(8.9)出来的,包括要检索的词形(3.11)以及该词形(3.11)在原文中的前面部分和后面部分。
注:词语索引通常的形式是KWIC(上下文关键词)词语索引和句子词语索引。
5.5 索引 index