语料库术语中英对照
Aboutness 所⾔之事
Absolute frequency 绝对频数
Alignment (of parallel texts) (平⾏或对应)语料的对齐
Alphanumeric 字母数字类的
Annotate 标注(动词)
Annotation 标注(名词)
Annotation scheme 标注⽅案
ANSI/American National Standards Institute 美国国家标准学会
ASCII/American Standard Code for Information Exchange 美国信息交换标准码Associate (of keywords) (主题词的)联想词AWL/Academic word list 学术词表
Balanced corpus 平衡语料库
Ba list 底表、基础词表
Bigram ⼆元组、⼆元序列、⼆元结构
Bi-hapax 两次词
Bilingual corpus 双语语料库
CA/Contrastive Analysis 对⽐分析
Ca-nsitive ⼤⼩写敏感、区分⼤⼩写
Chi-square (χ2) test 卡⽅检验
Chunk 词块
CIA/Contrastive Interlanguage Analysis 中介语对⽐分析
CLAWS/Constituent Likelihood Automatic Word-tagging System CLAWS词性赋码系统Clean text policy ⼲净⽂本原则Cluster 词簇、词丛
Colligation 类联接、类连接、类联结
Collocate n./v. 搭配词;搭配
Collocability 搭配强度、搭配⼒
Collocation 搭配、词语搭配
Collocational strength 搭配强度
Collocational framework/frame 搭配框架
Comparable corpora 类⽐语料库、可⽐语料库
ConcGram 同现词列、框合结构
Concordance (line) 索引(⾏)
Concordance plot (索引)词图
Concordancer 索引⼯具
Concordancing 索引⽣成、索引分析
Context 语境、上下⽂
Context word 语境词
Contingency table 连列表、联列表、列连表、列联表
Co-occurrence/Co-occurring 共现
Corpora 语料库(复数)
Corpus Linguistics 语料库语⾔学
Corpus 语料库
Corpus-bad 基于语料库的
Corpus-driven 语料库驱动的
Corpus-informed 语料库指导的、参考了语料库的
Co-lect/Co-lection/Co-lectiveness 共选(机制)五月天欧美色图
Co-text 共⽂
DDL/Data Driven Learning 数据驱动学习
罢职Diachronic corpus 历时语料库
Discour 话语、语篇
Discour prosody 话语韵律
Documentation 备检⽂件、⽂检报告
EAGLES/Expert Advisory Groups on Language Engineering Standards EAGLES⽂本规格Empirical Linguistics 实证语⾔学Empiricism 经验主义
Encoding 字符编码
礼物吉他谱Error-tagging 错误标注、错误赋码
Extended unit of meaning 扩展意义单位
File-bad arch/concordancing 批量检索
Formulaic quence 程式化序列
Frequency 频数、频率
General (purpo) corpus 通⽤语料库
Granularity 颗粒度
Hapax legomenon/hapax ⼀次词
Header/Text head ⽂本头、头标、头⽂件
HMM/Hidden Markov Model 隐马尔科夫模型
Idiom Principle 习语原则
Index/Indexing (建)索引
In-line annotation ⽂内标注、⾏内标注
Key keyword 关键主题词
Keyness 主题性、关键性
济南社保局官网Keyword 主题词
KWIC/Key Word in Context 语境中的关键词、语境共现(⽅式)
Learner corpus 学习者语料库
Lemma 词⽬、原形词、词元
Lemma list 词形还原对应表
Lemmata 词⽬、原形词、词元(复数)
Lemmatization 词形还原、词元化
质量保证承诺书
回婚礼Lemmatizer 词形还原(词元化)⼯具
Lexical bundle 词束
Lexical density 词汇密度
护理基础知识
Lexical item 词项、词语项⽬
Lexical priming 词汇触发理论
Lexical richness 词汇丰富度
Lexico-grammar/Lexical grammar 词汇语法
Lexis 词语、词项
LL/Log likelihood (ratio) 对数似然⽐、对数似然率
Longitudinal/Developmental corpus 跟踪语料库、发展语料库、历时语料库Machine-readable 机读的Markup 标记、置标
MDA/Multi-dimensional approach 多维度分析法
Metadata 元信息
Meta-metadata 元元信息
MF/MD (Multi-feature/Multi-dimensional) approach 多特征/多维度分析法Mini-text 微型⽂本
Misu 误⽤
Monitor corpus (动态)监察语料库
Monolingual corpus 单语语料库
Multilingual corpus 多语语料库
Multimodal corpus 多模态语料库
MWU/Multiword unit 多词单位
MWE/Multiword expression 多词单位
观音竹怎么养
MI/Mutual information 互信息、互现信息
N-gram N元组、N元序列、N元结构、N元词、多词序列
NLP/Natural Language Processing ⾃然语⾔处理
Node 节点(词)
Normalization 标准化
Normalized frequency 标准化频率、标称频率、归⼀频率
Obrved corpus 观察语料库
Ontology 知识本体、本体
Open Choice Principle 开放选择原则
Overu 超⽤、过多使⽤、使⽤过度、过度使⽤
Paradigmatic 纵聚合(关系)的
Parallel corpus 平⾏语料库、对应语料库
Parole linguistics ⾔语语⾔学
Pard corpus 句法标注的语料库
Parr 句法分析器
Parsing 句法分析
Pattern/patterning 型式
Pattern grammar 型式语法
Pedagogic corpus 教学语料库
Phraology 短语、短语学
POSgram 赋码序列、码串
POS tagging/Part-of-Speech tagging 词性赋码、词性标注、词性附码POS tagger 词性赋码器、词性赋码⼯具Prefab 预制语块
Probabilistic (基于)概率的、概率性的、盖然的
Probability 概率
Rationalism 理性主义
Raw text/Raw corpus ⽣⽂本(语料)
Reference corpus 参照语料库
Regex/RE/RegExp/Regular Expressions 正则表达式
Register variation 语域变异
Relative frequency 相对频率
Reprentative/Reprentativeness 代表性(的)
Rule-bad 基于规则的
Sample n./v. 样本;取样、采样、抽样
Sampling 取样、采样、抽样
Search term 检索项
Search word 检索词
Segmentation 切分、分词
Semantic preference 语义倾向
Semantic prosody 语义韵
SGML/Standard Generalized Markup Language 标准通⽤标记语⾔
Skipgram 跨词序列、跨词结构
Span 跨距
Special purpo corpus 专⽤语料库、专门⽤途语料库、专题语料库
Specialized corpus 专⽤语料库
Standardized TTR/Standardized type-token ratio 标准化类符/形符⽐、标准化类/形⽐、标准化型次⽐Stand-off annotation 分离式标注
Stop list 停⽤词表、过滤词表
Stop word 停⽤词、过滤词
Synchronic corpus 共时语料库
Syntagmatic 横组合(关系)的
Tag 标记、码、标注码
Tagger 赋码器、赋码⼯具、标注⼯具
Tagging 赋码、标注、附码
Tag quence 赋码序列、码串
Tagt 赋码集、码集
Text ⽂本
TEI/Text Encoding Initiative ⽂本编码计划
The Lexical Approach 词汇中⼼教学法
The Lexical Syllabus 词汇⼤纲
Token 形符、词次
Token definition 形符界定、单词界定
Tokenization 分词
Tokenizer 分词⼯具
Transcription 转写
Translational corpus 翻译语料库
Treebank 树库
Trigram 三元组、三元序列、三元结构
T-score T值
Type 类符、词型
TTR/Type-token ratio 类符/形符⽐、类/形⽐、型次⽐
Underu 少⽤、使⽤不⾜
Unicode 通⽤码
Unit of meaning 意义单位
WaC/Web as Corpus ⽹络语料库
Wildcard 通配符