中⽂机器翻译数据集
Datat
(英中翻译 规模最⼤的⼝语领域英中双语对照数据集)
Methods
⾃然语⾔处理任务数据集
keywords: NLP, DataSet, corpus process
语料处理⼀般步骤
以下处理步骤出⾃[Mikolov T, et al. Exploiting Similarities among Languages for Machine Translation[J]. Computer Science, 2013.]
Tokenization of text using scripts (from www.statmt)
Duplicate ntences were removed
Numeric values were rewritten as a single token
special characters were removed (such as !?,:)
AI Challenger - 英中翻译评测双绞线的制作
适⽤领域:机器翻译
规模最⼤的⼝语领域英中双语对照数据集。提供了超过1000万的英中对照的句⼦对作为数据集合。所有双语句对经过⼈⼯检查,数据集从规模、相关度、质量上都有保障。
训练集:10,000,000 句
验证集(同声传译):934 句
验证集(⽂本翻译):8000 句
WMT(Workshop on Machine Translation) - 机器翻译研讨会
适⽤领域:机器翻译
WMT 是机器翻译领域最重要的公开数据集。数据规模较⼤,取决于不同的语⾔,通常在百万句到千万句不等。
2017年WMT的⽹址
UN Parallel Corpus - 联合国平⾏语料
适⽤领域:机器翻译
速效救心
联合国平⾏语料库由已进⼊公有领域的联合国正式记录和其他会议⽂件组成。语料库包含1990⾄2014年编写并经⼈⼯翻译的⽂字内容,包括以语句为单位对齐的⽂本。
语料库旨在提供多语种的语⾔资源,帮助在机器翻译等各种⾃然语⾔处理⽅⾯开展研究和取得进展。为了⽅便使⽤,本语料库还提供现成的特定语种双语⽂本和六语种平⾏语料⼦库。二层交换机
介绍:
下载:
(⽬前⼀直下载不下来)
2nd International Chine Word Segmentation Bakeoff
适⽤领域:中⽂分词
This directory contains the training, test, and gold-standard data
ud in the 2nd International Chine Word Segmentation Bakeoff.
20 Newsgroups
适⽤领域:⽂本分类
The 20 Newsgroups data t is a collection of approximately 20,000 newsgroup documents, partitioned (nearly) evenly across 20 different newsgroups.
NLPCC 2017 新闻标题分类
适⽤领域:⽂本分类
Reuters-21578 Text Categorization Collection
适⽤领域:⽂本分类
北京美食街
This is a collection of documents that appeared on Reuters newswire in 1987. The documents were asmbled and indexed with categories.
全⽹新闻数据(SogouCA)
适⽤领域:⽂本分类、事件检测跟踪、新词发现、命名实体识别⾃动摘要
来⾃若⼲新闻站点2012年6⽉—7⽉期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供URL和正⽂信息
CMU World Wide Knowledge Ba (Web->KB) project
贵港电视台适⽤领域:知识抽取
红糖制作To develop a probabilistic, symbolic knowledge ba that mirrors the content of the world wide web. If successful, this will make text information on the web available in computer-understandable form, enabling much more sophisticated information retrieval and problem solving.
天行健君子以自强不息的意思
Wikidump
适⽤领域:word embedding
中⽂:
GitHub 项⽬
天秤座明星⼤规模中⽂⾃然语⾔处理语料 Large Scale Chine Corpus for NLP