情感分析资源⼤全(语料、词典、词嵌⼊、代码)
该博客收集情感分析领域中⼀些语料、词典等。
如果引⽤到下列语料、词典等数据,出于尊重作者的学术成果,在⽂章中还请引⽤相关的⽂献。
1 语料库
南通市环保局
1.1 谭松波-酒店评论语料-UTF-8,10000条
现在⽹上⼤部分谭松波⽼师的评论语料资源的编码⽅式都是gb2312,本资源除了原始编码格式,还具有UTF-8编码格式。 本资源还包含将所有语料分成和两个⽂件,每个⽂件中的⼀⾏代表原始数据的⼀个txt⽂件,即⼀篇评论。
下载地址为:谭松波-酒店评论语料-UTF-8,10000条
1.2 SemEval-2014 Task 4数据集
SemEval-2014 Task 4数据集主要⽤于细粒度情感分析,包含Laptop和Restaurant两个领域,每个领域的数据集都分为训练数据、验证数据(从训练数据分离出来)和测试数据,⾮常适⽤于有监督的机器学习算法或者深度学习算法,如LSTM等。⽂件格式为.xml,其数据统计如下:七年级政治上册
下载地址为: SemEval-2014 Task 4数据集
1.3 Cityarch corpus
该语料库为餐馆评论数据,收集⾃Cityarch New York⽹站,可⽤于细粒度的情感分析任务中,即aspect extraction任务当中。在本资源中,分为原始数据和处理后数据两部分,其统计如下:
其中,训练数据不包含标注信息;测试数据中包含标注信息,标注类别为预先定义的6个aspect类型,依次为Food、Staff、Ambience、Price、Anecdotes和Miscellaneous,可⽤于验证模型的有效性;在处理后数据⽂件夹中,还包含对应的词嵌⼊模型。
下载地址:Cityarch corpus失恋的句子说说心情
1.4 BeerAdvocate
该语料为啤酒评论数据,共150W条评论,可⽤于细粒度的情感分析任务当中,即aspect extraction任务当中。
由于资源⼤⼩的限制,本资源分为原始数据和处理后的数据。在原始数据当中,包含1000条带标注信息的评论,共9245条句⼦,标注类别为Feel、Look、Smell、Taste和Overall五种Aspect类别;在处理后数据当中,包含相应的词嵌⼊模型。2018nba全明星
原始数据下载地址:BeerAdvocate–Source
处理后数据下载地址:BeerAdvocate–Preprocess
1.5 NLPCC2014评估任务2_基于深度学习的情感分类
该语料共包含中⽂和英⽂两种语⾔,主要是商品评论,评论篇幅都⽐较短,可以被应⽤于篇章级或者句⼦级的情感分析任务。数据集被分为训练数据、测试数据、带标签的测试数据三个⽂件,共有正向和负向两种极性。
下载地址:NLPCC2014评估任务2_基于深度学习的情感分类
1.6 NLPCC2013评估任务_中⽂微博观点要素抽取
该语料主要⽤于识别微博观点句中的评价对象和极性。训练数据由两个微博主题组成,每个主题各⼀百条,内含标注及数据说明。
下载地址:NLPCC2013评估任务_中⽂微博观点要素抽取
1.7 NLPCC2013评估任务_中⽂微博情绪识别
该语料主要⽤于识别出整条微博所表达的情绪,不是简单的褒贬分类,⽽是涉及到多个细粒度情绪类别(例如悲伤、忧愁、快乐、兴奋等),属于细粒度的情感分类问题。
下载地址:NLPCC2013评估任务_中⽂微博情绪识别
1.7 NLPCC2013评估任务_跨领域情感分类
给定已标注倾向性的英⽂评论数据和英⽂情感词典,要求只利⽤给出的英⽂情感资源进⾏中⽂评论的情感倾向分类。该任务注重考察多语⾔环境下情感资源的迁移能⼒,有助于解决不同语⾔中情感资源分布的不均衡问题。
下载地址:NLPCC2013评估任务_跨领域情感分类
1.8 NLPCC2012评估任务_⾯向中⽂微博的情感分析
国内外重大新闻事件
该语料主要⽤于中⽂微博中的情感句识别、情感倾向性分析和情感要素抽取。
下载地址:NLPCC2012评估任务_⾯向中⽂微博的情感分析
1.9 康奈尔⼤学影评数据集
掰玉米
该语料由电影评论组成,其中持肯定和否定态度的各1,000 篇;另外还有标注了褒贬极性的句⼦各5331句,标注了主客观标签的句⼦各5000句。该语料可以被应⽤于各种粒度的情感分析,如词语、句⼦和篇章级情感分析研究中。
下载地址:康奈尔⼤学影评数据集
hard的比较级和最高级1.10 MPQA
Janyce Wiebe等⼈所开发的MPQA(Multiple-Perspective QA)库:包含535 篇不同视⾓的新闻评论,它是⼀个进⾏了深度标注的语料库。其中标注者为每个⼦句⼿⼯标注出⼀些情感信息,如观点持有者、评价对象、主观表达式以及其极性与强度。
下载地址:MPQA
1.11 Twitter Comments
该语料主要来⾃于Twitter上⾯的评论数据集,分为训练数据和测试数据,分别有6248条和692条Twitter。在⽂件中,每条推特被分为三⾏,第⼀⾏为评论句⼦、第⼆⾏为评价对象、第三⾏为情感极性。通常每条句⼦只包含⼀个评价对象。在情感极性中,⽤-1、0、1分别代表负向、中性、正向,三个极性的条数分别在语料中占25%、50%、25%。该语料来⾃于以下⼯作。
马本斋纪念馆
Paper:Dong L, Wei F, Tan C, et al. Adaptive Recursive Neural Network for Target-dependent Twitter Sentiment Classification[C]// Meeting of the Association for Computational Linguistics. 2014:49-54.
下载地址:Twitter Comments
2 词典
2.1 ⼤连理⼯⼤学中⽂情感词汇本体库(⽆辅助情感分类)
2.2 台湾⼤学中⽂情感极性词典(NTUSD)
2.3 清华⼤学李军中⽂褒贬义词典(TSING)
2.4 知⽹情感词典(HOWNET)
2.5 知⽹程度副词词典(HOWNET)
2.6 知⽹主张词语词典(HOWNET)
3 预训练词嵌⼊
3.1 Google预训练词嵌⼊
3.2 Glove预训练词嵌⼊
该预训练词嵌⼊根据斯坦福⼤学提出的Glove模型进⾏训练,主要包括如下四个⽂件:
1) glove.6B:Wikipedia 2014 + Gigaword 5 (6B tokens, 400K vocab, uncad, 50d, 100d, 200d, & 300d vectors, 822 MB download)
2) glove.42B.300d:Common Crawl (42B tokens, 1.9M vocab, uncad, 300d vectors, 1.75 GB download)
3)glove.840B.300d:Common Crawl (840B tokens, 2.2M vocab, cad, 300d vectors, 2.03 GB download)
4)glove.twitter.27B:Twitter (2B tweets, 27B tokens, 1.2M vocab, uncad, 25d, 50d, 100d, & 200d vectors, 1.42 GB download)
下载地址为:Glove预训练词嵌⼊