2020年
软 件
2020, V ol. 41, No. 9
作者简介: 刘洪浩(1998–),男,本科在读,研究方向:数据挖掘,机器学习。我朋友的辣妈
基于深度学习的COVID-19疫情期间网民情绪分析
刘洪浩
(河南大学 国际教育学院,河南 开封 475000)
telemedicine
大连成人英语培训摘 要: 微博文本情绪分析技术在舆情监控等领域具有广泛应用。基于传统机器学习模型和情感词典进行情感分析的结果往往不够理想,如何提升性能成为该领域的一个主要挑战。本文中我们使用了基于深度
学习的BERT 以完成语言理解任务并与传统做法性能相比较,结果中BERT 模型取得了更好的性能。之后我们利用该模型进行三分类以分析COVID-19疫情期间的微博评论,总体上正面与中立情绪占主导。此外,我们也针对词频和词云进行相关分析,以期实现全方面了解此次疫情期间社会情感状态的目的。英文版电影
关键词: 深度学习,词嵌入,BERT 模型,情感分析,微博爬虫,文本处理
calmer
中图分类号: TP183 文献标识码: A DOI :10.3969/j.issn.1003-6970.2020.09.048 本文著录格式:刘洪浩. 基于深度学习的COVID-19疫情期间网民情绪分析[J]. 软件,2020,41(09):185 188
Sentiment Analysis of Netizens During the COVID-19 Epidemic Bad on Deep Learning
LIU Hong-hao
(College of International Education, Henan University, Kaifeng 475000, China )
【Abstract 】: Sentiment analysis of microblog text is widely ud in public opinion monitoring and other fields. The results of ntiment analysis bad on traditional machine learning models and ntiment dictionaries are often not ideal. How to improve performance has become a major challenge in this field. In this thesis, we u BERT bad on deep learning to complete the language
dueto
understanding task. Compared with traditional methods, BERT model has achieved better performance. We u the model to analyze microblog comments during the COVID-19 epidemic by conducting a three-category classification and find that positive and neutral emotions are dominant. We also conduct further analysis on word frequency and word cloud to gain more insights into the emotional states during the epidemic. 【Key words 】: Deep learning; Word embedding; BERT; Sentiment analysis; Microblog crawler; Text processing
0 引言
obvious
文本是用于情感分析的典型数据集。由于情感文本数据的迅速增长和极高应用价值,使得自动识别和分析人们在文本中表达的情感成为一种必要。社交网络文本情感分析被广泛应用于在金融[1]、市场[2]、社 会[3]、娱乐[4]等诸多领域之中,关于文本情感识别算法相关的理论研究[5-7]也越发丰富。越来越多基于社交网络的情感分析实践和研究的出现表明其实用性与科学性。微博短文本已成为国内数据的情感表达和舆论走向的代表,它为研究社会发展和人类行为特征提供更多可能性。精巧的意思
新冠肺炎疫情备受社会各界关注。2020年1月1日至2月20日,疫情相关微博话题数超过200个。此次疫情为高热度的重大社会热点事件,对疫情期间的情感识别和可视化分析能客观反映出疫情舆情的发展动向,有助于有关机构制定合理科学的决策,具有较高研究价值。箱子的英语
that is it文本分类的精度取决于提取语义特征的方法和分类器的种类。本文关注基于深度学习的中文文本词嵌入方法与传统做法的比较和疫情期间情感分析。我们研究了基于深度学习中词向量技术的情感识别方法,利用BERT 模型和Embedding 层预训练方法,分别进行研究,实验对比中BERT 预训练模型取得更加准确
的结果。我们将利用BERT 模型的分类结果对此次疫情全面分析,并给出疫情期间微博文本的词云表示,以提高情感分析的准确度,达到全面了解此次疫情期间社会舆情的目标。
1 相关工作
本节简要介绍微博数据情感分析的相关研究,以及获得词嵌入的方法。 1.1 微博数据情感分析
现有文献中已有较为丰富的针对微博文本的情感分析策略。王培名等人[8]设计了自适应的并发采集算法优化模拟登录和代理池的构造访客Cookie 功能,高效获取微博数据,为微博数据采集策略提供了多样性。刘楠[9]针对微博短文本形式的情感分析,归纳新的细粒度情感分析流程,提出TF 和TF-IDF 归一化权重计算方法,与传统提取特征的方法相比,能够更准确判断出多种类情感的权重,实现了该方法有效性的评估。 1.2 词嵌入
词嵌入是一种词的数字向量化表示,相似含义的词可用类似的向量表达。词嵌入的研究关键在于获得
密集低维的分布式特征向量表示词的不同特征,每一个词与分布式向量相关联,每个词与向量空间中的点相关联,促进与神经网络词的更好拟合和学习更新[10]。