基于LSTM的电影评论情感分析研究

更新时间:2023-06-12 19:18:15 阅读: 评论:0

Technology Study
技术研究
DCW
27
inevitable数字通信世界
2021.02
0    引言
互联网的迅速发展以及通信工具的兴起,导致网络用户的信息交互渠道大量增加。网络用户通过各种方式来表达自己对热点事件的观点,这使得在互联网上充斥着大批的由网民所参与的,对于事物、事件等有重大研究性的评论。但是这些观点以及评论信息大多数都基于个人的主观意见,因此,情感分析的主要目的就是研究如何可以提取与情感相关的信息。伴随着生活水平的逐渐提高以及群众对自己身心的放松,极大多数的人会选择在闲暇时间去观看一场自己喜欢的电影。然而,面对逐渐扩大的电影市场以及众多但质量参差不齐的电影,消费者们通常难以抉择,他们对影片的期望值越大往往失望值也越大,花
钱看“烂片”的现象不在少数。因此,在选择电影之前,消费者们通常会关注已经看过该影片观众的评论,这些评论主要涉及到评论者对电影本身表达的情感信息,以及评论者对电影中的人物态度观点等。但是由于每个人的喜好不同,过度的自我观点会对其他消费者造成潜移默化的影响,极大地提高了对有价值信息的获取难度。所以快速并且有效地获取、处理这些电影的评论是极其重要的。
1    相关工作
情感分析又称作观点发掘,隶属于数据挖掘,因其当前的巨大数字量形式记录,文本情感分析的研究工作发展十分迅速。情感分析属于自然语言处理中的一个子领域,且通常是对携带主观性的文本进行处理,并且分析其中所包含的主观意见或者个人态度等。对于情感分析,国外研究起源较早,Riloff 等通过构建了一些情感词典为之后的情感分析建立了良好的基础。国内对于情感分析也做了众多的研究,常晓龙等通过融合中文语义特点来构建中文的情感词典;梁军等人尝试使用机器学习的方法进行特征提取,在降低了人工成本的同时也极大地提高了准确率。群众对于各种热点事件有着各自的观点,对其进行情感分析可以有效解决所带来的问题,尤其当前的互联网环境当中充斥着大量的文本数据,对其进行情感分析是十分重要的工作。
2    W ord2vec 词向量
训练词向量的模型称作为 Word2vec (word to vector )。训练词向量的主要目的就是将词语从高维
空间映射到低维空间当中,良好的词向量可以通过在词向量的空间里聚集语义近似词的方式来提高文本分类的效果。
feedback是什么意思基于LSTM 的电影评论情感分析研究
梁一鸣1,申 莹2,赵永翼1
(1.沈阳师范大学软件学院,辽宁  沈阳  110034;2.沈阳市艺术幼儿师范学校,辽宁  沈阳  110000)
摘要:近些年,信息以及新媒体的发展是十分快速的,情感性的评论能极大地反映出网络用户的各自意见,对其搜
集进行情感分析可以获得大量有价值的信息,例如从观影者对某部电影的评论上面进行情感分析。基于Word2vec 技术与LSTM 相结合对电影评论文本进行情感分析,实验结果表明,LSTM 在情感分析上有较高的准确率。
关键词:情感分析;电影评论;LSTM doi :10.3969/J.ISSN.1672-7274.2021.02.010中图分类号:TP3  文献标示码:A    文章编码:1672-7274(2021)02-0027-03
东英吉利大学Rearch on Emotion Analysis of Film Reviews Bad on LSTM
LIANG Yiming 1, SHEN Ying 2, ZHAO Yongyi 1
(1. Shenyang Normal University, Science and Information Software College, Shenyang 110034, China;
2.Shenyang Art Infant Normal School, Shenyang 110000, China)
Abstract :In recent years, the development of information and new media is very fast. Emotional comments can greatly
reflect the opinions of network urs. Emotional analysis can obtain a lot of valuable information.Emotional analysis is applied to the audience's comments on a film. Bad on word2vec algorithm and LSTM, this paper analyzes the movie review text. The experimental results show that LSTM has high accuracy in emotion analysis.
Keywords :emotion analysis; film review; LSTM
英语单词发音器作者简介: 梁一鸣(1996-),女,辽宁锦州人,研究生在读,研究方向为数据挖掘。    申莹(1991-),女,辽宁营口人,研究生助理讲师,研究方向为数据挖掘。
赵永翼(1972-),男,汉族,辽宁沈阳人,教授,博士研究生,研究方向为数据仓库与数据挖掘。
研究
Technology Study
I G I T C W 技术
28DIGITCW
2021.02
Word2vec 依赖于 CBOW 和Skip-gram 两个模型来建立神经词嵌入,其两个模型是根据3层的神经网络语言模型 NNML 的基础上提出来的。 CBOW 主要是根据前后文来推测当前词,Skip-gram 模型和 CBOW 模型思路是相侼的,是通过当前的文本来推测前后文,但当两者的前后文相似的同时,目标词汇也是相似的。因 Skip-gram 模型不利于大规模数据模型的训练,因此本文采用的是 CBOW 模型。 CBOW 模型结构示意图如图 1
所示。
图1 CBOW 模型结构示意图
3    长短时记忆神经网络
3.1  数据获取与预处理
在分析极性之前,通过对数据进行预处理可以去除掉对我们判别极性没有帮助的噪声。数据预处理是自然语言处理技术,数据预处理方法可以划分为数据清理、数据集成、数据变换以及数据规约。数据预处理主要将原始的文本数据进行清洗,再去除掉文本数据中的停用词,之后将文本进行分词并且转换成词序列,转换后的词序列转换成为数字序列并且将词的编号序列中每一个词表示成为词向量。信息抽取则是一个标注问题,主要是从文本数据当中使用提取算法来提取信息。
3.2  长短时记忆神经网络
LSTM (Long Short Term Memory )是长短期记忆网络,主要由三个门来控制,分别为遗忘门(Forget Gate )、输入门(Input Gate )以及输出门(Output Gate )。门(Gate )是一种可选的可以让信息通过的方式,LSTM 三个门对记忆单元进行更新以及控制细胞的状态。遗忘门可以丢弃无用的信息,主要通过一个遗忘门层完成。
遗忘门会读取前一时刻的输入单元 ht-1和当前的输入向
量 xt ,给每个前一时刻的细胞状态 Ct-1输出一个 0到1之间的数,其中,1代表的是完全保留,而 0代表的是完全舍弃。输入门在被遗忘部分之后,从当前的输入当中添加新记忆,当前的输入向量 xt 、前一时刻的细胞状态Ct-1和前一时刻的输入单元 ht-1决定了当前的细胞状态 Ct 。输出门通过计算后得到一个新的细胞状态Ct ,且当前的细胞状态 Ct 和前一时刻的输入单元 ht-1以及当前输入向量 xt 决定了当前单元的输出 ht 。 LSTM 单元结构示意图如图 2
所示。
图2 LSTM 单元结构示意图
LSTM 在实践中存在着大量的变动,GERS 提出了增加了“peephole connection ”,让门也接受当前状态的输入。LSTM 单元的计算公式如下:
f t=σ(W f ·[C t -1,h t-1,x t ]+b f )                              (1)i t =σ(W i ·[C t -1,h t-1,x t ]+b i )                                (2)C t =tanh (W c ·[h t -1,x t ]+b c )                                    (3)C t =f t *C t -1+i t *C t                                                                                                  (4)o t =σ(W o ·[C t ,h t-1,x t ]+b o )                                  (5)h t =o t *tanh (C t )                                                          (6)式中,C t 为前一时刻的细胞状态;f t 为遗忘门,用于来决定哪儿些信息要增加到LSTM 的记忆细胞状态; i t 为输入门,用于来决定哪儿些信息从LSTM 的记忆细胞状态删掉;o t 为输出门,用于
来决定哪儿些信息从 LSTM 的记忆细胞状态输出;W f 、W i 、W o 为各自的链接; b f 、b i 、b o 为各自输入链接的权重。
4    实验与分析
4.1  数据集资源
本文采用了大规模的电影评论数据集IMDB ,该电影评论数据集 IMDB 中包含了 5万条电影评论。将 5万条电影评论平等地划分为训练数据以及测试数据,表 1
统计了训练数据以及测试数据的划分分布。将其划分为欢乐颂英文歌词
“positive ”和“negative ”两个标准,表 2展示出了“positive ”和“negative ”两个标准的数据集样例。因将中性评论去掉,所以划分的准确率为一半。表1
训练数据以及测试数据统计结果表2 数据集样例
4.2  实验结果与分析本文使用了Keras ,通过Word 2vec 将词语转换成为词向量并进行特征提取之后,再将提取到的特征添加到 LSTM 的模型当中,其输出是经过Softmax
(下转第81页)
Special Technology
专题技术
DCW
81
数字通信世界
2021.02
的分类可以灵活监控指定端口流量大小,实现动态带宽分配。
参考文献
[1]  雷葆华,王峰,王茜,王和宇.SDN 核心技术剖析和实战指南[M].北京:电子工业出版社,20136.
[2]  O penNetworkingFoundation.Software-Defined Networking :The New Norm for Networks.Apr.13,2012.
[3]  张勇,朱祥华.基于周期轮询的GPON 上行链路动态带宽分配算法[J].现代传输,2006,32(4):75-79.
[4]  刘杨.GPON 系统中一种高性能的DBA 分配算法研究[D].上海:复旦大学,
2011:23-25.
[5]  O penDaylight Project.OpenDaylight :An Open Soure Community and Meritocracy for Software-Defined Networking.April 2,2013.
[6]  O NF ,“Software-Defined Networking :The New Norm for Networks ,”
white paper ,Apr. 13,2012.
[7]  O penDaylight Project.OpenDaylight :An Open Soure Community and Meritocracy for Software-Defined Networking.April 2,2013.
[8]  A ndreolini M ,Casolari S ,Colajanni M ,et al.  Dynamic load balancing for network intrusion detection systems bad on distributed architectures[C]. Proceedings of IEEE 2007 the Sixth IEEE International Symposium on Network Computing and Applications ,Cambridge ,USA ,2007:153-160. [9]  涂文伟,张进,张兴明.分级统筹分配令牌参数的流量整形算法[J].计算机应用,2006,26(9):21-24.松散
通信技术培训(上接第56页)总之,今天广播电视的功能和服务发生了根本性的变化,从模拟电视向数字电视的过渡已经是大势所趋,网络数字电视系统将占据主导地位,微波数字技术不仅在广播电视信号的广播中发挥了重要作用,而且进一步推动了广播电视在数字化方向的发展。
参考文献
[1]  李广超.数字微波在广播电视信号传输中的应用与维护 [J].西部广播电视,2020(2):228-229.
[2]  李超.数字微波技术在广播电视信号传输中的应用分析 [J].科技创新与应用,2020(19):168-169.
[3]  党华夏.数字微波技术在广播电视节目传输中的价值及运用探讨 [J].数字通信世界,2019(5).
(上接第28页)层计算得到的。将 IMDB 划分为训练数据以及测试数据,然后把训练数据分批次输入到模型中,
再将训练好的模型以及参数保存下来并且输入到已经完成训练的模型当中,得到准确率。准确率如图3所示。
图3 模型准确率
由图3可知,模型的准确率随着迭代次数增长而增
长,在达到最高点 86.94%之后开始下降。本文使用同一个数据集,与不同的模型进行实验对比,实验结果如表 3所示。
表3 实验结果对比
由表3可知,LSTM 模型实验效果较好。
5    结束语
本文通过基于 LSTM 模型对电影评论文本实行情感分析,通过实验结果我们发现,LSTM 模型在对电影评论文本的情感分析中的可行性以及有效性,望之后可以进一步研究如何构建更为复杂的模型对情感进行分析。
参考文献
[1]  B o Pang ,Lillian Lee. Opinion Mining and Sentiment Analysis. 2007,2(1-2):1-135.
[2]  常晓龙,张晖.融合语素特征的中文褒贬词典构建[J].计算机应用,2012,32(07):2033-2037.
[3]  梁军,柴玉梅,原慧斌,昝红英,刘铭.基于深度学习的微博情感分析[J].中文信息学报,2014,28(05):155-161.
[4]  杨奎河,赵萌萌.基于深度学习的情感分析技术[J].信息通信,2020(08):99-101.
[5]  章蓬伟,贾钰峰,邵小青,拜尔娜•木沙,赵裕峰.基于文本情感分析的电商产品评论数据研究[J].微处理机,2020,41(06):58-62.
[6]  王钟璞.基于神经网络算法对文本的情感分析[J].电子制作,2020(20):34-35+43.
大学英语六级报名[7]  黎洁君.基于深度学习的新疆热门微博评论的情感分析[J].现代盐化工,2020,47(05):179-181.
[8]  李佳儒,王玉珍,丁申宇.在线评论情感分析的影院推荐[J].宁德师范学院学报(自然科学版),2020,32(03):253-258.
[9]  黄剑波,陈方灵,丁友东,吴利杰.基于情感分析的个性化电影推荐 [J].计算机技术与发展,2020,30(09):132-136.
[10]  杨奎河,赵萌萌.基于深度学习的情感分析技术[J].信息通信,2020(08):
99-101.
[11]  章蓬伟,贾钰峰,邵小青,拜尔娜 •木沙,赵裕峰.基于文本情感分析
的电商产品评论数据研究[J].微处理机,2020,41(06):58-62. [12]  崔圣杰,李珊珊,孙琦.基于深度学习的微博情感分析综述[J].信息技
术与信息化,2019(06):149-151.
[13]  李佳儒,王玉珍,丁申宇.在线评论情感分析的影院推荐[J].宁德师范
学院学报(自然科学版),2020,32(03):253-258.
[14]  申莹.基于舆情分析的微博情绪监测系统研究与实现 [D].沈阳:沈阳师
赛普健身学院
范大学,2020.
[15]  申莹,刘春阳,赵永翼.基于SVM 算法的微博评论数据情感分析[J].数
字通信世界,2020(01).太阴历

本文发布于:2023-06-12 19:18:15,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/fan/90/142804.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

标签:情感   分析   数据   评论   电影
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图