融合稀疏因子的情感分析堆叠降噪自编码器模型
蒋宗礼王-大
北京工业大学信息学部
棊于深度学习的特征抽取是A前数据降维问题的研宄热点,堆叠自编码器作为一种较为常用的模型,无法对混有噪声及较稀疏的数据进行良好的特征表达。而向微博情感分析,通过在堆叠降噪自编码器的各隐藏层中加入稀疏因子,来解决样木数据所含噪声和稀疏性对特征抽取的影响。使用COAE评测数据集进行的情感分析实验表明所提模型分类的准确率和召冋率都有所提高。
北京景点推荐关键词:
深度学习;堆叠降噪自编码器;稀疏因子;情感分析;
Sentimental Analysis Stacked Denoising Auto-encoder with Spar Factor
JIANG Zong-li WANG Yi_da
Faculty of Information Technology, Beijing University of Technology:
Abstract:
Feature extraction bad on deep learning is a hot rearch topic in data dimensionality reduction now. In deep learning, stacked auto-encoder is commonly ud. The encoder just simply learns the features of sample and can’t get a good
feature expression for the data which are mixed with noi and sparsity. Spar factor is added in each hidden layer of the stacked denoising auto-encoder to solve the problem of feature extraction about data with noi and sparsity in this paper. The ntimental analysis experiments on COAE data t show that the precision and recall ratio are improved.
Keyword:
Deep learning; Stacked denoising auto-encoder; Spar factor; Sentimental analysis; 1引言
茭白肉片深度学习是一类多层神经网络学习算法,近年来在语音识别、计算机视觉等领域取得了突破性进展,并引起了广泛关注[1-3]。它通过组合低层特征形成更加抽象的高层表示,以发现数据的分布特征以1。这一概念最早由多伦多大学的 G. E. Hinton等[5]于2006年提出。本文选用的棊础模型是由Vincent提出的堆叠降噪自编码器(Stacked Denoising AutoEncoder, SDAE) [6],该模型解决了由数
据中的噪声带来的影响,增强了算法的钤棒性。研宄表I在多数情况下, SDAE 优于深度置信网络(Deep Belief Network, DBN) £Q。
随着社交媒体的迅猛发展,越来越多的人通过微博等在网上发表评论,这些评论褒贬不一。情感分析旨在实现评论内容情感倾向的自动分析,是自然语言处理领域中的研宄热点m,同时由此衍生出的情感分类也具有很大影响m。
传统情感分类方法主要依靠人工标注及情感词典,然而网络微博信息量庞大,进行人工标注费时、费力。因此,木文先使用深度学习对微博信息进行特征提取,再进行情感分类。文献[10]和文献[11]分别使用卷积神经网络对短文本信息进行情感分类研宂,其屮文献[11]针对屮文情况,将词级别的向量转换为字级别的向量,使准确率有所提高。文献[12]将堆叠降噪自编码器应用于亚马逊商品评论信息的情感分类研宄中。文献[13]使用递归自编码器进行情感分类研究,同时加入了情感极性转移。上述方法都取得了一定的效果,但都未考虑短文木数据木身所固有的稀疏性问题,即在数据向量屮零元素远远多于非零元素的问题。
为防止微博数据屮噪声数据对分类器的影响,选用堆叠降噪自编码器作为棊础模型;同时为解决短文本稀疏性问题,在堆叠降噪自编码器的各隐藏层中加入稀
疏因子,形成融合稀疏因子的堆叠降噪自编码器(Stacked Spar Denoising AutoEncoder, SSDAE)模
硬盘分区教程型,以提高模型的泛化能力,既保证了堆叠稀疏自编码器的稀疏性限制,又保证了堆叠降噪自编码器抗噪声的鲁棒性,从而提高了其特征抽取能力和情感分类的准确率。
2堆叠降噪自编码器模型
Vincent于2008年提出降噪自编码器模型,其结构如图1所示。该编码器先将噪声信息随机加在输入向量x上,得到向量x;再对x进行编码,形成隐藏层的向量y;然后对y进行解码,形成重构后的信息z,通过最小化x与z的误差完成训练。
图1降噪自编码器结构图
其实现方案如下:
假设输入的样本集合*X={x, x,…,x},为表示简洁,用x表示X,其屮x={x b X2,…,X d}为输入向量,y={y b y2, •••, yj力对应的隐藏层向量,z={z,, z2, •••, z d}为对应的输出层向量。同时规定网络中各神经元激活函数为sigmoid函数。
输入向量通过masking noi随机映射成输入层的“受破坏”向量
万圣节英语介绍输入层到隐藏层的编码操作为:
隐藏层到输出层的解码操作为:
成为党员的好处其中,W y, \¥。分别是输入-隐层和隐层-输出的连接权值矩阵;b v,匕分别是隐藏层、输出层神经元的偏置向量。
为使解码后的值接近输入向量,设最小化重构误差目标函数为:
通过迭代修正网络神经元之间的连接权值矩阵及偏罝向量求
n 代表学习率):
多个降噪自编码器堆叠在一起,将前一个隐藏层的输出作为后一个降噪自编码 器的输入,进行预训练;训练完成后再对整体网络进行微调,即构建成堆叠降噪 自编码器。
堆叠降噪自编码器较好地解决了噪声问题。但是,如果数据木身比较稀疏,将会 降低模型的泛化能力。
3融合稀疏因子的堆叠降噪自编码器模型
唱歌减肥微博口语话现象严重,很多短文本的部分数据缺失,特别是当选取的特征向量 维度较大时,数据稀疏性问题更加严重。木文通过在堆叠降噪自编码器各隐藏层 屮加入稀疏因子来提高模型的泛化能力。
3. 1稀疏因子
稀疏因子的作用类似于正则化,即防止模型陷入过拟合,同时防止在计算过程 中输入数据的稀疏性被破坏。因此,需要使隐藏层的神经元大部分处于“抑制” 状态,少部分处于“激活”状态。
为使神经元在大部分时间处于“抑制”状态,本文引入平均激活度,用f, (Xi ) 表示输入层第i 个节点到隐藏层第j 个节点的输出值,隐藏层第j 个神经元的平 均激活度为: 为使 (其中P 为稀疏性参数),令P 尽可能小,以实现稀疏限制。此时,
其中,J (X ,Z )
为输入与输出的误差函数,一般采用交叉熵损失函数:
使用梯度下降法, 其极小值(其中
ppp是什么意思隐藏层神经元的激活值分布必须大部分接近于0。为此,以额外的稀疏误差函数作为衡量标准:
其中,h为隐藏层神经元个数,[3为稀疏惩罚因子,是分别以P为均值
和以为均值的两个伯努利随机变量之间的和对熵。通过稀疏误差函数来限
制稀疏表达。
3.2融合稀疏因子的堆叠降噪自编码器
融合稀疏因子的堆叠降噪自编码器模型的结构如图2所示,通过在编码过程中加入稀疏因子来实现稀疏性限制,形成隐藏层的“稀疏表达”(图2中用y表示);然后使用激活函数来对隐藏层各神经元进行解码计算,最后使用梯度下降法修正网络神经元之间的连接权值,完成网络训练。
图2融合稀疏因子的降噪自编码器结构图红屿岛
各隐藏层计算稀疏项J胃S6(W, b)时,加入稀疏性参数P、稀疏惩罚因子P和
各隐藏层节点的平均激活度,其屮,h为隐藏层神经元个
数。模型整体的重构误差函数由两部分构成:1)输入与输出的误差函数J (X, z) ;2)稀疏误差函数上胃。(x, z;W,b),即:
使用梯度下降法,迭代更新网络神经元之间的连接权值矩阵及偏置向量(其中 n代表学习率):