堆叠式降噪⾃动编码器(SDA)
1.1 ⾃动编码器
⾃动编码器(AutoEncoder,AE)就是⼀种尽可能复现输⼊信号的神经⽹络,其输出向量与输⼊向量同维,常按照输⼊向量的某种形式,通过隐层学习⼀个数据的表⽰或对原始数据进⾏有效编码。值得注意的是,这种⾃编码器是⼀种不利⽤类标签的⾮线性特征提取⽅法,就⽅法本⾝⽽⾔, 这种特征提取的⽬的在于保留和获得更好的信息表⽰, ⽽不是执⾏分类任务,尽管有时这两个⽬标是相关的!
⼀个典型的最简单的⾃动编码器拥有⼀个表⽰原始数据或者输⼊特征向量的输⼊层,⼀个表⽰特征转换的隐层和⼀个跟输⼊层匹配、⽤于信息重构的输出层,如图⼀所⽰。当隐层数⽬⼤于 1 时, ⾃动编码器就被视为深层结构,我们称其为堆叠式⾃动编码器,⽽我们通常所说的⾃动编码器指的都是隐层数为1层的结构。⾃动编码器的主要⽬标是让输⼊值和输出值相等,所以⾸先⽤对输⼊进⾏编码,经过激活函数后,再⽤进⾏解码,⽽编码层和解码层的权重 、通常取为互为转置矩阵,即,这便是⾃动编码器的核⼼思想:先编码,后解码,前后保持不变。
这⾥的深度学习实现了基本的 编码 激活 解码的过程
图⼀ ⾃动编码器结构夏季彩妆
除了上述介绍的最典型的⾃动编码器结构,还有其他⼏种⾃动编码器的变形结构。例如,如果⾃动编码器的基础上加上L1的正规性限制(L1主要是约束每⼀层中的节点中⼤部分都要为0,只有少数不为0,这就是Spar名字的来源),我们就可以得到稀疏⾃动编码器(SAE,Spar AutoEncoder)。还有,如果在⾃动编码器上加⼊了⼀个规则项,使其对权重值进⾏惩罚,就得到了收缩⾃动编码器(CAE,Contractive AutoEncoder)。此外,如果在⽹络的可视层(即数据的输⼊层)
引⼊随机噪声,然后再进⾏编解码来恢复输⼊层的数据或特征,就得到了降噪⾃动编码器(DAE,Denoi AutoEncoder)。xifan
单隐层的⾃动编码器,充其量也就是个强化补丁版PCA(主成分分析),只⽤⼀次好不过瘾。于是Bengio等⼈在2007年的 “Greedy Layer-Wi Training of Deep Networks”⼀⽂中,仿照堆叠受限玻尔兹曼机(RBM)来构成深度置信⽹络(DBN)的⽅法,提出堆叠式⾃动编码器(Stacked AutoEncoder)。接下来,就将对其中的堆叠式降噪⾃动编码器(Stacked Denoi AutoEncoder)进⾏详细地分析。
1.2 堆叠式降噪⾃动编码器
对于单隐层的⾃动编码器,通常利⽤反向传播算法的诸多变种之⼀来进⾏训练(其中最典型的⽅法是随机梯度下降法), 就可以取得⾮常有效的结果。但是,如果仍将其应⽤于多隐层的⽹络中,反向传播的训练⽅法就会产⽣⼀些问题:通过最初的⼏层后, 误差会变得极⼩, 训练也随之变得⽆效。尽管更多先进的反向传播⽅法⼀定程度上缓解了这⼀问题, 但依然⽆法解决学习速度缓慢的问题,尤其是当训练数据量有限时, 该问题更为明显。 正如前⾯所提到的,如果可以通过把每⼀层当作⼀个简单的⾃解码器来进⾏预训练,然后再进⾏堆叠,那么训练效率就会得到⼤⼤地提⾼。正如图⼆所⽰,先对每个单隐层的降噪⾃动编码器单元进⾏⽆监督预训练,然后再进⾏堆叠,最后进⾏整体的反向调优训练,就得到了⼀个两层隐藏层结构的堆叠式降噪⾃动编码器。
cornflower
图⼆ 堆叠式降噪⾃动编码器结构
下⾯详细介绍⼀下构建上述两层隐藏层结构的降噪⾃动编码器的具体步骤。⾸先对第⼀个DA单元进⾏预训练,其中为恢复后的输⼊数据或特征,为未被噪声污染的原始输⼊数据或特征,为被噪声污染后的输⼊数据或特征,为sigmoid函数:
图三 对第⼀个DA单元进⾏预训练
结束的英文 第⼀个⾃动编码器的输出可以表⽰如下:
accommodate采⽤最⼩均⽅差作为代价函数,且利⽤梯度下降的⽅法进⾏权重值W和偏置值b的更新:
旅游 英语
armed and gorgeous其中梯度下降法的具体计算⽅式如下:
预训练完毕后,去掉输出层及其相应的权重和偏置,只保留输⼊层和隐藏层的和即可。然后将第⼀个DA单元的隐藏层作为第⼆个DA单元的输⼊,进⾏第⼆个DA单元的预训练如下所⽰:
图四 对第⼆个DA单元进⾏预训练
第⼆个降噪⾃动编码器的输出可以表⽰如下:
rope是什么意思
采⽤最⼩均⽅差作为代价函数,且利⽤梯度下降的⽅法进⾏权重值W和偏置值b的更新:
december其中梯度下降法的具体计算⽅式如下:
第⼆个DA单元预训练完毕后,去掉其输出层和相应的权重和偏置,只保留输⼊层和隐藏层的和,并将其堆叠在第⼀个DA单元上即可。最后,再第⼆个DA单元的隐藏层之上添加⼀层输出层(对输出层的权重值和偏置进⾏随机初始化即可),进⾏解码恢复。
新编大学英语3答案
两个DA单元的预训练完毕后,最后要进⾏的是整体的反向调优训练。调优训练的代价函数也可以采⽤上述提到的代价函数,并利⽤梯度下降法⾃顶到底(预训练时的反向误差传播只有两层,⽽这⾥的误差反向传播为三层)进⾏权重和偏置值的更新。