特征图自适应知识蒸馏模型

更新时间:2023-05-05 14:21:36 阅读：评论：0

第60卷第4期

吉林大学学报(理学版)V o l .60 N o .4 2022年7月J o u r n a l o f J i l i nU n i v e r s i t y (S c i e n c eE d i t i o n )J u l y 2022d o i :10.13413/j .c n k i .j

d x b l x b .2021230特征图自适应知识蒸馏模型

吴致远1,

2，齐红1,3，姜宇1,3，崔楚朋1，杨宗敏1，薛欣慧1(1.吉林大学计算机科学与技术学院，长春130012;2.中国科学院计算技术研究所，北京100190;3.吉林大学符号计算与知识工程教育部重点实验室，长春130012)摘要：针对嵌入式和移动设备的计算和存储资源受限，紧凑型网络优化易收敛至较差局部最

优解的问题，提出一个特征图自适应知识蒸馏模型，其由特征图适配器和特征图自适应知识

蒸馏策略构成.首先，特征图适配器通过异构卷积与视觉特征表达模块的堆叠实现特征图尺

寸匹配㊁教师学生网络特征同步变换及自适应语义信息匹配.其次，特征图自适应知识蒸馏

策略将适配器嵌入教师网络对其进行重构，并在训练过程中实现适合用于学生网络隐藏层监

督特征的自适应搜索；利用适配器前部输出提示学生网络前部训练，实现教师到学生网络的

知识迁移，并在学习率约束条件下进一步优化.最后，在图像分类任务数据集c i f a r -

10上进行实验验证，结果表明，特征图自适应知识蒸馏模型分类正确率提高0.6%，推断损失降低

6.5%，并将收敛至78.2%正确率的时间减少至未迁移时的5.6%.关键词：人工智能；知识蒸馏；特征图自适应；模型迁移；图像分类中图分类号:T P 391 文献标志码:A 文章编号:1671-5489(2022)04-0881-08

A c t i v a t i o n M a p A d a p t a t i o n M o d e l f o rK n o w l e d g

eD i s t i l l a t i o n WUZ h i y u a n 1,2,Q IH o n g 1,3,J I A N G Y u 1,

3,C U IC h u p e n g 1,Y A N GZ o n g m i n 1,X U EX i n h u i 1(1.C o l l e g e o f C o m p u t e rS c i e n c e a n dT e c h n o l o g y ,J i l i nU n i v e r s i t y ,C h a n g

c h u n 130012,C h i n a ;2.I n s t i t u t e o f C o m p u t i n g T e c h n o l o g y ,C h i n e s eA c a

e m y o

f S c i e n c e s ,B e i j i n

g 1

00190,C h i n a ;3.K e y L a b o r a t o r y o f S y m b o l i cC o m p u t a t i o na n dK n o w l e d g eE n g i n e e r i n g o f M i n i s t r y o f E d u c a t i o n ,J i l i nU n i v e r s i t y ,C h a n g

c h u n 130012,C h i n a )收稿日期:2021-06-21.

第一作者简介：吴致远(2000 )，男，汉族，硕士研究生，从事新一代人工智能的研究,E -m a i l :w u z y 2118@m a i l s .j

l u .e d u .c n .通信作者简介：姜宇(1979 )，男，汉族，博士，副教授，博士生导师，从事智能感知与认知计算的研究,E -m a i l :j i a n g y u 2011@j

l u .e d u .c n .基金项目：国家自然科学基金(批准号:U 20A 20285;62072211;51939003).A b s t r a c t :A i m i n g a t t h e p r o b l e mt h a t c o m p u t a t i o n a l a n ds t o r a g er e s o u r c e so f e m b e d d e da n d m o b i l e d e v i c e sw e r el i m i t e d ,a n dt h ec o m p a c tn e t w o r k o p t i m i z

a t i o n w a a s y t oc o n v e r g et o p o o rl o c a l o p t i m a l s o l u t i o n s ,w e p r o p o s e d a na c t i v a t i o nm a p a d a p t a t i o nm o d e l f o r k n o w l e d g e d i s t i l l a t i o n ,w h i c h w a s c o m p o s e do f a na c t i v a t i o n m a p a d a p t e ra n da na c t i v a t i o n m a p a d a p t a t i o nk n o w l e d g ed i s t i l l a t i o n s t r a t e g y .F i r s t l y ,t h ea c t i v a t i o n m a p a d a p t e rr e a l i z e da c t i v a t i o n m a p s i z e m a t c h i n g ,s y n c h r o n o u s t r a n s f o r m a t i o no f t e a c h e r -s t u d e n tn e t w o r kf e a t u r e s ,a n da d a p t i v es e m a n t i c i n f o r m a t i o n m a t c h i n g b y h e t e r o g e n e o u s c o n v o l u t i o na n d s t a c k i n g o f v i s u a l f e a t u r e e x p r e s s i o nm o d u l e s .S e c o n d l y ,t h e a c t i v a t i o n m a p a d a p t a t i o nk n o w l e d g ed i s t i l l a t i o ns t r a t e g y e m b e d d e dt h ea d a p t e ri n t ot h et e a c h e rn e t w o r kt o r e c o n s t r u c t i t ,a n d r e a l i z e d a d a p t i v e l y s e a r c hs u i t a b l e f o r t h e s u p e r v i s i o n f e a t u r e so f t h eh i d d e n l a y e r o f t h e s t u d e n t n e t w o r k d u r i n g t r a i n i n g p r o c e s s ,t h e f r o n t o u t p u t o f t h e a d a p t e rw a s u s e d t o p r o m p

t t h e

288吉林大学学报(理学版)第60卷f r o n t t r a i n i n g o f t h es t u d e n tn e t w o r k,s oa st or e a l i z ek n o w l e d g et r a n s f e rf r o m t h et e a c h e rt ot h e

s t u d e n t n e t w o r k,a n d f u r t h e r o p t i m i z e i t u n d e r t h e c o n s t r a i n t o f l e a r n i n g r a t e.F i n a l l y,e x p e r i m e n t a l v e r i f i c a t i o nw a s c a r r i e d o u t o n t h e i m a g e c l a s s i f i c a t i o n t a s kd a t a s e t c i f a r-10.T h e r e s u l t s s h o wt h a t t h e

c l a s s i f i c a t i o na c c u r a c y o ft h ea c t i v a t i o n m a p a

d a p t i v ek n o w l

e d g ed i s t i l l a t i o n m o d e l i si m p r o v e db y

0.6%,t h e i n f e r e n c e l o s s i s r e d u c e db y6.5%,a n d t h e t i m e t o c o n v e r g e t o78.2%a c c u r a c y i s r e d u c e d t o5.6%w h e n i t i s n o tm i g r a t e d.

K e y w o r d s:a r t i f i c i a l i n t e l l i g e n c e;k n o w l e d g ed i s t i l l a t i o n;a c t i v a t i o n m a p a d a p t a t i o n;m o d e l t r a n s f e r;

i m a g e c l a s s i f i c a t i o n

深度卷积神经网络在图像分类[1-2]㊁物体检测[3]㊁语义分割[4]等视觉领域应用广泛.目前大多数方法集中于提高特定数据集上的推断准确率，使得网络架构日趋复杂化.嵌入式和移动设备由于受计算资源和

存储空间的限制，对紧凑型神经网络需求迫切.模型压缩方法以较小精度损失为代价，大幅度减小网络的参数规模与推断开销.网络减枝[5]㊁参数量化[6]㊁张量分解[7]等现有压缩方法分别从冗余淘汰㊁权重复用㊁后端重构等方面直接对成型的网络进行后端压缩，在一些小型数据集上取得了一定成效.

知识蒸馏是基于模型迁移学习的重要分支，是一种在复杂神经网络提示下训练紧凑神经网络的技术[8]，为构建高效准确的紧凑型神经网络提供了一种与模型压缩方法相异的新思路.在知识蒸馏过程中，复杂网络和紧凑网络分别扮演着教师和学生的角色.教师网络由于过参数化的特性，易收敛到较优的解[9]，但参数规模庞大，推断代价昂贵；学生网络虽可通过增加深度的方法在维持参数规模基本不变的前提下提升容量，但局部解和难于训练的问题导致其直接训练后推断效果通常较差，难以满足实际应用过程中对推断精度的要求.知识蒸馏充分挖掘了大型网络特征提取能力强㊁预训练网络阶段性输出语义信息丰富的特点，利用其辅助学生网络进行训练，可有效提高学生网络的收敛速度与精确度.

早期的知识蒸馏方案将教师网络输出调整后的软标签与硬标签的加权平均作为学生网络训练的监督数据[10].由于不同类别之间的相似度不同，高熵的软标签能比硬标签提供更丰富的语义监督信息[11]，因此在教师网络的指导下，学生网络通常能收敛到较好的解.之后的工作开始致力于通过教师网络的隐藏层输出(称为特征图)提示学生网络训练实现知识迁移.F i t N e t[12]采用卷积回归的方法，将教师网络隐藏层输出尺寸匹配到学生网络中间尺寸，用于训练窄而深的学生网络，希望学生网络学习一个基于教师网络中间输出变换的表示方案.H e等[13]使用自编码器重构教师网络的中间输出，通过最小化自重

构损失使编码后的教师网络中间特征能较好地恢复原本的语义信息，并利用编码的特征作为学生网络前半部分训练的监督数据.但来自学生网络和教师网络的特征图通常具有不一致的上下文和不匹配的特征.现有方法对教师网络特征图采取变换，其结果通常不适合作为学生网络用于预测最终目标的中间特征.教师网络和学生网络架构不同导致二者参数线性空间和对应阶段数据分布式表达程度存在差异，如果在各自架构的基础上，参数收敛到了良好的空间，二者推断出的隐藏层特征图所蕴含的语义表示信息将存在较大的领域偏差，因此将教师网络特征图经过恰当的变换成为适合于学生网络的监督特征成为基于隐藏层输出提示知识蒸馏的关键.同时，教师网络提供的用于监督的特征确定了学生网络训练时优化的目标导向，但其常与实际应用需求存在偏差.

文献[12]提出了将回归器损失与教师网络中间输出特征相关联，收敛后的回归器学习到的映射方案倾向于将教师网络的隐藏层输出特征转化为某种兼顾教师网络和学生网络需求的中间表示.改进特征映射方案的归纳偏好有利于教师网络传递更有价值的知识，文献[13]提出了重构特征自编码器经过训练后，编码器映射到学生网络的特征能较好地恢复教师网络特征的语义信息.但学生网络的隐藏层输出无需恢复教师网络的特征图，用于精确推断的学生网络监督特征会使知识蒸馏更有效.虽然采取领域自适应方法，通过显式地在教师网络监督学生网络训练的过程中加入对该问题理解的先验知识，可一定程度上缓解教师网络和学生网络特征图中上下文和特征语义信息的不匹配性，但类似方法都只

是从人类的角度出发，通过加入人类对深度神经网络解决视觉问题的理解提升推断效果，所需的难以

理解的抽象语义信息并未被充分挖掘.利用神经网络自身在正确目标驱动下实现适合学生网络监督特征的自适应搜寻，并利用其作为学生网络的提示，有利于提升模型的收敛速度与准确率.基于此，本文提出一个特征图自适应知识蒸馏模型.首先，使用特征图适配器实现教师网络特征图与学生网络特征图的尺寸和通道数匹配㊁特征同步变换以及监督特征自适应搜索.其次，在此基础上，提出特征图自适应知识蒸馏策略：通过特征图适配器替换方法构建自适应教师，并在学习率限制条件下进行训练，在尽可能维持预训练教师网络的特征提取与表达方案的同时提升监督特征的泛化能力；自适应教师隐藏层输出提示学生网络训练，实

现教师网络特征表示的知识迁移；进一步基于延拓法[14]和课程学习[15]的思想对学生网络进行约束训

练，以保证优化的大部分时间花费在效果良好的参数空间.最后，在数据集c i f a r -10上验证特征图自适应知识蒸馏模型的有效性.实验结果表明，该模型提高了0.6%的训练准确率，降低了6.5%的训练损失，并且节省了94.4%的训练时间.1 特征图自适应知识蒸馏模型

针对教师网络和学生网络之间上下文不一致和特征不匹配导致迁移效果较差的问题，本文提出一个特征图自适应知识蒸馏模型，其整体框架如图1所示.由图1可见，该模型由教师网络㊁学生网络和特征图适配器构成.教师网络架构复杂但推断准确，且预先经过训练；学生网络结构紧凑，未经训练，具有进行高效准确推断的潜力.由于网络架构的差异，对应阶段教师网络大于学生网络的隐藏层

特征图分辨率.特征图适配器用于替换教师网络的标注模块(替换后的教师网络称为自适应教师)

，以学习知识迁移策略，为学生网络提供合适的监督特征.

图1 特征图自适应知识蒸馏模型整体框架

F i g .1 W h o l e f r a m e w o r ko f a c t i v a t i o nm a p a d a p t a t i o nk n o w l e d g

e d i s t i l l a t i o nm o d e

l 图2 特征图适配器

F i g .2 A c t i v a t i o nm a p a d a p t o r 在适合用于学生网络隐藏层监督特征自适应搜索过程中，在学习率限制的条件下对自适应教师进行训练，迁移知识的策略在训练过程中被特征图适配器自动学习；以特征图适配器中间部分为界，将自适应教师一分为二，用前部隐藏层输出特征图作为学生网络优化目标，通过优先学习简单的概念提

升学生网络后续优化效果.1.1 特征图适配器

作为特征图尺寸匹配㊁特征同步变换及自适应

匹配的关键技术，特征图适配器由过渡模块与解析

模块堆叠形成，其中下采样和上采样过渡模块分列

适配器的左㊁右两侧，如图2所示.特征图适配器

用于替换教师网络中的标注模块，以构建自适应

教师.引入特征图适配器有如下优点:1)特征图适配器中间输出与学生网络提示断点处的输出尺寸相

388 第4期吴致远，等：特征图自适应知识蒸馏模型

同，因此可直接监督学生网络进行训练，由于特征图适配器训练过程中以最小化预测损失为目标，中间输出的特征倾向于最有利于解析出高精确度的结果;2)特征图适配器学习的内容可近似为从给定基本特征到给定抽象特征的变换，而给定的二者可视为学习过程中所依赖的先验知识，在训练过程中有帮助作用.训练完毕，自适应教师所学得的特征表达具有迁移给学生的潜力.监督学生训练的过程即为帮助学生网络搜寻良好初始权重的过程.教师网络提示数据与学生网络待监督隐藏层输出尺寸相匹配是教师直接提示学生训练实现知识迁移的充要条件.过渡模块主要用于匹配特征图尺寸.面对相同问题，在教师和学生网络特征分布式表图3 过渡模块

F i g

.3 T r a n s i t i o nm o d u l e 达程度相近阶段，前者的特征图尺寸通常大于

后者.重构拟在教师网络提示阶段前调整其卷积层

的规格，然后尽快恢复正常的特征图大小.因此，过渡模块设有用于下采样和上采样两种类型，并分

别在提示阶段前后被使用.过渡模块的总体设计思

路如图3所示.定义i n s 和o u t s 分别为输入和输出特征图的边

长，假设i n s 和o u t s 具有整数倍关系.i n s >o u t s 时

采用大步长卷积进行下采样，其中步长s t r i d e =i n s o u t s ；其他情形时，采用转置卷积进行上采样，其卷积核大小和步长均定义为k ，其中k =o u t s i n s .卷积结果均经过批标准化和线性整流变换.在实际操作过程中，若i n s 和o u t s 不满足整数倍关系，则可在采样前或后采用分组卷积[1

6]变换策略，同时采用填充或大卷积核调整输出大小.以采样的形式直接对特征图尺寸进行匹配会导致晦涩的推断语义表示，因而需要采用某种机制对特征进行提炼与修饰.基于此，本文提出增加解析模块，与过渡模块的堆叠提高了自适应教师的准确

性，从而为后续的知识迁移提供更可靠的监督特征.

1.2 特征图自适应知识蒸馏策略

1.2.1 构建教师网络和学生网络参数冗余的教师网络常能收敛到良好的解，且具有较高的推断精度；学生网络具有部署在存储和计算资源受限环境中的应用需求，参数规模和计算资源消耗是首要考虑的因素.因此，本文在研究过程中选择已有推断结果准确的网络架构作为教师网络；利用紧凑型模块对优秀网络架构的部分模块进

行替换，以此构建学生网络.

1.2.2 训练自适应教师有效知识蒸馏有两个前提条件：整体或部分学生网络接受尺寸匹配的监督数据；该数据能更好地反映阶段或全局优化目标.为此，本文采取如下策略训练教师网络:

1)标注教师网络中间的部分模块，标注块的前㊁后部分分别记为T F 和T B ；在学生网络相应的阶段设置提示断点，将学生网络分成两部分，分别记为S F 和S B ;

2)使用特征图适配器替换教师网络的标注块，重构后的教师网络，即自适应教师，记为A T ；要求以两个过渡模块为分割线的适配器前半部分(记为A F )的输出尺寸与学生网络的S F 输出尺寸相同;3)冻结T F 的权重，对T B 采用小学习率，使用增强数据对自适应教师进行训练；对于整个自适应教师，只有特征图适配器采用正常学习率进行训练.

对于图像分类任务，定义N ,M 分别为批处理大小和待分类类别的数量.本文采用交叉熵作为自适应教师的训练损失.多分类问题的交叉熵损失L l o g 定义为

L l o g =-1N ðN i =1ðM c =1y l a b e l i c l o g (y p r e d i c ),(1

)488 吉林大学学报(理学版) 第60卷

其中y i c 为输出结果第i 个样本的第c 个类别的分类置信度,y l a b e l 和y p r e d 分别表示数据集标签及网络的

推断结果.

1.2.3 基于隐藏层提示的蒸馏

延拓法和课程学习思想表明，选取正确的初始化权重对于训练阶段的参数优化具有正面影响；学习复杂概念时优先学习简单的概念有利于提升最终的学习效果.基于此，本文采用隐藏层提示策略,

即把经过T F 和A F 映射后的监督数据(y T F -A F )作为S F (输出记为y S F )的优化目标，以最小化像素平均相对熵损失L P A K L 实现教师网络知识迁移给学生网络的前半部分:L P A K L =-

1P ðp o s ɪP K L (y T F -A F p o s y S F p o s ),(2)其中P 为S F 的隐藏层输出特征图,y p o s 为隐藏层输出特征图p o s 位置对应的灰度值,K L 为K u l l b a c k -L e i b l e r 散度.1.2.4 约束优化知识迁移完成后仍需通过进一步优化实现精确的推理.与常规训练时网络权重接收随机初始化的情况不同，本文中学生网络预先经过部分训练，存储有可靠与泛化性的推断语义表示.为充分利用其中有用的信息，本文以交叉熵作为损失函数，先在冻结S F 的前提下进行训练，然后采用小学习率对学

生网络整体进行训练，以防止破坏其中潜藏的结构化知识.1.3 模型的形式化描述

算法1 特征图自适应知识蒸馏.

输入:W T ,W S ,W A F ,W A B ,n ,m ,i ,j ,g ,L P ,L H ,X ,y p r e d ;

输出:W **S ；步骤1)使用{W A F ,W A B }替换{W T i , ,W T j

}，构建自适应教师；步骤2)W A F **,W A B **,W T **j +1, ,W T **n ѳa r g m i n L P ({W T 1, ,W T i -1,W A F ,W A B ,W T j +1,

,W T n }p r e d ,y p r e d )，其中W T 1, ,W T i -1被冻结,W T j +1, ,W T n 学习率受限；步骤3)W S *1,W S *2, ,W S *g ѳa r g m i n L H ({W T 1, ,W T i -1,W A F }p r e d ,{W S 1,W S 2, ,W S g }p r e d )

；步骤4)W S *g +1,W S *g +2, ,W S *m ѳa r g m i n L P ({W S *1, ,W S *g ,W S g +1,

,W S m }p r e d ,y p r e d )；步骤5)W **S ѳa r g m i n L P ({W S *1, ,W S *m }p r e d ,y p r e d )

，采用小学习率进行微调.使用算法1对特征图自适应知识蒸馏模型进行形式化描述.该算法以预训练的教师网络权重W T ,

随机初始化的学生网络权重W S ，随机初始化的特征图适配器的权重(其前㊁后两部分的权重分别记为W A F 和W A B )，教师网络层数n ，学生网络层数m ，教师网络标注块开始与结束对应的层索引i 和j ，学生网络提示断点对应的层索引g ，推断损失L P ，隐藏层提示损失L H ，输入数据X ，标签y p r e d 为输入.

定义{W 1,W 2, ,W k }为权重W 1,W 2, ,W k 对应层,{W 1,W 2, ,W k }p r e d 为其对应输出,W *k

为W k 的中间训练结果,W **k 为其最终训练结果.2 实验验证

2.1 数据集

本文采用在计算机视觉表示学习中广泛使用的数据集c i f a r -

10进行实验验证.该数据集为图像分类数据集，种类覆盖了客观世界中常见的物体，例如飞机㊁汽车和鸟等.数据集c i f a r -

10的尺寸为32ˑ32ˑ3；类别数为10；训练集为50000；测试集为10000.2.2 实验过程2.2.1 网络架构

本文采用M u x N e t [2]作为教师网络，该网络预先经过训练.通过对R e s N e t 20[1]进行修改实现学生

网络的架构：在网络的分类器前增加一个残差模块，并使用G h o s tM o d u l e 替换所有的卷积层.修改后的网络为轻量级网络，且具有高精度推断潜力.教师网络和学生网络架构如图4所示，其中标明了教师网络待替换模块和学生网络迁移断点.学生网络的参数列于表1，其中G h o s tB a s i cB l o c k 为G h o s t

88 第4期吴致远，等：特征图自适应知识蒸馏模型

本文发布于:2023-05-05 14:21:36，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/fan/90/96781.html

上一篇：人教版高中英语选修8重点词词性转换

下一篇：if sustainable competitive完型答案

标签：网络特征学生教师

留言与评论（共有 0 条评论）