电力系统及其自动化学报Proceedings of the CSU -EPSA
第33卷第1期2021年1月
Vol.33No.1Jan.
2021
小样本条件下基于卷积孪生网络的变压器故障诊断
朱瑞金1,郝东光2,胡石峰1
(1.西藏农牧学院电气工程学院,林芝860000;2.国网西藏电力有限公司,林芝860100)
摘要:为提高小样本条件下变压器故障诊断的准确率,提出了一种小样本条件下基于卷积孪生网络CSNN (con⁃volutional Siame neural network )的变压器故障诊断方法。利用具有强大特征提取能力的卷积层和池化层来构建孪生网络将原始数据映射到低维空间。并基于欧式距离进行相似度的对比,从而实现故障的分类。仿真结果表明,CSNN 比传统方法更加适合小样本条件下的变压器故障诊断,利用卷积层和池化层来构建孪生网络比仅用全连接层来构建孪生网络会收获更高的准确率。关键词:变压器;故障诊断;小样本;孪生网络中图分类号:TM41
文献标志码:A
文章编号:1003-8930(2021)01-0064-06
DOI :10.19635/jki.csu -epsa.000503
Transformer Fault Diagnosis Bad on Convolutional Siame Network with Small Samples
ZHU Ruijin 1,HAO Dongguang 2,HU Shifeng 1
(1.School of Electrical Engineering ,Tibet Agriculture and Animal Husbandry University ,Linzhi 860000,
China ;2.State Grid Tibet Electric Power Company ,Linzhi 860100,China )
Abstract:To improve the accuracy of transformer fault diagnosis with small samples ,a transformer fault diagnosis method bad on the convolutional Siame neural network (CSNN )is propod under the condition of small samples.The convolutional and pooling layers with a strong feature extraction capability are ud to construct the Siame net⁃work ,thereby mapping the original data to a low -dimensional space.In addition ,the similarities are compared bad on the Euclidean dista
nce to achieve fault classification.Simulation results show that compared with the traditional meth⁃ods ,the convolutional Siame network is more suitable for the transformer fault diagnosis with small samples ,and the Siame network constructed by convolutional and pooling layers will achieve higher accuracy than that constructed on⁃
ly by fully -connected layers.
Keywords:transformer ;fault diagnosis ;small samples ;Siame network
变压器是发电厂和变电所的主要设备之一。变压器的运行状态关系到整个电力系统的稳定性,倘若其发生故障会引发局部或者大面积停电,造成巨大的经济损失。因此,对变压器故障做出准确地及时诊断对于电力系统的安全运行具有重要意义[1]。
变压器故障诊断主要包括特征提取和模式识别两个步骤。特征提取的质量对于分类准确率有着至关重要的作用,已有的方法主要包括三比值法、Rogers 比值法、大卫三角形法及Dornenburg 比值法[2-3]。这些方法是以溶解气体分析DGA (dis⁃solved gas analysis )为基础,通过四则运算构建人工特征,具有方法简单、容易实现的特点,因而在实际应用中发挥了重要的作用。然而,这些方法需要依靠专家经验选择特征,特征提取的过程没有统一的
理论依据,总结的特征个数有限,不具有普适性。模式识别指的是对提取的特征进行分析以诊断出变压器的故障类型。传统的方法主要包括支持向量机SVM (support vector machine )、贝叶斯网络、k 近邻、模糊集理论、多层感知机MLP (multi -layer per⁃ceptron )和XGBoost 算法[4-7]。其中:SVM 处理小样本数据集的速度较快,但由于它的本质是一个二分
类器,对于变压器故障诊断这种多分类问题,它的准确率不高;贝叶斯网络在使用时需要预先设定先验概率,可能会由于假设的先验概率不够准确而导致分类的效果不好;MLP 虽然有着较强的学习能力,但它容易出现过拟合现象,而且特征提取能力有限;XGBoost 是一种常用的集成学习方法,通过训练多个分类器提高分类的准确率,但它的参数太
收稿日期:2019-12-08;修回日期:2020-05-20
网络出版时间:2020-06-2916:53:43
基金项目:国家自然科学基金资助项目(51667017);西藏自治区教育厅高校重点实验室-电气工程实验室支持项目(2019D -ZN -02)
朱瑞金等:小样本条件下基于卷积孪生网络的变压器故障诊断·65·第33卷
多,存在着调参困难的缺陷。总的来说,虽然这些传统方法适用于小样本数据集的变压器故障诊断,
但各个方法的特征提取能力不足、分类的准确率有待提升。
近年来,深度学习发展迅猛,在国内外都引起了广泛的关注,也给变压器故障诊断带来了新的研究思路[8]。已有的基于深度学习的变压器故障诊断方法主要包括自动编码器、深度信念网络和深度卷积网络[9-11]。尽管这些深度神经网络相对于传统模式识别的方法具有更高的诊断准确率,但它们都需要海量的样本来训练网络,对于小样本数据集难以奏效。特别的,卷积孪生网络CSNN(convolutional
Siame neural network)是一种基于相似性度量的方法,可以对少量标签样本进行有效的学习,从而获得对未知样本的判别能力[12]。目前,CSNN在人脸匹配、签名验证、语义相似度分析及视觉跟踪等领域得到了广泛地应用,但在电力系统故障诊断中的应用还相对较少[13-14]。如何根据变压器的溶解气体数据特征设计出一种具有强大特征提取能力和较高诊断准确率的网络结构有待进一步的研究。
针对已有的变压器故障诊断方法对于小样本数据集的准确率不高的问题,提出了一种小样本条件下基于CSNN的变压器故障诊断方法,所提方法的主要优势在于:
长春景区(1)在特征提取环节,具有强大特征提取能力的卷积层和池化层被用来构建孪生网络将原始数据映射到低维空间,不仅可以实现特征的自动提取,还能避免人工提取特征的主观和繁琐;
有加
(2)在模式识别环节,不同于已有的深度学习方法都需要训练一个分类器(比如,SoftMax),所提
的CSNN是在低维空间基于欧式距离进行相似度的对比,从而实现故障的分类,这给基于深度学习的故障诊断提供了新的研究思路;
(3)所提方法只需要通过少量标签样本就能获取到多种故障类型的共通特征,并用于预测未知样本的故障类型。在小样本条件下,所提方法相对于已有方法具有更高的准确率。
1基于CSNN的变压器故障诊断方法
导购1.1CSNN的原理
传统的分类方法(比如SVM)需要确切的知道每个样本属于哪个类型。在类型的数量过多,每个类型的样本数量又相对较少的情况下,这些方法的准确率会大打折扣。出现这种现象的原因是对于整个数据集来说,每个类型的样本数量太少,用传统的分类方法难以训练出好的分类器。为了解决小样本数据集的分类问题,有学者提出了基于相似性度量的CSNN。从数据中去学习一个相似性度量,并用这个学习出来的度量去比较和匹配新的未知类别的样本[15]。
CSNN的结构如图1所示,CSNN的训练和预测过程都需要成对的变压器故障样本(归一化后的溶解气体特征序列)作为输入,通过相同权重的神经网络将输入数据映射到低维空间,在低维空间使用简单的距离(比如欧式距离)进行相似度的对比。在训练阶段,CSNN的目标是去最小化来自相同类型的一对变压器故障样本的损失函数值,并最大化来自不同类型的一对变压器故障样本的损失函数
值。一般的,卷积网络的输出值是G
W(X),其中W 是神经网络的权重参数,X是输入的样本数据。训练的目标就是优化权重W使得当X1和X2属于不同一个故障类型的时候,相似度是一个较大的值,X1和X2属于同一个故障类型的时候,相似度是一个较小的值。
从图1可以看出,左右两边的网络是完全相同的网络结构,它们共享相同的权重W,输入数据为一对变压器故障样本(X1,X2,Y),其中Y=0表示X1
图1CSNN的结构
Fig.1Structure of Siame network
溶解气体
特征序列
特征序列
共享
权重
低维向量
能量函数
特
征
值
(
p
.
u
.
)
X1X2
13579
1
特征序列
特
征
值
(
p
.
u
.
)
13579
1
W
低维向量G
W(X2)
W
G
W(X1)
E
W
G
W(X1)-G W(X2)
电力系统及其自动化学报·66·
第1期
和X 2属于同一个故障类型,Y =1则表示不是同一
个故障类型。针对两个变压器故障样本X 1和X 2,分别映射到低维空间G W (X 1)和G W (X 2)。得到的这两个输出结果将被用于计算能量函数E W (X 1,X 2),若能量函数小于阈值,则认为输入的两个样本属于同类故障。能量函数的表达式为E W (X 1,X 2)= G W (X 1)-G W (X 2)(1)对比损失(contrastive loss )函数和输入样本、参数有关,它的形式为
ì
íî
ïïïïïïïïLoss(W )=∑i =1P
L (
)W ,()Y ,X 1,X 2i L (
)
W ,()Y ,X 1,X 2i =()1-Y L G (
)
E W ()X 1,X 2i
+T T =YL I (
)
E W ()X 1,X 2i (2)式中:P 为输入的总样本数;i 为当前样本的下标;L G 为两个样本为同类型时的损失函数;L I 为两个样本为不同故障类型时的损失函数;
Y 为X 1和X 2是否属于同一类故障。通过这样分开设计,可以使
得最小化损失函数的时候,可以减少相同类型故障
样本对的能量,增加不同类型故障样本对的能量。为了实现这种效果,只需要将L G 设计成单调增加,让L I 单调递减即可。根据文献[12],设计单个故障样本的损失函数为
L (W ,Y ,X 1,X 2)=()1-Y 2Q
()E W 2
+Y 2Q e
-2.77Q E W
(3)
式中,Q 为一个常量,这个损失函数的收敛证明见
文献[12]。1.2
CSNN 的结构
由于卷积神经网络CNN (convolutional neural
network )具有强大的特征提取能力,在图像识别、稳
定性评估和模式识别等领域得到了广泛地应用[16]。因此,卷积神经网络被用来构建孪生网络将溶解气体数据映射到低维空间。
卷积神经网络主要由卷积层、池化层及全连接层FC (fully -connected layers )组成。卷积层的主要操作是对上一层的输出数据进行卷积运算,并加上偏置向量作为下一层的输入数据,其表达式为
y i =f i ()
x i ∗w i +b i (4)式中:y i 为第i 层的输出数据;f i 为第i 层的激活函数(这里取线性整流函数ReLU );x i 为第i 层的输入数据;
w i 为第i 层卷积核的权重;b i 为第i 层卷积核的偏置向量;*为卷积运算符号。
采样层对卷积层输出的数据进行下采样操作,
只保留关键的特征以降低数据的维度。如图2所
示,
池化方式有最大池化和平均池化,其数学表达式为ìíî
ïïy ′max =max i ,j ∈R
()
y i ,j y ′
mean =mean i ,j ∈R ()
y i ,j
(5)式中:R 为池化的区域;y ′
max 为最大池化层输出的
数据;y ′
mean 为平均池化层输出的数据。
池化层的后面一般是平坦层,将池化层输出的多维数据转变成一维向量作为全连接层的输入数据。全连接层输出的就是低维空间的数据,将被用于计算相似度。其表达式如下:y ″i =g i ()y ′i w ″i +b ″i (6)式中:
y ″i 为第i 个全连接层输出的数据;y ′i 为第i 全连接层输入的数据
(也是池化层的输出结果);w ″i 和b ″i 分别为第i 个全连接层的权重和偏置向量;g i 为第i 个全连接层的激活函数(这里取线性整流函数ReLU )。
对于小样本数据集,训练的神经网络容易出现
过拟合现象。为了缓解这个问题,
在卷积层后面插入“Dropout ”层。它的作用是以一定的概率让神经元停止工作,有利于提高模型的泛化能力。
缺嘴
1.3CSNN 的流程
基于CSNN 的变压器故障诊断过程主要包括4
个步骤,如图3所示。
(1)特征的选择。变压器在正常运行时,固体绝缘和绝缘油都会被分解并释放出微量的气体,主要包括乙炔C 2H 2、乙烷C 2H 6、甲烷CH 4、氢气H 2、乙烯C 2H 4、二氧化碳CO 2和一氧化碳CO 。当变压
器发生绝缘受潮湿、低能发电和高温过热等异常现
象时,这些气体含量会迅速地剧增,大部分溶解在绝缘油中,少部分会上升到绝缘油的表面进入继电器。通过溶解气体分析可以为变压器的故障诊断提供重要依据。因此,本文以溶解气体H 2、
CH 4、图2不同的池化方式Fig.2
Different pooling modes
67
678
12
34
5812345
朱瑞金等:小样本条件下基于卷积孪生网络的变压器故障诊断
·67·
第33卷C 2H 6、C 2H 4和C 2H 2的含量作为原始特征,再加上
Rogers 比值法构建的4个特征[10]
,一共9个特征,作为CSNN 的输入。
(2)数据预处理。考虑到各个特征的单位和数量级不一样,如果不对原始特征进行归一化,在后续的模型训练过程中可能会出现准确率低或者难以收敛的现象。因此,在把数据作为CSNN 的输入前,将其映射到[0,1]区间,其数学表达式为x ′
=()x -x min /()
x max -x min (7)
式中:x 、x ′
分别为归一化前、后的数据;x min 、x max 分别为该特征的最小值和最大值。
(3)CSNN 的训练。在模型的训练阶段,初始化
CSNN 的结构和参数,将标签样本以成对的形式输入到模型中。通过前向传播,计算出模型输出数据和预期目标的误差。判断模型是否收敛,若收敛则训练结束,输出训练好的CSNN 用于诊断未知样本的故障类型。否则,利用误差反向更新网络的权值
和阈值。
(4)未知样本的故障诊断。在故障诊断阶段,将未知样本和每一个标签样本组成样本对。将样本对作为CSNN 的输入数据,若这个样本对的欧式
距离小于阈值,则认为它们是同类。统计这个未知样本属于每一类故障的概率,将这个样本归到概率最高的那一类中。
2算例分析
为了说明CSNN 诊断变压器故障的有效性,采
用衡水市和上海市供电公司的实际数据集进行仿真验证[17]。经过清洗后,数据集包括535个样本,一共9种状态分别是正常、低能放电、高能放电、高温高热、低温过热、中温过热、局部放电、高能放电兼过热及低能放电兼过热。训练集占总样本个数的60%,验证集和测试集各占20%。训练集和验证集用来训练CSNN ,测试集用来分析CSNN 的性能。
所有方法均在带有TensorFlow 的Spyder 平台下运行。通过对CSNN 的结构和参数进行多次试探,最优模型如图4所示。CSNN 的输入样本是一对维度是1×9的溶解气体特征序列。通过Python 自带的Reshape 函数将向量重构成3×3的矩阵作为卷积层的输入。经过多个卷积层、池化层和全连接层的处
理后,输出1×8的向量用于这对样本的计算欧式距离。模型细节如下:两个卷积层的卷积核个数依次是16和36,卷积核大小都是2×2;最大池化层的池化窗口大小是2×2。卷积层和池化层的激活函数都是ReLU ;在两个卷积层后面插入一个Dropout 层以缓解过拟合,Dropout 层的概率设置为0.2;全连接层的神经元个数是8,激活函数是ReLU 。
图3
变压器故障诊断的流程
Fig.3
Flow chart of transformer fault diagnosis
模型训练阶段
图4
卷积CSNN 的结构
Fig.4
Structure of convolutional Siame network
溶解气体特征序列
特征序列特征值(p .u .)13579
1
0.5特征序列特征值(p .u .)
1357910
0.51×9
溶解气体特征序列
1×9
3×3
16×2×2
16×1×1
36×1×1
1×36
1×8
3×3
16×2×2
16×1×1
36×1×1
描写秋天的1×36
1×8
Conv2D
MaxPool2D
Conv2D
Flatten
FC
欧式距离
电力系统及其自动化学报·68·
第1期
为了分析CSNN 的训练状态是否稳定,图5展示了损失函数随着迭代次数增加的变化情况。
显而易见,验证集和训练集的损失函数随着迭代次数的增加而减小。当迭代次数大于80时,CSNN 的损失函数趋于平稳不再继续下降,这表明该网络已经收敛。此外,对比训练集和验证集的损失函数发现它们的损失函数非常接近,这说明网络的泛化能力较强,没有出现过拟合现象。
为了分析CSNN 的批尺寸(Batch size )对于分类
准确率的影响,分别设置批尺寸为5、10、20、40、60、80、100和120,统计出测试集的准确率如图6所示。为了分析CSNN 的阈值对于分类准确率的影响,分别设置不同阈值,统计测试集的准确率如图7所示。
由图7可知:(1)当阈值比较小的时候,被
CSNN 判定成和未知样本同类的已知样本个数会很少。若阈值足够小,这个未知样本会被归到和它距离最近的那个样本所属的故障类型中。从仿真结果来看,阈值较小时,准确率不高;(2)相对的,如果阈值很大,被CSNN 判定成和未知样本同类的已知样本个数会很多。这个未知样本很有可能会被归
到拥有最多样本的故障类型中,此时的准确率很有限。当阈值设定0.3的时候,模型的分类准确率达到最高。
为了验证所提方法的有效性,分别统计CSNN 、基于全连接层的孪生网络FSNN (fully connected neural Siame network )、SVM 、XGBoost 、MLP 及CNN 在不同输入特征下,对于测试集的准确率如表
1所示。
由表1可知:(1)根据输入特征的不同,变压器二十四节气立春
故障的诊断准确率按IEC 比值法、Rogers 比值法和本文的特征依次提升,这说明这些比值法虽然在包
含了原始数据大部分信息的前提下,在一定程度上
减小了输入特征的维度,但也损失了部分准确率;(2)相对于SVM 、XGBoost 、MLP 和CNN 而言,孪生
网络有着更高的分类准确率。进一步对比两个孪生网络的准确率,发现利用卷积层和池化层来构建孪生网络比仅用全连接层构建来孪生网络会收获更高的准确率,这是因为卷积层比全连接层具有更强大的特征提取能力。
为了进一步测试本文所提CSNN 、FSNN 、SVM 、
XGBoost 、MLP 和CNN 在不同数据量下的分类准确率,设置了4种仿真场景,如表2所示。4种仿真场景统计出测试集的准确率如表3所示。
图5CSNN 的训练过程
Fig.5
Training process of Siame network
0.50.40.30.20.10
迭代次数
损失函数(p .u .)
200
40
80120160
训练集验证集
图6
不同批尺寸的准确率
Fig.6
Accuracy with different batch sizes
0.850.800.75
批尺寸
准确率
120
20
40
60
100
80
图7
不同阈值的准确率
Fig.7
Accuracy with different thresholds
0.850.800.750.70
阈值
0.1
准确率
0.8
0.2
0.3
0.40.6
0.50.7
表1不同方法的准确率
Tab.1
Accuracy of different methods
方法
CSNN FSNN SVM XGBoost MLP CNN
IEC 比值法78.276.257.063.169.270.7
Rogers 比值法
80.377.061.065.770.572.0
本文的特征
83.279.869.568.073.175.3
%
表2
不同场景的样本个数
Tab.2
Numbers of samples in different scenarios
场景1234
交通标示牌
训练样本315252188124
验证样本110896846
测试样本110896846
总个数535430324216
表3
不同场景的准确率
Tab.3
Accuracy in different scenarios
猫扑贴贴
场景1234
CSNN 83.282.980.278.8
FSNN 79.978.972.171.2
SVM 69.568.962.850.6
XGBoost 68.066.858.355.0
MLP 73.273.461.650.1
CNN 75.474.363.150.1
%