一种域转移的自监督机器异常声音检测方法
1.本发明涉及计算机技术领域,尤其涉及一种域转移的自监督机器异常声音检测方法。
背景技术:
2.异常声音检测任务是通过机器发出的声音来判断机器是否故障,利用正常声音信号来训练模型,从而使模型学习到更好的概率分布,拟合异常声音信号,检测出异常声音信号,进行机器的故障检测。但是在实践训练场景中由于机器运行条件的物理参数变换,引起正常声音信号的波动,导致正常声音信号检测为异常声音。
3.最近大量的基于深度学习的自监督异常声音检测方法被应用于检测任务。它们主要分为基于自编码器方法、基于流的自监督密度估方法和自监督分类方法。基于自编码器的方法是先通过编码器将输入特征映射到低维度向量,再由解码器将低维度向量空间中的特征向量还原为输入特征,虽然该类方法在检测的时候有效,但是在训练过程涉及异常或不平稳的声音信号,这类方法将会得到很大的限制;基于流的自监督密度估方法通过使用归一化流来区分该机器身份的正常声音信号和异常声音信号,从而提高了模型检测单类机器异常声音的效果。但是该类方法需要对每一类机器下不同机器身份进行同一分布采样,导致该类方法的检测稳定性有限,自监督的检测方法是将所有的机器类型和机器身份一起传入模型进行训练,并采用对数似然或分类置信度计算异常分数,虽然该类方法在性能上比基于自编码器的方法和基于自监督密度估的方法更好,但是该类方法对于声音信号的域偏移特征学习能力不高,导致检测效果不稳定。
技术实现要素:
4.本发明的目的在于提供一种域转移的自监督机器异常声音检测方法,旨在解决现有检测方法学习不同域转移的声音特征,检测效果不稳定的问题。
5.为实现上述目的,本发明提供了一种域转移的自监督机器异常声音检测方法,包括以下步骤:
6.分别设计时频域特征提取网络、动态图卷积网络和域自适应网络;
7.通过所述时频域特征提取网络捕获所述特征向量的空间特征信息和时域交互的特征信息,得到特征向量;
8.通过所述动态图卷积网络捕捉所述特征向量的域转移之间的依赖关系;
9.基于所述依赖关系通过所述域自适应网络补偿所述特征向量,得到检测结果。
10.其中,所述通过所述时频域特征提取网络捕获所述特征向量的空间特征信息和时域交互的特征信息,得到特征向量的具体方式:
11.利用短时傅里叶变换和对数梅尔提取所述特征向量的时域特征;
12.利用所述时序特征网络捕获短时傅里叶变换和对数梅尔谱丢失的时域特征,并将丢失特征和时频域特征进行了相加,传入令牌转换器网络;
13.将所述时频域特征传入所述令牌转换器网络进行空间变换和空间关系的建模,得到特征向量。
14.其中,所述通过所述动态图卷积网络捕捉所述特征向量的域转移之间的依赖关系的具体方式:
15.利用不变域转移模块从所述特征向量针对机器id间的粗标签依赖关系进行感知建模,得到感知模型;
16.基于所述感知模型利用可变域转移模块捕获机器id内的域转移特征之间细微关系。
17.其中,所述通过所述域自适应网络补偿所述特征向量的具体方式:
18.计算不同域转移下的所述特征向量之间的二阶协方差距离,得到距离差;
19.利用反向梯度传播算法减少所述距离差。
20.其中,所述计算二阶协方差距离时,定义源域特征和域转移后的目标特征。
21.本发明的一种域转移的自监督机器异常声音检测方法,分别设计时频域特征提取网络、动态图卷积网络和域自适应网络;通过所述时频域特征提取网络捕获声音信号的空间特征信息和时域交互的特征信息,得到特征向量,提高了域转移下机器异常声音检测的性能稳定性,通过所述动态图卷积网络捕捉所述特征向量的域转移之间的依赖关系,提高了模型对域转移特征感知能力,加深了模型对域转移特征的敏感度,通过所述域自适应网络补偿所述特征向量,能补偿由于域移动造成的模型性能下降,提高了自监督环境下模型对异常声音的域转移自适应能力,解决现有检测方法学习不同域转移的声音特征,检测效果不稳定的问题。
附图说明
22.为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
23.图1是本发明提供的一种域转移的自监督机器异常声音检测模型示意图。
24.图2是本发明提供的特征提取网络结构图。
25.图3是本发明提供的特征提取网络示意图。
26.图4是发明提供的transformer示意图。
27.图5是发明提供的动态图卷积网络的总体架构。
28.图6是发明提供的transformer和时序特征网络的语谱图。
29.图7是发明提供的各模型的时频域特征可视化示意图。
30.图8是发明提供的使用了t-sne对模型提取的特征图进行了可视化示意图。
31.图9是本发明提供的一种域转移的自监督机器异常声音检测的流程图。
具体实施方式
32.下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附
图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。
33.请参阅图1至图9,本发明提供一种域转移的自监督机器异常声音检测方法,包括以下步骤:
34.s1分别设计时频域特征提取网络、动态图卷积网络和域自适应网络;
35.s2通过所述时频域特征提取网络捕获声音信号的空间特征信息和时域交互的特征信息,得到特征向量;
36.具体方式:
37.s21利用短时傅里叶变换和对数梅尔提取所述特征向量的时域特征;
38.具体的,采用了短时所述傅里叶变换和所述对数梅尔频谱对所述声音信号 xv∈r1×
t
进行变换,并得到了合适大小的时频域特征,表达式如下所示:
[0039][0040][0041]
其中h(t)为窗函数。g(t,f)为关于时间t和频率f的时频域特征。表示梅尔过滤器组,i表示频谱特征的维度,b表示通过短时傅里叶变换得到的频谱图频率箱数。xm表示对数梅尔频谱增强后的时频域特征。
[0042]
s22将所述时域特征传入时域特征提取网络进行空间变换和空间关系的建模,得到特征向量。
[0043]
具体的,然后利用所述时序特征网络捕获短时傅里叶变换和对数梅尔频谱异常丢失的时域特征,并将丢失特征进行了相加,传入令牌转换器网络,最后利用所述令牌转换器网络对时频域特征进行局部和全局的自适应特征的空间变换和时空关系内在联系建模。
[0044]
其中,时序特征网络:短时傅里叶变换和对数梅尔频谱提取时频域特征容易丢失声音中异常的时序信息。tgramnet网络从声音信号xv中弥补缺失的时序信息。虽然tgramnet采用了大核的一维卷积进行时序特征提取,但是一维卷积在长序列中难以发现可靠的时序特征依赖关系。近期etdnet使用transformer 来捕捉时序特征之间的依赖关系,但是transformer使用稀疏注意力机制,在计算量上不仅具有二次复杂度,而且不能充分对声音信号的时序特征进行局部和全局关系建模。因此,我们提出时序信号处于不同周期时相同位置的子序列往往具有相同的趋势,可以根据子序列的相似性来捕捉时序特征的理论依据。于是我们设计了时序特征网络网络,如图2所示,该网络能以更少的计算量,更好利用子序列的相似度捉到异常时序特征。在时序特征网络网络中,首先利用了一维卷积将声音信号沿着时间维度进行编码。然后使用自相关编码模块来汇聚相似的子序列信息并代替transformer中点向连接自注意力机制。该机制不仅将编码后的声音信号进行了内在时间特征相似性特征捕捉,而且使计算量下降为o(l log l),其表达式如下所示。
[0045][0046][0047]
[0048]
其中arg topk(
·
)表示获取k个自相关子序列的参数。表示根据时间窗口滑动k个周期长度的子序列τ1,
…
,τk。是时间序列q和k之间的自相关权重。表示对齐周期、相位相似的子序列。
[0049]
最后,对于长度维l的编码后的声音序列xa∈r
l
×c,利用了series decompblock提取输入的高阶时间信息和模型中间隐藏的高阶时间信息,其表达式如公式如下所示。
[0050]
xs=avgpool(padding(xa))
[0051]
x
l
=x
a-xs[0052]
其中xs∈r
l
×c表示时间序列的短期波动,padding表示使用滑动窗口的方式对声音序列特征两端的补0,avgpoo表示全局平均池化操作,x
l
∈r
l
×c表示时间序列的周期性波动。另外,我们同样在时序特征网络网络按照transformer的设计加入了带全连接的前馈网络层,使网络更好地将提取时序特征聚类到一起。
[0053]
其中,令牌转换器:特征提取网络在提取时频域特征时旨利用更少的参数量就能够对输入的时频域特征充分进行全局和局部信息建模,因此我们设计了所述令牌转换器网络,如4所示。在时频域特征局部空间信息建模中,我们采用了focus模块将时频域特征xm∈rh×w×c投影到高维空间x
l
∈rh×w×d(
d>c
)。为了使所述令牌转换器能够具有空间归纳全局表示能力,我们将x
l
展开为xu∈r
p
×n×d,从而使模型不丢失时频特征的patch间顺序。其中p=wh,n=hw/p为patch的个数, h和w分别为patch的高度和宽度。另外,我们为了不丢失patch内token之间的空间顺序,我们使用token learner结构,该结构使用了空间注意力机制计算 patch中的tokens间的空间权重,并选取t个重要的tokens进行建模。最后通过应用transformer编码patch间的关系对和patch内的tokens关系对,进行时频域特征的全局信息关系建模,其表达式方式如下所示。
[0054]
xg(p)=transformer(tokenlearner(xu(p))),1≤p≤p
[0055]
另外,我们为了促进模型捕获更多域转移表征,我们在tranformer中的多层感知器(mlp)模块引入通道注意力机制,如图5所示。该方式能对transformer 聚合后特征的通道进行更全面的考虑,充分利用通道的分组信息挖掘更多的域转移表征。对于transformer的输出特征,我们利用tokenfuser模块将xg=r
p
×n×
t
映射为xg=r
p
×n×d并将xg折叠为xf∈rh×w×d作为令牌转换器的输出。
[0056]
s3通过所述动态图卷积网络捕捉所述特征向量的域转移之间的依赖关系;
[0057]
具体方式:
[0058]
s31利用不变域转移模块从所述特征向量针对机器id间的粗标签依赖关系进行感知建模,得到感知模型;
[0059]
具体的,所述不变域转移模块gcn(idt-gcn),构建一个静态的gcn模块,该模块从提取的特征图中针对机器id间的粗关系进行内容感知建模。
[0060]
其中,在idt-gcn中我们利用了传统的gcn定义我们模型中静态gcn, 并计算机器id标签的粗依赖关系。给定一组特征f∈rc×d作为输入节点,利用相关矩阵m
sc
×c和状态更新矩阵计算机器id间的粗关系。idt-gcn计算方式如公式如下所示。
[0061]
s=δ(msfws)
[0062]
其中ms和ws是通过梯度下降算法随机初始化。ms是对所有声音的时频域特征都是共享权重值,所以我们的目标是使ms能够捕获到不同机器id间的全局粗分类依赖关系。δ表
示leakyrelu激活函数。
[0063]
s32基于所述感知模型利用可变域转移模块捕获机器id内的域转移特征之间细微关系。
[0064]
具体的,所述可变域转移模块gcn(vdt-gcn)构建了一个动态的gcn模块,该模块从idt-gcn模块输出的内容感知特征捕捉机器id内面向域转移特征的细微依赖关系。
[0065]
其中,在vdt-gcn模块中,我们根据输入特征s自适应估计相应的md矩阵。因为每类机器id的不同的域转移特征具有不同的md矩阵,所以md矩阵可以使不同域转移的条件下模型也能有较好地提取特征能力。vdt-gcn的计算方式如公式如下所示。
[0066]
p'=δ(mdswd),where md=sigmoid(was')
[0067]
其中为更新的权重值,是构造动态关联矩阵md的卷积层的权重值。s'由s和sg∈r
d1
串联得到,sg由全局平均池化层(gap)和卷积层计算得到。
[0068]
最后我们通过生成的标签p',利用交叉熵损失函数更新特征f,使特征f能够精确捕捉域转移之间的依赖关系,计算方式如公式如下所示。值得注意的是 dy-gcn只用来在训练时更新特征,模型在预测时候不使用。
[0069][0070]
s4通过所述域自适应网络补偿所述特征向量。
[0071]
具体的,在异常机器声音检测中,训练集和测试集因存在不同的域偏移情况,导致两者混合密度分布不同,从而使模型容易把正常声音信号检测为异常声音信号,我们希望最终学习到的特征能够在测试集上也能很好的应用。传统的解决方法利用相对熵、布雷格曼散度和对比学习来估计其分布密度。上述方法在一定程度能学习到低水平特征的域不变性,但是它们还是容易受到域变换的影响,且计算复杂,效率不高。因此我们设计了自适应网络(dan),使模型能够最小化源特征和目标特征之间的二阶统计差异。在该网络中,我们首先从训练集中随机抽取出面向不同域转移的相同机器id声音信号,然后对不同域转移的声音信号进行数据增强操作,使相同的机器id拥有更多的不同域转移的特征,最后计算面向不同域的特征向量的二阶协方差,并将距离差利用反向梯度传播算法减少不同域偏移特征间的距离。
[0072]
数据增强:我们利用了多种转换来生成更多的域转移的声音信号。例如采用音高偏移器来增加或减少声音信号的音高;采用时间转移器随机向前或向后移动声音信号;采用时间拉升器改变声音信号的速度;采用高斯白噪声注入声音信号;采用了增强过滤器在频带上应用不同的权重来模拟声学滤波器。
[0073]
具体方式:
[0074]
s41计算不同域转移下的所述特征向量之间的二阶协方差距离,得到距离差;
[0075]
具体的,所述计算二阶协方差距离时,定义源域特征fs={f
si
}和域转移后的目标特征f
t
={f
ti
},计算方式如公式如下所示:
[0076][0077]
[0078][0079]
其中c表示特征的协方差矩阵,n表示输入的目标域和源域特征的数量,d表示特征向量的维度。
[0080]
autoencoder损失函数(ae loss)已经被广泛使用,并在asr的任务上取得了出的表现。在本文中,为了能够使模型能够自适应的域偏移后的声音特征,我们在模型上也加入了ae loss,计算方式如公式如下所示。
[0081][0082]
其中xm为短时傅里叶变换和对数梅尔频谱提取时频域特征。为 autoencoder重建后的特征。l
mse
表示均方差损失函数。
[0083]
在本文中为了使域间的声音特征更紧凑,我们使用了arcface中的additiveangularmargin损失函数(aam loss)来更新特征,并获得高度可辨别的特征,其中aam loss的计算公式入如下所示。
[0084][0085]
其中aamloss将特征f分布在半径s的超平面上学习机器id内的域间相似性和机器id间差异性,并执行更高的特征嵌入优化。
θ
为权重w和特征之间的夹角。最后,在我们将交叉熵损失函数利用polyloss进行了代替。polyloss通过加入了泰勒展开式来拟合声音信号的概率分布,获得了比交叉熵损失函数更好的效果。polyloss的计算方式如下公式如下所示。
[0086]
l
poly
=l
ce
+∈1(1-pc)
[0087]
其中l
ce
表示交叉熵损失函数。∈1表示惩罚系数项,本次任务中我们设置∈1为 1。pc表示真实标签。最终,我们模型的损失函数计算方式如公式如下所示。
[0088]
l
total
=l
ae
+l
gcn
+l
arc
+l
se rco
+l
poly
[0089]
s42利用反向梯度传播算法减少所述距离差。
[0090][0091]
数据集:我们使用了dcase 2020 task2和dcase 2022 task2中的数据集来评估我们方法的有效性。在dcase 2020 task2数据集上有6种机器类型。其中toyconveyor有4种不同的机器id。toycar、fan、pump、slider、valve有3 种不同的机器id。dcase 2022task2数据集上有7种不同的类型机器,7种不同的类型机器包括toycar、toytrain、bearing、fan、gearbox、slider、valve。 dcase 2022每种类型下都有3种不同的机器id。
[0092]
dcase 2022 task2与dcase2020 task2数据集主要表现为以下不同:
[0093]
dcase 2022 task2数据集的训练集和测试集上拥有不同条件的域偏移,而dcase 2020 task2数据集的训练集和测试集拥有相同条件的域偏移。
[0094]
dcase 2022 task2数据集的测试集中将不受域偏移影响的源数据和受域偏移影响的目标数据混合在了一起,并不指定目标数据和源域。而dcase2020task2在测试集中区分了目标域和源域。因此在dcase 2022 task2数据集上检测更加困难。
[0095]
评价指标:评价模型的检测效果的指标,我们选择了area under curve (auc)和部分auc下面积(pauc)来评估模型的性能。其中auc被定义为 receiver operation characteristics(roc)曲线下与坐标轴围成的面积。pauc计算为auc在低假-阳性率(fpr)范围[0,p],p等于0.1。
[0096]
dcase 2020 task2:为了验证我们模型的有效性,我们在表1列出了多种先进模型在dcase 2020 task2上检测所有机器的auc和pauc的结果。从表 1的实验结果可以看出,我们所提出的方法比目前先进的stgram-mfn模型auc 提高了2.32%,pau提高了8.1%,显著提高了对机器异常声音的检测性能,证明了tranself-dygcn模型对不同域转移的时频域特征具有很强的表示能力。
[0097]
dcase 2022 task2:为了充分证明面向不同域偏移条件的声学特征, tranself-dygcn模型也能进行很好地进行异常声音的检测。我们在dcase 2022task2上进行了实验,并与一些先进的方法进行了对比,实验结果如表2所示。从表2可以看出我们的方法在七种机器类型的平均值的auc和pauc分别达到了70.41%和62.46%。虽然tranself-dygcn模型在toycar、toytrain和fan机器类别上与一些先进的模型检测的结果有偏差,例如在toycar类别下,我们的模型相比于基于ae的模型在auc上低了7.89%,pauc低了4.14%,但是我们模型的总体检测效果优于基于ae的模型。从这些结果可以看出,我们的模型能够充分捕捉声音信号的不同域转移时频域特征,能够在异常声音检测任务得到很好的应用。
[0098]
表1在dcase2020 task2数据集上不同类型机器的auc(%)和pauc(%) 的比较。最佳的结果加粗显示。
[0099]
表1
[0100][0101][0102][0103]
表2在dcase2022 task2数据集上不同类型机器的auc(%)和pauc(%) 的比较。最佳的结果加粗显示。
[0104]
表2
[0105][0106][0107]
为了显示我们方法的有效性,我们对提出的模型在dcase2022 task2数据集进行了消融实验验证tranself-dygcn的每个关键组件。(包括损失函数,时序特征网络、令牌转换器,动态图卷积网络(dygcn),域自适应网络(ddn)
[0108]
损失函数:我们首先验证了损失函数对模型预测结果的影响。我们对比了 autoencoder损失函数(ae loss)、additive angular margin损失函数(aamloss)、交叉熵损失函数、focal损失函数和ploy损失函数,对比结果如表3 所示。从表3可以看出,模型中加入aam、ae和poly损失函数auc达到了 70.41%,pauc达到了62.46%,得到的结果在各项指标上均优于其他损失函数的性能。说明加入aam、ae和ploy损失函数能够在一定的程度上增加模型的自适应域偏移能力。
[0109]
时序特征提取网络:为了探究时序特征网络模块的重要性,我们在表4中比较了不同的时序特征提取网络的效果。从这些结果可以看出,在模型添加了时序特征网络,我们模型相比于transformer的auc增加了1.45%,pauc增加了1.5%,证明了时序特征网络能够很好的捕捉异常丢失的时序特征信息。最后我们对加入时序特征网络和transformer提取声音信号的语谱图进行了可视化,如图5所示,我们发现时序特征网络相比于transformer提取的时频域特征不仅更有周期性,而且语义信息更丰富。
[0110]
时频域特征提取网络:为了探究令牌转换器网络模块对时频域特征的建模能力,我们在表5中比较了不同时频域特征提取网络。从表5的第3行可以看出令牌转换器相比于mobilenetv2的auc增加了3.4%,pauc增加了1.24%。从表5的第4行可以看出令牌转换器中加入token learner(tl),令牌转换器的auc增加了1.03%,pauc增加了0.55%,说明token learner能充分编码时频域特征中patch序列对的空间顺序和patch内token序列对的空间顺序。从表 5的第5行可以看出令牌转换器中加入通道注意力,令牌转换器的auc增加了 0.61%,pauc增加了0.6%,说明令牌转换器中加入通道注意力机制(se)能使令牌转换器挖掘出更多的域转移表征。最后,我们对加入通道注意力机制和tokenlearner的令牌转换器、mobilenetv2、transformer建模后的时频域特征信息依赖关系进行了可视化,如图7所
示。从图7可以看出令牌转换器相比于mobilenetv2 和transformer可以更加正确捕获每个周期时频特征的上升和下降过程,并且很少有漏识别和误识别,说明令牌转换器能够更加好的捕获全局结构信息和局部细节特征。
[0111]
dygcn和dan:为了研究dygcn和dan的重要性,我们在表6中对 dygcn和dan进行了实验。从表6第3行可以看出,我们在模型中加入了 dygcn,模型的auc和pauc相比于表6第一行中模型不加入dygcn的模型提高了1.64%和1.98%,说明模型能利用机器id间的内容感知特征捕捉域转移特征间的细微依赖关系。从表6的第4行可看出,我们在tranself-dygcn模型加入dan,模型的auc和pauc相对于表6的第2行中模型不加入dan提高了2.36%和0.99%,说明了dan能使不同域偏移特征间的距离减少。最后,我们对比了加入dygcn和dan的tranself-dygcn模型和没有加入dygcn和 dan的tranself-dygcn模型提取声音信号的特征的差异,并利用t-分布随机邻域嵌入(t-sne)聚类可视化,如图7所示。从图7(a)中可以看出,没有加入dygcn 和dan的tranself-dygcn模型提取的特征存在重叠的现象,而图8(b)中加入dygcn和dan的tranself-dygcn模型提取的特征则更容易区分。这一发现说明模型中加入dygcn和dan能够使模型充分提取出域转移特征。
[0112]
表3模型加入不同损失函数的auc(%)和pauc(%)的比较,最佳的结果加粗显示。
[0113]
表3
[0114][0115]
表4模型加入不同时序特征提取网络的auc(%)和pauc(%)比较,最佳的结果加粗显示。(其中
“‑”
表示不采用任何时序特征提取网络)。
[0116]
表4
[0117][0118]
表5模型加入不同时频域特征提取网络的auc(%)和pauc(%)比较,最佳的结果加粗显示。
[0119]
表5
[0120][0121]
表6模型加入dygcn和dan的auc(%)和pauc(%)比较,最佳的结果加粗显示。(其中
“‑”
表示模型中不加入dygcn和dan)
[0122]
表6
[0123][0124][0125]
图6表示我们对transformer和时序特征网络的语谱图进行了可视化。其中 (a)表示使用transformer提取声音信号的语谱图。(b)表示使用时序特征网络提取声音信号的语谱图。
[0126]
图7各模型的时频域特征可视化。线条1为黄线和线条2为红线表示当前帧的注意力权重。黄线表示当前帧正确的注意力权重,红线表示当前帧错误的注意力权重。
[0127]
图8表示使用了t-sne对tranself-dygcn提取的特征图进行了可视化。其中(a)表示没有加入dygcn和dan的tranself-dygcn提取的特征。(b) 表示加入dygcn和dan的tranself-dygcn提取的特征。不同颜代表不同的机器id。表示正常机器的特征。
×
表示异常机器的特征。
[0128]
以上所揭露的仅为本发明一种专利名称较佳实施例而已,当然不能以此来限定本发明之权利范围,本领域普通技术人员可以理解实现上述实施例的全部或部分流程,并依本发明权利要求所作的等同变化,仍属于发明所涵盖的范围。