本文作者:kaifamei

基于Transformer声谱图特征学习的母牛发情检测方法及装置

更新时间:2025-03-09 23:08:58 0条评论

基于Transformer声谱图特征学习的母牛发情检测方法及装置


基于transformer声谱图特征学习的母牛发情检测方法及装置
技术领域
1.本发明涉及母牛发情检测技术,具体涉及一种基于transformer声谱图特征学习的母牛发情检测方法及装置。


背景技术:



2.随着信息技术时代的发展,越来越多的人工智能技术被应用于智慧农业的发展。养牛业是我国畜牧业的重要组成部分,而且我国牛肉市场的需求连年增加。各肉牛养殖户通过人工授精的方法来扩大自己的养殖规模,为了使受精工作更具有高效性,养牛户需要对肉牛的发情周期做出判断。对母牛发情的检测方法主要是以观察为主,如对母牛激素水平的判断、实时观察以及生殖器触诊。(参见余慧芳的《浅析母牛发情期观察的几个要点》,《畜牧兽医科学》,2018,第6期)。这些方法虽然精度较高,但是要求畜牧人员实时在场,消耗大量的人力物力,并且不能实现远程实时监控。各大养牛企业的一线生产经验表明,母牛发情时具有典型的听觉特征,例如:频繁哞叫,叫声中具有吸引公牛交配的信息。
3.机器学习属于人工智能的一个类目,深度学习是机器学习中一种基于神经网络的数据表征学习方法。声音事件检测是音频模式识别的一个具体领域,其目的是在检测一段音频中,是否出现目标音频事件以及标注其起止时间。这些技术为使用深度学习方法来进行母牛发情的声音事件检测提供了坚实的基础。然而,缺乏标注数据是构建基于监督学习的深度学习模型的一大难题;并且,由于不同养殖环境的复杂度不同,检测的准确率也会受到较大的影响。


技术实现要素:



4.本发明的主要目的在于克服现有技术的缺点与不足,提供一种基于transformer声谱图特征学习的母牛发情检测方法及装置,利用注意力机制对母牛的声音事件进行识别与定位,并据此实现基于声音信号的母牛发情事件检测。
5.为了达到上述目的,本发明采用以下技术方案:
6.本发明一方面提供了一种基于transformer声谱图特征学习的母牛发情检测方法,包括下述步骤:
7.采集母牛声音数据,将声音数据分割为等时长的声音片段,并对所有声音片段进行降噪处理;
8.对降噪后的声音片段进行标注,形成带标签的标准数据集;
9.将标准数据集的声音片段转换为梅尔声谱图,并对梅尔声谱图进行数据增强;
10.构建基于transformer的声谱图特征学习模型,所述基于transformer的声谱图特征学习模型利用多头自注意力机制对数据增强后的梅尔声谱图进行学习,获取梅尔声谱图的深度特征;
11.构建基于通道注意力机制的母牛发情声音事件检测模型,所述母牛发情声音事件
检测模型以梅尔声谱图的深度特征为输入,通过深度学习对深度特征中的时域线索进行分类并串联,实现母牛发情声音事件检测,最终输出发情事件发生的时刻和概率。
12.作为优选的技术方案,所述对所有声音片段进行降噪处理,具体为:
13.输入一段噪音片段样本,通过计算得到噪音片段的频谱,然后从采集的母牛声音数据中减去噪音片段的频谱所对应的特征频率成份,完成降噪处理。
14.作为优选的技术方案,所述标注是将声音片段中的声音事件类别以及起止时间进行标注。
15.作为优选的技术方案,所述对梅尔声谱图进行数据增强,包括:
16.首先采用混淆方法处理梅尔声谱图,然后采用频域与时域掩码方法处理梅尔声谱图,具体过程为:
17.混淆方法:将两段声音片段转化的声谱图按照比例进行叠加,同时将两段声音片段所对应的矩阵也按照同样的比例进行叠加,以扩充训练样本的数量;
18.频域与时域掩码方法:通过掩盖频域通道和掩盖时域通道的方式,对梅尔声谱图的局部信息进行去除,以此增加数据的复杂性。
19.作为优选的技术方案,所述基于transformer的声谱图特征学习模型利用多头自注意力机制对数据增强后的梅尔声谱图进行学习,获取梅尔声谱图的深度特征,具体为:
20.首先,将梅尔声谱图以无重叠方式划分为预设大小的声谱图块,每个声谱图块经过线性变换成为d维度的一维向量,总共有u个d维度的一维向量,将u个d维度的一维向量进行拼接得到维度为[u,d]大小的输入矩阵;
[0021]
随后,输入矩阵与记录每个一维向量在声谱图中对应位置信息的矩阵相加,实现对输入矩阵内的一维向量的位置编码;
[0022]
其次,经过位置编码的矩阵输入多个多头自注意力机制模块中进行计算,自注意力机制的计算公式为:
[0023][0024]
其中q,k,v分别表示自注意力机制中的查询向量、键向量、数值向量,由输入矩阵经过一层全连接层得到,attention(q,k,v)为自注意力机制的输出结果,dk为k的维度,k
t
表示键向量k的转置,softmax为激活函数;
[0025]
最后,自注意力机制的输出是维度为[u,d]大小的矩阵,多头自注意力模块将多个自注意力机制的输出矩阵进行拼接,最后通过线性变换将拼接后的矩阵恢复为[u,d]大小的矩阵,得到描述全局相关性的深度特征。
[0026]
作为优选的技术方案,所述母牛发情声音事件检测模型的计算过程如下:
[0027]
首先,将维度为[u,d]的深度特征进行重塑,重塑后深度特征的维度为[h

,w

,d],使时域线索和频域线索在二维层面上对应,其中h

代表频域线索的数量,w

代表时域线索数量;
[0028]
然后,将重塑后的深度特征输入进通道注意力模块进行运算,得到一个1
×1×
d的矩阵,该矩阵代表深度特征每个通道重要性的权重值,所述通道对应输入矩阵一维向量的维度,对应通道乘以对应权重值,得到通道增强后的深度特征;
[0029]
最后,对通道增强后的深度特征的频域维度通过平均池化进行融合,得到维度为[w

,d]仅表示时域线索的矩阵,对时域线索进行分类得到维度为[w

,c]代表时域线索每个事件类别的概率矩阵,即为声音事件检测结果,其中c为最后分类的类别数量。
[0030]
作为优选的技术方案,所述基于transformer的声谱图特征学习模型和母牛发情声音事件检测模型训练时的二元交叉熵损失函数为:
[0031][0032]
其中,h
p
代表损失函数,yi代表标签向量,如果真实标签被标注为某个事件类别,则该类别在yi向量中对应位置标为1,否则标为0,p(xi)表示预测时域线索是第i类的概率。
[0033]
本发明另一方面提供了一种基于transformer声谱图特征学习的母牛发情检测系统,应用于所述的基于transformer声谱图特征学习的母牛发情检测方法,包括数据采集模块、数据标注模块、数据增强模块、学习模型构建模块以及检测模型构建模块;
[0034]
所述数据采集模块,用于采集母牛声音数据,将声音数据分割为等时长的声音片段,并对所有声音片段进行降噪处理;
[0035]
所述数据标注模块,用于对降噪后的声音片段进行标注,形成带标签的标准数据集;
[0036]
所述数据增强模块,用于将所有降噪后的声音片段转换为梅尔声谱图,并对梅尔声谱图进行数据增强;
[0037]
所述学习模型构建模块,用于构建基于transformer的声谱图特征学习模型,所述基于transformer的声谱图特征学习模型利用多头自注意力机制对数据增强后的梅尔声谱图进行学习,获取梅尔声谱图的深度特征;
[0038]
所述检测模型构建模块,用于基于通道注意力机制构建母牛发情声音事件检测模型,所述母牛发情声音事件检测模型以母牛声音的深度特征为输入,通过深度学习对深度特征中的时域线索进行分类并串联,实现母牛发情声音事件检测,最终输出发情事件发生的时刻和概率。
[0039]
本发明又一方面提供了一种电子设备,所述电子设备包括:
[0040]
至少一个处理器;以及,
[0041]
与所述至少一个处理器通信连接的存储器;其中,
[0042]
所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行所述的基于transformer声谱图特征学习的母牛发情检测方法。
[0043]
本发明再一方面提供了一种计算机可读存储介质,存储有程序,所述程序被处理器执行时,实现所述的基于transformer声谱图特征学习的母牛发情检测方法。
[0044]
本发明与现有技术相比,具有如下优点和有益效果:
[0045]
1、本发明提出了基于transformer声谱图特征学习的母牛发情检测方法,与基于人工的母牛发情检测方法相比,节省了大量的分析时间,降低了人工成本;与其它基于深度学习的声音事件检测方法相比,具有更高的精度。
[0046]
2、本发明通过分段、降噪、梅尔声谱图转换和数据增强等操作进行预处理,这些操
作降低了环境噪音对事件检测的影响、缓解现实条件下母牛声音数据不足的问题、实现了声音信号在频率域的转换。
[0047]
3、本发明构建基于transformer的声谱图特征学习模型,利用多头自注意力机制学习梅尔声谱图,可同时在时域与频域上计算线索之间的相关性并且进行建模,得到声谱图的全局信息,提取的特征更具有鲁棒性。
[0048]
4、本发明构建基于通道注意力机制构建声音事件检测模型,利用通道注意力机制对深度特征的通道层面进行增强,让模型关注重要的特征,抑制不重要的特征,在接下来对时域线索进行分类时提高分类的效果。
附图说明
[0049]
为了更清楚地说明本技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0050]
图1为本发明实施例基于transformer声谱图特征学习的母牛发情检测方法的流程图;
[0051]
图2是本发明实施例基于transformer的特征提取模型提取声谱图特征的示意图;
[0052]
图3是本发明实施例基于通道注意力机制的声音事件检测模型进行母牛发情时事件检测的示意图;
[0053]
图4是本发明实施例通道注意力机制的计算过程;
[0054]
图5为本发明实施例基于transformer声谱图特征学习的母牛发情检测系统的方框图;
[0055]
图6为本发明实施例电子设备的结构图。
具体实施方式
[0056]
为了使本技术领域的人员更好地理解本技术方案,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例仅仅是本技术一部分实施例,而不是全部的实施例。基于本技术中的实施例,本领域技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本技术保护的范围。
[0057]
在本技术中提及“实施例”意味着,结合实施例描述的特定特征、结构或特性可以包含在本技术的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本技术所描述的实施例可以与其它实施例相结合。
[0058]
利用母牛的声音数据进行发情检测,难点在于构建基于transformer的声谱图特征学习模型,利用多头自注意力机制对增强后梅尔声谱图进行学习,以获取梅尔声谱图的深度特征;基于通道注意力机制,构建母牛发情声音事件检测模型,该模型以梅尔声谱图的深度特征为输入,输出发情事件发生的时刻和概率,将通过深度学习对深度特征中的时域线索进行分类并串联,实现母牛发情声音事件检测。
[0059]
本实施例中,基于transformer声谱图特征学习的母牛发情检测方法,包括下述步
骤:
[0060]
(1)采集母牛声音数据,并将声音数据分割为等时长的声音片段后,采用谱减法对所有声音片段进行降噪处理。
[0061]
进一步的,输入一段噪音片段样本,通过计算得到噪音片段的频谱,然后从待处理声音数据中减去噪音片段频谱所对应的特征频率成份,从而达到降低噪音的目的。由于养牛场中的噪音主要来自排气扇或者农用器械,因此其噪声是平稳和变化缓慢的并且是加性的,因此采用谱减法也可以达到不错的效果。
[0062]
可以理解的是,其对于采用谱减法对声音片段进行降噪不属于此发明本身,可用其他音频降噪方法代替。
[0063]
(2)对降噪后的声音片段进行标注;
[0064]
进一步的,对声音片段中的母牛发情声音事件起止时间进行标注,形成带标签的标准数据集。
[0065]
(3)将所有声音片段转换为梅尔声谱图;
[0066]
可以理解的是,所述梅尔声谱图的大小为h
×
w,其中h表示频域的维度,w表示时域的维度。
[0067]
(4)对梅尔声谱图进行数据增强;
[0068]
进一步的,进行数据增强的具体方法为:
[0069]
(4-1)首先采用混淆方法处理声谱图,是将两段声音片段转化的声谱图按照比例进行叠加,同时将两段声音片段所对应的矩阵也按照同样的比例进行叠加。以此达到扩充扩充训练样本的目的。
[0070]
(4-2)然后采用频域与时域掩码方法处理声谱图:通过掩盖频域通道和掩盖时域通道等方式,对声谱图的局部信息进行去除;以此增加数据的复杂性,用于训练更加健壮的模型。
[0071]
(4-3)由于采用数据增强可以缓解现实条件下母牛声音数据不足的问题,并且可以增加训练数据的多样性,在接下特征提取模型和声音事件检测模型的构建过程中可以提高模型的泛化能力。
[0072]
(5)构建基于transformer的声谱图特征学习模型,所述基于transformer的声谱图特征学习模型利用多头自注意力机制对数据增强后的梅尔声谱图进行学习,获取梅尔声谱图的深度特征;
[0073]
可以理解的是,由于存在母牛声音数据不足的问题,因此本实施例采用经过大规模音频数据集上预训练的transformer来构建声谱图特征学习模型,并利用母牛声音声谱图进行训练,如图2所示,所述基于transformer的声谱图特征学习模型的计算过程为:
[0074]
(5-1)将梅尔声谱图以无重叠方式划分为16
×
16大小的声谱图块,每个声谱图块经过线性变换成为d维度的一维向量,总共有个一维向量,将向量进行拼接得到维度为[u,d]大小的输入矩阵;
[0075]
(5-2)输入矩阵与记录每个一维向量在声谱图中对应位置信息的矩阵相加,实现对输入矩阵内的一维向量的位置编码;
[0076]
(5-3)经过位置编码的矩阵输入多个多头自注意力机制模块中进行计算。其自注意力机制的计算公式为:
[0077][0078]
(5-4)其中q,k,v分别表示自注意力机制中的查询向量、键向量、数值向量,由输入矩阵经过一层全连接层得到。attention(q,k,v)为自注意力机制的输出结果,dk为k的维度,k
t
表示健向量k的转置,softmax为激活函数;
[0079]
(5-5)自注意力机制的输出为维度为[u,d]大小的矩阵。多头自注意力模块将多个自注意力机制的输出矩阵进行拼接,最后通过线性变换将拼接后的矩阵恢复为[u,d]大小的矩阵,得到描述全局相关性的深度特征;
[0080]
(5-6)经过大规模音频数据集上预训练的transformer具有良好的通过声谱图提取音频特征能力,因此对母牛声音数据集进行训练可以快速收敛到很好水平。其次,由于transformer采用的自注意力机制,可以建立声谱图的全局联系。
[0081]
(6)基于通道注意力机制,构建母牛发情声音事件检测模型,该模型以深度特征为输入,输出发情事件发生的时刻和概率,将通过深度学习对深度特征中的时域线索进行分类并串联,实现母牛发情声音事件检测。
[0082]
可以理解的是,如图3所示,基于通道注意力机制的声音事件检测模型进行母牛发情时事件检测,具体为:
[0083]
(6-1)将维度为[u,d]的深度特征进行重塑,重塑后的维度为[h

,w

,d],使时域线索和频域线索能够二维层面上对应。其中h

的大小为代表频域线索的数量。w

的大小为代表时域线索数量。
[0084]
(6-2)将重塑后的深度特征输入进通道注意力模块进行运算,得到一个1
×1×
d的矩阵,该矩阵代表深度特征每个通道重要性的权重值,这里的通道对应输入矩阵一维向量的维度。对应通道乘以对应权重值,得到通道增强后的深度特征,图4展示了这一过程。
[0085]
(6-3)对通道增强后的深度特征的频域维度通过平均池化进行融合,得到维度为[w

,d]仅表示时域线索的矩阵;
[0086]
(6-4)对时域线索进行分类得到维度为[w

,c]代表时域线索每个事件类别的概率矩阵,即为声音事件检测结果。其中c的大小为最后分类的类别数量。
[0087]
(6-5)所述母牛发情声音事件检测模型训练时的二元交叉熵损失函数为:
[0088][0089]
(6-6)其中,h
p
代表损失函数,yi代表标签向量,如果真实标签被标注为某个事件类别,则该类别在yi向量中对应位置标为1,否则标为0。p(xi)表示预测时域线索是第i类的概率。
[0090]
需要说明的是,对于前述的各方法实施例,为了简便描述,将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明并不受所描述的动作顺序的限制,因为依据本发明,某些步骤可以采用其它顺序或者同时进行。基于transformer声谱图特征学习的母牛发情检测方法相同的思想,本发明还提供了基于transformer声谱图特征学习的母牛发情检测系统,该系统可用于执行上述基于transformer声谱图特征学习的母牛发情检测
方法。为了便于说明,基于transformer声谱图特征学习的母牛发情检测系统实施例的结构示意图中,仅仅示出了与本发明实施例相关的部分,本领域技术人员可以理解,图示结构并不构成对装置的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
[0091]
请参阅图5,在本技术的另一个实施例中,提供了一种基于transformer声谱图特征学习的母牛发情检测系统100,该系统包括数据采集模块101、数据标注模块102、数据增强模块103、学习模型构建模块104以及检测模型构建模块105;
[0092]
所述数据采集模块101,用于采集母牛声音数据,将声音数据分割为等时长的声音片段,并对所有声音片段进行降噪处理;
[0093]
所述数据标注模块102,用于对降噪后的声音片段进行标注,将声音片段中的声音事件类别以及起止时间进行标注;
[0094]
所述数据增强模块103,用于将所有降噪后的声音片段转换为梅尔声谱图,并对梅尔声谱图进行数据增强;
[0095]
所述学习模型构建模块104,用于构建基于transformer的声谱图特征学习模型,所述基于transformer的声谱图特征学习模型利用多头自注意力机制对数据增强后的梅尔声谱图进行学习,获取梅尔声谱图的深度特征;
[0096]
所述检测模型构建模块105,用于基于通道注意力机制构建母牛发情声音事件检测模型,所述母牛发情声音事件检测模型以梅尔声谱图的深度特征为输入,通过深度学习对深度特征中的时域线索进行分类并串联,实现母牛发情声音事件检测,最终输出发情事件发生的时刻和概率。
[0097]
需要说明的是,本发明的基于transformer声谱图特征学习的母牛发情检测系统与本发明的基于transformer声谱图特征学习的母牛发情检测方法一一对应,在上述基于transformer声谱图特征学习的母牛发情检测方法的实施例阐述的技术特征及其有益效果均适用于基于transformer声谱图特征学习的母牛发情检测的实施例中,具体内容可参见本发明方法实施例中的叙述,此处不再赘述,特此声明。
[0098]
此外,上述实施例的基于transformer声谱图特征学习的母牛发情检测系统的实施方式中,各程序模块的逻辑划分仅是举例说明,实际应用中可以根据需要,例如出于相应硬件的配置要求或者软件的实现的便利考虑,将上述功能分配由不同的程序模块完成,即将所述基于transformer声谱图特征学习的母牛发情检测系统的内部结构划分成不同的程序模块,以完成以上描述的全部或者部分功能。
[0099]
请参阅图6,在一个实施例中,提供了一种实现基于transformer声谱图特征学习的母牛发情检测方法的电子设备,所述电子设备200可以包括第一处理器201、第一存储器202和总线,还可以包括存储在所述第一存储器202中并可在所述第一处理器201上运行的计算机程序,如基于transformer声谱图特征学习的母牛发情检测203。
[0100]
其中,所述第一存储器202至少包括一种类型的可读存储介质,所述可读存储介质包括闪存、移动硬盘、多媒体卡、卡型存储器(例如:sd或dx存储器等)、磁性存储器、磁盘、光盘等。所述第一存储器202在一些实施例中可以是电子设备200的内部存储单元,例如该电子设备200的移动硬盘。所述第一存储器202在另一些实施例中也可以是电子设备200的外部存储设备,例如电子设备200上配备的插接式移动硬盘、智能存储卡(smart media card,
smc)、安全数字(securedigital,sd)卡、闪存卡(flash card)等。进一步地,所述第一存储器202还可以既包括电子设备200的内部存储单元也包括外部存储设备。所述第一存储器202不仅可以用于存储安装于电子设备200的应用软件及各类数据,例如基于transformer声谱图特征学习的母牛发情检测203的代码等,还可以用于暂时地存储已经输出或者将要输出的数据。
[0101]
所述第一处理器201在一些实施例中可以由集成电路组成,例如可以由单个封装的集成电路所组成,也可以是由多个相同功能或不同功能封装的集成电路所组成,包括一个或者多个中央处理器(central processing unit,cpu)、微处理器、数字处理芯片、图形处理器及各种控制芯片的组合等。所述第一处理器201是所述电子设备的控制核心(control unit),利用各种接口和线路连接整个电子设备的各个部件,通过运行或执行存储在所述第一存储器202内的程序或者模块,以及调用存储在所述第一存储器202内的数据,以执行电子设备200的各种功能和处理数据。
[0102]
图6仅示出了具有部件的电子设备,本领域技术人员可以理解的是,图6示出的结构并不构成对所述电子设备200的限定,可以包括比图示更少或者更多的部件,或者组合某些部件,或者不同的部件布置。
[0103]
所述电子设备200中的所述第一存储器202存储的基于transformer声谱图特征学习的母牛发情检测203是多个指令的组合,在所述第一处理器201中运行时,可以实现:
[0104]
采集母牛声音数据,将声音数据分割为等时长的声音片段,并对所有声音片段进行降噪处理;
[0105]
对降噪后声音片段中的声音事件类别以及起止时间进行标注;
[0106]
将所有降噪后的声音片段转换为梅尔声谱图,并对梅尔声谱图进行数据增强;
[0107]
构建基于transformer的声谱图特征学习模型,所述基于transformer的声谱图特征学习模型利用多头自注意力机制对数据增强后的梅尔声谱图进行学习,获取梅尔声谱图的深度特征;
[0108]
基于通道注意力机制构建母牛发情声音事件检测模型,所述母牛发情声音事件检测模型以梅尔声谱图的深度特征为输入,通过深度学习对深度特征中的时域线索进行分类并串联,实现母牛发情声音事件检测,最终输出发情事件发生的时刻和概率。
[0109]
进一步地,所述电子设备200集成的模块/单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个非易失性计算机可读取存储介质中。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)。
[0110]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的程序可存储于一非易失性计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,本技术所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限,ram以多种形式可得,诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram
(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0111]
以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。
[0112]
上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

技术特征:


1.基于transformer声谱图特征学习的母牛发情检测方法,其特征在于,包括下述步骤:采集母牛声音数据,将声音数据分割为等时长的声音片段,并对所有声音片段进行降噪处理;对降噪后的声音片段进行标注,形成带标签的标准数据集;将标准数据集的声音片段转换为梅尔声谱图,并对梅尔声谱图进行数据增强;构建基于transformer的声谱图特征学习模型,所述基于transformer的声谱图特征学习模型利用多头自注意力机制对数据增强后的梅尔声谱图进行学习,获取梅尔声谱图的深度特征;构建基于通道注意力机制的母牛发情声音事件检测模型,所述母牛发情声音事件检测模型以梅尔声谱图的深度特征为输入,通过深度学习对深度特征中的时域线索进行分类并串联,实现母牛发情声音事件检测,最终输出发情事件发生的时刻和概率。2.根据权利要求1所述基于transformer声谱图特征学习的母牛发情检测方法,其特征在于,所述对所有声音片段进行降噪处理,具体为:输入一段噪音片段样本,通过计算得到噪音片段的频谱,然后从采集的母牛声音数据中减去噪音片段的频谱所对应的特征频率成份,完成降噪处理。3.根据权利要求1所述基于transformer声谱图特征学习的母牛发情检测方法,其特征在于,所述标注是将声音片段中的声音事件类别以及起止时间进行标注,用于后续模型构建与训练。4.根据权利要求1所述基于transformer声谱图特征学习的母牛发情检测方法,其特征在于,所述对梅尔声谱图进行数据增强,包括:首先采用混淆方法处理梅尔声谱图,然后采用频域与时域掩码方法处理梅尔声谱图,具体过程为:混淆方法:将两段声音片段转化的声谱图按照比例进行叠加,同时将两段声音片段所对应的矩阵也按照同样的比例进行叠加,以扩充训练样本的数量;频域与时域掩码方法:通过掩盖频域通道和掩盖时域通道的方式,对梅尔声谱图的局部信息进行去除,以此增加数据的复杂性。5.根据权利要求1所述基于transformer声谱图特征学习的母牛发情检测方法,其特征在于,所述基于transformer的声谱图特征学习模型利用多头自注意力机制对数据增强后的梅尔声谱图进行学习,获取梅尔声谱图的深度特征,具体为:首先,将梅尔声谱图以无重叠方式划分为预设大小的声谱图块,每个声谱图块经过线性变换成为d维度的一维向量,总共有u个d维度的一维向量,将u个d维度的一维向量进行拼接得到维度为[u,d]大小的输入矩阵;随后,输入矩阵与记录每个一维向量在声谱图中对应位置信息的矩阵相加,实现对输入矩阵内的一维向量的位置编码;其次,经过位置编码的矩阵输入多个多头自注意力机制模块中进行计算,自注意力机制的计算公式为:
其中q,k,v分别表示自注意力机制中的查询向量、键向量、数值向量,由输入矩阵经过一层全连接层得到,attention(q,k,v)为自注意力机制的输出结果,d
k
为k的维度,k
t
表示键向量k的转置,softmax为激活函数;最后,自注意力机制的输出是维度为[u,d]大小的矩阵,多头自注意力模块将多个自注意力机制的输出矩阵进行拼接,最后通过线性变换将拼接后的矩阵恢复为[u,d]大小的矩阵,得到描述全局相关性的深度特征。6.根据权利要求1所述基于transformer声谱图特征学习的母牛发情检测方法,其特征在于,所述母牛发情声音事件检测模型的计算过程如下:首先,将维度为[u,d]的深度特征进行重塑,重塑后深度特征的维度为[h

,w

,d],使时域线索和频域线索在二维层面上对应,其中h

代表频域线索的数量,w

代表时域线索数量;然后,将重塑后的深度特征输入进通道注意力模块进行运算,得到一个1
×1×
d的矩阵,该矩阵代表深度特征每个通道重要性的权重值,所述通道对应输入矩阵一维向量的维度,对应通道乘以对应权重值,得到通道增强后的深度特征;最后,对通道增强后的深度特征的频域维度通过平均池化进行融合,得到维度为[w

,d]仅表示时域线索的矩阵,对时域线索进行分类得到维度为[w

,c]代表时域线索每个事件类别的概率矩阵,即为声音事件检测结果,其中c为最后分类的类别数量。7.根据权利要求6所述基于transformer声谱图特征学习的母牛发情检测方法,其特征在于,所述基于transformer的声谱图特征学习模型和母牛发情声音事件检测模型训练时的二元交叉熵损失函数为:其中,h
p
代表损失函数,y
i
代表标签向量,如果真实标签被标注为某个事件类别,则该类别在y
i
向量中对应位置标为1,否则标为0,p(x
i
)表示预测时域线索是第i类的概率。8.基于transformer声谱图特征学习的母牛发情检测系统,其特征在于,应用于权利要求1-7中任一项所述的基于transformer声谱图特征学习的母牛发情检测方法,包括数据采集模块、数据标注模块、数据增强模块、学习模型构建模块以及检测模型构建模块;所述数据采集模块,用于采集母牛声音数据,将声音数据分割为等时长的声音片段,并对所有声音片段进行降噪处理;所述数据标注模块,用于对降噪后的声音片段进行标注,形成带标签的标准数据集;所述数据增强模块,用于将所有降噪后的声音片段转换为梅尔声谱图,并对梅尔声谱图进行数据增强;所述学习模型构建模块,用于构建基于transformer的声谱图特征学习模型,所述基于transformer的声谱图特征学习模型利用多头自注意力机制对数据增强后的梅尔声谱图进行学习,获取梅尔声谱图的深度特征;所述检测模型构建模块,用于基于通道注意力机制构建母牛发情声音事件检测模型,
所述母牛发情声音事件检测模型以母牛声音的深度特征为输入,通过深度学习对深度特征中的时域线索进行分类并串联,实现母牛发情声音事件检测,最终输出发情事件发生的时刻和概率。9.一种电子设备,其特征在于,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序指令,所述计算机程序指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如权利要求1-7中任意一项所述的基于transformer声谱图特征学习的母牛发情检测方法。10.一种计算机可读存储介质,存储有程序,其特征在于,所述程序被处理器执行时,实现权利要求1-7任一项所述的基于transformer声谱图特征学习的母牛发情检测方法。

技术总结


本发明公开了一种基于Transformer声谱图特征学习的母牛发情检测方法及装置,方法包括:将采集母牛声音数据分割为等时长的声音片段并进行降噪;对降噪后的声音片段进行标注;将所有降噪后的声音片段转换为梅尔声谱图并进行数据增强;构建基于Transformer的声谱图特征学习模型,利用多头自注意力机制对数据增强后的梅尔声谱图进行学习,获取梅尔声谱图的深度特征;构建基于通道注意力机制的母牛发情声音事件检测模型,以梅尔声谱图的深度特征为输入,通过深度学习对深度特征中的时域线索进行分类并串联,实现母牛发情声音事件检测,最终输出发情事件发生的时刻和概率。本发明利用注意力机制对母牛的声音事件进行识别与定位,实现基于声音信号的母牛发情事件检测。实现基于声音信号的母牛发情事件检测。实现基于声音信号的母牛发情事件检测。


技术研发人员:

梁云 林海 刘财兴 邱少健 翁诗彤 郑燊隆

受保护的技术使用者:

华南农业大学

技术研发日:

2022.06.10

技术公布日:

2022/9/13


文章投稿或转载声明

本文链接:http://www.wtabcd.cn/zhuanli/patent-1-27245-0.html

来源:专利查询检索下载-实用文体写作网版权所有,转载请保留出处。本站文章发布于 2022-12-09 18:35:05

发表评论

验证码:
用户名: 密码: 匿名发表
评论列表 (有 条评论
2人围观
参与讨论