音频处理模型的训练、音频处理方法、装置及电子设备与流程

更新时间:2025-04-02 13:04:50 0条评论

默认

音频处理模型的训练、音频处理方法、装置及电子设备与流程

1.本发明属于音频处理技术领域，特别是涉及音频处理模型的训练、音频处理方法、装置及电子设备。

背景技术：

2.音频3a处理包括声学回声消除（acoustic echo cancelling，aec）、自动降噪（automatic noise suppression，ans）和自动增益控制（automatic gain control，agc）。
3.图1为现有技术的音频3a处理过程的示范性示意图。每个音频处理模块（aec、ans或agc）执行短时傅里叶变换（stft）以将音频信号转换为频域信号，而且执行短时傅里叶逆变换以将频域信号恢复为音频信号。频域与时域之间的来回转换，导致音频3a处理流程冗长。而且，stft涉及e次幂运算，还导致音频3a处理的运算量和系统复杂度较大。

技术实现要素：

4.本发明实施方式提出一种音频处理模型的训练、音频处理方法、装置及电子设备。
5.本发明实施方式的技术方案如下：一种音频处理模型的训练方法，包括：获取训练样本，所述训练样本包括第一音频信号和第二音频信号，其中所述第二音频信号包括：第三音频信号的第一播放声音及所述第一音频信号的第二播放声音的混合采集信号；将所述第一音频信号和所述第二音频信号输入音频处理模型，得到第四音频信号；基于所述第四音频信号与第五音频信号之间的差异，确定所述音频处理模型的模型损失值，其中所述第五音频信号是对所述第二音频信号执行音频3a处理得到的，所述音频3a处理包含消除所述第二音频信号中的所述第二播放声音；基于所述模型损失值调整所述音频处理模型的模型参数，以使所述模型损失值低于预设阈值。
6.在示范实施方式中，所述音频处理模型包括编码子模型、耦合子模型和解码子模型；所述将所述第一音频信号和所述第二音频信号输入音频处理模型，得到第四音频信号包括：将所述第一音频信号和所述第二音频信号输入所述编码子模型，以得到根据所述第一音频信号编码出的第一音频特征及根据所述第二音频信号编码出的第二音频特征；拼接所述第一音频特征和所述第二音频特征，以得到拼接后的音频特征；将所述拼接后的音频特征输入所述耦合子模型，以得到耦合后的音频特征；将所述耦合后的音频特征输入所述解码子模型，以得到根据所述耦合后的音频特征解码出的所述第四音频信号。
7.在示范实施方式中，还包括：
在利用扬声器播放所述第一音频信号以产生所述第二播放声音时，利用高保真音响设备播放所述第三音频信号以产生所述第一播放声音；利用所述麦克风采集所述第一播放声音和所述第二播放声音，以得到所述第二音频信号。
8.在示范实施方式中，所述第三音频信号为纯净语音信号，所述第一音频信号为所述纯净语音信号的干扰音频信号。
9.在示范实施方式中，所述对第二音频信号执行音频3a处理还包括：对消除所述第二播放声音的所述第二音频信号，执行背景噪声抑制处理；对所述背景噪声抑制处理后的所述第二音频信号执行自动增益控制。
10.在示范实施方式中，所述编码子模型、耦合子模型和解码子模型分别包含深度学习模块，所述深度学习包含至少一个的卷积神经网络和至少一个的深度神经网络；或所述编码子模型和所述耦合子模型包含transformer模型中的编码器，所述解码子模型包含所述transformer模型中的解码器。
11.一种音频处理方法，包括：获取训练后的音频处理模型，所述训练后的音频处理模型为根据如上任一项所述的音频处理模型的训练方法训练得到的；将第六音频信号以及第七音频信号输入所述音频处理模型，其中所述第七音频信号包括：说话人的语音及所述第六音频信号的第三播放声音的混合采集信号；所述第六音频信号为所述说话人的语音的干扰音频信号；从所述音频处理模型接收对所述第六音频信号以及第七音频信号执行音频处理后的第八音频信号。
12.在示范实施方式中，在利用边缘设备的扬声器播放所述第六音频信号以产生所述第三播放声音时，利用所述边缘设备的麦克风混合采集所述说话人的语音和所述第三播放声音，以得到所述第七音频信号。
13.一种音频处理模型的训练装置，包括：获取模块，被配置为获取训练样本，所述训练样本包括第一音频信号和第二音频信号，其中所述第二音频信号包括：第三音频信号的第一播放声音及所述第一音频信号的第二播放声音的混合采集信号；输入模块，被配置为将所述第一音频信号和所述第二音频信号输入音频处理模型，得到第四音频信号；确定模块，被配置为基于所述第四音频信号与第五音频信号之间的差异，确定所述音频处理模型的模型损失值，其中所述第五音频信号是对所述第二音频信号执行音频3a处理得到的，所述音频3a处理包含消除所述第二音频信号中的所述第二播放声音；调整模块，被配置为基于所述模型损失值调整所述音频处理模型的模型参数，以使所述模型损失值低于预设阈值。
14.在示范实施方式中，所述音频处理模型包括编码子模型、耦合子模型和解码子模型；所述输入模块，被配置为：将所述第一音频信号和所述第二音频信号输入所述编码子模型，以得到根据所述第一音频信号编码出的第一音频特征及根据所述第二音频信号
编码出的第二音频特征；拼接所述第一音频特征和所述第二音频特征，以得到拼接后的音频特征；将所述拼接后的音频特征输入所述耦合子模型，以得到耦合后的音频特征；将所述耦合后的音频特征输入所述解码子模型，以得到根据所述耦合后的音频特征解码出的所述第四音频信号。
15.在示范实施方式中，所述获取模块，被配置为：在利用扬声器播放所述第一音频信号以产生所述第二播放声音时，利用高保真音响设备播放所述第三音频信号以产生所述第一播放声音；利用麦克风采集所述第一播放声音和所述第二播放声音，以得到所述第二音频信号。
16.在示范实施方式中，所述第三音频信号为纯净语音信号，所述第一音频信号为所述纯净语音信号的干扰音频信号。
17.在示范实施方式中，还包括：音频3a处理模块，被配置为执行所述音频3a处理，其中所述音频3a处理还包括：对消除所述第二播放声音的所述第二音频信号，执行背景噪声抑制处理；对所述背景噪声抑制处理后的所述第二音频信号执行自动增益控制。
18.在示范实施方式中，所述编码子模型、耦合子模型和解码子模型分别包含深度学习模块，所述深度学习包含至少一个的卷积神经网络和至少一个的深度神经网络；或所述编码子模型和所述耦合子模型包含transformer模型中的编码器，所述解码子模型包含所述transformer模型中的解码器。
19.一种音频处理装置，包括：获取模块，被配置为获取训练后的音频处理模型，所述训练后的音频处理模型为根据如上任一项所述的音频处理模型的训练方法训练得到的；输入模块，被配置为将第六音频信号以及第七音频信号输入所述音频处理模型，其中所述第七音频信号包括：说话人的语音及所述第六音频信号的第三播放声音的混合采集信号；所述第六音频信号为所述说话人的语音的干扰音频信号；输出模块，被配置为从所述音频处理模型接收对所述第六音频信号以及第七音频信号执行音频处理后的第八音频信号。
20.在示范实施方式中，所述输入模块，被配置为在利用边缘设备的扬声器播放所述第六音频信号以产生所述第三播放声音时，利用所述边缘设备的麦克风混合采集所述说话人的语音和所述第三播放声音，以得到所述第七音频信号。
21.一种电子装置，包括：存储器；处理器；其中所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如上任一项所述的音频处理模型的训练方法，或者如上任一项所述的音频处理方法。
22.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使所述处理器执行如上任一项所述的音频处理模型的训练方法，或者如上任一项所述的音频处理方法。
23.从上述技术方案可以看出，在本发明实施方式中，获取训练样本，训练样本包括第一音频信号和第二音频信号，其中第二音频信号包括：第三音频信号的第一播放声音及第
一音频信号的第二播放声音的混合采集信号；将第一音频信号和第二音频信号输入音频处理模型，得到第四音频信号；基于第四音频信号与第五音频信号之间的差异，确定音频处理模型的模型损失值，其中第五音频信号是对第二音频信号执行音频3a处理得到的，音频3a处理包含消除第二音频信号中的第一播放声音；基于模型损失值调整音频处理模型的模型参数，以使模型损失值低于预设阈值。可见，本发明实施方式利用具有深度学习能力的网络模型替代常规的音频3a处理，无需在频域与时域之间来回转换，加快了处理流程。而且，本发明实施方式规避了e次幂等复杂运算，还可以降低运算量和系统复杂度，尤其适用于边缘设备等难以提供充分运算量的应用场景。
附图说明
24.图1为现有技术的音频3a处理过程的示范性示意图。
25.图2为本发明实施方式的音频处理模型的训练方法的示范性流程图。
26.图3为本发明实施方式音频处理模型的训练过程的示范性示意图。
27.图4为本发明实施方式的深度学习模块的示范性结构图。
28.图5为本发明实施方式的音频处理方法的示范性流程图。
29.图6为本发明实施方式利用训练后的音频处理模型执行音频处理的示范性示意图。
30.图7为本发明实施方式的音频处理模型的训练装置的示范性结构图。
31.图8为本发明实施方式的音频处理装置的示范性结构图。
32.图9为本发明实施方式的电子设备的示范性结构图。
具体实施方式
33.为使本发明的目的、技术方案和优点更加清楚，下面结合附图对本发明作进一步的详细描述。
34.为了描述上的简洁和直观，下文通过描述若干代表性的实施方式来对本发明的方案进行阐述。实施方式中大量的细节仅用于帮助理解本发明的方案。但是很明显，本发明的技术方案实现时可以不局限于这些细节。为了避免不必要地模糊了本发明的方案，一些实施方式没有进行细致地描述，而是仅给出了框架。下文中，“包括”是指“包括但不限于”，“根据
……”
是指“至少根据
……
，但不限于仅根据
……”
。由于汉语的语言习惯，下文中没有特别指出一个成分的数量时，意味着该成分可以是一个也可以是多个，或可理解为至少一个。
35.以下，对本公开实施方式涉及的术语进行解释说明。
36.音频3a处理：是aec、ans和agc这三种音频处理算法的合称。
37.aec：回声是指设备本地扬声器播放的声音被麦克风采集之后形成的声学信号。aec是在保留本地用户语音的前提下，从麦克风采集的信号中消除回声的过程。
38.ans：指的是将声音中的背景噪声识别并进行消除的处理。
39.agc：主要用于调整音量幅值，提高声音在带噪环境中的性能。比如，人正常交谈的音量在40-60db之间，通常低于25db的声音听起来吃力，而超过100db的声音让人不适，agc可以将音量调整到人可以接受的范围。
40.卷积神经网络（ convolutional neural network，cnn）：是一种前馈型的神经网
络，目前深度学习技术领域中非常具有代表性的神经网络之一。
41.深度神经网络（deep neural networks，dnn）：可以理解为具有很多隐藏层的神经网络。
42.考虑到现有技术中音频3a处理的诸多缺点，本发明实施方式利用具有深度学习能力的网络模型替代常规的音频3a处理，无需在频域与时域之间来回转换，加快了处理流程。而且，本发明实施方式规避了e次幂等复杂运算，还可以降低运算量和系统复杂度。
43.图2为本发明实施方式的音频处理模型的训练方法的示范性流程图。利用该训练方法对音频处理模型完成训练之后，音频处理模型可以替代常规的音频3a处理。
44.如图2所示，该方法包括：步骤201：获取训练样本，训练样本包括第一音频信号和第二音频信号，其中第二音频信号包括：第三音频信号的第一播放声音及第一音频信号的第二播放声音的混合采集信号。
45.在这里，第三音频信号为在音频处理过程中、需要尽量保持纯净的目标音频信号，比如实施为至少一个说话人的纯净语音信号。举例，第三音频信号可以实施为：利用录音设备录制的、说话人在预定时长内的纯净朗读音频文件。第一音频信号为对第三音频信号的播放声音（也就是第一播放声音）起干扰作用的音频信号，比如扬声器历史播放过的音频信号，如音乐文件、电视文件，等等。
46.通过声音播放设备（比如，扬声器）播放第三音频信号，可以得到第一播放声音。在播放第三音频信号的同时，通过另一声音播放设备（比如，高保真音响设备）播放第一音频信号，可以得到对第一播放声音造成干扰的第二播放声音。利用声音采集设备（比如，麦克风）混合采集第一播放声音和第二播放声音所得到的混合采集信号，即为第二音频信号。
47.步骤202：将所述第一音频信号和所述第二音频信号输入音频处理模型，得到第四音频信号。
48.在这里，音频处理模型为通过深度学习技术所构建的模型。音频处理模型的输入为：第一音频信号和第二音频信号。音频处理模型对第一音频信号和第二音频信号执行音频处理，以得到第四音频信号。具体地，音频处理可以包括：（1）、对第一音频信号和第二音频信号分别执行降维处理，以得到对应于第一音频信号的第一音频特征以及对应于第二音频信号的第二音频特征；（2）、对第一音频特征以及第二音频特征执行特征处理（比如，拼接或融合，等等），以得到特征处理后的音频特征；（3）、对特征处理后的音频特征执行升维处理，以得到第四音频信号。通过执行后续的步骤203和步骤204，可以使得音频处理模型输出的第四音频信号，类似或等同于对第二音频信号执行语音3a处理后的音频信号。
49.在示范性实施方式中，音频处理模型包括编码子模型、耦合子模型和解码子模型；步骤202具体包括：将第一音频信号和第二音频信号输入编码子模型，以得到根据第一音频信号编码出的第一音频特征及根据第二音频信号编码出的第二音频特征；拼接第一音频特征和第二音频特征，以得到拼接后的音频特征；将拼接后的音频特征输入耦合子模型，以得到耦合后的音频特征；将耦合后的音频特征输入解码子模型，以得到根据耦合后的音频特征解码出的第四音频信号。可见，本发明实施方式提出音频处理模型的具体结构。
50.在示范性实施方式中，编码子模型、耦合子模型和解码子模型分别包含深度学习模块，深度学习包含至少一个的cnn和至少一个的dnn。可见，本发明实施方式可以基于cnn
和dnn，快速构建出音频处理模型。
51.在示范性实施方式中，编码子模型和耦合子模型包含transformer模型中的编码器（encoder），解码子模型包含transformer模型中的解码器（decoder）。可见，本发明实施方式还可以采用transformer模型，快速构建出音频处理模型。
52.以上示范性描述了音频处理模型以及编码子模型、耦合子模型和解码子模型的典型结构，本领域技术人员可以意识到，这种描述仅是示范性的，并不用于对本发明实施方式进行限定。
53.步骤203：基于第四音频信号与第五音频信号之间的差异，确定音频处理模型的模型损失值，其中第五音频信号是对第二音频信号执行音频3a处理得到的，音频3a处理包含消除第二音频信号中的第二播放声音。
54.在这里，通过对第二音频信号执行音频3a处理，得到第五音频信号。比如，对第二音频信号执行的音频3a处理包括：（1）、通过aec算法，消除第二音频信号中的第二播放声音；（2）、通过ans算法，对消除第二播放声音的第二音频信号实现自动降噪；（3）、通过agc算法，对agc处理后的第二音频信号实现自动增益控制。其中，在对第二音频信号执行音频3a处理中，具体采用的算法可以参照本领域现有技术，本发明实施方式对此并不赘述。另外，在对第二音频信号执行音频3a处理的过程中，aec算法、ans算法和agc算法的执行步骤可以发生变化，本发明实施方式对此并无限定。
55.将第四音频信号与第五音频信号之间的差异，确定为音频处理模型的模型损失值。模型损失值用来评价音频处理模型的预测值（也就是，第四音频信号）与真实值（也就是，第五音频信号）之间的差异，从而可以基于该差异调节音频处理模型的模型参数。
56.步骤204：基于所述模型损失值调整所述音频处理模型的模型参数，以使所述模型损失值低于预设阈值。
57.通常情况下，模型损失值越小，音频处理模型的性能越好。步骤204具体包括：沿模型损失值的梯度下降方向，利用反向传播算法确定出使模型损失值低于预设阈值的模型参数，从而完成音频处理模型的训练过程。
58.完成上述训练过程的音频处理模型，可以用于对任意音频执行等同于音频3a处理效果的音频处理。
59.图3为本发明实施方式音频处理模型的训练过程的示范性示意图。如图3所示，待训练的音频处理模型包括编码子模型、耦合子模型和解码子模型。编码子模型和耦合子模型之间还包含拼接（concat）处理。
60.图4为本发明实施方式的深度学习模块的示范性结构图。可见，深度学习模块包含3个cnn模型以及2个dnn模型，其中3个cnn模型分别为具有编码功能的神经网络，2个dnn模型分别构成全连接层（fully connected layer）。在一个示范性实施方式中，编码子模型、耦合子模型和解码子模型均包含如图4所示的深度学习模块。
61.在另一个示范性实施方式中，编码子模型、耦合子模型可以包含transformer模型中的编码器，解码子模型包含transformer模型中的解码器。
62.下面描述音频处理模型的完整训练过程。
63.第一步：获取训练样本。获取训练样本的过程包括：（1）、准备若干时长的、说话人的纯净语音信号（即第三音频信号）。
64.（2）、准备可能对第三音频信号造成干扰的音频信号（即第一音频信号）。比如，考虑到边缘设备是常见的音频3a处理设备，可以将边缘设备历史播放过的电视节目、歌曲等，作为第一音频信号。
65.（3）、将麦克风靠近扬声器布置，比如布置在扬声器的正上方（比如2cm）。打开麦克风进行音频采集，同时使用扬声器播放第一音频信号，使用高保真音响设备播放第三音频信号，如此进行数据采集，以利用麦克风采集到第三音频信号的第一播放声音及第一音频信号的第二播放声音的混合采集信号，即第二音频信号。
66.在这里，还进一步可以对第二音频信号执行音频3a处理，以得到第五音频信号。对第二音频信号执行的音频3a处理包括：（1）、通过aec算法，消除第二音频信号中的第二播放声音；（2）、通过ans算法，对消除第二播放声音的第二音频信号实现自动降噪；（3）、通过agc算法，对agc处理后的第二音频信号进行自动增益控制，得到第五音频信号。
67.第二步：将第一音频信号和第二音频信号输入音频处理模型。音频处理模型对第一音频信号和第二音频信号执行音频处理，具体包括：（1）、编码子模型对第一音频信号进行编码以得到第一音频特征，编码子模型对第二音频信号进行编码以得到第二音频特征；（2）、拼接第一音频特征和第二音频特征，以得到拼接后的音频特征；（3）、编码子模型对拼接后的音频特征执行特征融合，以得到耦合后的音频特征；（4）、解码子模型对耦合后的音频特征执行解码，以得到第四音频信号。
68.第三步：基于第四音频信号与第五音频信号之间的差异（比如，均方差），确定音频处理模型的模型损失值，其中第五音频信号是对第二音频信号执行音频3a处理得到的。
69.第四步：基于模型损失值调整音频处理模型的模型参数，以使模型损失值低于预设阈值。比如，基于模型损失值，分别调整编码子模型、耦合子模型和解码子模型中的各自模型参数。
70.至此，完成音频处理模型的训练过程。然后，可以利用完成训练过程的音频处理模型，对任意音频执行等同于音频3a处理效果的音频处理。
71.图5为本发明实施方式的音频处理方法的示范性流程图。
72.如图5所示，音频处理方法包括：步骤501：获取训练后的音频处理模型，训练后的音频处理模型为根据如上任意的音频处理模型的训练方法训练得到的。
73.步骤502：将第六音频信号以及第七音频信号输入音频处理模型，其中第七音频信号包括：说话人的语音及第六音频信号的第三播放声音的混合采集信号。
74.在这里，第六音频信号为对说话人的语音起干扰作用的音频信号。比如，当说话人通过边缘设备与别人通电话时，第六音频信号为边缘设备上正在播放的节目音频（如音乐文件、电视文件，等等）。第六音频信号的播放声音，将对说话人的语音处理造成干扰。
75.步骤503：从音频处理模型接收对第六音频信号以及第七音频信号执行音频处理后的第八音频信号。
76.音频处理模型接收第六音频信号以及第七音频信号后，输出第八音频信号。第八音频信号为：音频处理模型利用第六音频信号，对第七音频信号执行音频3a处理后的信号。由于音频3a处理包含回声消除，因此音频处理模型的模型输入需要包含作为回声消除对象的第七音频信号。
77.考虑到边缘设备上经常需要执行音频3a处理，且边缘设备对运算资源的占用情况更加敏感，优选在边缘设备上应用本发明实施方式。优选地，在利用边缘设备的扬声器播放第六音频信号以产生第三播放声音时，利用边缘设备的麦克风混合采集说话人的语音和第三播放声音，以得到第七音频信号。举例，边缘设备可以实施为：移动终端、便携式电脑、智能音箱、智能电视、个人数字助理或智能耳机，等等。
78.图6为本发明实施方式利用训练后的音频处理模型执行音频处理的示范性示意图。图6的音频处理模型具有类似于图3的模型结构，不同之处在于，图6的音频处理模型已完成训练。以在边缘设备上应用本发明实施方式进行说明。可以将训练后的音频处理模型布置在边缘设备中，比如布置在边缘设备的神经网络处理器（npu）可以访问的存储介质中。
79.在边缘设备处，应用训练后的音频处理模型执行音频处理的具体过程包括：第一步：在利用边缘设备的扬声器播放第六音频信号（如音乐文件、电视文件，等等）以产生第三播放声音的同时，同时开启边缘设备的麦克风。麦克风混合采集说话人的语音和第三播放声音，以得到第七音频信号。
80.第二步：将第六音频信号和第七音频信号输入训练后的音频处理模型。训练后的音频处理模型对第六音频信号和第七音频信号执行音频处理，具体包括：（1）、编码子模型对第六音频信号进行编码以得到第三音频特征，编码子模型对第七音频信号进行编码以得到第四音频特征；（2）、拼接第三音频特征和第四音频特征，以得到拼接后的音频特征；（3）、编码子模型对拼接后的音频特征执行特征融合，以得到耦合后的音频特征；（4）、解码子模型对耦合后的音频特征执行解码，以得到第八音频信号。第八音频信号为：训练后的音频处理模型利用第六音频信号，对第七音频信号执行音频3a处理后的信号。
81.图7为本发明实施方式的音频处理模型的训练装置的示范性结构图。如图7所示，音频处理模型的训练装置700包括：获取模块701，被配置为获取训练样本，训练样本包括第一音频信号和第二音频信号，其中第二音频信号包括：第三音频信号的第一播放声音及第一音频信号的第二播放声音的混合采集信号；输入模块702，被配置为将第一音频信号和第二音频信号输入音频处理模型，得到第四音频信号；确定模块703，被配置为基于第四音频信号与第五音频信号之间的差异，确定音频处理模型的模型损失值，其中第五音频信号是对第二音频信号执行音频3a处理得到的，音频3a处理包含消除第二音频信号中的第二播放声音；调整模块704，被配置为基于模型损失值调整音频处理模型的模型参数，以使模型损失值低于预设阈值。
82.在示范性实施方式中，音频处理模型包括编码子模型、耦合子模型和解码子模型；输入模块702，被配置为：将第一音频信号和第二音频信号输入编码子模型，以得到根据第一音频信号编码出的第一音频特征及根据第二音频信号编码出的第二音频特征；拼接第一音频特征和第二音频特征，以得到拼接后的音频特征；将拼接后的音频特征输入耦合子模型，以得到耦合后的音频特征；将耦合后的音频特征输入解码子模型，以得到根据耦合后的音频特征解码出的第四音频信号。
83.在示范性实施方式中，获取模块701，被配置为：在利用扬声器播放所述第一音频
信号以产生所述第二播放声音时，利用高保真音响设备播放所述第三音频信号以产生所述第一播放声音；利用麦克风采集所述第一播放声音和所述第二播放声音，以得到所述第二音频信号。
84.在示范性实施方式中，所述第三音频信号为纯净语音信号，所述第一音频信号为所述纯净语音信号的干扰音频信号。
85.图8为本发明实施方式的音频处理装置的示范性结构图。如图8所示，音频处理装置800包括：获取模块801，被配置为获取训练后的音频处理模型，训练后的音频处理模型为根据如上任一的音频处理模型的训练方法训练得到的；输入模块802，被配置为将第六音频信号以及第七音频信号输入音频处理模型，其中第七音频信号包括：说话人的语音及第六音频信号的第三播放声音的混合采集信号；第六音频信号为所述说话人的语音的干扰音频信号；输出模块803，被配置为从音频处理模型接收对第六音频信号以及第七音频信号执行音频处理后的第八音频信号。
86.在示范性实施方式中，输入模块802，被配置为在利用边缘设备的扬声器播放第六音频信号以产生第三播放声音时，利用边缘设备的麦克风混合采集说话人的语音和第三播放声音，以得到第七音频信号。
87.本发明还分别提出音频处理模型的训练装置及音频处理装置。音频处理模型的训练装置或音频处理装置包括：处理器；存储器；其中存储器中存储有可被处理器执行的应用程序，用于使得处理器执行如上实施方式的音频处理模型的训练方法或音频处理方法。其中，存储器具体可以实施为电可擦可编程只读存储器（eeprom）、快闪存储器（flash memory）、可编程程序只读存储器（prom）等多种存储介质。处理器可以实施为包括一或多个中央处理器或一或多个现场可编程门阵列，其中现场可编程门阵列集成一或多个中央处理器核。具体地，中央处理器或中央处理器核可以实施为cpu、mcu或数字信号处理器（dsp）。
88.图9为本发明实施方式的电子设备的示范性结构图。优选地，电子设备900可以实施为边缘设备。
89.电子设备900包括：处理器901和存储器902。处理器901可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器901可以采用数字信号处理（digital signal processing，dsp）、现场可编程门阵列（field-programmable gate array，fpga）、可编程逻辑阵列（programmable logic array，pla）中的至少一种硬件形式来实现。处理器901也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称中央处理器（central processing unit，cpu）；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施方式中，处理器901可以在集成有图像处理器（graphics processing unit，gpu），gpu用于负责显示屏所需要显示的内容的渲染和绘制。一些实施方式中，处理器901还可以包括ai处理器，该ai处理器用于处理有关机器学习的计算操作。比如，ai处理器可以实施为神经网络处理器。
90.存储器902可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器902还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。
91.在一些实施方式中，存储器902中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器901所执行以实现本公开中各个实施方式提供的音频处理模型的训练方法或音频处理方法。在一些实施方式中，电子设备900还可选包括有：外围设备接口903和至少一个外围设备。处理器901、存储器902和外围设备接口903之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口903相连。具体地，外围设备包括：射频电路904、触摸显示屏905、摄像头组件906、音频电路907、定位组件908和电源909中的至少一种。外围设备接口903可被用于将输入/输出（input /output，i/o）相关的至少一个外围设备连接到处理器901和存储器902。在一些实施方式中，处理器901、存储器902和外围设备接口903被集成在同一芯片或电路板上；在一些其他实施方式中，处理器901、存储器902和外围设备接口903中的任意一个或两个可以在单独的芯片或电路板上实现，本实施方式对此不加以限定。
92.射频电路904用于接收和发射射频（radio frequency，rf）信号，也称电磁信号。射频电路904通过电磁信号与通信网络以及其他通信设备进行通信。射频电路904将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路904包括：天线系统、rf收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路904可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：城域网、各代移动通信网络（2g、3g、4g及5g）、无线局域网和/或无线保真（wireless fidelity，wi-fi）网络。在一些实施方式中，射频电路904还可以包括近距离无线通信（near field communication，nfc）有关的电路，本公开对此不加以限定。
93.显示屏905用于显示用户界面（user interface，ui）。该ui可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏905是触摸显示屏时，显示屏905还具有采集在显示屏905的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器901进行处理。此时，显示屏905还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施方式中，显示屏905可以为一个，设置在电子设备900的前面板；在另一些实施方式中，显示屏905可以为至少两个，分别设置在电子设备900的不同表面或呈折叠设计；在一些实施方式中，显示屏905可以是柔性显示屏，设置在电子设备900的弯曲表面上或折叠面上。甚至，显示屏905还可以设置成非矩形的不规则图形，也即异形屏。显示屏905可以采用液晶显示屏（liquid crystal display，lcd）、有机发光二极管（organic light-emitting diode，oled）等材质制备。
94.摄像头组件906用于采集图像或视频。可选地，摄像头组件906包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施方式中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及虚拟现实（virtual reality，vr）拍摄功能或者其它融合拍摄功能。在一些实施方式中，摄像头组件906还可以包括闪光灯。闪光灯可以是单温闪光灯，也可以是双温闪光灯。双温闪光灯指暖光闪光灯和冷光闪光灯的组合，可以用于不同温下的光线补偿。
95.音频电路907可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将
声波转换为电信号输入至处理器901进行处理，或者输入至射频电路904以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在电子设备900的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器901或射频电路904的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施方式中，音频电路907还可以包括耳机插孔。
96.定位组件908用于定位电子设备900的当前地理位置，以实现导航或基于位置的服务（location based service，lbs）。定位组件908可以是基于美国的全球定位系统（global positioning system，gps）、中国的北斗系统、俄罗斯的格雷纳斯系统或欧盟的伽利略系统的定位组件。电源909用于为电子设备900中的各个组件进行供电。电源909可以是交流电、直流电、一次性电池或可充电电池。当电源909包括可充电电池时，该可充电电池可以支持有线充电或无线充电。
97.本领域技术人员可以理解，上述的结构并不构成对电子设备900的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。
98.需要说明的是，上述各流程和各结构图中不是所有的步骤和模块都是必须的，可以根据实际的需要忽略某些步骤或模块。各步骤的执行顺序不是固定的，可以根据需要进行调整。各模块的划分仅仅是为了便于描述采用的功能上的划分，实际实现时，一个模块可以分由多个模块实现，多个模块的功能也可以由同一个模块实现，这些模块可以位于同一个设备中，也可以位于不同的设备中。
99.各实施方式中的硬件模块可以以机械方式或电子方式实现。例如，一个硬件模块可以包括专门设计的永久性电路或逻辑器件（如专用处理器，如fpga或asic）用于完成特定的操作。硬件模块也可以包括由软件临时配置的可编程逻辑器件或电路（如包括通用处理器或其它可编程处理器）用于执行特定操作。至于具体采用机械方式，或是采用专用的永久性电路，或是采用临时配置的电路（如由软件进行配置）来实现硬件模块，可以根据成本和时间上的考虑来决定。
100.本发明还提供了一种机器可读的存储介质，存储用于使一机器执行如本技术方法的指令。具体地，可以提供配有存储介质的系统或者装置，在该存储介质上存储着实现上述实施方式中任一实施方式的功能的软件程序代码，且使该系统或者装置的计算机（或cpu或mpu）读出并执行存储在存储介质中的程序代码。此外，还可以通过基于程序代码的指令使计算机上操作的操作系统等来完成部分或者全部的实际操作。还可以将从存储介质读出的程序代码写到插入计算机内的扩展板中所设置的存储器中或者写到与计算机相连接的扩展单元中设置的存储器中，随后基于程序代码的指令使安装在扩展板或者扩展单元上的cpu等来执行部分和全部实际操作，从而实现上述实施方式中任一实施方式的功能。用于提供程序代码的存储介质实施方式包括软盘、硬盘、磁光盘、光盘（如cd-rom、cd-r、cd-rw、dvd-rom、dvd-ram、dvd-rw、dvd+rw）、磁带、非易失性存储卡和rom。可选择地，可以由通信网络从服务器计算机或云上下载程序代码。
101.以上，仅为本发明的较佳实施方式而已，并非用于限定本发明的保护范围。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范
围之内。

技术特征：

1.一种音频处理模型的训练方法，其特征在于，包括：获取训练样本，所述训练样本包括第一音频信号和第二音频信号，其中所述第二音频信号包括：第三音频信号的第一播放声音及所述第一音频信号的第二播放声音的混合采集信号；将所述第一音频信号和所述第二音频信号输入音频处理模型，得到第四音频信号；基于所述第四音频信号与第五音频信号之间的差异，确定所述音频处理模型的模型损失值，其中所述第五音频信号是对所述第二音频信号执行音频3a处理得到的，所述音频3a处理包含消除所述第二音频信号中的所述第二播放声音；基于所述模型损失值调整所述音频处理模型的模型参数，以使所述模型损失值低于预设阈值。2.根据权利要求1所述的音频处理模型的训练方法，其特征在于，所述音频处理模型包括编码子模型、耦合子模型和解码子模型；所述将所述第一音频信号和所述第二音频信号输入音频处理模型，得到第四音频信号包括：将所述第一音频信号和所述第二音频信号输入所述编码子模型，以得到根据所述第一音频信号编码出的第一音频特征及根据所述第二音频信号编码出的第二音频特征；拼接所述第一音频特征和所述第二音频特征，以得到拼接后的音频特征；将所述拼接后的音频特征输入所述耦合子模型，以得到耦合后的音频特征；将所述耦合后的音频特征输入所述解码子模型，以得到根据所述耦合后的音频特征解码出的所述第四音频信号。3.根据权利要求1所述的音频处理模型的训练方法，其特征在于，还包括：在利用扬声器播放所述第一音频信号以产生所述第二播放声音时，利用高保真音响设备播放所述第三音频信号以产生所述第一播放声音；利用麦克风采集所述第一播放声音和所述第二播放声音，以得到所述第二音频信号。4.根据权利要求3所述的音频处理模型的训练方法，其特征在于，所述第三音频信号为纯净语音信号，所述第一音频信号为所述纯净语音信号的干扰音频信号。5.根据权利要求1-4中任一项所述的音频处理模型的训练方法，其特征在于，所述对所述第二音频信号执行音频3a处理还包括：对消除所述第二播放声音的所述第二音频信号，执行背景噪声抑制处理；对所述背景噪声抑制处理后的所述第二音频信号执行自动增益控制。6.根据权利要求1-4中任一项所述的音频处理模型的训练方法，其特征在于，所述编码子模型、耦合子模型和解码子模型分别包含深度学习模块，所述深度学习包含至少一个的卷积神经网络和至少一个的深度神经网络；或所述编码子模型和所述耦合子模型包含transformer模型中的编码器，所述解码子模型包含所述transformer模型中的解码器。7.一种音频处理方法，其特征在于，包括：获取训练后的音频处理模型，所述训练后的音频处理模型为根据权利要求1-6中任一项所述的音频处理模型的训练方法训练得到的；将第六音频信号以及第七音频信号输入所述音频处理模型，其中所述第七音频信号包括：说话人的语音及所述第六音频信号的第三播放声音的混合采集信号；所述第六音频信
号为所述说话人的语音的干扰音频信号；从所述音频处理模型接收对所述第六音频信号以及第七音频信号执行音频处理后的第八音频信号。8.根据权利要求7所述的音频处理方法，其特征在于，在利用边缘设备的扬声器播放所述第六音频信号以产生所述第三播放声音时，利用所述边缘设备的麦克风混合采集所述说话人的语音和所述第三播放声音，以得到所述第七音频信号。9.一种音频处理模型的训练装置，其特征在于，包括：获取模块，被配置为获取训练样本，所述训练样本包括第一音频信号和第二音频信号，其中所述第二音频信号包括：第三音频信号的第一播放声音及所述第一音频信号的第二播放声音的混合采集信号；输入模块，被配置为将所述第一音频信号和所述第二音频信号输入音频处理模型，得到第四音频信号；确定模块，被配置为基于所述第四音频信号与第五音频信号之间的差异，确定所述音频处理模型的模型损失值，其中所述第五音频信号是对所述第二音频信号执行音频3a处理得到的，所述音频3a处理包含消除所述第二音频信号中的所述第二播放声音；调整模块，被配置为基于所述模型损失值调整所述音频处理模型的模型参数，以使所述模型损失值低于预设阈值。10.根据权利要求9所述的音频处理模型的训练装置，其特征在于，所述音频处理模型包括编码子模型、耦合子模型和解码子模型；所述输入模块，被配置为：将所述第一音频信号和所述第二音频信号输入所述编码子模型，以得到根据所述第一音频信号编码出的第一音频特征及根据所述第二音频信号编码出的第二音频特征；拼接所述第一音频特征和所述第二音频特征，以得到拼接后的音频特征；将所述拼接后的音频特征输入所述耦合子模型，以得到耦合后的音频特征；将所述耦合后的音频特征输入所述解码子模型，以得到根据所述耦合后的音频特征解码出的所述第四音频信号。11.根据权利要求9所述的音频处理模型的训练装置，其特征在于，所述获取模块，被配置为：在利用扬声器播放所述第一音频信号以产生所述第二播放声音时，利用高保真音响设备播放所述第三音频信号以产生所述第一播放声音；利用麦克风采集所述第一播放声音和所述第二播放声音，以得到所述第二音频信号。12.根据权利要求11所述的音频处理模型的训练装置，其特征在于，所述第三音频信号为纯净语音信号，所述第一音频信号为所述纯净语音信号的干扰音频信号。13.根据权利要求9-12中任一项所述的音频处理模型的训练装置，其特征在于，还包括：音频3a处理模块，被配置为执行所述音频3a处理，其中所述音频3a处理还包括：对消除所述第二播放声音的所述第二音频信号，执行背景噪声抑制处理；对所述背景噪声抑制处理后的所述第二音频信号执行自动增益控制。14.根据权利要求9-12中任一项所述的音频处理模型的训练装置，其特征在于，所述编码子模型、耦合子模型和解码子模型分别包含深度学习模块，所述深度学习包
含至少一个的卷积神经网络和至少一个的深度神经网络；或所述编码子模型和所述耦合子模型包含transformer模型中的编码器，所述解码子模型包含所述transformer模型中的解码器。15.一种音频处理装置，其特征在于，包括：获取模块，被配置为获取训练后的音频处理模型，所述训练后的音频处理模型为根据权利要求1-6中任一项所述的音频处理模型的训练方法训练得到的；输入模块，被配置为将第六音频信号以及第七音频信号输入所述音频处理模型，其中所述第七音频信号包括：说话人的语音及所述第六音频信号的第三播放声音的混合采集信号；所述第六音频信号为所述说话人的语音的干扰音频信号；输出模块，被配置为从所述音频处理模型接收对所述第六音频信号以及第七音频信号执行音频处理后的第八音频信号。16.根据权利要求15所述的音频处理装置，其特征在于，所述输入模块，被配置为在利用边缘设备的扬声器播放所述第六音频信号以产生所述第三播放声音时，利用所述边缘设备的麦克风混合采集所述说话人的语音和所述第三播放声音，以得到所述第七音频信号。17.一种电子装置，其特征在于，包括：存储器；处理器；其中所述存储器中存储有可被所述处理器执行的应用程序，用于使得所述处理器执行如权利要求1至6中任一项所述的音频处理模型的训练方法，或者如权利要求7至8中任一项所述的音频处理方法。18.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机可读指令，所述计算机可读指令在被处理器执行时，使所述处理器执行如权利要求1至6中任一项所述的音频处理模型的训练方法，或者如权利要求7至8中任一项所述的音频处理方法。

技术总结

本发明实施方式提出音频处理模型的训练、音频处理方法、装置及电子设备。方法包括：获取训练样本，训练样本包括第一音频信号和第二音频信号，其中第二音频信号包括：第三音频信号的第一播放声音及第一音频信号的第二播放声音的混合采集信号；将第一音频信号和第二音频信号输入音频处理模型，得到第四音频信号；基于第四音频信号与第五音频信号之间的差异，确定音频处理模型的模型损失值，其中第五音频信号是对第二音频信号执行音频3A处理得到的，音频3A处理包含消除第二音频信号中的第一播放声音；基于模型损失值调整音频处理模型的模型参数，以使模型损失值低于预设阈值。本发明实施方式可以减少流程，降低运算量和系统复杂度。度。度。