基于声纹的账号判别方法、系统、电子设备和介质与流程
1.本发明涉及声纹识别领域,特别涉及一种基于声纹识别的基于声纹的账号判别方法、系统、电子设备和介质。
背景技术:
2.在度假定制场景下,定制师与用户全程通过电话进行沟通。然而在度假场景下存在定制师“人证不合一”的情况,即多名定制师实际无证上岗,同一订单的处理过程中出现多个定制师,从而降低用户体验。由于账号作弊行为屡见不鲜,通话量大,人工核查需要耗费大量的人力和时间,现有技术通过搭建每个定制师的声纹库,将待查询的声纹特征与声纹库中的声纹特征一一比对来判断进线或去电的音频定制师是否为该订单下的定制师。
3.然而由于定制师数量多,在职时间不稳定,构建声纹库与声纹库的后期维护均需耗费大量的成本与人力,另外由于存在多个定制师共用一个账号的情况,容易造成作弊行为的误判断,影响账号判别的准确率。
技术实现要素:
4.本发明要解决的技术问题是为了克服现有技术中账号判别准确率低、声纹库构建和维护成本高的缺陷,提供一种基于声纹的账号判别方法、系统、电子设备和介质。
5.本发明是通过下述技术方案来解决上述技术问题:
6.根据本发明的第一方面,提供一种基于声纹的账号判别方法,包括以下步骤:
7.获取账号下的音频数据;
8.获取每段音频数据的来源标识;
9.分别针对同一来源标识的音频数据,从中筛选至少两段待识别音频;
10.将所述待识别音频进行两两比对并获取每对待识别音频的相似度;
11.根据所述相似度判别所述账号是否为作弊账号。
12.较佳地,所述获取每段音频数据的来源标识的步骤包括:
13.当监测到所述账号用于通话时,获取通话对方的电话信息作为所述来源标识;和/或,
14.基于预先设定的订单信息与音频数据的对应关系,获取订单信息作为所述来源标识。
15.较佳地,所述将所述待识别音频进行两两比对并获取每对待识别音频的相似度的步骤包括:
16.对所述待识别音频进行音频处理操作,得到n个音频片段,其中,n为大于1的自然数;
17.从所述音频片段中提取声纹特征;
18.针对每对待识别音频,将其中一段待识别音频的n个音频片段与另一段待识别音频的n个音频片段分别进行声纹特征对比,得到n2个相似分;
19.从n2个相似分中确定最高相似分作为该对待识别音频的相似度。
20.较佳地,所述对所述待识别音频进行音频处理操作的步骤包括:
21.统一所述待识别音频的采样率;
22.对所述待识别音频进行通道分离,获取目标通道的待识别音频作为目标音频;
23.对所述目标音频进行切割并删除静音段,得到多个候选音频片段;
24.从所述候选音频片段中确定n个音频片段。
25.根据本发明的第二方面,提供一种基于声纹的账号判别系统,所述账号判别系统包括第一获取模块、第二获取模块、筛选模块、比对模块和判别模块:
26.所述第一获取模块用于获取账号下的音频数据;
27.所述第二获取模块用于获取每段音频数据的来源标识;
28.所述筛选模块用于分别针对同一来源标识的音频数据,从中筛选至少两段待识别音频;
29.将所述待识别音频进行两两比对并获取每对待识别音频的相似度;
30.根据所述相似度判别所述账号是否为作弊账号。
31.较佳地,所述第二获取模块包括第一获取单元:
32.所述第一获取单元用于当监测到所述账号用于通话时,获取通话对方的电话信息作为所述来源标识;
33.和/或,所述第二获取模块包括第二获取单元:
34.所述第二获取单元用于基于预先设定的订单信息与音频数据的对应关系,获取订单信息作为所述来源标识。
35.较佳地,所述比对模块包括音频处理单元、特征提取单元、相似度打分单元和相似度确定单元:
36.所述音频处理单元用于对所述待识别音频进行音频处理操作,得到n个音频片段,其中,n为大于1的自然数;
37.所述特征提取单元用于从所述音频片段中提取声纹特征;
38.所述相似度打分模块用于针对每对待识别音频,将其中一段待识别音频的n个音频片段与另一段待识别音频的n个音频片段分别进行声纹特征对比,得到n2个相似分;
39.所述相似度确定单元用于从n2个相似分中确定最高相似分作为该对待识别音频的相似度。
40.较佳地,所述音频处理单元包括采样率统一子单元、通道分离子单元、音频切割子单元和片段确定子单元:
41.所述采样率统一子单元用于统一所述待识别音频的采样率;
42.所述通道分离子单元用于对所述待识别音频进行通道分离,获取目标通道的待识别音频作为目标音频;
43.所述音频切割子单元用于对所述目标音频进行切割并删除静音段,得到多个候选音频片段;
44.所述片段确定子单元用于从所述候选音频片段中确定n个音频片段。
45.根据本发明的第三方面,提供一种电子设备,包括存储器以及与所述存储器连接的处理器,所述处理器执行存储在所述存储器上的计算机程序时实现本发明的基于声纹的
账号判别方法。
46.根据本发明的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本发明的基于声纹的账号判别方法。
47.本发明的积极进步效果在于:
48.通过将账号自身的音频进行对比,来判定账号是否作弊,具体地,针对同一来源标识,分别将音频进行两两比对并获取每对音频的相似度,根据相似度判定判定账号是否作弊。本发明无需构建和维护声纹库,使用自身的音频数据,可节省大量的存储、人力及时间等成本,同时通过来源标识限制账号下要求为同一人的情况,避免作弊行为的误判断,大大提高了账号判别的准确率。
附图说明
49.图1为本发明实施例1的基于声纹的账号判别方法的流程示意图。
50.图2为本发明实施例1的基于声纹的账号判别方法中的步骤s12的流程示意图。
51.图3为本发明实施例1的基于声纹的账号判别方法中的步骤s14的流程示意图。
52.图4为本发明实施例1的基于声纹的账号判别方法中的步骤s14中的步骤s141的流程示意图。
53.图5为本发明实施例2的基于声纹的账号判别系统的结构示意图。
54.图6为本发明实施例2的基于声纹的账号判别系统中的第二获取模块22的结构示意图。
55.图7为本发明实施例2的基于声纹的账号判别系统中的比对模块24的结构示意图。
56.图8为本发明实施例2的基于声纹的账号判别系统中的比对模块22中的音频处理单元241的结构示意图。
57.图9为本发明实施例3的电子设备的结构示意图。
具体实施方式
58.下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
59.实施例1
60.本实施例提供了一种基于声纹的账号判别方法,该账号判别方法应用于在度假定制服务的业务场景下判断定制师账号是否存在作弊嫌疑,即判断定制师账号下是否存在同一订单的处理过程中出现多个定制师的情况,并推送疑似作弊的定制师账号至供管处进行处理。如图1所示,该账号判别方法具体包括以下步骤:
61.s11、获取账号下的音频数据。
62.在本实例中,音频数据用于表征定制师账号下,定制师与客户的通话音频数据。预先设置定制师账号的通话终端开启通话录音功能,在定制师与客户的通话过程中进行录制,得到通话音频数据,并将通话音频数据保存至数据库中。考虑到定制师账号下的音频数据的数据量较大,作为可选的一种实施方式,对音频数据进行抽样,比如获取定制师账号中一周的通话音频数据来判断该定制师账号在这一周内是否存在作弊嫌疑。
63.s12、获取每段音频数据的来源标识。其中,来源标识与音频数据一一对应,并具有
唯一性,参照图2,步骤s12具体包括以下步骤:
64.s121、当监测到账号用于通话时,获取通话对方的电话信息作为来源标识。
65.其中,通话对方的电话信息用于表征客户的电话号码,作为可选的一种实施方式,定制师账号的通话终端在接收到电话呼入信号时,根据电话呼入信号获取到呼入电话号码,该呼入电话号码即为客户的电话号码,通话过程中,定制师账号的通话终端开启通话录音功能进行录音,当通话挂断时,定制师账号的通话终端接收到通话断开信号,自动保存通话录音,并根据获取到的客户的电话号码和通话录音生成音频数据,客户的电话号码与音频数据一一对应,在获取音频数据时,可获取客户的电话号码作为音频数据的来源标识。
66.s122、基于预先设定的订单信息与音频数据的对应关系,获取订单信息作为来源标识。
67.其中,订单信息主要用于表征订单号,由于每个订单号都具有唯一性,作为可选的另一种实施方式,在将定制师账号下的通话音频数据保存至数据库时,根据预先设定的订单号与音频数据的对应关系保存订单号与音频数据至数据库,在从数据库中获取音频数据时,可获取订单号作为音频数据的来源标识。此外,需要说明的是,步骤s121和步骤s122都可获取音频数据的来源标识,针对一个定制师账号的判别,要么全部通过步骤s121来获取其中音频数据的来源标识,要么全部通过步骤s122来获取其中音频数据的来源标识。
68.s13、分别针对同一来源标识的音频数据,从中筛选至少两段待识别音频。
69.其中,待识别音频用于表征待进行声纹识别的音频数据,因此待识别音频至少为两段。来源标识包括客户的电话号码和订单号,但在实际应用时,同一个客户与定制师之间可能会产生多次订单,因此在本实施例中,主要以订单号作为音频数据的来源标识,即每个订单只由一个定制师处理。在通话过程中录音失败的音频,作为可选的一种实施方式,在获取定制师账号下一周时间内的所有订单及音频数据后,分别针对每个订单,获取其中每个音频数据的时长,判断音频数据的时长是否低于预设的最低时长阈值,将低于预设时长阈值的音频数据舍弃不用,比如将低于1分钟的音频数据删除,其余音频数据则作为待识别音频。另外,每个订单下需要的待识别音频至少为两段,如果筛选出来某个订单下的待识别音频少于两段,则舍弃该订单。
70.s14、将待识别音频进行两两比对并获取每对待识别音频的相似度。
71.以其中一个订单为例,假设获取的待识别音频分别有音频a,音频b和音频c,将音频a,音频b和音频c两两组合,即分别对比音频a和音频b,音频b和音频c,音频a和音频c。在对比这些待识别音频之前,还需要对这些音频进行一些处理,参照图3,步骤s14具体包括以下步骤:
72.s141、对待识别音频进行音频处理操作,得到n个音频片段,其中,n为大于1的自然数。
73.其中,音频处理操作包括但不限于统一采样率、通道分离、语音活动检测、音频切割、噪音抑制和噪音消除中的至少一种,具体地,参照图4,步骤s141具体包括以下步骤:
74.s1411、统一待识别音频的采样率。
75.作为可选的一种实施方式,优选的预设采样率为8khz(千赫兹),即1秒钟采样8*1024次,将采样率不是8khz的待识别音频降采样到8khz,从而得到统一采样率的待识别音频。
76.s1412、对待识别音频进行通道分离,获取目标通道的待识别音频作为目标音频。
77.其中,目标通道用于表征定制师所在声道,由于待识别音频为通话音频,因此需要对双通道的待识别音频进行分离。作为可选的一种实施方式,将待识别音频进行左声道和右声道的分离,保存分离后右声道的音频。其中,左声道音频是客户所在声道的音频,右声道音频是定制师所在声道的音频(即目标音频)。
78.s1413、对目标音频进行切割并删除静音段,得到多个候选音频片段。
79.其中,对每段目标音频进行asr(自动语音识别),即将目标音频中的语音转写为相应的文字信息,然后基于转写后的文字信息对目标音频进行切割,得到多个音频片段。作为可选的一种实施方式,预先设置定制师在会话中可能使用到的结束语,在识别到该结束语时进行切割;作为可选的另一种实施方式,通过语音识别过程中的断句进行切割,当然本实施例并不仅限于上述音频切割方法。
80.由于在对话式语音场景中,即定制师与客户进行电话语音沟通时,客户与定制师分别在独立的通道上,双方一般会等待另一方说完话再继续说话,以其中一个通道为例,当另一方说话时,响应在该通道上为静音片段。因此通过通道分离,原本客户说话的部分变成了静音段。作为可选的一种实施方式,基于vad(语音活动检测)检测的结果删除静音段,其中包括删除客户讲话的静音段,以及定制师在说话过程中沉默较久的静音段,作为可选的一种实施方式,判断其中各个静音段的时长是否大于预设阈值,比如600毫秒,如果某静音段的时长小于600毫秒,则不需要去删除该静音段。
81.另外,在消除了静音段后,对音频片段进行噪音抑制和噪音消除,噪音抑制是指以一定量的分贝为标准对音频片段进行控制。噪音消除是指将检测到的噪声从音频片段中进行清除。在本实施例中,噪音包括彩铃和环境中的一些杂音等等,比如针对彩铃,作为可选的一种实施方式,基于预先配置的彩铃的音频数据训练得到彩铃识别模型,再通过该彩铃识别模型删除彩铃的部分,又比如针对环境中的杂音,基于预先配置的分贝阈值对音频片段进行降噪处理,不同的业务环境可设置不同的分贝阈值,比如70db(分贝)到90db。作为可选的一种实施方式,为了避免部分音频片段的噪音影响过大导致同一人被误判,将一些音频片段中噪音影响过大的音频片段丢弃,比如噪音在整个音频片段中超过80%,又或者是噪音大于说话音。本实例通过上述的音频处理方式,得到多个候选音频片段。
82.s1414、从候选音频片段中确定n个音频片段。
83.作为可选的一种实施方式,获取候选音频片段的时长,判断候选音频的时长是否满足预设时长,比如4s,只保留4s及4s以上的片段。由于每段音频分割出来的候选音频片段数量不一样,针对一对待识别音频,以候选音频片段数量较少的待识别音频为准,记为数量n,从另一段待识别音频中n个对应的筛选时长最长的候选音频片段。举例说明,假设对比音频a和音频b,从音频a中得到7段候选音频片段,其时长分别为9s、8s、7s、6s、5s、4s和3s,从音频b中得到5段候选音频片段,其时长分别为12s、9s、6s、3s和2s,先删除4s以下的片段,音频a得到时长分别为9s、8s、7s、6s、5s和4s的6段候选音频片段,音频b得到时长分别为12s、9s和6s的3段候选音频片段,则确定数量n为3,再从音频a中筛选出时长分别为9s、8s和7s的3段候选音频片段,其余候选片段舍弃不用。
84.s142、从音频片段中提取声纹特征。
85.其中,声纹特征提取可以包含两步:首先,从音频片段中提取音频特征,作为可选
的一种实施方式,通过高通滤波器对目标音频数据进行预加重和加窗处理,对加窗处理后的音频片段进行傅里叶变换得到频谱图并进行滤波,再进行时频分析得到音频片段的音频特征,比如stft(短时傅里叶变换)特征;然后采用预训练的声纹识别模型对音频特征进行进一步提取,以得到声纹特征,比如512维特征。其中,声纹识别模型可以采用任一种能够提取说话人声纹特征的模型,比如dnn(深度神经网络)模型。
86.s143、针对每对待识别音频,将其中一段待识别音频的n个音频片段与另一段待识别音频的n个音频片段分别进行声纹特征对比,得到n2个相似分。
87.以音频a和音频b为例,假设音频a有3个音频片段,分别记为a1、a2和a3,音频b有3个音频片段,分别记为b1、b2和b3,将音频a的3个音频片段均分别与音频b的三个音频片段进行对比,得到9对组合,即a1 b1、a1 b2、a1 b3、a2 b1、a2 b2、a2 b3、a3 b1、a3 b2和a3b3,然后对比这9对组合中声纹特征的相似度并进行打分,得到9个相似分。
88.s144、从n2个相似分中确定最高相似分作为该对待识别音频的相似度。
89.为了进一步避免环境噪音的影响,以上述的音频a和音频b为例,在9个相似分中选择分值最高的相似分作为音频a和音频b的相似分(即相似度),同理,也可以分别得到音频b和音频c,音频b和音频c的相似度。
90.s15、根据相似度判别账号是否为作弊账号。
91.首先通过相似度得到声纹识别结果,判断相似度是否低于预设相似度阈值,若相似度大于等于预设相似度阈值,则生成“属于同一人”的声纹识别结果;若相似度小于预设相似度阈值,则生成“疑似作弊”的声纹识别结果。作为可选的一种实施方式,对“疑似作弊”的声纹识别结果进行处理,具体地,对于定制师账号下的每个订单中,只保留一条“疑似作弊”的声纹识别结果,即当出现“疑似作弊”的声纹识别结果时,不再继续对比剩余的待识别音频,然后记录该订单为疑似作弊订单。每个定制师账号最多推送两条“疑似作弊”的声纹识别结果,即当出现两个疑似作弊的订单时,判别该定制师账号为作弊账号,在失衡的情况下稳定了疑似作弊判别的精确率。然后将这两条“疑似作弊”的声纹识别结果中的音频数据推送至供管进行后续处理,比如辅助供管查出“疑似作弊”的音频数据所对应的定制师,对定制师进行处罚,有效约束定制师行为。
92.本实施例通过将账号自身的音频进行对比,来判定账号是否作弊,具体地,针对同一来源标识,分别将音频进行两两比对并获取每对音频的相似度,根据相似度判定判定账号是否作弊。本实施例无需构建和维护声纹库,使用自身的音频数据,可节省大量的存储、人力及时间等成本,同时通过来源标识限制账号下要求为同一人的情况,避免作弊行为的误判断,大大提高了账号判别的准确率。
93.实施例2
94.本实施例提供了一种基于声纹的账号判别系统,该账号判别系统应用于在度假定制服务的业务场景下判断定制师账号是否存在作弊嫌疑,即判断定制师账号下是否存在同一订单的处理过程中出现多个定制师的情况,并推送疑似作弊的定制师账号至供管处进行处理。如图5所示,该基于声纹的账号判别系统包括第一获取模块21、第二获取模块22、筛选模块23、比对模块24和判别模块25。
95.第一获取模块21用于获取账号下的音频数据。在本实例中,音频数据用于表征定制师账号下,定制师与客户的通话音频数据。预先设置定制师账号的通话终端开启通话录
音功能,在定制师与客户的通话过程中进行录制,得到通话音频数据,并将通话音频数据保存至数据库中。考虑到定制师账号下的音频数据的数据量较大,作为可选的一种实施方式,对音频数据进行抽样,比如第一获取模块21获取定制师账号中一周的通话音频数据来判断该定制师账号在这一周内是否存在作弊嫌疑。
96.第二获取模块22用于获取每段音频数据的来源标识。其中,来源标识与音频数据一一对应,并具有唯一性,参照图6,第二获取模块22包括第一获取单元221和第二获取单元222。
97.第一获取单元221用于当监测到账号用于通话时,获取通话对方的电话信息作为来源标识。其中,通话对方的电话信息用于表征客户的电话号码,作为可选的一种实施方式,定制师账号的通话终端在接收到电话呼入信号时,根据电话呼入信号获取到呼入电话号码,该呼入电话号码即为客户的电话号码,通话过程中,定制师账号的通话终端开启通话录音功能进行录音,当通话挂断时,定制师账号的通话终端接收到通话断开信号,自动保存通话录音,并根据获取到的客户的电话号码和通话录音生成音频数据,客户的电话号码与音频数据一一对应,在获取音频数据时,第一获取单元221可获取客户的电话号码作为音频数据的来源标识。
98.第二获取单元222用于基于预先设定的订单信息与音频数据的对应关系,获取订单信息作为来源标识。其中,订单信息主要用于表征订单号,由于每个订单号都具有唯一性,作为可选的另一种实施方式,在将定制师账号下的通话音频数据保存至数据库时,根据预先设定的订单号与音频数据的对应关系保存订单号与音频数据至数据库,在从数据库中获取音频数据时,第二获取单元222可获取订单号作为音频数据的来源标识。此外,需要说明的是,第一获取单元221和第二获取单元222都可用于获取音频数据的来源标识,针对一个定制师账号的判别,要么全部通过第一获取单元221来获取其中音频数据的来源标识,要么全部通过第二获取单元222来获取其中音频数据的来源标识。
99.筛选模块23用于分别针对同一来源标识的音频数据,从中筛选至少两段待识别音频。其中,待识别音频用于表征待进行声纹识别的音频数据,因此待识别音频至少为两段。来源标识包括客户的电话号码和订单号,但在实际应用时,同一个客户与定制师之间可能会产生多次订单,因此在本实施例中,主要以订单号作为音频数据的来源标识,即每个订单只由一个定制师处理。在通话过程中录音失败的音频,作为可选的一种实施方式,在获取定制师账号下一周时间内的所有订单及音频数据后,筛选模块23分别针对每个订单,获取其中每个音频数据的时长,判断音频数据的时长是否低于预设的最低时长阈值,将低于预设时长阈值的音频数据舍弃不用,比如将低于1分钟的音频数据删除,其余音频数据则作为待识别音频。另外,每个订单下需要的待识别音频至少为两段,如果筛选模块23筛选出来某个订单下的待识别音频少于两段,则舍弃该订单。
100.比对模块24用于将待识别音频进行两两比对并获取每对待识别音频的相似度。以其中一个订单为例,假设获取的待识别音频分别有音频a,音频b和音频c,将音频a,音频b和音频c两两组合,即分别对比音频a和音频b,音频b和音频c,音频a和音频c。比对模块24在对比这些待识别音频之前,还需要对这些音频进行一些处理,参照图7,比对模块24包括音频处理单元241、特征提取单元242、相似度打分单元243和相似度确定单元244。
101.音频处理单元241用于对待识别音频进行音频处理操作,得到n个音频片段,其中,
n为大于1的自然数。其中,音频处理操作包括但不限于统一采样率、通道分离、语音活动检测、音频切割、噪音抑制和噪音消除中的至少一种,具体地,参照图8,音频处理单元241包括采样率统一子单元2411、通道分离子单元2412、音频切割子单元2413和片段确定子单元2414。
102.采样率统一子单元2411用于统一待识别音频的采样率。作为可选的一种实施方式,优选的预设采样率为8khz(千赫兹),即1秒钟采样8*1024次,采样率统一子单元2411将采样率不是8khz的待识别音频降采样到8khz,从而得到统一采样率的待识别音频。
103.通道分离子单元2412用于对待识别音频进行通道分离,获取目标通道的待识别音频作为目标音频。其中,目标通道用于表征定制师所在声道,由于待识别音频为通话音频,因此需要对双通道的待识别音频进行分离。作为可选的一种实施方式,通道分离子单元2412将待识别音频进行左声道和右声道的分离,保存分离后右声道的音频。其中,左声道音频是客户所在声道的音频,右声道音频是定制师所在声道的音频(即目标音频)。
104.音频切割子单元2413用于对目标音频进行切割并删除静音段,得到多个候选音频片段。其中,音频切割子单元2413对每段目标音频进行asr(自动语音识别),即将目标音频中的语音转写为相应的文字信息,然后音频切割子单元2413基于转写后的文字信息对目标音频进行切割,得到多个音频片段。作为可选的一种实施方式,音频切割子单元2413预先设置定制师在会话中可能使用到的结束语,在识别到该结束语时进行切割;作为可选的另一种实施方式,音频切割子单元2413通过语音识别过程中的断句进行切割,当然本实施例并不仅限于上述音频切割方法。
105.由于在对话式语音场景中,即定制师与客户进行电话语音沟通时,客户与定制师分别在独立的通道上,双方一般会等待另一方说完话再继续说话,以其中一个通道为例,当另一方说话时,响应在该通道上为静音片段。因此通过通道分离,原本客户说话的部分变成了静音段。作为可选的一种实施方式,音频切割子单元2413基于vad(语音活动检测)检测的结果删除静音段,其中包括删除客户讲话的静音段,以及定制师在说话过程中沉默较久的静音段,作为可选的一种实施方式,音频切割子单元2413判断其中各个静音段的时长是否大于预设阈值,比如600毫秒,如果某静音段的时长小于600毫秒,则不需要去删除该静音段。
106.另外,在消除了静音段后,音频切割子单元2413对音频片段进行噪音抑制和噪音消除,噪音抑制是指以一定量的分贝为标准对音频片段进行控制。噪音消除是指将检测到的噪声从音频片段中进行清除。在本实施例中,噪音包括彩铃和环境中的一些杂音等等,比如针对彩铃,作为可选的一种实施方式,基于预先配置的彩铃的音频数据训练得到彩铃识别模型,音频切割子单元2413再通过该彩铃识别模型删除彩铃的部分,又比如针对环境中的杂音,音频切割子单元2413基于预先配置的分贝阈值对音频片段进行降噪处理,不同的业务环境可设置不同的分贝阈值,比如70db(分贝)到90db。作为可选的一种实施方式,为了避免部分音频片段的噪音影响过大导致同一人被误判,音频切割子单元2413将一些音频片段中噪音影响过大的音频片段丢弃,比如噪音在整个音频片段中超过80%,又或者是噪音大于说话音。本实例通过上述的音频处理方式,得到多个候选音频片段。
107.片段确定子单元2414用于从候选音频片段中确定n个音频片段。作为可选的一种实施方式,片段确定子单元2414获取候选音频片段的时长,判断候选音频的时长是否满足
预设时长,比如4s,只保留4s及4s以上的片段。由于每段音频分割出来的候选音频片段数量不一样,针对一对待识别音频,片段确定子单元2414以候选音频片段数量较少的待识别音频为准,记为数量n,从另一段待识别音频中n个对应的筛选时长最长的候选音频片段。举例说明,假设对比音频a和音频b,从音频a中得到7段候选音频片段,其时长分别为9s、8s、7s、6s、5s、4s和3s,从音频b中得到5段候选音频片段,其时长分别为12s、9s、6s、3s和2s,先删除4s以下的片段,音频a得到时长分别为9s、8s、7s、6s、5s和4s的6段候选音频片段,音频b得到时长分别为12s、9s和6s的3段候选音频片段,则确定数量n为3,再从音频a中筛选出时长分别为9s、8s和7s的3段候选音频片段,其余候选片段舍弃不用。
108.特征提取单元242用于从音频片段中提取声纹特征。其中,声纹特征提取可以包含两步:首先,特征提取单元242从音频片段中提取音频特征,作为可选的一种实施方式,通过高通滤波器对目标音频数据进行预加重和加窗处理,对加窗处理后的音频片段进行傅里叶变换得到频谱图并进行滤波,再进行时频分析得到音频片段的音频特征,比如stft(短时傅里叶变换)特征;然后特征提取单元242采用预训练的声纹识别模型对音频特征进行进一步提取,以得到声纹特征,比如512维特征。其中,声纹识别模型可以采用任一种能够提取说话人声纹特征的模型,比如dnn(深度神经网络)模型。
109.相似度打分单元243用于针对每对待识别音频,将其中一段待识别音频的n个音频片段与另一段待识别音频的n个音频片段分别进行声纹特征对比,得到n2个相似分。以音频a和音频b为例,假设音频a有3个音频片段,分别记为a1、a2和a3,音频b有3个音频片段,分别记为b1、b2和b3,将音频a的3个音频片段均分别与音频b的三个音频片段进行对比,得到9对组合,即a1 b1、a1 b2、a1 b3、a2 b1、a2 b2、a2 b3、a3 b1、a3 b2和a3b3,然后相似度打分单元243对比这9对组合中声纹特征的相似度并进行打分,得到9个相似分。
110.相似度确定单元244用于从n2个相似分中确定最高相似分作为该对待识别音频的相似度。为了进一步避免环境噪音的影响,以上述的音频a和音频b为例,相似度确定单元244在9个相似分中选择分值最高的相似分作为音频a和音频b的相似分(即相似度),同理,也可以分别得到音频b和音频c,音频b和音频c的相似度。
111.判别模块25用于根据相似度判别账号是否为作弊账号。首先判别模块25通过相似度得到声纹识别结果,判断相似度是否低于预设相似度阈值,若相似度大于等于预设相似度阈值,则生成“属于同一人”的声纹识别结果;若相似度小于预设相似度阈值,则生成“疑似作弊”的声纹识别结果。作为可选的一种实施方式,判别模块25对“疑似作弊”的声纹识别结果进行处理,具体地,对于定制师账号下的每个订单中,只保留一条“疑似作弊”的声纹识别结果,即当出现“疑似作弊”的声纹识别结果时,不再继续对比剩余的待识别音频,然后记录该订单为疑似作弊订单。每个定制师账号最多推送两条“疑似作弊”的声纹识别结果,即当出现两个疑似作弊的订单时,判别该定制师账号为作弊账号,在失衡的情况下稳定了疑似作弊判别的精确率。然后判别模块25将这两条“疑似作弊”的声纹识别结果中的音频数据推送至供管进行后续处理,比如辅助供管查出“疑似作弊”的音频数据所对应的定制师,对定制师进行处罚,有效约束定制师行为。
112.实施例3
113.本实施例提供一种电子设备,所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1的基于声
纹的账号判别方法。
114.如图9所示的电子设备30仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
115.电子设备30可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备30的组件可以包括但不限于:上述至少一个处理器31、上述至少一个存储器32、连接不同系统组件(包括存储器32和处理器31)的总线33。
116.总线33包括数据总线、地址总线和控制总线。
117.存储器32可以包括易失性存储器,例如随机存取存储器(ram)321和高速缓存存储器322,还可以进一步包括只读存储器(rom)323。
118.存储器32还可以包括具有一组(至少一个)程序模块324的程序工具325,这样的程序模块324包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
119.处理器31通过运行存储在存储器32中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1的基于声纹的账号判别方法。
120.电子设备30也可以与一个或多个外部设备34通信。这种通信可以通过输入/输出(i/o)接口35进行。并且,模型生成的设备30还可以通过网络适配器36与一个或者多个网络通信。如图9所示,网络适配器36通过总线33与模型生成的设备30的其它模块通信。应当明白,尽管图9未标示,可以结合模型生成的设备30使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
121.应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
122.实施例4
123.本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1的基于声纹的账号判别方法。
124.其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
125.在可选的一种实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1的基于声纹的账号判别方法。
126.其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
127.虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和
修改均落入本发明的保护范围。
技术特征:
1.一种基于声纹的账号判别方法,其特征在于,包括以下步骤:获取账号下的音频数据;获取每段音频数据的来源标识;分别针对同一来源标识的音频数据,从中筛选至少两段待识别音频;将所述待识别音频进行两两比对并获取每对待识别音频的相似度;根据所述相似度判别所述账号是否为作弊账号。2.根据权利要求1所述的基于声纹的账号判别方法,其特征在于,所述获取每段音频数据的来源标识的步骤包括:当监测到所述账号用于通话时,获取通话对方的电话信息作为所述来源标识;和/或,基于预先设定的订单信息与音频数据的对应关系,获取订单信息作为所述来源标识。3.根据权利要求1所述的基于声纹的账号判别方法,其特征在于,所述将所述待识别音频进行两两比对并获取每对待识别音频的相似度的步骤包括:对所述待识别音频进行音频处理操作,得到n个音频片段,其中,n为大于1的自然数;从所述音频片段中提取声纹特征;针对每对待识别音频,将其中一段待识别音频的n个音频片段与另一段待识别音频的n个音频片段分别进行声纹特征对比,得到n2个相似分;从n2个相似分中确定最高相似分作为该对待识别音频的相似度。4.根据权利要求3所述的基于声纹的账号判别方法,其特征在于,所述对所述待识别音频进行音频处理操作的步骤包括:统一所述待识别音频的采样率;对所述待识别音频进行通道分离,获取目标通道的待识别音频作为目标音频;对所述目标音频进行切割并删除静音段,得到多个候选音频片段;从所述候选音频片段中确定n个音频片段。5.一种基于声纹的账号判别系统,其特征在于,所述账号判别系统包括第一获取模块、第二获取模块、筛选模块、比对模块和判别模块:所述第一获取模块用于获取账号下的音频数据;所述第二获取模块用于获取每段音频数据的来源标识;所述筛选模块用于分别针对同一来源标识的音频数据,从中筛选至少两段待识别音频;将所述待识别音频进行两两比对并获取每对待识别音频的相似度;根据所述相似度判别所述账号是否为作弊账号。6.根据权利要求5所述的基于声纹的账号判别系统,其特征在于,所述第二获取模块包括第一获取单元:所述第一获取单元用于当监测到所述账号用于通话时,获取通话对方的电话信息作为所述来源标识;和/或,所述第二获取模块包括第二获取单元:所述第二获取单元用于基于预先设定的订单信息与音频数据的对应关系,获取订单信息作为所述来源标识。7.根据权利要求5所述的基于声纹的账号判别系统,其特征在于,所述比对模块包括音
频处理单元、特征提取单元、相似度打分单元和相似度确定单元:所述音频处理单元用于对所述待识别音频进行音频处理操作,得到n个音频片段,其中,n为大于1的自然数;所述特征提取单元用于从所述音频片段中提取声纹特征;所述相似度打分模块用于针对每对待识别音频,将其中一段待识别音频的n个音频片段与另一段待识别音频的n个音频片段分别进行声纹特征对比,得到n2个相似分;所述相似度确定单元用于从n2个相似分中确定最高相似分作为该对待识别音频的相似度。8.根据权利要求7所述的基于声纹的账号判别系统,其特征在于,所述音频处理单元包括采样率统一子单元、通道分离子单元、音频切割子单元和片段确定子单元:所述采样率统一子单元用于统一所述待识别音频的采样率;所述通道分离子单元用于对所述待识别音频进行通道分离,获取目标通道的待识别音频作为目标音频;所述音频切割子单元用于对所述目标音频进行切割并删除静音段,得到多个候选音频片段;所述片段确定子单元用于从所述候选音频片段中确定n个音频片段。9.一种电子设备,其特征在于,包括存储器以及与所述存储器连接的处理器,所述处理器执行存储在所述存储器上的计算机程序时实现权利要求1-4中任一项所述的基于声纹的账号判别方法。10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1-4中任一项所述的基于声纹的账号判别方法。
技术总结
本发明公开了一种基于声纹的账号判别方法、系统、电子设备和介质,该账号判别方法包括:获取账号下的音频数据;获取每段音频数据的来源标识;分别针对同一来源标识的音频数据,从中筛选至少两段待识别音频;将待识别音频进行两两比对并获取每对待识别音频的相似度;根据相似度判别账号是否为作弊账号。本发明无需构建和维护声纹库,而将自身的音频数据进行两两对比,可节省大量的存储、人力及时间等成本,同时通过来源标识限制账号为要求同一人的情况,避免作弊行为的误判断,大大提高了账号判别的准确率。账号判别的准确率。账号判别的准确率。