2024年3月2日发(作者:乞丐头像)
维普资讯
第27卷第2期 弹箭与制导学报 ・26l ・ 武器声控系统的设计与实现 马龙华,郝燕玲,上官伟,刘利强 (哈尔滨工程大学自动化学院.哈尔滨 150001) [摘要]系统采用了语音端点检测技术成功地检测到操作员语音的起始点;并利用自动增益技术和动态时间 归整技术对语音命令进行识别,成功地识别出操作员的武器控制命令。武器声控控制系统采用了VxWorks 嵌入式实时操作系统.保证了系统的响应速度。模拟仿真的结果表明武器声控控制系统能够大大减轻武器操 作的复杂程度,降低误操作率。并极大地提高作战效率。 [关键词]声控制;自动增益;端点检测;动态时间规整;嵌人式实时操作系统 [中图分类号]TP18 [文献标志码]A Design and Realization of Speech—control Weapon System MA Long-hua,HA()Yan-ling,SHANG GUAN Wei,LIU Li—qiang (College of Automation.Harbin Engineering University.Harbin 150001,China) Abstract:Endpoint detection technology was adopted successfully tO find the operator’S speech endpoint.After that speech pass through dynamic time warp module。the system recognized operator's order successfully.Our operate sys’ tem was VxWorks.it was a embedded real—time system.and could respond the order in time.Simulation indicated that speech—controlled weapon system could decrease the complexity and mistake of operation.and improve efficiency. Key words:speech—control;auto gain;endpoint detection;dynamic time warping;embedded real—time system 词条信号所对应的含义。数字化的语音信号首 1 引言 先要进行端点检测,找出语音的开始点与结束 操作人员在作战时操控武器系统的时候是 点。将这两点之间的数据进行增益调整后进行 非常紧张的,很容易产生误操作。导致严重的后 美尔刻度倒谱系数(MFCC)变换取得特征系数, 果。如果采用声控控制这样的问题就会得到大 并由动态时间规整模块进行判别比较。输出的 大缓解。另外武器控制系统的一个方面就是让 结果作为第三部分的输入。第三部分为系统的 用户界面更加人性化,利用语音识别技术也是实 控制部分,它主要负责将命令传递给执行装置和 现人性化的一个重要途径。本设计就是针对这 识别结果的显示。 种情况展开研究。 2 系统框架 武器声控控制系统由三部分组成,其系统框 图如图l所示。第一部分为模/数转换部分,主 要负责模拟与数字语音信号之间的转换以及显 示输出。由于人类语音信号的主要频率都在 图1系统框图 4kHz以下,并考虑到声音采样应该稍微大于I临 界频率,故选择lOkHz作为采样频率。第二部 3 相关算法 分为语音识别部分,是整个系统的核心,其作用 3.1端点检测的方法 是将输入的数字语音词条信号进行分析,识别出 语音和噪音信号的频谱特征差异是很大的。 *收稿El期:2006—06—28; 修回El期:2006一lO—O8 作者简介:马龙华(1976--).博士研究生,研究方向:导航制导与控制。
维普资讯
・ 262 ・ 弹箭与制导学报 ,0 2007拒 </【m一1] 噪声的频谱中各频带之间变化比较平缓,语音的 频谱却比较激烈,根据这一特点可以很明显的区 l丽 而2(k -f[m -而1])F j ̄m-1]≤ ≤/【m] 分语音和噪声。由此,计算某一帧信号的各个频 带能量的方差,将这种以短时频带能量方差作为 参数检测语音段的起始点的方法叫做频带方差 检测法。定义一个矢量如式(1): X一( ( o), ( 2),…, ( )} (1) 其中的分量 ( )定义为中心频率为 的滤波 器的输出能量。可以将一帧信号的FFT变换后 把几个频率分量组合得到频带能量矢量。由此可 以定义均值和方差如式(2)、(3): 1 1『 E一÷”_t_1 >: ( ) (2) " 1 D一—l”中 _∑[ ( )一明 (3) 检测门限一般取M一(3~4)D D 为背景噪声 的频带方差。当某一段及其以后数段的短时方差 都大于门限值M时判为起始点,当某一段以后 数段的短时方差都小于门限时判定为结束点。图 2为汉语“发射一发射”语音信号,图3为其对应 的频带方差,从仿真得到的图中可以看出语音的 起始点可以用这种方法较好地检测出来。 - ● I i I▲ Tr _ _- ● ● x 10 图2 “发射一发射”图3 “发射一发射”语 语音波形图 音的频带方差图 3.2 美尔倒谱系数 美尔倒谱系数考虑了人耳的听觉特性,将频 谱转化为基于美尔频标的非线性频谱,然后在转 换到倒谱域上。由于充分考虑了人的听觉特性,美 尔倒谱系数具有良好的识别特性和抗干扰能力。 语音信号首先经过FFT变换,转换到频率域: l x [是]_∑ ”]e- 0<K≤N (4) n一0 定义包含M个三角滤波器的三角滤波器组 H [K]( 一1,2,…,M),第 个滤波器可以由 式(5)给出: H [ ]一 1丽 而2(f[ m+丽1]-丽k)=7 /【m]≤ ≤ m l 0 >/【m+1] 也可以由式(6)给出: H: [ ]一 , O <尢m一1] j1 _1]≤ ] ㈤ ]≤ ≤ m+ ] } o >尢 +1] 这里H: [ ]满足约束条件∑H [ ]一1,这两 组滤波器的区别在于输入同乘的系数不同,因此 对于相同的三角组滤波器处理的模板和输人数 据来用于语音识别不会带来什么不同。 这里SEmi定义如下,定义-厂J表示滤波器的 最低频率; 表示滤波器的最高频率,两者的刻 度都为Hz。F 为采样频率,刻度也是Hz。M为组 滤波器的个数,N为FFT的点数,则尢研]的边 界点为美尔刻度单位划分。计算公式可由式(7) 得到: SEmi一 _1[B(,1)+m ] (7) 这里美尔刻度的转换公式: B(厂)一¨251n( +志 (8) 其逆函数为: B一 (6)一700(e 一1) (9) 图4 Mel滤波器划分图 则第研个滤波器的对数能量输出可以由式 (10)来表示: N I s(研)一ln[∑I x ( )I。H ( )] (1o) =0 研一1,2,…,M
维普资讯
第27卷第2期 武器声控系统的设计与实现 马龙华等 ・263・ 将上述对数频谱经过离散余弦变换到倒谱域就 可以得到美尔倒谱系数C ( ): M连续条件: 叫( +1)一叫( )一 C ( )一∑s(1 s( )c。os[-a—— 广一]n( m+1/2)-] ( )一∑-一』o, ,2叫( ≠叫( 一 1 1,2 叫( )一w(n一1) (14) 1,2,…,M (11) 依照动态规划的一般算法,它是从过程的最后一 个阶段开始考虑,也就是最优决策的逆过程。首 先求解D( , ),它应该是d(N,M)加上以下三 个距离D(N一1,M),D(N一1,M一1),D(N一 1,M一2)中的最小值。考虑到式(10)提到的连续 约束条件,D(N一1, 不允许来自D(N一2,M)。 然后判断D(N一1, ,D(N一1,M一1),D(N一 1,M一2),这时需要计算d(N一1, ),m应该是 —N一1列上允许的值。依次类推,逐次向起始点 推进。整个决策过程可以写成递推公式: 图5“发射”语音MFCC图 D( +1,m)一d[ +1, ]+ 3.3 动态时间规整算法 rD(7z,m)g(n, ) 在语音识别中不能简单的将输人和模板直 mi接做比较,这样的效果很差。这是因为语音信号 n{D。( n,m 一-12; 5) 是具有相当大的随机性的,即使是同一个人在不 式中: 同时刻的对同一句话的同一个发音也不可能具 有完全的时间长度,因此对输人信号进行时间规 g‘ 一{I。∞ (。W( 7z) LW( 一1 —l ) 6 整是必不可少的。动态时间规整(dynamic time 这里,g( ,m)的引人,等效于 , 的取值满足上 warp,DTW)是把时间规整和距离测度计算结 面提到的约束条件。 合起来的一种非线性规整技术。假设语音参考模 板的特征矢量序列为a。,a ,…,aM;输人语音信 号的特征矢量序列为b ,b ,…,b ,M≠N,则动 4系统实现 态时间规整就是要寻找时间规整函数 一 由于武器系统的可靠性是最主要的,成本应 叫( ),它把输人模板的时间轴,z非线性映射到参 该服从于可靠性,在这个指导思想的指导下选择 考模板的时间轴 ,并且满足方程式(12): 的平台组成为SPT4~8C一3 PC/IO4CPU主板、 Diamond Crystal MM PC/104声卡、有源全向麦 D—min∑d[ 叫(7z)] (12) 克风、Vxworks5.5嵌人式操作系统。SPT4— 其中: 叫( )]是第 帧输人矢量和第, 帧参 8C一3 PC/IO4CPU主板支持PnP功能,主频为 考矢量的距离,D是相应于最优时间规整下两模 PIII800 MHz,能直接支持该声卡的PnP功能。有 板的距离测度。动态时间规整是一个典型的最优 源麦克为声音采集装置,有源麦克采集声音后的 化问题,它用满足一定条件的时间规整函数 输出为录音的输人,即有源麦克的输出信号接在 (”)描述输人模板和参考模板的时间对应关 ES1869F的LINEIN左右通道输人上。由于Vx— 系,将求解两模板匹配时累计距离最小对应的规 works下没有提供Diamond Crystal MM PC/1O4 整函数。输人模板与储存模板之间的距离可以作 声卡的驱动,因此需要开发声卡的驱动程序。 为语音识别的一个判据。动态规划是一种最优化 4.1声卡驱动注意的问题 算法,它将一个N个阶段的决策过程,也就是说 声卡初始化后就可以自己连续工作,它通过 逐一做出的N个子决策问题,以便使计算问题简 DMA将数据直接送到指定内存环,并产生中断 化。在动态规划的具体问题中规整函数叫(,z)应 来提醒应用程序及时处理。声卡的初始化过程 满足边界条件和连续条件的约束。边界条件: 中可以按照声卡说明的步骤即可。但是由于 叫(1)一1,叫(N)一M (13) DMA的地址位数限制,DMA不能进行32位寻
维普资讯
・ 264 ・ 弹箭与制导学报 址,不能用动态分配内存的方式来给DMA分配 缓冲区,DMA只能进行低24位寻址,而系统的 低端存是可以用来进行DMA传送的。因此要 选择系统内不和别的DMA冲突的低端内存空 间,但是Vxworks并不能自动识别要分配的空 间,因此要修改Vxworks的pc.h还有sysLib.c 匹配成功后长时间没有第二个命令时返回第一 个命令匹配,这里初始化这类的命令除外。 5 结果分析 由图2和图3可以得到,这种方法可以准确 地判断出语音的起始点。并由图5可知利用每 来传人设定的地址和空间大小,同时系统DMA 个时间片的MFCC系数都是相等的可以计算出 和卡上的DMA模式一定要相同,否则就会出现 无法进入中断等故障。向DMA控制寄存器里 面写入的值要和设定的值相同。当产生一个中 断时就说明有一半的传输已经完成,可以安全的 拷贝走其中的数据,每次中断来时就可以用类似 乒乓操作的方式来读走数据。 4.2识别模块实现的具体问题 模板个数的选取,对于实际应用来说使用者 主要为男性,女性较少。因此每个命令选3个男 性和1个女性作为实际的模板。男性女性选择3 个模板。这样有助于提高识别能力,由于武器操 作中命令不会很多,因此词汇表选择为50个两 个字的命令。 增益系数的调整,让每个操作员在正确的战 位位置上发音,记录这时候声音的平均幅度为标 准值l,然后对端点检测后的语音进行增益调 整,以便尽量抵消操作员的发音指向带来的语音 波形的变化。 MFCC系数阶数的选择,由于MFCC属于 倒谱运算的一种,因此它的系数也有递减的特 性,MFCC的系数最好不要低于8,低于8会对 识别有影响。高于13以后的识别效果没有明显 的改善并且阶数越高计算量也就越大,因此可以 将MFCC参数13阶以上的全部忽略,从而减少 匹配的运算量,在计算的过程中选择4O阶的 MFCC参数,但是只有前13个参数参加匹配运 算,试验结果也表明大于13以后识别正确率没 有明显的提高。 匹配策略的选择,一般按照武器使用顺序为 匹配顺序,也就是说第一个匹配一般对应于第一 个命令,其后的匹配与对应于的武器使用顺序的 命令为第一匹配。当第一或者某个匹配大于某 个特定的闽值时直接结束搜索,当全部搜索都小 于某个特定阈值时就转回最初匹配。当在以上 两个阈值之间时输出最佳的匹配结果。当一个 一个时间片的距离。然后根据这个距离就可以 利用DTW方法来进行时间规整,求出输入语音 和所有模板之间的距离,做出判别结果。表1给 出了最终试验结果。 表1不同模板数识别结果比较 由以上结果分析可知,由模板数1增加到2 的时候识别率有明显的提高,但是由2增加到3 的时候识别率提升不是很大。因此模板数太多 以后对识别率不会有太大的改善。从试验结果 来看本系统能够减轻操作员55 的操作动作, 能够极大地减轻操作强度。由此可知该系统能 够满足武器系统语音控制的实际要求。 [参 考 文 献] [1]L R Rabiner。B H Juang.Fundamentals of speech recognition[M].New Jersy Prentice Hall。1993. [2]Xuedong Huang。AlexAcerd.Hsiao-Wuen Hon. Spoken Language[M].New Jersey Prentice Hall。 2001. [3]Hans—Gunter Hirsch and David Pearce.The aurora experimental framework for the performance evalu— ation of speech recognition systems under noisy conditions[A].ISCA ITRW ASR2000[c].Sep— tember 2000. [4]王炳锡,屈丹。彭煊.实用语音识别基础[M].北 京:国防工业出版社.2005. [5] Edward P.C Kao.An introduction to stochastic processes bering china machine press[Z].2003. [6]易克初.田斌。付强.语音信号处理[M].北京:国 防工业出版社。2000.
本文发布于:2024-03-02 09:33:14,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/zhishi/a/1709343195275885.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:武器声控系统的设计与实现.doc
本文 PDF 下载地址:武器声控系统的设计与实现.pdf
留言与评论(共有 0 条评论) |