武器声控系统的设计与实现

更新时间:2024-03-02 09:33:15 阅读：评论：0

2024年3月2日发(作者：乞丐头像)

武器声控系统的设计与实现

维普资讯

第２７卷第２期　弹箭与制导学报　・２６ｌ　・　武器声控系统的设计与实现　马龙华，郝燕玲，上官伟，刘利强　（哈尔滨工程大学自动化学院．哈尔滨　１５０００１）　［摘要］系统采用了语音端点检测技术成功地检测到操作员语音的起始点；并利用自动增益技术和动态时间　归整技术对语音命令进行识别，成功地识别出操作员的武器控制命令。武器声控控制系统采用了ＶｘＷｏｒｋｓ　嵌入式实时操作系统．保证了系统的响应速度。模拟仿真的结果表明武器声控控制系统能够大大减轻武器操　作的复杂程度，降低误操作率。并极大地提高作战效率。　［关键词］声控制；自动增益；端点检测；动态时间规整；嵌人式实时操作系统　［中图分类号］ＴＰ１８　［文献标志码］Ａ　Ｄｅｓｉｇｎ　ａｎｄ　Ｒｅａｌｉｚａｔｉｏｎ　ｏｆ　Ｓｐｅｅｃｈ—ｃｏｎｔｒｏｌ　Ｗｅａｐｏｎ　Ｓｙｓｔｅｍ　ＭＡ　Ｌｏｎｇ－ｈｕａ，ＨＡ（）Ｙａｎ－ｌｉｎｇ，ＳＨＡＮＧ　ＧＵＡＮ　Ｗｅｉ，ＬＩＵ　Ｌｉ—ｑｉａｎｇ　（Ｃｏｌｌｅｇｅ　ｏｆ　Ａｕｔｏｍａｔｉｏｎ．Ｈａｒｂｉｎ　Ｅｎｇｉｎｅｅｒｉｎｇ　Ｕｎｉｖｅｒｓｉｔｙ．Ｈａｒｂｉｎ　１５０００１，Ｃｈｉｎａ）　Ａｂｓｔｒａｃｔ：Ｅｎｄｐｏｉｎｔ　ｄｅｔｅｃｔｉｏｎ　ｔｅｃｈｎｏｌｏｇｙ　ｗａｓ　ａｄｏｐｔｅｄ　ｓｕｃｃｅｓｓｆｕｌｌｙ　ｔＯ　ｆｉｎｄ　ｔｈｅ　ｏｐｅｒａｔｏｒ’Ｓ　ｓｐｅｅｃｈ　ｅｎｄｐｏｉｎｔ．Ａｆｔｅｒ　ｔｈａｔ　ｓｐｅｅｃｈ　ｐａｓｓ　ｔｈｒｏｕｇｈ　ｄｙｎａｍｉｃ　ｔｉｍｅ　ｗａｒｐ　ｍｏｄｕｌｅ。ｔｈｅ　ｓｙｓｔｅｍ　ｒｅｃｏｇｎｉｚｅｄ　ｏｐｅｒａｔｏｒ＇ｓ　ｏｒｄｅｒ　ｓｕｃｃｅｓｓｆｕｌｌｙ．Ｏｕｒ　ｏｐｅｒａｔｅ　ｓｙｓ’　ｔｅｍ　ｗａｓ　ＶｘＷｏｒｋｓ．ｉｔ　ｗａｓ　ａ　ｅｍｂｅｄｄｅｄ　ｒｅａｌ—ｔｉｍｅ　ｓｙｓｔｅｍ．ａｎｄ　ｃｏｕｌｄ　ｒｅｓｐｏｎｄ　ｔｈｅ　ｏｒｄｅｒ　ｉｎ　ｔｉｍｅ．Ｓｉｍｕｌａｔｉｏｎ　ｉｎｄｉｃａｔｅｄ　ｔｈａｔ　ｓｐｅｅｃｈ—ｃｏｎｔｒｏｌｌｅｄ　ｗｅａｐｏｎ　ｓｙｓｔｅｍ　ｃｏｕｌｄ　ｄｅｃｒｅａｓｅ　ｔｈｅ　ｃｏｍｐｌｅｘｉｔｙ　ａｎｄ　ｍｉｓｔａｋｅ　ｏｆ　ｏｐｅｒａｔｉｏｎ．ａｎｄ　ｉｍｐｒｏｖｅ　ｅｆｆｉｃｉｅｎｃｙ．　Ｋｅｙ　ｗｏｒｄｓ：ｓｐｅｅｃｈ—ｃｏｎｔｒｏｌ；ａｕｔｏ　ｇａｉｎ；ｅｎｄｐｏｉｎｔ　ｄｅｔｅｃｔｉｏｎ；ｄｙｎａｍｉｃ　ｔｉｍｅ　ｗａｒｐｉｎｇ；ｅｍｂｅｄｄｅｄ　ｒｅａｌ—ｔｉｍｅ　ｓｙｓｔｅｍ　词条信号所对应的含义。数字化的语音信号首　１　引言　先要进行端点检测，找出语音的开始点与结束　操作人员在作战时操控武器系统的时候是　点。将这两点之间的数据进行增益调整后进行　非常紧张的，很容易产生误操作。导致严重的后　美尔刻度倒谱系数（ＭＦＣＣ）变换取得特征系数，　果。如果采用声控控制这样的问题就会得到大　并由动态时间规整模块进行判别比较。输出的　大缓解。另外武器控制系统的一个方面就是让　结果作为第三部分的输入。第三部分为系统的　用户界面更加人性化，利用语音识别技术也是实　控制部分，它主要负责将命令传递给执行装置和　现人性化的一个重要途径。本设计就是针对这　识别结果的显示。　种情况展开研究。　２　系统框架　武器声控控制系统由三部分组成，其系统框　图如图ｌ所示。第一部分为模／数转换部分，主　要负责模拟与数字语音信号之间的转换以及显　示输出。由于人类语音信号的主要频率都在　图１系统框图　４ｋＨｚ以下，并考虑到声音采样应该稍微大于Ｉ临　界频率，故选择ｌＯｋＨｚ作为采样频率。第二部　３　相关算法　分为语音识别部分，是整个系统的核心，其作用　３．１端点检测的方法　是将输入的数字语音词条信号进行分析，识别出　语音和噪音信号的频谱特征差异是很大的。　＊收稿Ｅｌ期：２００６—０６—２８；　修回Ｅｌ期：２００６一ｌＯ—Ｏ８　作者简介：马龙华（１９７６－－）．博士研究生，研究方向：导航制导与控制。　

维普资讯

・　２６２　・　弹箭与制导学报　，０　２００７拒　＜／【ｍ一１］　噪声的频谱中各频带之间变化比较平缓，语音的　频谱却比较激烈，根据这一特点可以很明显的区　ｌ丽　而２（ｋ　－ｆ［ｍ　－而１］）Ｆ　ｊ￣ｍ－１］≤　≤／【ｍ］　分语音和噪声。由此，计算某一帧信号的各个频　带能量的方差，将这种以短时频带能量方差作为　参数检测语音段的起始点的方法叫做频带方差　检测法。定义一个矢量如式（１）：　Ｘ一（　（　ｏ），　（　２），…，　（　）｝　（１）　其中的分量　（　）定义为中心频率为　的滤波　器的输出能量。可以将一帧信号的ＦＦＴ变换后　把几个频率分量组合得到频带能量矢量。由此可　以定义均值和方差如式（２）、（３）：　１　１『　Ｅ一÷”＿ｔ＿１　＞：　（　）　（２）　＂　１　Ｄ一—ｌ”中　＿∑［　（　）一明　（３）　检测门限一般取Ｍ一（３～４）Ｄ　Ｄ　为背景噪声　的频带方差。当某一段及其以后数段的短时方差　都大于门限值Ｍ时判为起始点，当某一段以后　数段的短时方差都小于门限时判定为结束点。图　２为汉语“发射一发射”语音信号，图３为其对应　的频带方差，从仿真得到的图中可以看出语音的　起始点可以用这种方法较好地检测出来。　－　●　Ｉ　ｉ　Ｉ▲　Ｔｒ　＿　　＿－　●　●　ｘ　１０　图２　“发射一发射”图３　“发射一发射”语　语音波形图　音的频带方差图　３．２　美尔倒谱系数　美尔倒谱系数考虑了人耳的听觉特性，将频　谱转化为基于美尔频标的非线性频谱，然后在转　换到倒谱域上。由于充分考虑了人的听觉特性，美　尔倒谱系数具有良好的识别特性和抗干扰能力。　语音信号首先经过ＦＦＴ变换，转换到频率域：　ｌ　ｘ　［是］＿∑　”］ｅ－　０＜Ｋ≤Ｎ　（４）　ｎ一０　定义包含Ｍ个三角滤波器的三角滤波器组　Ｈ　［Ｋ］（　一１，２，…，Ｍ），第　个滤波器可以由　式（５）给出：　Ｈ　［　］一　１丽　而２（ｆ［　ｍ＋丽１］－丽ｋ）＝７　／【ｍ］≤　≤　ｍ　ｌ　０　＞／【ｍ＋１］　也可以由式（６）给出：　Ｈ：　［　］一　，　Ｏ　＜尢ｍ一１］　ｊ１　＿１］≤　］　㈤　］≤　≤　ｍ＋　］　｝　ｏ　＞尢　＋１］　这里Ｈ：　［　］满足约束条件∑Ｈ　［　］一１，这两　组滤波器的区别在于输入同乘的系数不同，因此　对于相同的三角组滤波器处理的模板和输人数　据来用于语音识别不会带来什么不同。　这里ＳＥｍｉ定义如下，定义－厂Ｊ表示滤波器的　最低频率；　表示滤波器的最高频率，两者的刻　度都为Ｈｚ。Ｆ　为采样频率，刻度也是Ｈｚ。Ｍ为组　滤波器的个数，Ｎ为ＦＦＴ的点数，则尢研］的边　界点为美尔刻度单位划分。计算公式可由式（７）　得到：　ＳＥｍｉ一　＿１［Ｂ（，１）＋ｍ　］　（７）　这里美尔刻度的转换公式：　Ｂ（厂）一¨２５１ｎ（　＋志　（８）　其逆函数为：　Ｂ一　（６）一７００（ｅ　一１）　（９）　图４　Ｍｅｌ滤波器划分图　则第研个滤波器的对数能量输出可以由式　（１０）来表示：　Ｎ　Ｉ　ｓ（研）一ｌｎ［∑Ｉ　ｘ　（　）Ｉ。Ｈ　（　）］　（１ｏ）　＝０　研一１，２，…，Ｍ　

维普资讯

第２７卷第２期　武器声控系统的设计与实现　马龙华等　・２６３・　将上述对数频谱经过离散余弦变换到倒谱域就　可以得到美尔倒谱系数Ｃ　（　）：　Ｍ连续条件：　叫（　＋１）一叫（　）一　Ｃ　（　）一∑ｓ（１　ｓ（　）ｃ。ｏｓ［－ａ——　广一］ｎ（　ｍ＋１／２）－］　（　）一∑－一』ｏ，　，２叫（　≠叫（　一　１　１，２　叫（　）一ｗ（ｎ一１）　（１４）　１，２，…，Ｍ　（１１）　依照动态规划的一般算法，它是从过程的最后一　个阶段开始考虑，也就是最优决策的逆过程。首　先求解Ｄ（　，　），它应该是ｄ（Ｎ，Ｍ）加上以下三　个距离Ｄ（Ｎ一１，Ｍ），Ｄ（Ｎ一１，Ｍ一１），Ｄ（Ｎ一　１，Ｍ一２）中的最小值。考虑到式（１０）提到的连续　约束条件，Ｄ（Ｎ一１，　不允许来自Ｄ（Ｎ一２，Ｍ）。　然后判断Ｄ（Ｎ一１，　，Ｄ（Ｎ一１，Ｍ一１），Ｄ（Ｎ一　１，Ｍ一２），这时需要计算ｄ（Ｎ一１，　），ｍ应该是　—Ｎ一１列上允许的值。依次类推，逐次向起始点　推进。整个决策过程可以写成递推公式：　图５“发射”语音ＭＦＣＣ图　Ｄ（　＋１，ｍ）一ｄ［　＋１，　］＋　３．３　动态时间规整算法　ｒＤ（７ｚ，ｍ）ｇ（ｎ，　）　在语音识别中不能简单的将输人和模板直　ｍｉ接做比较，这样的效果很差。这是因为语音信号　ｎ｛Ｄ。（　ｎ，ｍ　一－１２；　５）　是具有相当大的随机性的，即使是同一个人在不　式中：　同时刻的对同一句话的同一个发音也不可能具　有完全的时间长度，因此对输人信号进行时间规　ｇ‘　一｛Ｉ。∞　（。Ｗ（　７ｚ）　ＬＷ（　一１　—ｌ　）　６　整是必不可少的。动态时间规整（ｄｙｎａｍｉｃ　ｔｉｍｅ　这里，ｇ（　，ｍ）的引人，等效于　，　的取值满足上　ｗａｒｐ，ＤＴＷ）是把时间规整和距离测度计算结　面提到的约束条件。　合起来的一种非线性规整技术。假设语音参考模　板的特征矢量序列为ａ。，ａ　，…，ａＭ；输人语音信　号的特征矢量序列为ｂ　，ｂ　，…，ｂ　，Ｍ≠Ｎ，则动　４系统实现　态时间规整就是要寻找时间规整函数　一　由于武器系统的可靠性是最主要的，成本应　叫（　），它把输人模板的时间轴，ｚ非线性映射到参　该服从于可靠性，在这个指导思想的指导下选择　考模板的时间轴　，并且满足方程式（１２）：　的平台组成为ＳＰＴ４～８Ｃ一３　ＰＣ／ＩＯ４ＣＰＵ主板、　Ｄｉａｍｏｎｄ　Ｃｒｙｓｔａｌ　ＭＭ　ＰＣ／１０４声卡、有源全向麦　Ｄ—ｍｉｎ∑ｄ［　叫（７ｚ）］　（１２）　克风、Ｖｘｗｏｒｋｓ５．５嵌人式操作系统。ＳＰＴ４—　其中：　叫（　）］是第　帧输人矢量和第，　帧参　８Ｃ一３　ＰＣ／ＩＯ４ＣＰＵ主板支持ＰｎＰ功能，主频为　考矢量的距离，Ｄ是相应于最优时间规整下两模　ＰＩＩＩ８００　ＭＨｚ，能直接支持该声卡的ＰｎＰ功能。有　板的距离测度。动态时间规整是一个典型的最优　源麦克为声音采集装置，有源麦克采集声音后的　化问题，它用满足一定条件的时间规整函数　输出为录音的输人，即有源麦克的输出信号接在　（”）描述输人模板和参考模板的时间对应关　ＥＳ１８６９Ｆ的ＬＩＮＥＩＮ左右通道输人上。由于Ｖｘ—　系，将求解两模板匹配时累计距离最小对应的规　ｗｏｒｋｓ下没有提供Ｄｉａｍｏｎｄ　Ｃｒｙｓｔａｌ　ＭＭ　ＰＣ／１Ｏ４　整函数。输人模板与储存模板之间的距离可以作　声卡的驱动，因此需要开发声卡的驱动程序。　为语音识别的一个判据。动态规划是一种最优化　４．１声卡驱动注意的问题　算法，它将一个Ｎ个阶段的决策过程，也就是说　声卡初始化后就可以自己连续工作，它通过　逐一做出的Ｎ个子决策问题，以便使计算问题简　ＤＭＡ将数据直接送到指定内存环，并产生中断　化。在动态规划的具体问题中规整函数叫（，ｚ）应　来提醒应用程序及时处理。声卡的初始化过程　满足边界条件和连续条件的约束。边界条件：　中可以按照声卡说明的步骤即可。但是由于　叫（１）一１，叫（Ｎ）一Ｍ　（１３）　ＤＭＡ的地址位数限制，ＤＭＡ不能进行３２位寻　

维普资讯

・　２６４　・　弹箭与制导学报　址，不能用动态分配内存的方式来给ＤＭＡ分配　缓冲区，ＤＭＡ只能进行低２４位寻址，而系统的　低端存是可以用来进行ＤＭＡ传送的。因此要　选择系统内不和别的ＤＭＡ冲突的低端内存空　间，但是Ｖｘｗｏｒｋｓ并不能自动识别要分配的空　间，因此要修改Ｖｘｗｏｒｋｓ的ｐｃ．ｈ还有ｓｙｓＬｉｂ．ｃ　匹配成功后长时间没有第二个命令时返回第一　个命令匹配，这里初始化这类的命令除外。　５　结果分析　由图２和图３可以得到，这种方法可以准确　地判断出语音的起始点。并由图５可知利用每　来传人设定的地址和空间大小，同时系统ＤＭＡ　个时间片的ＭＦＣＣ系数都是相等的可以计算出　和卡上的ＤＭＡ模式一定要相同，否则就会出现　无法进入中断等故障。向ＤＭＡ控制寄存器里　面写入的值要和设定的值相同。当产生一个中　断时就说明有一半的传输已经完成，可以安全的　拷贝走其中的数据，每次中断来时就可以用类似　乒乓操作的方式来读走数据。　４．２识别模块实现的具体问题　模板个数的选取，对于实际应用来说使用者　主要为男性，女性较少。因此每个命令选３个男　性和１个女性作为实际的模板。男性女性选择３　个模板。这样有助于提高识别能力，由于武器操　作中命令不会很多，因此词汇表选择为５０个两　个字的命令。　增益系数的调整，让每个操作员在正确的战　位位置上发音，记录这时候声音的平均幅度为标　准值ｌ，然后对端点检测后的语音进行增益调　整，以便尽量抵消操作员的发音指向带来的语音　波形的变化。　ＭＦＣＣ系数阶数的选择，由于ＭＦＣＣ属于　倒谱运算的一种，因此它的系数也有递减的特　性，ＭＦＣＣ的系数最好不要低于８，低于８会对　识别有影响。高于１３以后的识别效果没有明显　的改善并且阶数越高计算量也就越大，因此可以　将ＭＦＣＣ参数１３阶以上的全部忽略，从而减少　匹配的运算量，在计算的过程中选择４Ｏ阶的　ＭＦＣＣ参数，但是只有前１３个参数参加匹配运　算，试验结果也表明大于１３以后识别正确率没　有明显的提高。　匹配策略的选择，一般按照武器使用顺序为　匹配顺序，也就是说第一个匹配一般对应于第一　个命令，其后的匹配与对应于的武器使用顺序的　命令为第一匹配。当第一或者某个匹配大于某　个特定的闽值时直接结束搜索，当全部搜索都小　于某个特定阈值时就转回最初匹配。当在以上　两个阈值之间时输出最佳的匹配结果。当一个　一个时间片的距离。然后根据这个距离就可以　利用ＤＴＷ方法来进行时间规整，求出输入语音　和所有模板之间的距离，做出判别结果。表１给　出了最终试验结果。　表１不同模板数识别结果比较　由以上结果分析可知，由模板数１增加到２　的时候识别率有明显的提高，但是由２增加到３　的时候识别率提升不是很大。因此模板数太多　以后对识别率不会有太大的改善。从试验结果　来看本系统能够减轻操作员５５　的操作动作，　能够极大地减轻操作强度。由此可知该系统能　够满足武器系统语音控制的实际要求。　［参　考　文　献］　［１］Ｌ　Ｒ　Ｒａｂｉｎｅｒ。Ｂ　Ｈ　Ｊｕａｎｇ．Ｆｕｎｄａｍｅｎｔａｌｓ　ｏｆ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ［Ｍ］．Ｎｅｗ　Ｊｅｒｓｙ　Ｐｒｅｎｔｉｃｅ　Ｈａｌｌ。１９９３．　［２］Ｘｕｅｄｏｎｇ　Ｈｕａｎｇ。ＡｌｅｘＡｃｅｒｄ．Ｈｓｉａｏ－Ｗｕｅｎ　Ｈｏｎ．　Ｓｐｏｋｅｎ　Ｌａｎｇｕａｇｅ［Ｍ］．Ｎｅｗ　Ｊｅｒｓｅｙ　Ｐｒｅｎｔｉｃｅ　Ｈａｌｌ。　２００１．　［３］Ｈａｎｓ—Ｇｕｎｔｅｒ　Ｈｉｒｓｃｈ　ａｎｄ　Ｄａｖｉｄ　Ｐｅａｒｃｅ．Ｔｈｅ　ａｕｒｏｒａ　ｅｘｐｅｒｉｍｅｎｔａｌ　ｆｒａｍｅｗｏｒｋ　ｆｏｒ　ｔｈｅ　ｐｅｒｆｏｒｍａｎｃｅ　ｅｖａｌｕ—　ａｔｉｏｎ　ｏｆ　ｓｐｅｅｃｈ　ｒｅｃｏｇｎｉｔｉｏｎ　ｓｙｓｔｅｍｓ　ｕｎｄｅｒ　ｎｏｉｓｙ　ｃｏｎｄｉｔｉｏｎｓ［Ａ］．ＩＳＣＡ　ＩＴＲＷ　ＡＳＲ２０００［ｃ］．Ｓｅｐ—　ｔｅｍｂｅｒ　２０００．　［４］王炳锡，屈丹。彭煊．实用语音识别基础［Ｍ］．北　京：国防工业出版社．２００５．　［５］　Ｅｄｗａｒｄ　Ｐ．Ｃ　Ｋａｏ．Ａｎ　ｉｎｔｒｏｄｕｃｔｉｏｎ　ｔｏ　ｓｔｏｃｈａｓｔｉｃ　ｐｒｏｃｅｓｓｅｓ　ｂｅｒｉｎｇ　ｃｈｉｎａ　ｍａｃｈｉｎｅ　ｐｒｅｓｓ［Ｚ］．２００３．　［６］易克初．田斌。付强．语音信号处理［Ｍ］．北京：国　防工业出版社。２０００．