rvices msc
智能语⾳技术中的麦克风阵列是什么?
麦克风阵列(Microphone Array),从字⾯上,指的是麦克风的排列。也就是说由⼀定数⽬的声学传感器(⼀般是麦克风)组成,⽤来对声场的空间特性进⾏采样并处理的系统。
吸波早在20世纪70、80年代,麦克风阵列已经被应⽤于语⾳信号处理的研究中,进⼊90年代以来,基于麦克风阵列的语⾳信号处理算法逐渐成为⼀个新的研究热点。⽽到了“声控时代”,这项技术的重要性显得尤为突出。
噪⾳环境怎么办?
——语⾳增强
语⾳增强是指当语⾳信号被各种各样的噪声(包括语⾳)⼲扰甚⾄淹没后,从含噪声的语⾳信号中提取出纯净语⾳的过程。所以在嘈杂环境下,也能准确识别语⾳指令。
从20世纪60年代开始,Boll等研究者先后提出了针对使⽤⼀个麦克风的语⾳增强技术,称为单通道语⾳增强。因为它使⽤的麦克风个数最少,并且充分考虑到了语⾳谱和噪声谱的特性,使得这些⽅法在某些场景下也具有较好的噪声抑制效果,并因其⽅法简单、易于实现的特点⼴泛应⽤于现有语⾳通信系统与消费电⼦系统中。
但是,在复杂的声学环境下,噪声总是来⾃于四⾯⼋⽅,且其与语⾳信号在时间和频谱上常常是相互交叠的,再加上回波和混响的影响,利⽤单麦克风捕捉相对纯净的语⾳是⾮常困难的。⽽麦克风阵列
融合了语⾳信号的空时信息,可以同时提取声源并抑制噪声。
说话⼈⽼是变换位置怎么办?
英语四级几分过——声源定位
现实中,声源的位置是不断变化的,这对于麦克风收⾳来说,是个障碍。麦克风阵列则可以进⾏声源定位,声源定位技术是指使⽤麦克风阵列来计算⽬标说话⼈的⾓度和距离,从⽽实现对⽬标说话⼈的跟踪以及后续的语⾳定向拾取,是⼈机交互、⾳视频会议等领域⾮常重要的前处理技术。
所以麦克风阵列技术不限制说话⼈的运动,不需要移动位置以改变其接收⽅向,具有灵活的波束控制、较⾼的空间分辨率、⾼的信号增益与较强的抗⼲扰能⼒等特点,因⽽成为智能语⾳处理系统中捕捉说话⼈语⾳的重要⼿段。
室内回声太⼤怎么办?
——去混响
⼀般我们听⾳乐时,希望有混响的效果,这是听觉上的⼀种享受。合适的混响会使得声⾳圆润动听、富有感染⼒。混响(Reverberation)现象指的是声波在室内传播时,要被墙壁、天花板、地板等障碍物形成反射声,并和直达声形成叠加,这种现象称为混响。each是什么意思
这种现象称为混响。
open是什么意思
但是,混响现象对于识别就没有什么好处了。由于混响则会使得不同步的语⾳相互叠加,带来了⾳素的交叠掩蔽效应(Phoneme OverlapEffect),从⽽严重影响语⾳识别效果。
影响语⾳识别的部分⼀般是晚期混响部分,所以去混响的主要⼯作重点是放在如何去除晚期混响上⾯,多年来,去混响技术抑制是业界研究的热点和难点。利⽤麦克风阵列去混响的主要⽅法有以下⼏种:
1.基于盲语⾳增强的⽅法,即将混响信号作为普通的加性噪声信号,在这个上⾯应⽤语⾳增强算法。
2.基于波束形成的⽅法,通过将多麦克风对收集的信号进⾏加权相加,在⽬标信号的⽅向形成⼀个拾⾳波束,同时衰减来⾃其他⽅向的反射声。
3.基于逆滤波的⽅法,通过麦克风阵列估计房间的房间冲击响应,设计重构滤波器来补偿来消除混响。
说话⼈太多怎么破?
rattlesnake——声源信号提取
家⾥⼈说话太多,听谁的呢?这个时候就需要辨别出哪个声⾳才是指令。⽽麦克风阵列可以实现声源信号提取,声源信号的提取就是从多个声⾳信号中提取出⽬标信号,声源信号分离技术则是将需要将多个混合声⾳全部提取出来。
智能语⾳的历史
1952年,贝尔实验室(Bell Labs)制造⼀台6英尺⾼⾃动数字识别机“Audrey”,它可以识别数字0~9的发⾳,且准确度⾼达90%以上。并且它对熟⼈的精准度⾼,⽽对陌⽣⼈则偏低。
1956年,普林斯顿⼤学RCA实验室开发了单⾳节词识别系统,能够识别特定⼈的⼗个单⾳节词中所包含的不同⾳节。1959年,MIT的林肯实验室开发了针对⼗个元⾳的⾮特定⼈语⾳识别系统。
1964年的世界博览会上,IBM向世⼈展⽰了数字语⾳识别的“shoe box recognizer”。idx
1971年,美国国防部研究所(Darpa)赞助了五年期限的语⾳理解研究项⽬,希望将识别的单词量提升到1000以上。参与该项⽬的公司和学术机构包括IBM、卡内基梅隆⼤学(CMU)、斯坦福研究院。就这样,Harpy在CMU诞⽣了。不像之前的识别器,Harpy可以识别整句话。
1984年,IBM发布的语⾳识别系统在5000个词汇量级上达到了95%的识别率。
prefer1985年AT&T贝尔实验室建造了第⼀个智能麦克风系统,⽤来研究⼤室内空间的声源位置追踪问题。global
1987年开始,国家开始执⾏963计划后,国家863智能计算机主题专家组为语⾳识别研究⽴项,每两年⼀次。
regard as1987年开始,国家开始执⾏963计划后,国家863智能计算机主题专家组为语⾳识别研究⽴项,每两年⼀次。
1987年12⽉,李开复开发出世界上第⼀个“⾮特定⼈连续语⾳识别系统”。
1988年,卡耐基梅隆⼤学结合⽮量量化技术(VQ),⽤VQ/HMM⽅法开发了世界上第⼀个⾮特定⼈⼤词汇量连续语⾳识别系统SPHINX,能够识别包括997个词汇的4200个连续语句。同年,清华⼤学和中科院声学所在⼤词库汉语听写机的研制上取得了突破性进展。
1992年,IBM引⼊了它的第⼀个听写系统,称为“IBM Speech Server Series”。
1992年研发的Sphinx-II在美国国防部先进技术研究计划署(DARPA)资助的语⾳基准评测中获得了最⾼的识别准确度,这主要得益于其在⾼斯混合和马尔可夫状态层次上⽤栓连参数平衡了可训练性和⾼效性。