基于麦克风阵列声源定位的发展历程及关键技术
摘要:回顾了基于麦克风阵列的声源定位系统的发展历程,对声源
定位关键技术进行了讨论,分析了现有算法并对各算法的优缺点进行
比较,文章的最后对麦克风声源定位技术的难点进行了概述,为进一步
研究麦克风阵列信号处理奠定基础。
关键词:麦克风阵列 关键技术 信号处理
1 发展历程
早在20世纪70、80年代,就已经开始将麦克风阵列应用于语音
信号处理的研究中,进入90年代以来,基于麦克风阵列的语音信号处
理算法逐渐成为一个新的研究热点[1]。1985年Flanagan将麦克风阵
列引入到大型会议的语音增强中,并开发出很多实际产品。1987年
Silverman将麦克风阵列引入到语音识别系统,1992年又将阵列信号处
理用于移动环境下的语音获家乡美作文 取,后来将其应用于说话人识别。1995年
Flanagan在混响环境下用阵列信号处理对声音进行捕获。1996年
Silverman和Brandstein开始将其应用于声源定位中,用于确定和实时
跟踪说话人的位置[2]。目前麦克风阵列系统已有许多应用,其中在民
用上包括视频会议、语音识别、车载系统环境、大型场所的会议记录
系统以及助听装置等;军用上包括声纳系统对水下潜艇的跟踪及无源
定位直升机和其他发声设备上。在国外,很多著名的公司和研究机构,
如IBM,BELL等,正致力于麦克风阵列的研究和产品,而且已经有了一
些初期产品进入市场[3]。这些产品已经应用到社会生活的各个场合
并体现出了极大的优越性。遗憾的是,在国内,到目前为止还没有自主
产权的麦克风阵列产品。因此,研究我国自主的基于麦克风阵列的语
音处理算法运动会感受 和技术具有重要的意义。我国一些企业、研究所和高校做
了大量的相关工作,但是目前对声源定位的研究才算刚刚起步。
2 声源定位关键技术
基于麦克风阵列的声源定位是指用麦克风拾取声音信号,通过对
麦克风阵列的各路输出信号进行分析和处理,得到一个或者多个声源
的位置信息,其使用的关键技术有以下几个方面。
2.1 模型的建立
麦克风阵列的阵元按一定的方式布置在空间不同的位置上组成
阵列,阵列能够接收空间传播信号,经过适当的信号处理提取所需的信
号源和信号属性等信息。阵列按阵元在空间分布形式的不同,可以分
为任意离散基友是什么意思 阵、直线阵、平面阵、圆弧阵和均匀圆阵。不同的阵列模
型有各自的优缺点,可以用来处理不同的实际情况。
均匀直线阵由于结构简单,并且同时间序列的均匀采样完全对应,
可以采用绝大多数基于时间序列的算法,因此受到很大的重视,应用也
十分广泛。然而均匀直线阵列也有很多局限性,不适合多波束的形成,
不能直接用于180范围内的定位,往往是利用多个阵列组合定位,但增
加了系统复杂度和实现成本,而且在麦克风阵列的算法处理中也需要
进行切换。
平面阵虽然可以在整个平面对目标进行测向,但对于低空甚至是
超低空飞行的目标来说,由于在z轴方向没有基元,测向精度受到限
制。
均匀圆阵是阵元均匀分布在一个圆环上的圆形阵列,方向增益基
本一致,可以提供360的方位信息,但其对应一个二维空间,在时域无
法找到对应的采样定理,会给算法实现带来麻烦,并且由于其圆对称性,
均匀圆形阵列对相干声源的解算能力比较弱。但因其不需扇区切换,
处理较为容易。
三维阵列结构较复杂,可以选择的算法不是十分丰富,实现成本较
高,但是对整个三维空间定位性能好,适用于需要对整个三维空间定位
的系统。
在利用麦克风阵列进行声源定位时,必须已知各个麦克风阵元之
间的相对位置关系。不同的阵型结构对算法梦见以前喜欢的人 精度的影响也非常大,因
此需针对不同的应用环境选择与之相对应的阵列结构。特别是对多个
声源目标进行定位时,过小的阵列口径会极大地影响阵列的应用范
围。因此,要根据不同的应用需求选取不同的阵列模型。
2.2 算法的选取
麦克风阵列接收的声音信号本身就是复杂的信号,因此声源定位
算法必须能够适应信号的各种特性。不同的声源信号,采取的定位算
法也可能不同:例如,在对说话人进行定位时,由于拾取到的语音信号
没有经过调制,也没有载波,阵列之间的时延和相位差与信号源的频率
关系密切,此时麦克风阵列处理的信号应该看做是一个宽带信号,而传
统的定位算法是对窄带而言的。下面就两种经典的算法进行比较。
MUSIC算法的基本思想是将任意阵列输出的协方差矩阵进行特
征分解,得到相互正交的信号子空间和噪声子空间,然后利用两者的正
交性进行DOA估算。MUSIC算法对波达方向的估计性能很好,可以
高分辨地准确表现各信号的波达方向,如果参与运算的数据长度足够
长或信噪比足够高,且信号模型准确的话,MUSIC算法可以得到任意
精度的波达方向估计值。但是MUSIC算法是以信号子空间和噪声子
空间能够准确得到为前提,如果信噪比低或样本数不够,MUSIC算法
的分辨率会大幅下降。
基于时延估计(TDOA)的声源定位法在运算量上优于其他方法,
实时性好,可以在实际中低成本实现,但也有不足之处:其一是估计时
延和定位分成两阶段来完成,因此在定位阶段用的参数已经是对过去
时间的估计,这在某种意义上只是对声源位置的次最优估计;其二是时
延定位的方法比较适合于单声源的人民的名义大结局 定位,而对多声源的定位效果就不
好;其三在房间有较强混响和噪声的情况下,往往很难获得精确的时延,
从而导致第二步的定位产生很大的误差;其四是由于阵列结构和系统
采样率等条件的限制,其定位精度远远不能与超分辨类算法相比。
任何一种算法都不可能适用于所有情况,我们在不断完善算法,优
化其性能的同时,应根据不同的应用环境来选择最佳算法,从而达到最
佳效果。
3 麦克风阵列处理的难点
采用多个麦克风构成一个麦克风阵列,在时域和频域的基础上增
加一个空间域,对接收到的来自空间不同方向的信号进行空时处理,这
就是阵列麦克风信号处理的核心思想。阵列信号处理理论的完善和发
展,促进了基于阵列麦克风的信号处理理论的发展。很多用于阵列信
号处理的新算法、新技术和新体系,都可以用于阵列麦克风。可以说,
阵列信号处理理论的发展为阵列麦克风的研究带来了新的契机[4]。
基于麦克风阵列的语音信号社保转移怎么办理流程 处理是阵列信号处理的一种,但它又
不同于传统的阵列信号处理,其主要技术难点如下。
3.1 麦克风阵列模型的建立
麦克风主要用于处理语音信号,同时阵列麦克风的拾音范围都有
限,因此,声源大都位于麦克风阵列近场范围内。这使得传统阵列处理,
如雷达、声纳等,所用的平面波前远场模型不再适用,必须使用更为精
确的球面波前模型[5]。球面波前模型必须考虑由于传播路径不同所
带来的幅度衰减的不同,即除了信号的到达方向外,还需要考虑声源与
阵列之间的距离。科技英文单词 所以,进行麦克风阵列研究,必须建立适用于麦克风
阵列的近场模型。
3.2 阵列宽带信号的处理
传统的阵列处理的信号一般是窄带信号。阵元之间接收到的信号
的时延和相位差主要由载波确定。在麦克风阵列处理中,信号没有经
过调制,也没有载波由于语音信号的最高频率和最低频率之比很大,这
导致相同的时间延迟却有不同的相位差,阵元之间接收到的信号的时
延和相位差由信号源的特性来决定。麦克风接收到的语音信号频率一
般在300Hz~3000Hz之间,阵列之间的时延和相位差与信号源的频率
关系密切。因此,麦克风阵列处理的信号可以看成是一个宽带信号,这
使得阵列处理更加困难。
3.3 非平稳信号的处理
传统的阵列处理的接收信号一般为平稳信号,而麦克风阵列中的可爱宝宝壁纸
接收信号为非平稳的语音信号。语音信号可以看成是在20ms~40ms
的时间内是近似平稳的,即语音信号具有短时平稳性。结合上面的宽
带情况,麦克风阵列处理一般先把接收信号经过一个短时傅立叶变换,
求出其短时谱,然后在频域进行处理。每一频率对应一个相位差。麦
克风阵列的信号处理是将宽带信号在频域上分成多个子带,对每一个
子带应用传统的窄带处理,从而得到接收信号的空间谱。
3.4 混响的影响
传统的阵列信号处理中,噪声和信源通常是不相干的.而麦克风
阵列多位于室内等较封闭的环境中,除了环境噪声和其他声源的影响
外,声源本身在室内的混响也会对准确定位造成影响。
4 结语
麦克风阵列信号处理是数字信号处理的一个新领域,具备许多传
统阵列信号处理无法比拟的优势,是目前国内外的研究热点。但其在
低信噪比或强混响的环境下,很多算法的性能都不是很理想,如TDOA,
时延的估计精度会受到采样频率的限制。尽管许多方法试图通过插值
来提高估计精度,但是这样的插值只提供了一种平滑的方法,并没有提
高时间分辨率。所以期待能有一种更加精确的时延估计方法,使得
TDOA估计不受采样频率的限制。对于实际的定位系统而言,稳健的
时延估计将为下一步精确的定位奠定基础。
庞大的运算量也限制了许多算法在实时定位系统中的应用,如
music算法,如何提高在低信噪比环境下的性能与定位系统的抗噪声
能力,在复杂度与性能之间取得折衷,将是下一步的研究工作。相信随
着研究的不断深入,麦克风阵列信号处理也必定会具备越来越广阔的
应用前景。
参考文献
[1]Mumolo E,Nolich M,Menegatti E,et al..A multi agent system for
audio-video tracking of a walking person in a structured
environment[C]//Proceedings of Workshop on Multi agent Robotic
Systems trends and industrial applications,Padova,Italy,2003.
[2]Valin J M,Michaud F,Rouat localization and tracking of
simultaneous moving sound sources using beamforming and particle
filtering[J].Robotics and Autonomous Systems Journal,2007,55(3):216~
228.
[3]张贤达.现代信号处理[M].清华大学出版社,2003.
[4],Multi-microphone noi reduction and dereverberation
techniques for speech applications,,ESAT,Katholieke
University 9,Near-Field Broadband Leuven,Belgium,Chapter
Beamforming,2003:217~232.
[5]胡航.语音信号处理[M].哈尔滨工业大学出版社,2000.
本文发布于:2023-04-27 10:13:36,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/fan/89/850710.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |