深圳大学硕士学位论文
外语学习机关键技术研究
李新
学科门类工学
专业名称信息与信息处理
学院(系、所)信息工程学院
指导教师黄云森
分类号TN912学校代码10590
UDC密级学号********
外语学习机关键技术研究
I
摘要
随着对外交流的增加,外语学习尤其是英语学习的重要性越来越突出。然而
国内学习外语没有语境,以往的外语教学主要从听、读、写的角度,没有突出口
语训练。在此背景下,具有语音比对与语音变速功能的外语学习机对于国人学习
外语具有非常重要的意义。本文主要针对以下几个方面进行了研究:
首先针对外语的口语学习中,语音比对和语音变速的需要,研究语音信号处
理相关的基础知识,阐述语音识别与语音合成领域相关算法在此论文中应用的可
行性。研究表明:语音识别中的提取客观参数,进行语音比对和语音合成中的时
长修改算法是实现本论文目的的可行方案,适合外语口语学习。
针对语音比对应用,提出了一种采用提取基音频率曲线、Mel倒谱系数和共
振峰参数进行比对的方案。这三种参数中:基音频率曲线反映了说话人声调曲线,
此种曲线对于中国人学习外语尤其适用,因国人的母语习惯为具有四声声调的汉
语;Mel倒谱系数是最反映人的主观听觉特征的参数,是受人的听觉系统研究成
果推动而导出的声学特征参数;共振峰参数定义为声道脉冲响应的衰减正弦分
量,能精确地将典型元音区分开来,反映语音信号的重要特征。这种方案将三种
参数提取出来,依据设定的评分标准进行评分;而且经过评分后绘制曲线,符合
外语学习的规律。由此验证了所设定方案对外语口语学习的适用性。
针对语音变速的需要,提出了采用基音同步叠加(PSOLA,Pitch
SynchronizedOverlapAdd)算法对语音时长的修改,其核心是基音同步,它把
基音周期的完整性作为保证波形及频谱连续的工作前提。因此此种方法修改语音
时长后语音质量比简单的重采样方法更加理想。本论文实践了重采样、SOLA、
TD-PSOLA算法。通过试验对比了三种算法对于修改语音时长的效果,并且采用
MOS主观评价方案对算法有效时长修改范围进行了评价。试验中对TD-PSOLA算
法进行了改进。语音变速算法的实现对外语学习中不同层次学习者对外语语速的
要求具有很好的适应性。
目前市场上外语学习机的比对功能和变速功能均不尽完善,所以此课题也具
外语学习机关键技术研究
II
有很好的社会价值。
关键词:基音频率曲线,语音比对,基音同步叠加,语音变速
TheKeyTechnologiesOfForeignLanguageLearningMachine
III
Abstract
Withtheincreasingcommunionwithforeigncountries,foreignlanguage
study,especiallyEnglishstudy,rthelanguage
environmentisnotalwaysmetinChinaandtheteachingmethodhasalwaysbeen
listening,readingandwritingexercis,uch
environment,theforeignlanguagelearningmachineequippedwiththespeech
contrastandspeedchangingmodulesisverysignificantforChineinforeign
ncontentofthisthesisisasfollows:
Atfirst,thebasicknowledgeofspeechsignalprocessing,especiallythe
relatedalgorithmsofspeechrecognitionandspeechsynthesis,er,
thefeasibleprojectforthespeechcontrastmoduleandspeechratechangingmodule
echcontrastmoduleistoextracttheparametersinspeechand
echratechangingmoduleus
edliteraturearchshowsthatthis
projectisappropriate.
Thenacompoundmethodwiththepitchcurve,Melfrequenciesparameters
ethreeparameters,the
pitchcurvereprentsthespeaker’stonecurve,andsuchcurveisufulespeciallyfor
quencies
rameterisakindofacousticparameter
mantcurvecandistinguish
onetypicalvowelfromtheothervowelorconsonantanditisanimportantparameter
xtractingthethreeparameters,thismethodforspeech
recurve
ompoundmethodfor
TheKeyTechnologiesOfForeignLanguageLearningMachine
IV
speechcontrastisappropriateforspokenlanguagestudy.
Tomeettheneedofspeechratechanging,thePSOLA(PitchSynchronized
OverlapAdd)ofthisalgorithmis
pitchsynchronization,whichmakestheintegralityofpitchperiodasthepremifor
ore,thisalgorithmhasthehigher
ef
otherside,thisthesixperimentsbytheresample,SOLA,TD-PSOLAalgorithms.
Throughtheexperiments,theeffectoftimescalemodificationiscomparedand
rovementforTD-PSOLA
lementationofspeechratechangingalgorithmis
adaptableforalllevelsofEnglishstudy.
Nowtheforeignlanguagelearningmachineinthemarketisnotperfectinthe
modulesofspeechcontrastandspeechratechanging,sothisrearchisalsovaluable
forsociety.
Keyword:PitchCurve;SpeechContrast;PitchSynchronizedOverlapAdd;
SpeechRateChanging
目录
摘要..............................................................................................I
ABSTRACT.................................................................................III
第一章绪论.....................................................................................1
1.1研究的背景及意义........................................1
1.2语音信号处理在外语学习中的用途..........................2
1.3本文工作和内容安排......................................3
第二章针对外语学习的语音信号特征研究.................................5
2.1语音的机理与分类........................................5
2.2声音特征................................................6
2.3应用于外语学习的语音识别和语音合成.....................9
第三章用于比对的语音参数提取...............................................11
3.1引言...................................................11
3.2端点检测...............................................11
3.2.1语音端点检测的困难性......................................11
3.2.2采用能量及过零数参数的检测法..............................11
3.3基频曲线求取(PITCHTRACKING)...........................14
3.4MEL倒谱系数的提取.....................................17
3.5共振峰参数的提取.......................................20
3.6小结..................................................21
第四章针对外语学习的语音比对方法的设计...........................22
4.1引言...................................................22
4.2动态时间规正算法DTW...................................22
4.2.1失真测度...................................................22
4.2.2动态时间规正法(DTW:DynamicTimeWarping)..................24
4.3基于DTW技术的语音比对试验.............................28
4.3.1DTW的在语音比对中的具体解法...............................28
4.3.2语音比对的参数设计.........................................29
4.3.3评分体系的设定.............................................30
4.3.4仿真试验过程及结果分析.....................................30
4.4小结..................................................33
第五章语音变速算法...................................................................34
5.1引言..................................................34
5.2SOLA和PSOLA处理技术..................................35
5.2.1时长修改(Time-ScaleModification)技术....................35
5.2.2迭加技术SOLA..............................................35
5.2.3PSOLA合成技术.............................................36
5.2.4TD-PSOLA合成技术..........................................38
5.2.5TD-PSOLA算法理论推导[32,33]..................................39
5.3小结..................................................42
第六章语音变速算法实施...........................................................43
6.1引言..................................................43
6.2主观音质评价测度.......................................43
6.3重采样算法实验........................................44
6.3.1重采样算法分析与实施.......................................44
6.3.2重采样方法试验结果.........................................45
6.4SOLA算法实验..........................................48
6.4.1SOLA算法分析与实施........................................48
6.4.2SOLA方法试验结果..........................................49
6.5TD-PSOLA算法实施.....................................50
6.5.1基音标位(Pitchmark)的算法[37-40]............................50
6.5.2TD-PSOLA算法分析与实施....................................51
6.5.3TD-PSOLA试验结果..........................................53
6.6小结..................................................56
参考文献………………………………………………………57
致谢………………………………………………………………………60
攻读硕士学位期间的研究成果……………………………………61
外语学习机关键技术研究
1
第一章绪论
1.1研究的背景及意义
随着国际交流的增加,外语学习,尤其是英语的学习越来越引起人们的重
视。外语能力已成为一个人受教育程度的标志,也是一个人掌握知识、运用知
识、取得事业成功的关键。然而外语学习,由于缺乏相应的学习生活环境,对
学习者是有一定困难的事情。因此探索比较适合中国国情的外语学习工具,已
经成为许多学者的研究重点。
由于计算机及网络的软件和硬件技术的发展,计算机辅助教学已经成为现
代教育技术在教育领域运用的一个重要方面。越来越多的学习软件已经在帮助
人们学习语言。计算机丰富的图形、图像、声音处理功能有力的促进了人们的
语言学习效果。但目前大多数学习软件仍停留在训练人们的听力、词汇、阅读
技巧上,对口语训练的软件相对较少。口语能力的提高又是熟练掌握英语的一
个关键。因此,开发具有语音识别/判别能力的教学软件,把语音识别技术与
多媒体技术相结合,已成为这一类语言教学的热点。
本课题是基于深圳市教育科学“十五”规划重点课题:网络教学平台的研
制(ZD-A044)。此系统的软件部分主要分为两大模块:语音的比对与变速。其
中比对模块功能包括:语音波形图的显示,输入语音的存储,语音信号参数提
取及比对打分。变速模块功能包括:语音信号时长的修改,达到改变语速的同
时不变调。
本论文在实验室原有部分软件模块基础上,主要针对语音比对和变速部分
中涉及到的语音识别和语音合成算法进行了理论分析和具体试验。提出了自己
外语学习机关键技术研究
2
独特的基音频率曲线(PITCH),Mel倒谱系数(MFCC),共振峰参数(FORMANT)
三个参数组合,结合DTW算法比对参数的欧氏空间距离,根据论文设计的比对
方案,实现了语音比对功能;比较了RESAMPLE,SOLA,TD-PSOLA算法在语音信
号时长修改(变速)中的应用。进行了三种算法的主观听觉试验(MOS评价),
并且对TD-PSOLA算法进行了时域与频域的同时改进,达到了最优的时长修改
效果。
1.2语音信号处理在外语学习中的用途
从语音信号处理的理论到语音产品的开发,产业化,语音识别和语音合成
技术已经有几十年的发展历程,尽管有了很多研究成果,但因为语音信号处理
是在多门学科的基础上发展起来的一门综合性技术,涉及声学、概率论、线性
系统理论、生理学、心理学、数字信号处理、计算机科学和模式识别语言学等
领域;而且语音部分的多交叉性和不确定性,随时间而变化的随机性,使得不
受限的自然语言为基础的语音人机通信目标还相差很远。
根据课题项目的要求本论文主要研究语音信号处理在外语学习中的应
用,主要是外语学习机的比对部分采用了语音识别的基本概念,语音变速部分
运用了一些时域修改语音时长的算法,这是语音合成中很基本的处理算法。
具体而言本论文中运用语音信号处理算法从以下几方面做工作:
1.如何提取反映标准语音与测试语音差别的参数?
在语音比对部分要解决这个问题,提取稳定的,有代表性的特征值。尽可
能摈弃无关的信息。因为输入的语音信号既包括说话人的特征,又包含一些声
学环境、话筒、信道等可变性因素,这些属于无关信息。特征选取同时要以严
密合理的形式来提取所确定的参数。这些对于语音比对效果非常重要。中国人
母语为汉语,而汉语为有声调(tone)语言,即相对于英语而言有调型改变。
外语学习机关键技术研究
3
为了明显反映汉语习惯与英语习惯差别,本论文中提出用基音频率曲线(Pitch
Curve)来反映测试音与标准音的差别;另外,本论文中还选取了反映人耳听
觉特征明显的Mel倒谱系数(MFCC),来比对主观听觉上测试音与标准音的差别;
最后又考虑了共振峰参数(FORMANT),此参数能精确地将典型元音区分开来,
反映语音信号的重要特征[2]。
2.如何设定语音比对方案?
在已有语音参数的基础上,如何更加客观、准确的比对语音参数,这方面
有很多已有的语音识别方法,其中比较有代表性的有:(1)模式匹配法。主要
代表为动态时间弯折方法(DTW:DynamicTimeWarping)。(2)统计概率模型
识别方法,代表的为隐马尔可夫模型(HMM:HiddenMarkovModel),VQ-HMM
方法。其中VQ-HMM方法成了语音识别的主导方法。(3)人工神经网络方法(NN:
NeuralNetwork)。本文主要采用了适用于中小词库的DTW算法,来对100组
语音进行比对,根据设定的评分系统以及反映待测语音与标准语音空间距离的
欧氏空间测度,得到最终的语音客观评价分数。
3.如何对语音进行变速而不变调的调整?
这方面的语音信号处理涉及到语音时长的修改,属于语音合成基本概念的
应用。比较成熟的算法有SOLA,PSOLA,TD-PSOLA等算法。本论文从理论到实践
讨论了这几种算法,并且对TD-PSOLA算法进行了部分改进。实现了较好的变
速不变调的语音修正效果。
1.3本文工作和内容安排
本论文研究的内容是:针对以上语音识别与合成算法的关键问题,进行如
下工作。
a.研究语音信号处理,尤其是语音识别对语音比对,语音合成对语音变速
外语学习机关键技术研究
4
的可行性;
b.研究语音识别技术中特征值的提取技术,采用多种方法提取语音信号的
特征值,找出有效的语音信号特征参数;
c.从理论上分析动态匹配方法,并研究最佳匹配算法,并在语音比对中实
践;
d.在MATLAB仿真环境下,实现各语音信号的预处理、特征值分析与比对
算法。从理论上分析、比较其有效性,为在DSP上进行语音比对算法开
发提供了理论分析和仿真试验依据。
e.在理论上对比分析了SOLA、PSOLA算法对于语音时长修改也即语音变速
方面的作用;尤其探讨了TD-PSOLA算法的数学模型。
f.在MATLAB仿真环境下,实践了重采样、SOLA、TD-PSOLA算法在语音变
速处理中的应用;改进了TD-PSOLA算法。
具体的内容安排分为六章。第一章序论:介绍课题的提出以及语音信号处
理的发展情况;第二章针对外语学习的语音信号特征,进行文献综述,介绍与
声音、语音识别与合成相关的基础知识;第三章用于比对的语音参数提取:研
究并在MATLAB仿真环境实现了基音频率曲线(PITCH),Mel倒谱系数(MFCC),
共振峰参数(FORMANT)三种反映语音特征的参数的提取;第四章针对外语学
习的语音比对方法的设计:研究并实践了DTW技术在语音比对中的应用,设定
了语音比对的评分体系,并且仿真试验了三种语音参数在语音比对中的应用;
第五章语音变速算法:理论上分析了语音合成算法SOLA、PSOLA以及TD-PSOLA
对语音时长和频率的修改,尤其推导了TD-PSOLA算法的数学模型;第六章语
音变速算法实施:实践了重采样(Resample),SOLA,TD-PSOLA算法对语音时
长的修改,并且通过主观评价MOS标准对算法的有效性进行了评价。
外语学习机关键技术研究
5
第二章针对外语学习的语音信号特征研究
2.1语音的机理与分类
图2-1稳态元音的语音产生机理和模型
(声音信号表示为以周期脉冲串为输入的线性时不变系统的输出;
在频域中,声道系统函数对谐波输入进行频谱整形)
为了对语音的机理有个基本认识,如图2-1所示元音产生模型。在发元音
时,通过肺腔周围肌肉的收缩,空气被迫从肺里呼出,然后空气流经两片肌肉
所构成的声带,引起声带的周期性振动,振动频率即为语音的基音频率,所产
生的周期性气流成为声道的激励输入(或声源)。声道是从声带至口唇的腔体,
起一个谐振腔的作用,对周期性机理输入进行频谱整形,这很像音乐里管乐器
的管腔。根据对语音产生机理的这一基本认识,就可以建立一个简单的激励源
/滤波器模型,来反映语音周期性脉冲串与声道冲击响应的卷积。
人类的发音过程有三类不同的激励方式,因而能产生三类不同的声音,
即浊音、清音和爆破音。当气流通过声门时声带的张力刚好使声带发生较低频
率的张弛震荡,形成准周期性的空气脉冲,这些空气脉冲激励声道边产生浊音。
外语学习机关键技术研究
6
如果声道中某处面积很小,气流高速冲过此处时产生湍流,当气流速度与横截
面积之比大于某个门限时(临界速度)便产生摩擦音,即清音。如果声道某处
完全闭合建立起气压,然后突然释放而产生的声音就是爆破音。
我们遇到最多的就是浊音和清音。简言之,发浊音时声带发生振动,因
此浊音有周期性(准确的说是准周期性),而发清音时声带不振动,因此清音
没有周期性。
元音还是辅音是根据发音动作的不同而划分的,当气流从喉腔、咽腔进入
口腔从唇部出去时,如果这些声腔完全开放,气流可以顺利通过,这时产生的
语音称为元音;相反,如果这条通路的某一部分封闭而使得气流受阻,这是产
生的是辅音。
清音和浊音是根据声带震动与否划分的,由声带振动而产生的称为浊音,
反之为清音。两者之间存在一定的交叉。在谈及基音周期时,多涉及到清音和
浊音。在语言理解中,了解字和词的构成形式时,多说元音和辅音。清音和浊
音不是和辅音和元音相对应的,元音都是浊音,但浊音不都是元音,因为有一
些浊辅音,如:l,m,n。
如图2-2单词es的波形图,可以分为如下几部分:无声的辅音/s/,元
音/iy/和有声的元音/z/。
图2-2单词es的波形图
2.2声音特征
音是由于物体的振动而产生的。音有高低、强弱、长短、音色等四种性质。
本论文在第一部分中主要涉及到音高,以及反映人耳听觉特征的综合参数MFCC
系数,说话人特征的共振峰参数;第二部分主要是语音长短的修改,也即对时
长的修改。
外语学习机关键技术研究
7
(1)音高:乐音听起来有的高,有的低,这就叫音高。音高是由发音物体
振动频率的高低决定的,频率高声音就高,频率低声音就低。比如女人唱歌时
声带振动频率高,男人唱歌时声带振动频率低,所以男声比女声低。
在教学练习中正常发音,普通话四种声调的音高总范围(即声调音域)一
般是一个倍频程(octave,音乐中又称八度音)。在句子里,着重重音与节奏
重音均将使声调长度(或覆盖的频域范围)加大。相反,轻化(不是指轻声)
使那种音域失去独立性,音高落在过渡过程中。
在本论文中音高(Pitch)代表声音频率的高低,而此频率指的是“基音
频率”(FundamentalFrequency),也就是“基音周期”(FundamentalPeriod)
的倒数。若直接观察语音的波形,我们很容易直接看到基音周期的存在,如
图2-3,以语音“深圳大学电子专业”来说,我们可以将“圳”的部分放大,
就可以明显地看到基音周期。
下面详细探讨对基音周期的原理分析:
复音是由多个正弦波组成的声音,其中各个频率的最大公约数称为基音频
率,其倒数就是基音周期。
图2-3基音周期示例图
(语句内容为“深圳大学电子专业”)
基音周期可以通过声门启闭以及通过声门波来估计。手工的方法是通过标
注基频点的位置来估计。自动求解基音周期的方法有很多,比如自相关、AMDF
等。手工的方法是通过标注标位线的位置来得到(一般很难直接标出基频点),
Praat软件中显示在波形中的蓝色竖直线即是标位线。另一个角度,浊音信号
是一种准周期信号,所以只能用短时平均的方法估计其周期,基音周期的估计
也常称为基音检测(PitchDetection)。不能以为一句话或者一个音节有一个
外语学习机关键技术研究
8
基音周期。这要从语音信号自身的特点和分析方法说起:因为语音信号是一种
典型的非平稳信号。而我们常用的信号处理方法比如傅立叶变换,自相关算法
等都是针对的平稳信号的。那怎么应用这些算法那?这需要考虑到语音的形成
过程是与发音器官的运动密切相关的,这种物理运动比起声音振动速度来讲要
缓慢的多,因此语音信号常常可假定为短时平稳的,即在10-20ms这样的时间
段内其频谱特性和某些物理特征参数可近似地看作是不变的。这样我们就可以
采用平稳过程的分析处理方法来处理了。基于上述特点,我们常常以10-20ms
步长为语音信号分帧,如果是求基音周期也是每帧有各自的基音周期。基音周
期的倒数就是基频,这个就是本论文下面要详细探讨的。在本论文第二部分,
做PSOLA算法的时候所犯的错误就在于此,开始误以为一段语音信号有一个基
频,其实一个语音信号每一帧有一个基频值,连接成线就是基频曲线。
语音信号的帧长可以取10ms---30ms。每帧的确只有一个基音周期,但对
整个语音信号来说每帧一个基音周期就会形成一个基音周期的序列,求其平均
值,就作为整个语音信号的基音周期,再求倒数得到是整个语音信号的基频。
对于每帧语音信号,只要是浊音信号,都会有一个基音周期对应,将若干帧的
基音周期连成线,就是基音周期曲线,一般它和我们说的声调一致。对于某个
特定人的基音周期,那应该是一个值,就是每帧的平均值。这是一个比较泛的
概念,理论上这个概念和人声带固有的特性有关,如声带长度,宽度等。因此,
特定人本身都有固定的基频。但要在真正的话者识别和语音识别中使用,还是
以帧为单位。
另一方面,帧(frame)和基频(pitch)没有什么关系,所谓一帧有多少个基
音周期的说法毫无意义,这取决于帧长和基频值,而一个人在说话的过程中基
频是不断变化的。在分析基音周期的时候有一个东西是固定的(所谓固定并不
是说是统一的值,意思是说不会因为算法或者帧长的不同而发生变化),那就
是基音标位(Mark点)的间隔以及标位点的个数,至于能从中提取多少个基频
(pitch)点,全然取决于具体的规整方法。
(2)音强:是由于振幅(音的振动范围的幅度)的大小而决定的。振幅大,
音则强;振幅小,音则弱。计算音强有如下两种方法:
1.绝对值的总和:这种方法的计算较简单,只需要整数运算,适合用于较
低性能的处理器平台(如单片机等)。
本文发布于:2023-01-03 13:02:34,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/84588.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |