ReportofPhoneticRearch2005
语调研究中心理和声学等价单位
李爱军
中国社会科学院语言研究所
摘要*
语调研究是韵律研究的热点问题,语调研究的物理
实体一般是基频曲线F0,不同发音人的基频变化范围有
很大的差异。一般语调音高曲线F0以赫兹(Hz)为单位,
研究中也采用与心理-声学(psycho-acoustic)相关的
等价单位,如半音mitones,镁mel,巴克Bark以及
ERB等。到底在语调研究中使用哪个单位更好?本文目的
就是介绍国内外关于这个问题的研究,说明半音是最好
的反应心理-声学的语调研究单位。最后还用半音分析了
汉语情感语音库中几种情感语音音高曲线的特征。
关键词:语调、基频、音高、半音、心理-声学单位
1.引言
话语的韵律特征是当今语音学、言语工程界十分关
注的研究课题,其中语调又是研究的核心。现代语言学
中“prosody和prosodic是指propertiesofspeechthat
cannotbederivedfromthegmentalquenceofphonetics
underlyinghumanutterances”。[6]音高(Pitch)是感知到
基频相关量。语调指音高变化,这种变化受到语言和语
用信息影响,而这些信息从词和词组中是得不到的。感
知上,音高的“高”和“低”的对立可以强调某个词,
区分短语边界等。[8]
由于人耳听觉系统非常复杂,迄今为止人类对它的
生理结构和听觉特性还不能从生理解剖角度完全解释清
楚。所以,对人耳听觉特性的研究目前仅限于在心理声
学和语言声学。人们对语调的特性研究目前也只能从心
理感知和声学分析方面来揭示。一般音高曲线F0以赫兹
为单位,也有使用与心理-声学相关量来研究音高的,如
半音、镁、巴克以及ERB等。这些单位都被认为是能够
反映心理感知的心理-声学感知量,到底在语调研究中使
用哪个单位更好?下面将介绍国内外近两年关于这个问
题的研究,说明半音是最好的语调研究单位。文章最后
分析了汉语情感语音库的几种情感语音的音高变化特
征。
*《声学技术》,2005年3期(西部声学会议)
2.语调研究中基频F0对应的各种心理-
声学单位
男性的F0范围一般在80-200Hz;女性的范围在
180-400Hz。音高感知中第3-6谐波最重要,物理上基频
是否存在对音高的感知没有太大影响[8]。下面列举语调
研究中基频F0对应的各种心理-声学单位。
赫兹(Hz):每秒钟声带振动的次数。Hz是线性刻
度,而我们对语音的产生和感知却不是线性的。
半音(mitone)是一种尺度衡量单位。它将用Hz表
示的基频频率通过变换转换成对数域中的值。在乐律中,
将一个倍频程等分为12个音程,每一音程称为半音,一
个半音就相当十二分之一个倍频程。其转换关系为:
St=12*log2*(F0/Fref),其中,St是半音值,F0是
以Hz为单位的基频数值,Fref是以Hz为单位的参考基
频值。从这个公式可以看出,Hz为单位的基频数值与半
音值之间不是线性变换,而是图1中所示的非线性变换。
巴克(Bark)也是实验得到的感知量,通过建立影
响声调感知最大带宽掩蔽宽带噪声得到。如果纯音刚好
能被听到时的功率等于这一频带内噪声的功率,那么这
一带宽称为临界频带宽度。临界频带的单位叫巴克
(Bark),1Bark=一个临界频带宽度。这个特别的带宽在
高频范围更大,Bark近似于对数关系,500Hz以下,是语
音基频的主要范围,对音高的感知起重要作用,这时Bark
与Hz的关系近似线性关系,见图2。Hz与感知的声谱频
率巴克(Bark)的对应关系为:F
bark
=7ln(F0/650+sqr(1
+(F0/650)2))。
镁/美(Mel)也是通过实验得到的Hz与感知的纯
音音高的关系。人们利用受试者能相当准确地说出某一
纯音音高是高一倍,还是低半倍,从而研究了主观感觉
的音高与客观测量的频率之间的关系。图3表示以Mel
为单位的音高与以Hz为单位纯音的频率之间的关系。响
度级40方、1000Hz纯音的音高被定义为1000美。一个
频率的声音若听起来是40方、1000HZ纯音音高的两倍,
它的音高就是2000美。500美的音高是1000美音高的一
半。低于500Hz时,以美为单位的音高和以HZ为单位
的频率之间近似成线性关系,但是,高于500Hz时,美
的增长速度逐渐小于Hz的增长速度,当频率达到一般听
13
ReportofPhoneticRearch2005
觉的最高值16KHz时,音高却只有3400美左右。
Hz与感知到的音高镁/美的计算公式:F
Mel
=550ln(1
+F0/550)。
ERB(equivalentrectangularbandwidth)获得的原理同
Bark,但蔽噪声用矩形波的“notch”置于声调附近,建
立notch的最小带宽使得声调的感知不受影响,在高频部
分是对数关系,500Hz以下处于直线与对数之间,如图4
所示。Hz到ERB的转换公式:Ferb=11.17ln((F0+312)
/(F0+14680))+43。
图1,50-500Hz范围里,Hz与半音的对应关系
-1
1
3
5
50500
Hz
B
a
r
k
图2,50-500Hz范围里Hz与Bark的对应关系
图3,Mel与Hz之间的音高对应关系
-1
4
9
Hz
E
R
B
图4,50-500Hz范围里Hz与ERB的对应关系
3.各种实验研究介绍
Ladd指出[3],音域(pitchrange)是指音高变化的最
高阈限与最低阈限之间的频率差,即两者之间的频率变
化范围,也叫嗓音音域(voicerange)。音高范围按照Ladd
说法叫PitchRange,涉及音高变化的两个参数,一个是
音高水平level,另一个则是音高变化范围span。音高水
平是指一句话总体的音阶(key)值;音高范围(span)
指说话人的声调空间,基频F0最大值和最小值之间的距
离。研究语调的心理-声学量的方法有很大不同,有的知
觉实验是针对音高范围、有的针对感知到凸显/重音,得
到的结论也不同。
ld和hoven[1]通过让受试
者判断频率不同、轻重不同的一对合成的刺激,当F0的
偏移和变化用Hz表示,判断的正确性高于mitone,这
个结论似乎与psycho-acoustic相悖。
与te[2],则让受试者调整
合成刺激的高度,让它与重音的参考高音阶或低音阶匹
配,结果发现ERB-ratescale比Hz或mitone都要好。
FrancisNolan[4]就这个问题对英语进行了实验,他
认为以前的知觉实验主要是对感知到的凸显进行判断,
而不是对整个的旋律或韵律(melodic)进行感知。他提
出了一种新的实验方法,能够应对不同性别的发音人确
定音高等价量(pitchequivalence)。首先确定一些样板语
音,然后让受试按照自己的发音来模仿这些样板发音,
要求受试模仿听到的语调。受试模拟模板声音时音高范
围pitchspan尽量一致,而不用去考虑语音样板的声域
(tessitura)。然后计算受试者语音和样板语音的音高范围
的误差,分别按照不同的单位来计算误差的大小,包括
半音mitones,镁mel,巴克Bark以及ERB-rate误差。
统计结果发现,几个不同计量单位得到的误差值之间有
显著的差异,而受试的性别没有对误差产生显著的影响;
音高范围与受试的性别相关;半音计算得到的误差最小,
其次是ERB。实验说明对数(St)或接近对数(ERB)
的单位能够最好地表达语调。
RolfCarlson,KjellElenius以及MarcSwert[7]
,利
用语音库对瑞典语的音高范围进行了知觉实验。发音人
的典型音高变化范围定义为F0累计频率曲线的
25%-75%两点间的距离,F0中值为50%对应的值。图5a
和5b分别是F0采用Hz值和半音St得到的498名发音
人的音高变化范围与中点值的情况,可以清楚看到,采
用半音时,发音人的音高变化与中点值并行,就是说音
高变化范围与中点值无关,而采用赫兹Hz为单位,中点
值与音高变化范围相关性很大。所以在语调研究中使用
半音St可以提高正交性。
Fant等也在近两年的语调建模研究中提倡使用半音
为研究单位,以消除平均声调级,使得不同发音人的语
调模式不但反映了个人特性而且反映了整体平均值[5]。
14
ReportofPhoneticRearch2005
图5-a,F0采用Hz时发音人的音高范围和中值分布[7]图5-b,F0采用Hz时发音人的音高范围和中值分布[7]
4.汉语情感语音库的音高特征分析
我们认为上面的知觉实验尽管是对英语、瑞典语等
进行的,但完全适用于汉语。因此我们在汉语的语调研
究中也应该使用半音或ERB这样的对数比例单位。沈炯
对传统的5度制规整方法也进行了论证[10]。
我们用上面提到的分析方法,对汉语情感语音库
CASS-EMC的发音的音高特征进行了分析,CASS-EMC是
中国社会科学院语言所语音研究室制作的情感语音库
[9],主要包括字组、短句等各种语料的6种基本情绪,
情绪分类为嘲讽(scorn)、高兴(happiness)、害怕(fear)、难
过(sadness)、生气(anger)、厌恶(disgust),为了对比还录制
了中性状态(neutral)。此外,还有短篇故事3篇。发音
人为专业演员,3男1女。我们对两位男发音人MengY
和ZWK的相同语料的F0进行分析。
将所有基频数据按照不同情感状态统计,图6-a是
发音人MengY的所有F0的累积变化频率分布曲线,图
6b-f是5种情感状态下F0的累积变化频率分布曲线。
图7a和图7b分别是发音人MengY的累积频率25%,
50%,75%点对应的F0的Hz与St值。状态“All”是所有F0
统计结果,代表了发音人真正的F0变化范围。下表是两
位发音人在这3点上的值和“音域”(75%-25%),可以看
到两位发音人的典型音域分别是101-149Hz,141-205Hz,
在线性坐标空间分别相差48和64Hz,但在对数空间若以
ST(100Hz参考频率)为单位,分别是0.17-6.9St,5.9-
12.4St,相差6.7和6.4个半音,非常接近。这说明用半音
研究音高变化范围可以直接反映发音之间的异同。
HzMengYZWKSTMengYZWK
25%10114125%0.1722645.948342
50%12116150%3.3000858.244728
75%14920575%6.90374812.42749
75%-25%48640.56.7314846.479145
图8a和8b分别是按照传统方法计算的发音人的F0
高点和低点以及F0均值。我们可以看到,两位发音人的
音高分布模式有相似之处,音高的总体变化水平都是(高
兴和愤怒)>中性>(害怕和悲伤)。但是两位发音人也有
不同,MengY的高兴与愤怒的F0变化范围有差距,Zwk
的高兴与愤怒F0变化范围没有显著差异;MengY的害怕
和难过与中性音高变化范围比Zwk的略大。说明,从音
高上看,两位发音人使用的情感表达策略有一定的差别。
从发音人基频变化的均值看,两位发音人有差别,MY由
高到低依次是:Happy〉Angry〉Neutra〉fear〉Sad;ZWK
由高到低依次是:Angry〉Happy〉Neutral〉fear〉Sad。
从发音人音高上限看,两位发音人没有差别,由高到低
依次是:Angry=Happy=4.9,Sad=Neutral=fear=4。从发
音人音高下限看,两位发音人有差别,MY由高到低依次
是:Fear〉Happy〉Neutral〉Angry〉Sad;;ZWK由高到
低依次是:Happy〉Angry〉fear〉Neutral〉Sad。从发
音人音高变化范围看,两位发音人有差别,MY由高到低
依次是:Sad〉Angry〉Happy〉Neutral〉fear;ZWK由高
到低依次是:Sad〉Neutral〉Angry〉fear〉Happy。
5.小结
本文总结了当前关于语调研究中关于F0心理-声学
相关量的各种知觉实验,提出在汉语语调研究中应该使
用实验中验证的与基频F0有对数关系的半音、ERB等分析
单位。
15
ReportofPhoneticRearch2005
0
0.25
0.5
0.75
1
453281309
F0(Hz)
F
0
累
积
频
率
图6-a,Mengy的F0累计分布(HZ)
-20
5
30
55
80
105
0100200
F0(HZ)
累
积
频
率
(%
)
图6-b,MengY的中性语音(Nuetral)F0分布
图6c,MengY的难过语音(sad)F0分
布
0
25
50
75
100
0100200
F0(HZ)
累
积
频
率
(%
)
图6d,MengY的高兴语音(happy)F0
分布
0
25
50
75
100
F0(HZ)
累
积
频
率
(%
)
图6e,MengY的生气语音(Angry)F0分
布
0
25
50
75
100
F0(HZ)
累
积
频
率
(%
)
图6f,MengY的害怕语音(Fear)F0分布
0
25
50
75
100
F0(HZ)
累
积
频
率
(%
)
图7-a,5种情感以及不分情感状态的
25%,50%,75%点的F0(Hz)
70
90
110
130
150
170
190
210
NSHAFAll
F
0
(H
z
)
L
(25%)
M
(5%0)
H
(75%)
图7-b,5种情感以及部分情感状态的25%,50%,75%点的
F0(ST)
-3
2
7
12
NSHAFAll
F
0
(
S
T
)
L(25%)
M(5%0)
H(75%)
图8-a,发音人MengY的F0高点、低点和均值
-17
-10
-3
4
11
18
NSHAF
F
0
i
n
S
T
F0_Ave
F0_Bot
F0_Top
图8-b,发音人MengY的F0高点、低点和均值
-12
-6
0
6
12
18
NSAHF
F
0
i
n
S
T
参考文献
[1]hoven,“Ontherelation
betweenpitchexcursionsizeandprominence”,
JournalofPhonetics,13,pp.299–308,1985..
[2]&tel,“Thefrequencyscaleof
speechintonation”,JournaloftheAcousticalSociety
ofAmerica,90,pp.97–102,1991.
[3]Ladd,1996,Intonationalphonology,
CambridgeUniversityPress.
[4]FrancisNolan,Intonationalequivalence:an
experimentalevaluationofpitchscales,
ICPHS2003.
[5]GunnarFant,AnitaKruckenberg,KjellGustafson,Johan
Liljencrants,ANewApproachtoIntonationAnalysis
andSynthesisofSwedish,Sp2002,Aix-en-Provence,
France.
[6]JohnClarkandColinYallop,语音学与音系学入门,An
introductiontophoneticsandphonology,Blackwell
publishers,外研社。
[7]RolfCarlson,KjellEleniusandMarcSwert,Perceptual
JudgmentsofPitchRange,SP2004,Nara,Japan
16
ReportofPhoneticRearch2005
[8]stleandJohnLaver,Prosodyof
speech–MelodyandRhythm,fromThehandbookof
phoneticsciences,,Blackwellpublishers.
[9]王海波,李爱军(2003),普通话情绪语音库的建立
及听辨实验,第六届全国现代语音学学术会议论
文集。
[10]沈炯,美标度是比例标度──纠正一种流行的误解,
《第四届全国语音学研讨会论文集》,金城出版社
1999。
ThePsycho-acousticUnitsforIntonationStudy
AijunLI
InstituteofLinguistics,CASS
ABSTRACT:Thispaperdescribesthecurrentrearchon
is
ismadefordifferentunits:Hzandotherpsycho-acoustic
correlatedunitssuchasSemitone,Mel,
theresulttellsthatmitoneisthebestforintonation
eralsoanalyzestheF0forveralbasic
emotionalspeechesasdemonstration.
Keywords:intonation,pitch,F0,mitone,psycho-acoustic
unit
17
本文发布于:2022-11-24 22:13:03,感谢您对本站的认可!
本文链接:http://www.wtabcd.cn/fanwen/fan/90/14568.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
留言与评论(共有 0 条评论) |