bark

更新时间:2022-11-24 22:13:03 阅读: 评论:0


2022年11月24日发(作者:航海技术专业)

ReportofPhoneticRearch2005

语调研究中心理和声学等价单位

李爱军

中国社会科学院语言研究所

摘要*

语调研究是韵律研究的热点问题,语调研究的物理

实体一般是基频曲线F0,不同发音人的基频变化范围有

很大的差异。一般语调音高曲线F0以赫兹(Hz)为单位,

研究中也采用与心理-声学(psycho-acoustic)相关的

等价单位,如半音mitones,镁mel,巴克Bark以及

ERB等。到底在语调研究中使用哪个单位更好?本文目的

就是介绍国内外关于这个问题的研究,说明半音是最好

的反应心理-声学的语调研究单位。最后还用半音分析了

汉语情感语音库中几种情感语音音高曲线的特征。

关键词:语调、基频、音高、半音、心理-声学单位

1.引言

话语的韵律特征是当今语音学、言语工程界十分关

注的研究课题,其中语调又是研究的核心。现代语言学

中“prosody和prosodic是指propertiesofspeechthat

cannotbederivedfromthegmentalquenceofphonetics

underlyinghumanutterances”。[6]音高(Pitch)是感知到

基频相关量。语调指音高变化,这种变化受到语言和语

用信息影响,而这些信息从词和词组中是得不到的。感

知上,音高的“高”和“低”的对立可以强调某个词,

区分短语边界等。[8]

由于人耳听觉系统非常复杂,迄今为止人类对它的

生理结构和听觉特性还不能从生理解剖角度完全解释清

楚。所以,对人耳听觉特性的研究目前仅限于在心理声

学和语言声学。人们对语调的特性研究目前也只能从心

理感知和声学分析方面来揭示。一般音高曲线F0以赫兹

为单位,也有使用与心理-声学相关量来研究音高的,如

半音、镁、巴克以及ERB等。这些单位都被认为是能够

反映心理感知的心理-声学感知量,到底在语调研究中使

用哪个单位更好?下面将介绍国内外近两年关于这个问

题的研究,说明半音是最好的语调研究单位。文章最后

分析了汉语情感语音库的几种情感语音的音高变化特

征。

*《声学技术》,2005年3期(西部声学会议)

2.语调研究中基频F0对应的各种心理-

声学单位

男性的F0范围一般在80-200Hz;女性的范围在

180-400Hz。音高感知中第3-6谐波最重要,物理上基频

是否存在对音高的感知没有太大影响[8]。下面列举语调

研究中基频F0对应的各种心理-声学单位。

赫兹(Hz):每秒钟声带振动的次数。Hz是线性刻

度,而我们对语音的产生和感知却不是线性的。

半音(mitone)是一种尺度衡量单位。它将用Hz表

示的基频频率通过变换转换成对数域中的值。在乐律中,

将一个倍频程等分为12个音程,每一音程称为半音,一

个半音就相当十二分之一个倍频程。其转换关系为:

St=12*log2*(F0/Fref),其中,St是半音值,F0是

以Hz为单位的基频数值,Fref是以Hz为单位的参考基

频值。从这个公式可以看出,Hz为单位的基频数值与半

音值之间不是线性变换,而是图1中所示的非线性变换。

巴克(Bark)也是实验得到的感知量,通过建立影

响声调感知最大带宽掩蔽宽带噪声得到。如果纯音刚好

能被听到时的功率等于这一频带内噪声的功率,那么这

一带宽称为临界频带宽度。临界频带的单位叫巴克

(Bark),1Bark=一个临界频带宽度。这个特别的带宽在

高频范围更大,Bark近似于对数关系,500Hz以下,是语

音基频的主要范围,对音高的感知起重要作用,这时Bark

与Hz的关系近似线性关系,见图2。Hz与感知的声谱频

率巴克(Bark)的对应关系为:F

bark

=7ln(F0/650+sqr(1

+(F0/650)2))。

镁/美(Mel)也是通过实验得到的Hz与感知的纯

音音高的关系。人们利用受试者能相当准确地说出某一

纯音音高是高一倍,还是低半倍,从而研究了主观感觉

的音高与客观测量的频率之间的关系。图3表示以Mel

为单位的音高与以Hz为单位纯音的频率之间的关系。响

度级40方、1000Hz纯音的音高被定义为1000美。一个

频率的声音若听起来是40方、1000HZ纯音音高的两倍,

它的音高就是2000美。500美的音高是1000美音高的一

半。低于500Hz时,以美为单位的音高和以HZ为单位

的频率之间近似成线性关系,但是,高于500Hz时,美

的增长速度逐渐小于Hz的增长速度,当频率达到一般听

13

ReportofPhoneticRearch2005

觉的最高值16KHz时,音高却只有3400美左右。

Hz与感知到的音高镁/美的计算公式:F

Mel

=550ln(1

+F0/550)。

ERB(equivalentrectangularbandwidth)获得的原理同

Bark,但蔽噪声用矩形波的“notch”置于声调附近,建

立notch的最小带宽使得声调的感知不受影响,在高频部

分是对数关系,500Hz以下处于直线与对数之间,如图4

所示。Hz到ERB的转换公式:Ferb=11.17ln((F0+312)

/(F0+14680))+43。

图1,50-500Hz范围里,Hz与半音的对应关系

-1

1

3

5

50500

Hz

B

a

r

k

图2,50-500Hz范围里Hz与Bark的对应关系

图3,Mel与Hz之间的音高对应关系

-1

4

9

Hz

E

R

B

图4,50-500Hz范围里Hz与ERB的对应关系

3.各种实验研究介绍

Ladd指出[3],音域(pitchrange)是指音高变化的最

高阈限与最低阈限之间的频率差,即两者之间的频率变

化范围,也叫嗓音音域(voicerange)。音高范围按照Ladd

说法叫PitchRange,涉及音高变化的两个参数,一个是

音高水平level,另一个则是音高变化范围span。音高水

平是指一句话总体的音阶(key)值;音高范围(span)

指说话人的声调空间,基频F0最大值和最小值之间的距

离。研究语调的心理-声学量的方法有很大不同,有的知

觉实验是针对音高范围、有的针对感知到凸显/重音,得

到的结论也不同。

ld和hoven[1]通过让受试

者判断频率不同、轻重不同的一对合成的刺激,当F0的

偏移和变化用Hz表示,判断的正确性高于mitone,这

个结论似乎与psycho-acoustic相悖。

与te[2],则让受试者调整

合成刺激的高度,让它与重音的参考高音阶或低音阶匹

配,结果发现ERB-ratescale比Hz或mitone都要好。

FrancisNolan[4]就这个问题对英语进行了实验,他

认为以前的知觉实验主要是对感知到的凸显进行判断,

而不是对整个的旋律或韵律(melodic)进行感知。他提

出了一种新的实验方法,能够应对不同性别的发音人确

定音高等价量(pitchequivalence)。首先确定一些样板语

音,然后让受试按照自己的发音来模仿这些样板发音,

要求受试模仿听到的语调。受试模拟模板声音时音高范

围pitchspan尽量一致,而不用去考虑语音样板的声域

(tessitura)。然后计算受试者语音和样板语音的音高范围

的误差,分别按照不同的单位来计算误差的大小,包括

半音mitones,镁mel,巴克Bark以及ERB-rate误差。

统计结果发现,几个不同计量单位得到的误差值之间有

显著的差异,而受试的性别没有对误差产生显著的影响;

音高范围与受试的性别相关;半音计算得到的误差最小,

其次是ERB。实验说明对数(St)或接近对数(ERB)

的单位能够最好地表达语调。

RolfCarlson,KjellElenius以及MarcSwert[7]

,利

用语音库对瑞典语的音高范围进行了知觉实验。发音人

的典型音高变化范围定义为F0累计频率曲线的

25%-75%两点间的距离,F0中值为50%对应的值。图5a

和5b分别是F0采用Hz值和半音St得到的498名发音

人的音高变化范围与中点值的情况,可以清楚看到,采

用半音时,发音人的音高变化与中点值并行,就是说音

高变化范围与中点值无关,而采用赫兹Hz为单位,中点

值与音高变化范围相关性很大。所以在语调研究中使用

半音St可以提高正交性。

Fant等也在近两年的语调建模研究中提倡使用半音

为研究单位,以消除平均声调级,使得不同发音人的语

调模式不但反映了个人特性而且反映了整体平均值[5]。

14

ReportofPhoneticRearch2005

图5-a,F0采用Hz时发音人的音高范围和中值分布[7]图5-b,F0采用Hz时发音人的音高范围和中值分布[7]

4.汉语情感语音库的音高特征分析

我们认为上面的知觉实验尽管是对英语、瑞典语等

进行的,但完全适用于汉语。因此我们在汉语的语调研

究中也应该使用半音或ERB这样的对数比例单位。沈炯

对传统的5度制规整方法也进行了论证[10]。

我们用上面提到的分析方法,对汉语情感语音库

CASS-EMC的发音的音高特征进行了分析,CASS-EMC是

中国社会科学院语言所语音研究室制作的情感语音库

[9],主要包括字组、短句等各种语料的6种基本情绪,

情绪分类为嘲讽(scorn)、高兴(happiness)、害怕(fear)、难

过(sadness)、生气(anger)、厌恶(disgust),为了对比还录制

了中性状态(neutral)。此外,还有短篇故事3篇。发音

人为专业演员,3男1女。我们对两位男发音人MengY

和ZWK的相同语料的F0进行分析。

将所有基频数据按照不同情感状态统计,图6-a是

发音人MengY的所有F0的累积变化频率分布曲线,图

6b-f是5种情感状态下F0的累积变化频率分布曲线。

图7a和图7b分别是发音人MengY的累积频率25%,

50%,75%点对应的F0的Hz与St值。状态“All”是所有F0

统计结果,代表了发音人真正的F0变化范围。下表是两

位发音人在这3点上的值和“音域”(75%-25%),可以看

到两位发音人的典型音域分别是101-149Hz,141-205Hz,

在线性坐标空间分别相差48和64Hz,但在对数空间若以

ST(100Hz参考频率)为单位,分别是0.17-6.9St,5.9-

12.4St,相差6.7和6.4个半音,非常接近。这说明用半音

研究音高变化范围可以直接反映发音之间的异同。

HzMengYZWKSTMengYZWK

25%10114125%0.1722645.948342

50%12116150%3.3000858.244728

75%14920575%6.90374812.42749

75%-25%48640.56.7314846.479145

图8a和8b分别是按照传统方法计算的发音人的F0

高点和低点以及F0均值。我们可以看到,两位发音人的

音高分布模式有相似之处,音高的总体变化水平都是(高

兴和愤怒)>中性>(害怕和悲伤)。但是两位发音人也有

不同,MengY的高兴与愤怒的F0变化范围有差距,Zwk

的高兴与愤怒F0变化范围没有显著差异;MengY的害怕

和难过与中性音高变化范围比Zwk的略大。说明,从音

高上看,两位发音人使用的情感表达策略有一定的差别。

从发音人基频变化的均值看,两位发音人有差别,MY由

高到低依次是:Happy〉Angry〉Neutra〉fear〉Sad;ZWK

由高到低依次是:Angry〉Happy〉Neutral〉fear〉Sad。

从发音人音高上限看,两位发音人没有差别,由高到低

依次是:Angry=Happy=4.9,Sad=Neutral=fear=4。从发

音人音高下限看,两位发音人有差别,MY由高到低依次

是:Fear〉Happy〉Neutral〉Angry〉Sad;;ZWK由高到

低依次是:Happy〉Angry〉fear〉Neutral〉Sad。从发

音人音高变化范围看,两位发音人有差别,MY由高到低

依次是:Sad〉Angry〉Happy〉Neutral〉fear;ZWK由高

到低依次是:Sad〉Neutral〉Angry〉fear〉Happy。

5.小结

本文总结了当前关于语调研究中关于F0心理-声学

相关量的各种知觉实验,提出在汉语语调研究中应该使

用实验中验证的与基频F0有对数关系的半音、ERB等分析

单位。

15

ReportofPhoneticRearch2005

0

0.25

0.5

0.75

1

453281309

F0(Hz)

F

0

图6-a,Mengy的F0累计分布(HZ)

-20

5

30

55

80

105

0100200

F0(HZ)

(%

图6-b,MengY的中性语音(Nuetral)F0分布

图6c,MengY的难过语音(sad)F0分

0

25

50

75

100

0100200

F0(HZ)

(%

图6d,MengY的高兴语音(happy)F0

分布

0

25

50

75

100

F0(HZ)

(%

图6e,MengY的生气语音(Angry)F0分

0

25

50

75

100

F0(HZ)

(%

图6f,MengY的害怕语音(Fear)F0分布

0

25

50

75

100

F0(HZ)

(%

图7-a,5种情感以及不分情感状态的

25%,50%,75%点的F0(Hz)

70

90

110

130

150

170

190

210

NSHAFAll

F

0

(H

z

L

(25%)

M

(5%0)

H

(75%)

图7-b,5种情感以及部分情感状态的25%,50%,75%点的

F0(ST)

-3

2

7

12

NSHAFAll

F

0

(

S

T

)

L(25%)

M(5%0)

H(75%)

图8-a,发音人MengY的F0高点、低点和均值

-17

-10

-3

4

11

18

NSHAF

F

0

i

n

S

T

F0_Ave

F0_Bot

F0_Top

图8-b,发音人MengY的F0高点、低点和均值

-12

-6

0

6

12

18

NSAHF

F

0

i

n

S

T

参考文献

[1]hoven,“Ontherelation

betweenpitchexcursionsizeandprominence”,

JournalofPhonetics,13,pp.299–308,1985..

[2]&tel,“Thefrequencyscaleof

speechintonation”,JournaloftheAcousticalSociety

ofAmerica,90,pp.97–102,1991.

[3]Ladd,1996,Intonationalphonology,

CambridgeUniversityPress.

[4]FrancisNolan,Intonationalequivalence:an

experimentalevaluationofpitchscales,

ICPHS2003.

[5]GunnarFant,AnitaKruckenberg,KjellGustafson,Johan

Liljencrants,ANewApproachtoIntonationAnalysis

andSynthesisofSwedish,Sp2002,Aix-en-Provence,

France.

[6]JohnClarkandColinYallop,语音学与音系学入门,An

introductiontophoneticsandphonology,Blackwell

publishers,外研社。

[7]RolfCarlson,KjellEleniusandMarcSwert,Perceptual

JudgmentsofPitchRange,SP2004,Nara,Japan

16

ReportofPhoneticRearch2005

[8]stleandJohnLaver,Prosodyof

speech–MelodyandRhythm,fromThehandbookof

phoneticsciences,,Blackwellpublishers.

[9]王海波,李爱军(2003),普通话情绪语音库的建立

及听辨实验,第六届全国现代语音学学术会议论

文集。

[10]沈炯,美标度是比例标度──纠正一种流行的误解,

《第四届全国语音学研讨会论文集》,金城出版社

1999。

ThePsycho-acousticUnitsforIntonationStudy

AijunLI

InstituteofLinguistics,CASS

ABSTRACT:Thispaperdescribesthecurrentrearchon

is

ismadefordifferentunits:Hzandotherpsycho-acoustic

correlatedunitssuchasSemitone,Mel,

theresulttellsthatmitoneisthebestforintonation

eralsoanalyzestheF0forveralbasic

emotionalspeechesasdemonstration.

Keywords:intonation,pitch,F0,mitone,psycho-acoustic

unit

17

本文发布于:2022-11-24 22:13:03,感谢您对本站的认可!

本文链接:http://www.wtabcd.cn/fanwen/fan/90/14568.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

上一篇:lawyer
下一篇:suitable
标签:bark
相关文章
留言与评论(共有 0 条评论)
   
验证码:
Copyright ©2019-2022 Comsenz Inc.Powered by © 专利检索| 网站地图