语⾳合成(speechsynthesis)⽅向六:歌唱合成
(singingvoicesyn。。。
声明:⼯作以来主要从事TTS⼯作,⼯程算法都有涉及,平时看些⽂章做些笔记。⽂章中难免存在错误的地⽅,还望⼤家海涵。平时搜集⼀些资料,⽅便查阅学习:TTS 论⽂列表 TTS 开源数据 。如转载,请标明出处。欢迎关注微信公众号:低调奋进
⽬录
1 研究背景金瓶梅在线阅读免费翻译
歌唱合成SVS(singing voice synthesis)是根据歌词和乐谱信息合成歌唱。相⽐于TTS(text to speech)使机器“开⼝说话”,歌唱合成则是让机器唱歌,因此更具有娱乐性。互联⽹的时代,⼈机交互更加频繁和智能,歌唱合成则添加了⼈机交互的趣味性,因此受到⼯业界和学术界的关注。相⽐TTS,歌唱合成需要更多的输⼊信息,⽐如乐谱中的⾳⾼信息,节拍信息等等。但是歌唱合成的训练语料⼗分昂贵,为获得较⾼品质的歌唱⼲声和乐谱信息,研究者需要付出上百万的开销,这也阻碍⼤量研究⼈员的脚步。本⽂针对2020年歌唱合成的发展状况,总结在是否拥有⼤量训练数据前提下采⽤的不同⽅案,以供同⾏参考。
各家demo的链接:
2 研究情况
其实歌声合成(singing voice synthesis)的⽂章不算太多,本打算通读以后再做个总结,但思来想去还不如先总结之后,以后再慢慢修改,也算“敏捷”总结。我找的⽂章都是2020年的⽂章,这样可以看出去年歌唱合成的发展动态。我们知道,歌唱合成之所以没有像TTS 这样受到强烈关注的原因之⼀就是训练语料的匮乏。相较普通⾳频的训练语料,歌唱合成的训练语料要贵好⼏倍,因此很少有企业和研究所能够承担此种开销。歌唱合成训练语料相⽐普通语料的成本较⾼的原因:1)需要专业歌⼿在专业的录⾳棚录制⾼⾳质的⼲声;2)歌声的标注需要更复杂的信息,标注成本较⾼。是否拥有充⾜的训练数据导致不同的研究⽅向和策略,因此我根据训练数据是否充⾜进⾏以下分类:
2.1 数据充⾜
2.1.1 系统架构设计2016年1月30日
(a)ByteSing: A Chine Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders
(b)XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System
2.1.2 ⾼采样率数据
(a)HiFiSinger: Towards High-Fidelity Neural Singing Voice Synthesis
2.2 数据匮乏
2.2.1 低质数据
bra是什么(a)Deepsinger: Singing voice synthesis with data mined from the web
bya是什么意思
2.2.2 歌声转换
(a)Durian-sc: Duration informed attention network bad singing voice conversion system
2.2.2 迁移学习
(a)learn2sing target speaker singing voice synthesis by learning from a singing teacher
2.1 数据充⾜
2.1.1 系统架构设计
2.1.1.1 ByteSing: A Chine Singing Voice Synthesis System Using Duration Allocated Encoder-Decoder Acoustic Models and WaveRNN Vocoders
图⼀展⽰了ByteSing 系统的整体架构,该系统包含时长模型,声学模型和神经⽹络声码器。时长模型的输⼊为⾳素+⾳素类型+节奏和⾳符时长,输出为⾳素对应的时长。声学模型的输⼊为⾳素+⾳符⾳⾼+每帧的位置信息,输出为声学信息,具体为图2展⽰。看到图2结构可能⼤家跟我有相同的疑惑,既然时长模型已经预测出了每个⾳素时长,为什么还使⽤attention?本⽂在实验部分给出了实验结果:使⽤attention的效果更好。神经⽹络声码器是把声学特征转成波形,具体结构图3所⽰。compaction
punkrock
葡萄英文本⽂实验对⽐⼀下⼏个⽅⾯:Natural是原始录⾳,ByteSing为本⽂提出⽅案,BS-w/o-attention为不使⽤attention⽅案,BS-w-To为输⼊特征添加⾳调信息。
客观指标如table 2显⽰,本⽂ByteSing在各项指标最好,说明使⽤attention效果提升,同时添加⾳调信息结果反⽽不好。图4是attention 的对齐信息。图5展⽰了主观MOS评测,该部分说明ByteSing在pitch, rhythm,pron,breath和express等⽅⾯跟原始录⾳差别不⼤。
2.1.1.2 XiaoiceSing: A High-Quality and Integrated Singing Voice Synthesis System
本⽂使⽤的系统架构是FastSpeech,声码器为world vocoder,具体系统架构为图1所⽰。该系统主要注意以下⼏点。第⼀,输⼊的内容是从乐谱中提取的phoneme, pitch和duration,具体的格式为图⼆。第⼆,encoder和decoder之间的durtion训练时候不仅考虑phoneme的loss,也考虑syllable的loss,因此此处的loss为公式1。第三,decoder输出的特征mgc+bap+v/uv+pitch,其中pitch使⽤残差的⽅式进⾏拼接,其loss为公式2和3。
bright是什么意思
记账凭证账务处理程序本⽂在主客观两个⽅向进⾏对⽐。此处baline系统为CNN的声学模型+LSTM的f0和duration。由table1的mos结果显⽰,xiaoicesing 在pronun acc. sound quality和naturalness都是远远好于baline。客观指标table2 显⽰错误率指标RMSE,xiaoicesing低于baline,相关性corr 指标xiaoicesing⾼于baline,其它参数也是好于baline。
接下来图3显⽰ave gv实验,xiaoicesing更贴近原始⾳频,图4展⽰xiaoice的语谱图刻画的频率更好。
thomson reuters
ab test结果如图5 显⽰,基频f0和durtion远远好于baline系统。图6和图7也显⽰f0和durtion的测试中,xiaoicesing更贴切原始⾳频。