deepspeech2

更新时间:2023-06-30 21:40:36 阅读：评论：0

deepspeech2

中⽂语⾳数据库采⽤thchs30

资生丸（1）⾸先提取data⽂件下的trn翻译⽂本，⽣成包含空格在内的⽣字表并保存为json格式lexicon.json，是汉字字典，不是拼⾳，我在这⼀步卡了很久，后来发现data_loader只能读取单个字符，所以中⽂识别的词汇表是翻译⽂本的汉字⽣字表

（2）⽣成train.csv，dev.csv，test.csv路径⽂件，包含wav位置和对应的trn翻译⽂本位置

（3）修改train.py中的这三个参数，分别是训练集，验证集和⽣字表

‘–train-manifest’

扇形图片‘–val-manifest’

‘–labels-path’喜出望外的反义词

（4）data_loader.py读取翻译到的翻译⽂本是以空格对词进⾏区别，在实际训练中效果很差，loss值⼀直降不下来。参考deepspeech v1将翻译⽂本改为以字加空格的格式

好作文开头

在165⾏读取翻译⽂本的时加⼊两⾏代码，得到单字+空格+单字…格式翻译⽂本助理工作内容

自己英文place(' ','')

transcript=''.join([f + ' ' for f in transcript])

徐东阻击战（5）进⾏训练，在30轮迭代后，验证集的wer降⾄5%左右，cer降⾄2.5%，在测试集的wer为50%，cer为25%

对thchs30数据集进⾏分析，发现翻译⽂本只有1000句，其中训练集包含750句，测试集包含250句，验证集使⽤的句⼦与训练集重合，这也解释了为什么在验证集识别结果极好，在测试机集效果极差的原因。数据集样本不够多，训练时出现过拟合，这也是测试集结果不佳的原因。

下⾯将改⽤aishell数据集对deepspeech v2进⾏进⼀步性能测试。英语怎么才能学好

thchs30⽣字表和路径⽣成⽂件代码

本文发布于:2023-06-30 21:40:36，感谢您对本站的认可！

标签：翻译训练验证测试包含空格数据单字

留言与评论（共有 0 条评论）