deepspeech2
中⽂语⾳数据库采⽤thchs30
资生丸(1)⾸先提取data⽂件下的trn翻译⽂本,⽣成包含空格在内的⽣字表并保存为json格式lexicon.json,是汉字字典,不是拼⾳,我在这⼀步卡了很久,后来发现data_loader只能读取单个字符,所以中⽂识别的词汇表是翻译⽂本的汉字⽣字表
(2)⽣成train.csv,dev.csv,test.csv路径⽂件,包含wav位置和对应的trn翻译⽂本位置
(3)修改train.py中的这三个参数,分别是训练集,验证集和⽣字表
‘–train-manifest’
扇形图片‘–val-manifest’
‘–labels-path’喜出望外的反义词
(4)data_loader.py读取翻译到的翻译⽂本是以空格对词进⾏区别,在实际训练中效果很差,loss值⼀直降不下来。参考deepspeech v1将翻译⽂本改为以字加空格的格式
好作文开头
在165⾏读取翻译⽂本的时加⼊两⾏代码,得到单字+空格+单字…格式翻译⽂本助理工作内容
自己英文place(' ','')
transcript=''.join([f + ' ' for f in transcript])
徐东阻击战(5)进⾏训练,在30轮迭代后,验证集的wer降⾄5%左右,cer降⾄2.5%,在测试集的wer为50%,cer为25%
对thchs30数据集进⾏分析,发现翻译⽂本只有1000句,其中训练集包含750句,测试集包含250句,验证集使⽤的句⼦与训练集重合,这也解释了为什么在验证集识别结果极好,在测试机集效果极差的原因。数据集样本不够多,训练时出现过拟合,这也是测试集结果不佳的原因。
下⾯将改⽤aishell数据集对deepspeech v2进⾏进⼀步性能测试。英语怎么才能学好
thchs30⽣字表和路径⽣成⽂件代码