AISHELL-1数据集等语音数据集介绍

更新时间:2023-12-09 21:32:40 阅读：评论：0

2023年12月9日发(作者：猫和老鼠的故事)

-

1. AISHELL数据集

总共178小时，400个人讲，其中训练集340个人，测试解20个人，验证集40个人，每个人大概讲三百多句话，每个人讲的话都放在一个

文件夹里面。

AISHELL-2结构类似（1000个小时），不过总共1991人讲，每个人有500句话，每个人讲的话可能会有重复。

2. thchs-30数据集

thchs-30是清华大学公布的超过三十个小时的数据集，选取1000句来录音。

字段解释：A（句子的ID是0~249），B（句子的ID是250~499），C（500~749），D（750~999）。ABC三组包括30个人的

10893句发音，用来做训练和验证，D包括10个人的2496句发音，用来做测试。A2中的2表示编号为2的人，A2~A32（中间有些数字欠

缺）以此类推。A2_和A4_讲的话其实是一样的，只不过前者由编号为2的人讲，后者由编号为4的人讲。

3. Primewords Chine Corpus Set 1

总计超过100小时的中文语音数据，由296个人讲。数据集的各级目录截图如下：

每个文件夹下大约100-200个wav文件。同一文件夹的并不是同一个发音者。

transcript json文件情况如下

总共50902条语音数据，可以通过每个文件的前两个字符找到wav所在的文件夹

4. ST-CMDS-20170001_1-OS

该数据集由北京冲浪科技公司开源，是一个很大的数据集的一个子集。共855个人讲，每个人讲120句话，总共855*120=10260句语

音，每个语音分为wav文件，metadata文件（文件描述）和txt（语音文字）文件，所以文件夹下面总共有10260*3=30780个文件（很

粗暴）。

可以看到文件名中的P00001A字段就表示一个人的id，后面的四位表示这个人讲的句子的id（估计是在1-120之间的一个数）

本文发布于:2023-12-09 21:32:40，感谢您对本站的认可！

标签：数据文件语音个人

留言与评论（共有 0 条评论）