AISHELL-1数据集等语音数据集介绍

更新时间:2023-12-09 21:32:40 阅读: 评论:0

2023年12月9日发(作者:猫和老鼠的故事)

-

AISHELL-1数据集等语音数据集介绍

AISHELL-1数据集等语音数据集介绍

1. AISHELL数据集

总共178小时,400个人讲,其中训练集340个人,测试解20个人,验证集40个人,每个人大概讲三百多句话,每个人讲的话都放在一个

文件夹里面。

AISHELL-2结构类似(1000个小时),不过总共1991人讲,每个人有500句话,每个人讲的话可能会有重复。

2. thchs-30数据集

thchs-30是清华大学公布的超过三十个小时的数据集,选取1000句来录音。

字段解释:A(句子的ID是0~249),B(句子的ID是250~499),C(500~749),D(750~999)。ABC三组包括30个人的

10893句发音,用来做训练和验证,D包括10个人的2496句发音,用来做测试。A2中的2表示编号为2的人,A2~A32(中间有些数字欠

缺)以此类推。A2_和A4_讲的话其实是一样的,只不过前者由编号为2的人讲,后者由编号为4的人讲。

3. Primewords Chine Corpus Set 1

总计超过100小时的中文语音数据,由296个人讲。数据集的各级目录截图如下:

每个文件夹下大约100-200个wav文件。同一文件夹的并不是同一个发音者。

transcript json文件情况如下

总共50902条语音数据,可以通过每个文件的前两个字符找到wav所在的文件夹

4. ST-CMDS-20170001_1-OS

该数据集由北京冲浪科技公司开源,是一个很大的数据集的一个子集。共855个人讲,每个人讲120句话,总共855*120=10260句语

音,每个语音分为wav文件,metadata文件(文件描述)和txt(语音文字)文件,所以文件夹下面总共有10260*3=30780个文件(很

粗暴)。

可以看到文件名中的P00001A字段就表示一个人的id,后面的四位表示这个人讲的句子的id(估计是在1-120之间的一个数)

-

AISHELL-1数据集等语音数据集介绍

本文发布于:2023-12-09 21:32:40,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/zhishi/a/1702128760116501.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:AISHELL-1数据集等语音数据集介绍.doc

本文 PDF 下载地址:AISHELL-1数据集等语音数据集介绍.pdf

标签:数据   文件   语音   个人
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 实用文体写作网旗下知识大全大全栏目是一个全百科类宝库! 优秀范文|法律文书|专利查询|