第7期
第20卷第7期
2021年7月
软件导刊
SoftwareGuide
Vol.20No.7
Jul.2021
收稿日期:2020-08-31
基金项目:山东省高等学校科技计划项目(J16LN12)
作者简介:郑磊(1980-),男,硕士,山东青年政治学院信息工程学院副教授,研究方向为云计算、分布式计算。
0引言
随着数字时代的到来,信息爆炸式增长,传统的以文
本形式保存信息的方式已经不能满足现代人对知识的需
求[1]。声音作为一种直接记录和掩饰信息的媒介,在实时
传递信息的同时,将情感传递给信息,对信息的记录更有
价值[2]。随着多媒体文件的大量应用,基于多媒体数据的
信息检索技术已成为信息学研究的热点[3-5]。如何像检索
文本一样快速、准确地从各种多媒体文档中查找最重要的
信息成为当前关注的热点。
本文介绍了语音识别原理和相关算法。在此基础上
将深度神经网络算法(DeepNeuralNetwork,DNN)应用于
大词汇量连续识别系统,建立基于深度神经网络的声学模
型关键词检测系统。在对比实验中,将所提出的深度神经
网络模型应用于构建声学模型,与传统GMM-HMM进行对
比,深入分析了算法对识别系统性能的影响。
1相关研究
关键词检测技术起源于20世纪70年代,最早研究是
基于“给定词”概念。语音识别作为关键字检索的一项关
键技术受到广泛关注。2006年,Mustafamk等[6]提出深度学
习概念。微软研究人员将受限的Boltzmannmachime
结合深度神经网络与内容转录的语音识别研究
郑磊
(山东青年政治学院信息工程学院,山东济南250103)
摘要:在研究语音识别关键技术基础上,将深度神经网络模型应用于语音的关键词检索任务上,提出基于深
度神经网络的语音关键词检测模型。与基线GMM-HMM模型进行对比实验,结果表明:LSTM模型的训练参数
大小为436570,DNN的训练参数为698100,Gaussiam混合模型(GMM)的训练参数大小为1226760。基于LSTM-HMM和DNN-HMM模型的语音识别准确率分别为96.5%和91.6%,显著高于传统语音识别模型(GMM-
HMM)的78.5%。基于LSTM-HMM模型的语音识别技术具有较高的准确率,更适合于语音关键词检测。
关键词:深度神经网络;语音识别;DNN-HMM模型;LSTM
DOI:10.11907/rjdk.202049开放科学(资源服务)标识码(OSID):
中图分类号:TP301文献标识码:A文章编号:1672-7800(2021)007-0023-04
RearchonSpeechRecognitionBadonDeepNeuralNetwork
andContentTranscription
ZHENGLei
(SchoolofInformationEngineering,ShandongYouthUniversityofPoliticalScience,Jinan250103,China)
Abstract:Onthebasisofstudyingthekeytechnologiesofspeechrecognition,appliesthedeepneuralnetworkmodeltothekeyword
retrievaltaskofspeech,ultsshowthatthetrain⁃
ingparametersofLSTMmodelanddeepneuralnetwork(DNN)are436570and698100,respectively,Thetrainingparametersof
Gaussianmixturemodel(GMM)uracyofspeechrecognitionbadonLSTM-HMMandDNN_HMMis96.5%
and91.6%respectively,whichissignificantlyhigherthan78.5%echrecognitiontechnologybadonLSTM-
HMMmodelhashigheraccuracyandismoresuitableforthedetectionofspeechkeywords.
KeyWords:deepneuralnetwork;speechrecognition;DNN-HMM;LSTM
软件导刊2021年
(REM)和深度信念网络(DBN)引入到语音识别声学模型
训练中,在大词汇量语音识别系统中取得成功[7]。
我国语音识别研究起步较晚。在国家的大力支持下,
中国科学院自动化研究所、中国科学院声学研究所等科研
机构在语音识别方面进行了广泛研究并取得显著进展。
目前,微软、1BM、谷歌等国外公司相继开发了中文语音识
别系统[8-9],中国的公司如百度讯飞、搜狗也推出了相应的
中文连续语音识别项目。语音识别技术与关键字检测系
统在未来有着非常广阔的发展前景。但是,语音识别技术
仍然面临着各种挑战,如无法有效避免语音识别错误
等[10]。本文希望通过对基于DNN的语音识别算法进行研
究,为提高语音关键字检索系统语音识别性能提供新的思
路。
2研究方法
2.1语言识别流程和原则
一个完整的语音识别系统包括语音预处理、语音特征
提取、语音模型库构建、语音模式匹配等功能。对于录制
的语音信号,首先进行语音预处理操作。预处理包括采
样、量化、滤波、预加重、窗口加帧和端点检测等步骤,然后
进行语音信号特征提取,目的是提取能够表征语音信号性
质的特征参数,去除不相关的噪声信号,获得用于声学模
型或语音识别的输入参数。语音识别和语音预处理流程
如图1所示。
Fig.1Speechrecognitionstructureandspeechpreprocessingflow
图1语音识别结构和语音预处理流程
2.2语音识别算法模型基础
语音识别的核心是声学模式,目前主要采用隐马尔可
夫模型对语音信号的时间变化建模。HMM每一种状态下
的观测概率估计方法可分为离散型、半连续型和连续型。
目前,语音识别系统主要是连续或半连续的。通过HMM
描述声学层模型时,隐藏状态对应于声学层相对稳定的语
音状态,可以描述语音信号的动态变化。
图2中HMM模型有6种状态,其中4种是启动状态,第
1种状态表示开始状态。每个隐藏状态会根据概率分布向
外发射一个状态,然后转到右边的状态。最右边的结束状
态表示HMM已经结束。在某个时间节点模型有一系列状
态。在t+1时,模型的每个状态都会转到一个新的状态,表
示一个新的状态序列。这一过程最重要的特征是T时刻状
态只与t-1时刻的状态相关,这被称为马尔科夫。HMM基
本组成包括:①状态集S={}s
1,s2,...,sN
,其中N表示音素的
个数;②状态转移矩阵A;③表示每种状态初始概率的输出
分布B={}b
j(x)。
Fig.2HMMmodelstructure
图2HMM模型结构
2.3DNN与传统声学模型结合
关键字检测系统通常基于大词汇量连续语音识别器。
在语音关键字检索系统中,采用GMM与HMM相结合的
GMM-HMM模型作为LVCSR的声学模型,但该模型对语音
信号识别率较低。随着深度学习技术在语音识别领域的
发展,利用DNN代替GMM形成DNN-HMM声学模型引起
广泛关注。DNN模型是一种具有多层隐含层的前馈神经
网络模型。DNN模型共有L+1层,其中0层为输入层,1到
L-1层为隐藏层,L层是输出层,相邻层由前馈权值矩阵连
接。
大多数情况下DNN模型激活函数为Sigmoid函数:
σ(z)=
1
1+e-z
(1)
σ(z)的输出范围是(0.1),这有助于获得稀疏表达式,
但它使得激活值不对称。对于多分类任务,每个输出神经
元代表一类i∈{}1,2,⋯,C,其中C=N
L
是类的数量。给定
训练准则可使用众所周知的误差反向传播算法提取模型
参数C=N,并利用链式规则进行推导。模型参数采用一阶
导数信息,按下式进行优化:
Wl
t+1←Wl
t-εΔWl
t
(2)
bl
t+1←bl
t-εΔbl
t
(3)
式中:Wl
t
和bl
t
分别为第t次迭代更新后第1层的权值矩
阵和偏差向量。
ΔWl
t=
1
M
b∑m=1
M∇
W
J(W,b;om,ym)(4)
Δbl
t=
1
M
b∑m=1
M∇
b
J(W,b;om,ym)(5)
式(4)和式(5)分别为第t次迭代后得到的平均权重矩
阵梯度和平均偏差向量梯度,其中ε为学习速率,∇
X
J为J相
对于x的梯度。
对于每个任务,DNN的模型参数需要由训练样本S=
{}(om,ym)|0≤m≤M进行训练。式中M为训练样本个数,om
··24
第7期
为第M个观察向量,ym为对应的输出向量。这个过程称为
训练过程或参数估计过程,需要给出一个训练标准和一个
学习算法,在语音识别任务中,通过声学模型训练完成这
一过程。对于相邻层间完全连通的DNN,权值初始化为一
个较小的随机值,以避免在一个拥有相同梯度的层中由于
隐藏层太多而难以优化所有隐藏单元。DNN可能需要扩
展到测试数据集之外。语音符号是时间序列信号,DNN不
能直接对其建模。利用HMM对语音信号的动态变化进行
建模,利用DNN估计观测概率。DNN-HMM模型结构如图
3所示。
DNN-HMM训练步骤如下:①将训练集与常规训练的
DNN-HMM模型进行对齐,得到对齐信息;②建立上下文敏
感状态到语音ID的映射;③根据训练DNN所需的输入和
输出标签生成信息;④获取DNN中需要的HMM模型结构;
⑤基于输入和输出标签估计语音的先验概率,利用反向传
播算法调整网络参数得到DNN-HMM模型。
Fig.3DNN-HMMmodelstructure
图3DNN-HMM模型结构
3实验结果
3.1实验数据
本实验选择开源中文普通话语音数据库aishell,对同
一扬声器的测试集执行数据库中的语音材料。在安静环
境下使用电脑录音软件CoolEditPro录制语音信息,挑选8
名演讲者依次阅读20个教育词汇,每个单词读10次。采
样频率设置为8kHz,每个采样点被量化16位并存储在单
声道中,共获得1600个语音样本作为训练和识别语料库。
以前3道和后3道作为训练集,共有960个样本,使用中间4
个样本作为同一扬声器测试集,共640个样本。
在语音信号特征提取中,从训练集和同一说话人测试
集的每个预处理语音样本中提取24维Mel-frequencyCeps⁃
trum(MFC)系数特征,并采用均值方差对其进行正则化,
该功能窗口大小为25ms,重叠时间为10ms。比较传统的神
经网络模型和DNN模型的语音识别性能,以语音识别正确
率作为评价标准,数值均为统计平均值。
3.2基于语音识别的语音关键字检索系统构建
语音关键字检索系统包括系统索引和关键字检索。
其中,索引由索引语音识别、后处理语音识别、索引构建组
成。关键字检索由关键字检查和置信度评估两部分组成,
如图4所示。语音识别错误和外来词严重影响系统的查全
率,模糊匹配方法能有效提高召回率,但增加了查询时间。
在关键字查询过程中,可以在超类数据库中执行初始快速
查找以缩小搜索范围,然后在音节序列数据库中执行精确
的查询以加快搜索速度。
Fig.4Compositionofvoicekeywordretrievalsystem
图4语音关键字检索系统组成
语音关键字检索系统依赖于识别结果,因此语音识别
的性能对系统的检索性能有着至关重要的影响。语音识
别系统性能通常是通过识别错误率和实时率来评价的。
在语音关键字检索系统中,语音数据的识别过程可以离线
进行而不必考虑实时指标。识别结果表明,错误类型包括
插入错误、删除错误和替换错误。将识别最佳结果与参考
文本进行比较,可以得到识别错误率。
3.3语音识别结果比较
语音信号特征参数的帧数设置为23,选取非线性tanh
函数作为激活函数。输出为30个神经元,使输出神经元的
数目与待分类神经元数目相同。以估计概率分布与实际
概率提取之间的高斯熵作为目标函数,当语音识别精度提
高到0.2%以下时停止迭代。不同语音识别算法的识别准
确率结果如表1所示。
Table1Recognitionaccuracyofdifferentspeechrecognition
algorithms
表1不同语音识别算法的识别精度(%)
Model
GMM-HMM
DNN-HMM
LSTM-HMM
Recognitionaccuracy
78.5
91.6
96.5
如表1所示,基于LSTM-HMM和DNN-HMM模型的语
音识别准确率明显高于传统的GMM-HMM模型,同时
LSTM-HMM模型的语音识别准确率达到96.5%,表明该模
型具有更好的性能。LSTM训练参数大小为436570,DNN
训练参数大小为698100,GMM训练参数大小为1226700。
在训练集语音样本有限的情况下,训练模型的过拟合会导
致训练模型过拟合问题。因此,基于DNN的语音识别可以
减小训练参数大小,有效避免训练模型的过拟合。
郑磊:结合深度神经网络与内容转录的语音识别研究··25
软件导刊2021年
语音信号具有很强的随机性,同一语音单元扩展的语
音特征参数及帧数可能不同,规则帧数对不同算法识别性
能的影响如图5所示。随着规则帧数的增加,输入与原始
特征参数的距离越来越近,两种网络模型的识别精度不断
提高。模型是通过随机梯度下降法计算均方误差,然后通
过调整网络参数减小均方误差来实现。因此,网络模型的
收敛性直接反映了整体性能是否优越。
Fig.5Influenceofregularframenumberonrecognition
performanceofdifferentalgorithms
图5规则帧数对不同算法识别性能的影响
4结语
为解决传统关键字检测系统中GMM-HMM声学模型
的低识别率问题,本文将基于DNN的语音识别算法应用于
关键字检测。使用DNN-HMM声学模型代替原系统中的
GMM-HMM模型,并在此基础上对关键字检测进行研究。
通过对比实验选择一个开源普通话语音数据库——
aishell,它是在同一个扬声器的测试装置上播放的。在安
静环境下,使用电脑录音软件CoolEditPro录制语音信息。
实验表明,基于LSTM-HMM模型和DNN-HMM模型的语
音识别准确率分别为96.5%和91.6%,显著高于GMM-
HMM的78.5%,说明本文提出的LSTM-HMM模型性能更
好。在训练集语音样本有限的情况下,会产生训练参数尺
度过大、训练模型过拟合问题。基于DNN的语音识别算法
可以减小训练参数尺度,从而有效避免训练模型过拟合问
题。
基于LSTM-HMM的语音识别技术具有较高的准确率,
更适合于语音关键字检索。但在复杂语音环境下,关键字
检测的鲁棒性仍有很大的提升空间。因此,后续研究可以
探索提取更鲁棒的声学特征方向,在有噪声干扰的情况下
准确检索所需的语音信息。
参考文献:
[1]SHAHM,ARUNACHALAMS,WANGJ,-pointneural
networkarchitectureforspeechapplicationsonresourceconstrained
hardware[J].JournalofSignalProcessingSystems,2018,90(5):
727-741.
[2]FANGSH,TSAOY,HSIAOMJ,ionofpathological
voiceusingcepstrumvectors:adeeplearningapproach[J].Journalof
Voice,2019,33(5):634-641.
[3]FENGYF,andimplementationofintelligent
bookshelfbadonspeechrecognition[J].SoftwareGuide,2017,16
(5):57-59.
冯一帆,姜文涛.基于语音识别的智能书架设计与实现[J].软件导
刊,2017,16(5):57-59.
[4]LIMY,ofmobileomnipotentcretaryplatform
badonspeechrecognitiontechnology[J].SoftwareGuide,2015,14
(8):127-129.
李梦瑶,向卓元.基于语音识别技术的移动全能秘书平台设计[J].
软件导刊,2015,14(8):127-129.
[5]SAINATHTN,WEISSRJ,WILSONKW,hannelsignal
processingwithdeepneuralnetworksforautomaticspeechrecognition
[J].IEEE/ACMTransactionsonAudio,Speech,andLanguagePro⁃
cessing,2017,25(5):965-979.
[6]MUSTAFAMK,ALLENT,rativereviewofdy⁃
namicneuralnetworksandhiddenmarkovmodelmethodsformobile
on-devicespeechrecognition[J].NeuralComputingandApplica⁃
tions,2019,31(2):891-899.
[7]SERIZELR,-neuralnetworkapproachesfor
speechrecognitionwithheterogeneousgroupsofspeakersincluding
children[J].NaturalLanguageEngineering,2017,23(3):325-350.
[8]PRICEM,GLASSJ,-powerspeech
recognizerandvoiceactivitydetectorusingdeepneuralnetworks[J].
IEEEJournalofSolid-StateCircuits,2017,53(1):66-75.
[9]PEROLT,GHARBIM,utionalneuralnetwork
forearthquakedetectionandlocation[J].ScienceAdvances,2018,4
(2):170-178.
[10]ZHANGM,DIAOM,GAOL,networksforradarwave⁃
formrecognition[J].Symmetry,2017,9(5):75-84.
(责任编辑:杜能钢)
··26
本文发布于:2023-03-03 14:45:16,感谢您对本站的认可!
本文链接:https://www.wtabcd.cn/fanwen/zuowen/1677825917124236.html
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。
本文word下载地址:搜狗语音.doc
本文 PDF 下载地址:搜狗语音.pdf
留言与评论(共有 0 条评论) |