首页 > 作文

搜狗语音

更新时间:2023-03-03 14:45:17 阅读: 评论:0

网络安全内容-春潮澎湃

搜狗语音
2023年3月3日发(作者:坐月子吃什么最好)

第7期

第20卷第7期

2021年7月

软件导刊

SoftwareGuide

Vol.20No.7

Jul.2021

收稿日期:2020-08-31

基金项目:山东省高等学校科技计划项目(J16LN12)

作者简介:郑磊(1980-),男,硕士,山东青年政治学院信息工程学院副教授,研究方向为云计算、分布式计算。

0引言

随着数字时代的到来,信息爆炸式增长,传统的以文

本形式保存信息的方式已经不能满足现代人对知识的需

求[1]。声音作为一种直接记录和掩饰信息的媒介,在实时

传递信息的同时,将情感传递给信息,对信息的记录更有

价值[2]。随着多媒体文件的大量应用,基于多媒体数据的

信息检索技术已成为信息学研究的热点[3-5]。如何像检索

文本一样快速、准确地从各种多媒体文档中查找最重要的

信息成为当前关注的热点。

本文介绍了语音识别原理和相关算法。在此基础上

将深度神经网络算法(DeepNeuralNetwork,DNN)应用于

大词汇量连续识别系统,建立基于深度神经网络的声学模

型关键词检测系统。在对比实验中,将所提出的深度神经

网络模型应用于构建声学模型,与传统GMM-HMM进行对

比,深入分析了算法对识别系统性能的影响。

1相关研究

关键词检测技术起源于20世纪70年代,最早研究是

基于“给定词”概念。语音识别作为关键字检索的一项关

键技术受到广泛关注。2006年,Mustafamk等[6]提出深度学

习概念。微软研究人员将受限的Boltzmannmachime

结合深度神经网络与内容转录的语音识别研究

郑磊

(山东青年政治学院信息工程学院,山东济南250103)

摘要:在研究语音识别关键技术基础上,将深度神经网络模型应用于语音的关键词检索任务上,提出基于深

度神经网络的语音关键词检测模型。与基线GMM-HMM模型进行对比实验,结果表明:LSTM模型的训练参数

大小为436570,DNN的训练参数为698100,Gaussiam混合模型(GMM)的训练参数大小为1226760。基于LSTM-HMM和DNN-HMM模型的语音识别准确率分别为96.5%和91.6%,显著高于传统语音识别模型(GMM-

HMM)的78.5%。基于LSTM-HMM模型的语音识别技术具有较高的准确率,更适合于语音关键词检测。

关键词:深度神经网络;语音识别;DNN-HMM模型;LSTM

DOI:10.11907/rjdk.202049开放科学(资源服务)标识码(OSID):

中图分类号:TP301文献标识码:A文章编号:1672-7800(2021)007-0023-04

RearchonSpeechRecognitionBadonDeepNeuralNetwork

andContentTranscription

ZHENGLei

(SchoolofInformationEngineering,ShandongYouthUniversityofPoliticalScience,Jinan250103,China)

Abstract:Onthebasisofstudyingthekeytechnologiesofspeechrecognition,appliesthedeepneuralnetworkmodeltothekeyword

retrievaltaskofspeech,ultsshowthatthetrain⁃

ingparametersofLSTMmodelanddeepneuralnetwork(DNN)are436570and698100,respectively,Thetrainingparametersof

Gaussianmixturemodel(GMM)uracyofspeechrecognitionbadonLSTM-HMMandDNN_HMMis96.5%

and91.6%respectively,whichissignificantlyhigherthan78.5%echrecognitiontechnologybadonLSTM-

HMMmodelhashigheraccuracyandismoresuitableforthedetectionofspeechkeywords.

KeyWords:deepneuralnetwork;speechrecognition;DNN-HMM;LSTM

软件导刊2021年

(REM)和深度信念网络(DBN)引入到语音识别声学模型

训练中,在大词汇量语音识别系统中取得成功[7]。

我国语音识别研究起步较晚。在国家的大力支持下,

中国科学院自动化研究所、中国科学院声学研究所等科研

机构在语音识别方面进行了广泛研究并取得显著进展。

目前,微软、1BM、谷歌等国外公司相继开发了中文语音识

别系统[8-9],中国的公司如百度讯飞、搜狗也推出了相应的

中文连续语音识别项目。语音识别技术与关键字检测系

统在未来有着非常广阔的发展前景。但是,语音识别技术

仍然面临着各种挑战,如无法有效避免语音识别错误

等[10]。本文希望通过对基于DNN的语音识别算法进行研

究,为提高语音关键字检索系统语音识别性能提供新的思

路。

2研究方法

2.1语言识别流程和原则

一个完整的语音识别系统包括语音预处理、语音特征

提取、语音模型库构建、语音模式匹配等功能。对于录制

的语音信号,首先进行语音预处理操作。预处理包括采

样、量化、滤波、预加重、窗口加帧和端点检测等步骤,然后

进行语音信号特征提取,目的是提取能够表征语音信号性

质的特征参数,去除不相关的噪声信号,获得用于声学模

型或语音识别的输入参数。语音识别和语音预处理流程

如图1所示。

Fig.1Speechrecognitionstructureandspeechpreprocessingflow

图1语音识别结构和语音预处理流程

2.2语音识别算法模型基础

语音识别的核心是声学模式,目前主要采用隐马尔可

夫模型对语音信号的时间变化建模。HMM每一种状态下

的观测概率估计方法可分为离散型、半连续型和连续型。

目前,语音识别系统主要是连续或半连续的。通过HMM

描述声学层模型时,隐藏状态对应于声学层相对稳定的语

音状态,可以描述语音信号的动态变化。

图2中HMM模型有6种状态,其中4种是启动状态,第

1种状态表示开始状态。每个隐藏状态会根据概率分布向

外发射一个状态,然后转到右边的状态。最右边的结束状

态表示HMM已经结束。在某个时间节点模型有一系列状

态。在t+1时,模型的每个状态都会转到一个新的状态,表

示一个新的状态序列。这一过程最重要的特征是T时刻状

态只与t-1时刻的状态相关,这被称为马尔科夫。HMM基

本组成包括:①状态集S={}s

1,s2,...,sN

,其中N表示音素的

个数;②状态转移矩阵A;③表示每种状态初始概率的输出

分布B={}b

j(x)。

Fig.2HMMmodelstructure

图2HMM模型结构

2.3DNN与传统声学模型结合

关键字检测系统通常基于大词汇量连续语音识别器。

在语音关键字检索系统中,采用GMM与HMM相结合的

GMM-HMM模型作为LVCSR的声学模型,但该模型对语音

信号识别率较低。随着深度学习技术在语音识别领域的

发展,利用DNN代替GMM形成DNN-HMM声学模型引起

广泛关注。DNN模型是一种具有多层隐含层的前馈神经

网络模型。DNN模型共有L+1层,其中0层为输入层,1到

L-1层为隐藏层,L层是输出层,相邻层由前馈权值矩阵连

接。

大多数情况下DNN模型激活函数为Sigmoid函数:

σ(z)=

1

1+e-z

(1)

σ(z)的输出范围是(0.1),这有助于获得稀疏表达式,

但它使得激活值不对称。对于多分类任务,每个输出神经

元代表一类i∈{}1,2,⋯,C,其中C=N

L

是类的数量。给定

训练准则可使用众所周知的误差反向传播算法提取模型

参数C=N,并利用链式规则进行推导。模型参数采用一阶

导数信息,按下式进行优化:

Wl

t+1←Wl

t-εΔWl

t

(2)

bl

t+1←bl

t-εΔbl

t

(3)

式中:Wl

t

和bl

t

分别为第t次迭代更新后第1层的权值矩

阵和偏差向量。

ΔWl

t=

1

M

b∑m=1

M∇

W

J(W,b;om,ym)(4)

Δbl

t=

1

M

b∑m=1

M∇

b

J(W,b;om,ym)(5)

式(4)和式(5)分别为第t次迭代后得到的平均权重矩

阵梯度和平均偏差向量梯度,其中ε为学习速率,∇

X

J为J相

对于x的梯度。

对于每个任务,DNN的模型参数需要由训练样本S=

{}(om,ym)|0≤m≤M进行训练。式中M为训练样本个数,om

··24

第7期

为第M个观察向量,ym为对应的输出向量。这个过程称为

训练过程或参数估计过程,需要给出一个训练标准和一个

学习算法,在语音识别任务中,通过声学模型训练完成这

一过程。对于相邻层间完全连通的DNN,权值初始化为一

个较小的随机值,以避免在一个拥有相同梯度的层中由于

隐藏层太多而难以优化所有隐藏单元。DNN可能需要扩

展到测试数据集之外。语音符号是时间序列信号,DNN不

能直接对其建模。利用HMM对语音信号的动态变化进行

建模,利用DNN估计观测概率。DNN-HMM模型结构如图

3所示。

DNN-HMM训练步骤如下:①将训练集与常规训练的

DNN-HMM模型进行对齐,得到对齐信息;②建立上下文敏

感状态到语音ID的映射;③根据训练DNN所需的输入和

输出标签生成信息;④获取DNN中需要的HMM模型结构;

⑤基于输入和输出标签估计语音的先验概率,利用反向传

播算法调整网络参数得到DNN-HMM模型。

Fig.3DNN-HMMmodelstructure

图3DNN-HMM模型结构

3实验结果

3.1实验数据

本实验选择开源中文普通话语音数据库aishell,对同

一扬声器的测试集执行数据库中的语音材料。在安静环

境下使用电脑录音软件CoolEditPro录制语音信息,挑选8

名演讲者依次阅读20个教育词汇,每个单词读10次。采

样频率设置为8kHz,每个采样点被量化16位并存储在单

声道中,共获得1600个语音样本作为训练和识别语料库。

以前3道和后3道作为训练集,共有960个样本,使用中间4

个样本作为同一扬声器测试集,共640个样本。

在语音信号特征提取中,从训练集和同一说话人测试

集的每个预处理语音样本中提取24维Mel-frequencyCeps⁃

trum(MFC)系数特征,并采用均值方差对其进行正则化,

该功能窗口大小为25ms,重叠时间为10ms。比较传统的神

经网络模型和DNN模型的语音识别性能,以语音识别正确

率作为评价标准,数值均为统计平均值。

3.2基于语音识别的语音关键字检索系统构建

语音关键字检索系统包括系统索引和关键字检索。

其中,索引由索引语音识别、后处理语音识别、索引构建组

成。关键字检索由关键字检查和置信度评估两部分组成,

如图4所示。语音识别错误和外来词严重影响系统的查全

率,模糊匹配方法能有效提高召回率,但增加了查询时间。

在关键字查询过程中,可以在超类数据库中执行初始快速

查找以缩小搜索范围,然后在音节序列数据库中执行精确

的查询以加快搜索速度。

Fig.4Compositionofvoicekeywordretrievalsystem

图4语音关键字检索系统组成

语音关键字检索系统依赖于识别结果,因此语音识别

的性能对系统的检索性能有着至关重要的影响。语音识

别系统性能通常是通过识别错误率和实时率来评价的。

在语音关键字检索系统中,语音数据的识别过程可以离线

进行而不必考虑实时指标。识别结果表明,错误类型包括

插入错误、删除错误和替换错误。将识别最佳结果与参考

文本进行比较,可以得到识别错误率。

3.3语音识别结果比较

语音信号特征参数的帧数设置为23,选取非线性tanh

函数作为激活函数。输出为30个神经元,使输出神经元的

数目与待分类神经元数目相同。以估计概率分布与实际

概率提取之间的高斯熵作为目标函数,当语音识别精度提

高到0.2%以下时停止迭代。不同语音识别算法的识别准

确率结果如表1所示。

Table1Recognitionaccuracyofdifferentspeechrecognition

algorithms

表1不同语音识别算法的识别精度(%)

Model

GMM-HMM

DNN-HMM

LSTM-HMM

Recognitionaccuracy

78.5

91.6

96.5

如表1所示,基于LSTM-HMM和DNN-HMM模型的语

音识别准确率明显高于传统的GMM-HMM模型,同时

LSTM-HMM模型的语音识别准确率达到96.5%,表明该模

型具有更好的性能。LSTM训练参数大小为436570,DNN

训练参数大小为698100,GMM训练参数大小为1226700。

在训练集语音样本有限的情况下,训练模型的过拟合会导

致训练模型过拟合问题。因此,基于DNN的语音识别可以

减小训练参数大小,有效避免训练模型的过拟合。

郑磊:结合深度神经网络与内容转录的语音识别研究··25

软件导刊2021年

语音信号具有很强的随机性,同一语音单元扩展的语

音特征参数及帧数可能不同,规则帧数对不同算法识别性

能的影响如图5所示。随着规则帧数的增加,输入与原始

特征参数的距离越来越近,两种网络模型的识别精度不断

提高。模型是通过随机梯度下降法计算均方误差,然后通

过调整网络参数减小均方误差来实现。因此,网络模型的

收敛性直接反映了整体性能是否优越。

Fig.5Influenceofregularframenumberonrecognition

performanceofdifferentalgorithms

图5规则帧数对不同算法识别性能的影响

4结语

为解决传统关键字检测系统中GMM-HMM声学模型

的低识别率问题,本文将基于DNN的语音识别算法应用于

关键字检测。使用DNN-HMM声学模型代替原系统中的

GMM-HMM模型,并在此基础上对关键字检测进行研究。

通过对比实验选择一个开源普通话语音数据库——

aishell,它是在同一个扬声器的测试装置上播放的。在安

静环境下,使用电脑录音软件CoolEditPro录制语音信息。

实验表明,基于LSTM-HMM模型和DNN-HMM模型的语

音识别准确率分别为96.5%和91.6%,显著高于GMM-

HMM的78.5%,说明本文提出的LSTM-HMM模型性能更

好。在训练集语音样本有限的情况下,会产生训练参数尺

度过大、训练模型过拟合问题。基于DNN的语音识别算法

可以减小训练参数尺度,从而有效避免训练模型过拟合问

题。

基于LSTM-HMM的语音识别技术具有较高的准确率,

更适合于语音关键字检索。但在复杂语音环境下,关键字

检测的鲁棒性仍有很大的提升空间。因此,后续研究可以

探索提取更鲁棒的声学特征方向,在有噪声干扰的情况下

准确检索所需的语音信息。

参考文献:

[1]SHAHM,ARUNACHALAMS,WANGJ,-pointneural

networkarchitectureforspeechapplicationsonresourceconstrained

hardware[J].JournalofSignalProcessingSystems,2018,90(5):

727-741.

[2]FANGSH,TSAOY,HSIAOMJ,ionofpathological

voiceusingcepstrumvectors:adeeplearningapproach[J].Journalof

Voice,2019,33(5):634-641.

[3]FENGYF,andimplementationofintelligent

bookshelfbadonspeechrecognition[J].SoftwareGuide,2017,16

(5):57-59.

冯一帆,姜文涛.基于语音识别的智能书架设计与实现[J].软件导

刊,2017,16(5):57-59.

[4]LIMY,ofmobileomnipotentcretaryplatform

badonspeechrecognitiontechnology[J].SoftwareGuide,2015,14

(8):127-129.

李梦瑶,向卓元.基于语音识别技术的移动全能秘书平台设计[J].

软件导刊,2015,14(8):127-129.

[5]SAINATHTN,WEISSRJ,WILSONKW,hannelsignal

processingwithdeepneuralnetworksforautomaticspeechrecognition

[J].IEEE/ACMTransactionsonAudio,Speech,andLanguagePro⁃

cessing,2017,25(5):965-979.

[6]MUSTAFAMK,ALLENT,rativereviewofdy⁃

namicneuralnetworksandhiddenmarkovmodelmethodsformobile

on-devicespeechrecognition[J].NeuralComputingandApplica⁃

tions,2019,31(2):891-899.

[7]SERIZELR,-neuralnetworkapproachesfor

speechrecognitionwithheterogeneousgroupsofspeakersincluding

children[J].NaturalLanguageEngineering,2017,23(3):325-350.

[8]PRICEM,GLASSJ,-powerspeech

recognizerandvoiceactivitydetectorusingdeepneuralnetworks[J].

IEEEJournalofSolid-StateCircuits,2017,53(1):66-75.

[9]PEROLT,GHARBIM,utionalneuralnetwork

forearthquakedetectionandlocation[J].ScienceAdvances,2018,4

(2):170-178.

[10]ZHANGM,DIAOM,GAOL,networksforradarwave⁃

formrecognition[J].Symmetry,2017,9(5):75-84.

(责任编辑:杜能钢)

··26

本文发布于:2023-03-03 14:45:16,感谢您对本站的认可!

本文链接:https://www.wtabcd.cn/fanwen/zuowen/1677825917124236.html

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系,我们将在24小时内删除。

本文word下载地址:搜狗语音.doc

本文 PDF 下载地址:搜狗语音.pdf

标签:搜狗语音
相关文章
留言与评论(共有 0 条评论)
   
验证码:
推荐文章
排行榜
Copyright ©2019-2022 Comsenz Inc.Powered by © 站长QQ:55-9-10-26 专利检索|