首页 > 作文

搜狗语音

更新时间:2023-03-03 14:45:17 阅读：评论：0

网络安全内容-春潮澎湃

2023年3月3日发(作者：坐月子吃什么最好)

第7期

第20卷第7期

2021年7月

软件导刊

SoftwareGuide

Vol.20No.7

Jul.2021

收稿日期：2020-08-31

基金项目：山东省高等学校科技计划项目（J16LN12）

作者简介：郑磊（1980-），男，硕士，山东青年政治学院信息工程学院副教授，研究方向为云计算、分布式计算。

0引言

随着数字时代的到来，信息爆炸式增长，传统的以文

本形式保存信息的方式已经不能满足现代人对知识的需

求［1］。声音作为一种直接记录和掩饰信息的媒介，在实时

传递信息的同时，将情感传递给信息，对信息的记录更有

价值［2］。随着多媒体文件的大量应用，基于多媒体数据的

信息检索技术已成为信息学研究的热点［3-5］。如何像检索

文本一样快速、准确地从各种多媒体文档中查找最重要的

信息成为当前关注的热点。

本文介绍了语音识别原理和相关算法。在此基础上

将深度神经网络算法（DeepNeuralNetwork，DNN）应用于

大词汇量连续识别系统，建立基于深度神经网络的声学模

型关键词检测系统。在对比实验中，将所提出的深度神经

网络模型应用于构建声学模型，与传统GMM-HMM进行对

比，深入分析了算法对识别系统性能的影响。

1相关研究

关键词检测技术起源于20世纪70年代，最早研究是

基于“给定词”概念。语音识别作为关键字检索的一项关

键技术受到广泛关注。2006年，Mustafamk等［6］提出深度学

习概念。微软研究人员将受限的Boltzmannmachime

结合深度神经网络与内容转录的语音识别研究

郑磊

（山东青年政治学院信息工程学院，山东济南250103）

摘要：在研究语音识别关键技术基础上，将深度神经网络模型应用于语音的关键词检索任务上，提出基于深

度神经网络的语音关键词检测模型。与基线GMM-HMM模型进行对比实验，结果表明：LSTM模型的训练参数

大小为436570，DNN的训练参数为698100，Gaussiam混合模型（GMM）的训练参数大小为1226760。基于LSTM-HMM和DNN-HMM模型的语音识别准确率分别为96.5%和91.6%，显著高于传统语音识别模型（GMM-

HMM）的78.5%。基于LSTM-HMM模型的语音识别技术具有较高的准确率，更适合于语音关键词检测。

关键词：深度神经网络；语音识别；DNN-HMM模型；LSTM

DOI：10.11907/rjdk.202049开放科学（资源服务）标识码（OSID）：

中图分类号：TP301文献标识码：A文章编号：1672-7800（2021）007-0023-04

RearchonSpeechRecognitionBadonDeepNeuralNetwork

andContentTranscription

ZHENGLei

（SchoolofInformationEngineering，ShandongYouthUniversityofPoliticalScience，Jinan250103，China）

Abstract：Onthebasisofstudyingthekeytechnologiesofspeechrecognition，appliesthedeepneuralnetworkmodeltothekeyword

retrievaltaskofspeech，ultsshowthatthetrain⁃

ingparametersofLSTMmodelanddeepneuralnetwork（DNN）are436570and698100，respectively，Thetrainingparametersof

Gaussianmixturemodel（GMM）uracyofspeechrecognitionbadonLSTM-HMMandDNN_HMMis96.5%

and91.6%respectively，whichissignificantlyhigherthan78.5%echrecognitiontechnologybadonLSTM-

HMMmodelhashigheraccuracyandismoresuitableforthedetectionofspeechkeywords.

KeyWords：deepneuralnetwork；speechrecognition；DNN-HMM；LSTM

软件导刊2021年

（REM）和深度信念网络（DBN）引入到语音识别声学模型

训练中，在大词汇量语音识别系统中取得成功［7］。

我国语音识别研究起步较晚。在国家的大力支持下，

中国科学院自动化研究所、中国科学院声学研究所等科研

机构在语音识别方面进行了广泛研究并取得显著进展。

目前，微软、1BM、谷歌等国外公司相继开发了中文语音识

别系统［8-9］，中国的公司如百度讯飞、搜狗也推出了相应的

中文连续语音识别项目。语音识别技术与关键字检测系

统在未来有着非常广阔的发展前景。但是，语音识别技术

仍然面临着各种挑战，如无法有效避免语音识别错误

等［10］。本文希望通过对基于DNN的语音识别算法进行研

究，为提高语音关键字检索系统语音识别性能提供新的思

路。

2研究方法

2.1语言识别流程和原则

一个完整的语音识别系统包括语音预处理、语音特征

提取、语音模型库构建、语音模式匹配等功能。对于录制

的语音信号，首先进行语音预处理操作。预处理包括采

样、量化、滤波、预加重、窗口加帧和端点检测等步骤，然后

进行语音信号特征提取，目的是提取能够表征语音信号性

质的特征参数，去除不相关的噪声信号，获得用于声学模

型或语音识别的输入参数。语音识别和语音预处理流程

如图1所示。

Fig.1Speechrecognitionstructureandspeechpreprocessingflow

图1语音识别结构和语音预处理流程

2.2语音识别算法模型基础

语音识别的核心是声学模式，目前主要采用隐马尔可

夫模型对语音信号的时间变化建模。HMM每一种状态下

的观测概率估计方法可分为离散型、半连续型和连续型。

目前，语音识别系统主要是连续或半连续的。通过HMM

描述声学层模型时，隐藏状态对应于声学层相对稳定的语

音状态，可以描述语音信号的动态变化。

图2中HMM模型有6种状态，其中4种是启动状态，第

1种状态表示开始状态。每个隐藏状态会根据概率分布向

外发射一个状态，然后转到右边的状态。最右边的结束状

态表示HMM已经结束。在某个时间节点模型有一系列状

态。在t+1时，模型的每个状态都会转到一个新的状态，表

示一个新的状态序列。这一过程最重要的特征是T时刻状

态只与t-1时刻的状态相关，这被称为马尔科夫。HMM基

本组成包括：①状态集S={}s

1,s2,...,sN

，其中N表示音素的

个数；②状态转移矩阵A；③表示每种状态初始概率的输出

分布B={}b

j(x)。

Fig.2HMMmodelstructure

图2HMM模型结构

2.3DNN与传统声学模型结合

关键字检测系统通常基于大词汇量连续语音识别器。

在语音关键字检索系统中，采用GMM与HMM相结合的

GMM-HMM模型作为LVCSR的声学模型，但该模型对语音

信号识别率较低。随着深度学习技术在语音识别领域的

发展，利用DNN代替GMM形成DNN-HMM声学模型引起

广泛关注。DNN模型是一种具有多层隐含层的前馈神经

网络模型。DNN模型共有L+1层，其中0层为输入层，1到

L-1层为隐藏层，L层是输出层，相邻层由前馈权值矩阵连

接。

大多数情况下DNN模型激活函数为Sigmoid函数：

σ(z)=

1+e-z

（1）

σ(z)的输出范围是（0.1），这有助于获得稀疏表达式，

但它使得激活值不对称。对于多分类任务，每个输出神经

元代表一类i∈{}1,2,⋯,C，其中C=N

是类的数量。给定

训练准则可使用众所周知的误差反向传播算法提取模型

参数C=N，并利用链式规则进行推导。模型参数采用一阶

导数信息，按下式进行优化：

t+1←Wl

t-εΔWl

（2）

t+1←bl

t-εΔbl

（3）

式中：Wl

和bl

分别为第t次迭代更新后第1层的权值矩

阵和偏差向量。

ΔWl

b∑m=1

M∇

J(W,b;om,ym)（4）

Δbl

b∑m=1

M∇

J(W,b;om,ym)（5）

式（4）和式（5）分别为第t次迭代后得到的平均权重矩

阵梯度和平均偏差向量梯度，其中ε为学习速率，∇

J为J相

对于x的梯度。

对于每个任务，DNN的模型参数需要由训练样本S=

{}(om,ym)|0≤m≤M进行训练。式中M为训练样本个数，om

··24

第7期

为第M个观察向量，ym为对应的输出向量。这个过程称为

训练过程或参数估计过程，需要给出一个训练标准和一个

学习算法，在语音识别任务中，通过声学模型训练完成这

一过程。对于相邻层间完全连通的DNN，权值初始化为一

个较小的随机值，以避免在一个拥有相同梯度的层中由于

隐藏层太多而难以优化所有隐藏单元。DNN可能需要扩

展到测试数据集之外。语音符号是时间序列信号，DNN不

能直接对其建模。利用HMM对语音信号的动态变化进行

建模，利用DNN估计观测概率。DNN-HMM模型结构如图

3所示。

DNN-HMM训练步骤如下：①将训练集与常规训练的

DNN-HMM模型进行对齐，得到对齐信息；②建立上下文敏

感状态到语音ID的映射；③根据训练DNN所需的输入和

输出标签生成信息；④获取DNN中需要的HMM模型结构；

⑤基于输入和输出标签估计语音的先验概率，利用反向传

播算法调整网络参数得到DNN-HMM模型。

Fig.3DNN-HMMmodelstructure

图3DNN-HMM模型结构

3实验结果

3.1实验数据

本实验选择开源中文普通话语音数据库aishell，对同

一扬声器的测试集执行数据库中的语音材料。在安静环

境下使用电脑录音软件CoolEditPro录制语音信息，挑选8

名演讲者依次阅读20个教育词汇，每个单词读10次。采

样频率设置为8kHz，每个采样点被量化16位并存储在单

声道中，共获得1600个语音样本作为训练和识别语料库。

以前3道和后3道作为训练集，共有960个样本，使用中间4

个样本作为同一扬声器测试集，共640个样本。

在语音信号特征提取中，从训练集和同一说话人测试

集的每个预处理语音样本中提取24维Mel-frequencyCeps⁃

trum（MFC）系数特征，并采用均值方差对其进行正则化，

该功能窗口大小为25ms，重叠时间为10ms。比较传统的神

经网络模型和DNN模型的语音识别性能，以语音识别正确

率作为评价标准，数值均为统计平均值。

3.2基于语音识别的语音关键字检索系统构建

语音关键字检索系统包括系统索引和关键字检索。

其中，索引由索引语音识别、后处理语音识别、索引构建组

成。关键字检索由关键字检查和置信度评估两部分组成，

如图4所示。语音识别错误和外来词严重影响系统的查全

率，模糊匹配方法能有效提高召回率，但增加了查询时间。

在关键字查询过程中，可以在超类数据库中执行初始快速

查找以缩小搜索范围，然后在音节序列数据库中执行精确

的查询以加快搜索速度。

Fig.4Compositionofvoicekeywordretrievalsystem

图4语音关键字检索系统组成

语音关键字检索系统依赖于识别结果，因此语音识别

的性能对系统的检索性能有着至关重要的影响。语音识

别系统性能通常是通过识别错误率和实时率来评价的。

在语音关键字检索系统中，语音数据的识别过程可以离线

进行而不必考虑实时指标。识别结果表明，错误类型包括

插入错误、删除错误和替换错误。将识别最佳结果与参考

文本进行比较，可以得到识别错误率。

3.3语音识别结果比较

语音信号特征参数的帧数设置为23，选取非线性tanh

函数作为激活函数。输出为30个神经元，使输出神经元的

数目与待分类神经元数目相同。以估计概率分布与实际

概率提取之间的高斯熵作为目标函数，当语音识别精度提

高到0.2%以下时停止迭代。不同语音识别算法的识别准

确率结果如表1所示。

Table1Recognitionaccuracyofdifferentspeechrecognition

algorithms

表1不同语音识别算法的识别精度（%）

Model

GMM-HMM

DNN-HMM

LSTM-HMM

Recognitionaccuracy

78.5

91.6

96.5

如表1所示，基于LSTM-HMM和DNN-HMM模型的语

音识别准确率明显高于传统的GMM-HMM模型，同时

LSTM-HMM模型的语音识别准确率达到96.5%，表明该模

型具有更好的性能。LSTM训练参数大小为436570，DNN

训练参数大小为698100，GMM训练参数大小为1226700。

在训练集语音样本有限的情况下，训练模型的过拟合会导

致训练模型过拟合问题。因此，基于DNN的语音识别可以

减小训练参数大小，有效避免训练模型的过拟合。

郑磊：结合深度神经网络与内容转录的语音识别研究··25

软件导刊2021年

语音信号具有很强的随机性，同一语音单元扩展的语

音特征参数及帧数可能不同，规则帧数对不同算法识别性

能的影响如图5所示。随着规则帧数的增加，输入与原始

特征参数的距离越来越近，两种网络模型的识别精度不断

提高。模型是通过随机梯度下降法计算均方误差，然后通

过调整网络参数减小均方误差来实现。因此，网络模型的

收敛性直接反映了整体性能是否优越。

Fig.5Influenceofregularframenumberonrecognition

performanceofdifferentalgorithms

图5规则帧数对不同算法识别性能的影响

4结语

为解决传统关键字检测系统中GMM-HMM声学模型

的低识别率问题，本文将基于DNN的语音识别算法应用于

关键字检测。使用DNN-HMM声学模型代替原系统中的

GMM-HMM模型，并在此基础上对关键字检测进行研究。

通过对比实验选择一个开源普通话语音数据库——

aishell，它是在同一个扬声器的测试装置上播放的。在安

静环境下，使用电脑录音软件CoolEditPro录制语音信息。

实验表明，基于LSTM-HMM模型和DNN-HMM模型的语

音识别准确率分别为96.5%和91.6%，显著高于GMM-

HMM的78.5%，说明本文提出的LSTM-HMM模型性能更

好。在训练集语音样本有限的情况下，会产生训练参数尺

度过大、训练模型过拟合问题。基于DNN的语音识别算法

可以减小训练参数尺度，从而有效避免训练模型过拟合问

题。

基于LSTM-HMM的语音识别技术具有较高的准确率，

更适合于语音关键字检索。但在复杂语音环境下，关键字

检测的鲁棒性仍有很大的提升空间。因此，后续研究可以

探索提取更鲁棒的声学特征方向，在有噪声干扰的情况下

准确检索所需的语音信息。

参考文献：

［1］SHAHM，ARUNACHALAMS，WANGJ，-pointneural

networkarchitectureforspeechapplicationsonresourceconstrained

hardware［J］.JournalofSignalProcessingSystems，2018，90（5）：

727-741.

［2］FANGSH，TSAOY，HSIAOMJ，ionofpathological

voiceusingcepstrumvectors：adeeplearningapproach［J］.Journalof

Voice，2019，33（5）：634-641.

［3］FENGYF，andimplementationofintelligent

bookshelfbadonspeechrecognition［J］.SoftwareGuide，2017，16

（5）：57-59.

冯一帆，姜文涛.基于语音识别的智能书架设计与实现［J］.软件导

刊，2017，16（5）：57-59.

［4］LIMY，ofmobileomnipotentcretaryplatform

badonspeechrecognitiontechnology［J］.SoftwareGuide，2015，14

（8）：127-129.

李梦瑶，向卓元.基于语音识别技术的移动全能秘书平台设计［J］.

软件导刊，2015，14（8）：127-129.

［5］SAINATHTN，WEISSRJ，WILSONKW，hannelsignal

processingwithdeepneuralnetworksforautomaticspeechrecognition

［J］.IEEE/ACMTransactionsonAudio，Speech，andLanguagePro⁃

cessing，2017，25（5）：965-979.

［6］MUSTAFAMK，ALLENT，rativereviewofdy⁃

namicneuralnetworksandhiddenmarkovmodelmethodsformobile

on-devicespeechrecognition［J］.NeuralComputingandApplica⁃

tions，2019，31（2）：891-899.

［7］SERIZELR，-neuralnetworkapproachesfor

speechrecognitionwithheterogeneousgroupsofspeakersincluding

children［J］.NaturalLanguageEngineering，2017，23（3）：325-350.

［8］PRICEM，GLASSJ，-powerspeech

recognizerandvoiceactivitydetectorusingdeepneuralnetworks［J］.

IEEEJournalofSolid-StateCircuits，2017，53（1）：66-75.

［9］PEROLT，GHARBIM，utionalneuralnetwork

forearthquakedetectionandlocation［J］.ScienceAdvances，2018，4

（2）：170-178.

［10］ZHANGM，DIAOM，GAOL，networksforradarwave⁃

formrecognition［J］.Symmetry，2017，9（5）：75-84.

（责任编辑：杜能钢）

··26

本文发布于:2023-03-03 14:45:16，感谢您对本站的认可！

本文链接：https://www.wtabcd.cn/fanwen/zuowen/1677825917124236.html

本文word下载地址：搜狗语音.doc

本文 PDF 下载地址：搜狗语音.pdf

上一篇：野生动物园投喂猛兽的观光车危险吗

下一篇：返回列表

标签：搜狗语音

留言与评论（共有 0 条评论）