一种对当代流行音乐和弦进行分类的方法及装置

更新时间:2024-11-15 23:03:05 0条评论

默认

一种对当代流行音乐和弦进行分类的方法及装置

1.本发明涉及音乐信息处理技术领域，尤其涉及一种对当代流行音乐和弦进行分类的方法及装置。

背景技术：

2.近年来，随着大容量数字音频播放器的普及、音乐发行服务的不断完善，音乐搜索变得更加灵活，用户需求呈现多样化，个性化推荐需求不断加深。现代歌曲是由旋律和和弦组成的，自动和弦识别(automatic chord recognition,acr)是音乐信息研究(mir)的任务之一。然而和弦识别与转录是一项劳动密集型任务，并且它需要人员进行广泛的音乐训练。因此，基于音乐信息检索处理的智能化、自动化处理、自动实现和弦识别是目前计算机音乐处理的一个关键问题。和弦识别的过程主要分为声学特征提取和和弦序列解码两个阶段。
3.其中，声学特征提取经历了从信号处理到神经网络的转变。早期的声学特征是通过信号处理完成的。比较典型的有，fujishima等人
1.提出的pcp(pitch class profiles，音级轮廓图)模型来表征和弦特征。为了实现更好的和弦分类，herrera等人
2.和王峰等人
3.分别对该模型进行了改进，提出了epcp(enhanced pitch class profiles，增强音级轮廓图)模型和mpcp(mel pitch class profiles，梅尔音级轮廓图)模型。一般而言，这些模型在描述和弦的基音特征方面表现良好，但大多和弦在很宽的频带范围内会包含丰富的泛音，因此这些方法很难为和弦提供完整准确的表示。近年来，信号处理与深度学习网络的结合已成为特征提取方法的主流。例如，杨
4.等人提出了一种深度神经网络(deep neural network，dnn)来实现自动和弦识别。然而，为了达到较高的识别精度，dnn和dbn(deep belief networks，深度置信网络)需要大量的参数以及训练样本去完成良好的拟合，从而导致系统复杂度相当高。为了解决这个问题，filip
5.等人提出了一种基于全卷积网络(convolutional network,cnn)的深度听觉模型，其参数量可以减少到传统dnn的一半；在此基础上，ken o'hanlon
6.等人提出了fifthnet
6.音频数据结构，并构建了更为紧凑的cnn
7.来实现和弦识别。这种网络可以将参数降低到到传统dnn网络的1/20，并达到一个相对不错的识别率(81％左右)。上述事实表明，cnn不仅可以大大提高和弦特征提取的性能，而且可以从根本上克服传统dnn网络的参数冗余的问题。
4.对于和弦序列解码阶段，其本质在于探索和弦序列之间的关联性。为了实现这一目标，lee
8.等人使用隐马尔可夫模型(hidden markov model,hmm)解码和弦序列；mauch
9.等人和yizhao
10.等人分别提出了chordino和harmony progression(hp)系统来改进lee的模型，但其方法并没有克服hmm训练过程需要大量训练样本的问题。相反，wang
3.等人提出了基于条件随机场(conditional random field,crf)的识别模型，在一定程度上缓解了hmm的缺陷。随着一系列带有记忆网络的出现，这为发现和弦序列相关性提供了更加有力的工具。比较典型的有，shota
11.等人比较了4种常用的记忆网络模型，包括rnn、门控循环单元(gated recurrent unit，gru)、长短记忆网络(long and short memory network，lstm)和双向长短记忆网络(bidirectional long and short memory network，bi-lstm)。
5.然而，在这些主流的和弦识别方法
[12-17]
，对和弦相关性挖掘并不够充分。其原因在于两个方面：1)使用时频变换的帧作为和弦识别的基本处理单元很难获取和弦的全部信息，即使在当前帧前后各加入7帧帮助网络进行识别；2)由于采用这种基于帧的处理方式，其网络更多挖掘的是和弦序列之间帧间的相关性而不是和弦间的。因此，当处理那些持续时间较长的和弦以及和弦过渡时，这两个缺点经常会导致和弦识别错误。特别是对于遵循一定和弦走向的当代流行音乐，这种基于帧的处理方法在探索相邻和弦之间的相互关系时往往效果不佳。
[0006]
参考文献
[0007]
[1]fujishima t.realtime chord recognition of musical sound:a system using common lisp music[j].proc icmc,1999:464-467.
[0008]
[2]emilia g
ó
mez,ong b,herrera p.automatic tonal analysis from music summaries for version identification[j].proc of the audio engineering society convention,2012.
[0009]
[3]王峰,张雪英,李炳男,等.基于crfs和mpcp特征的和弦识别研究[j].计算机工程与应用,2011,47(18):3.
[0010]
[4]yang m h,li s,yang y h.highlighting root notes in chord recognition using cepstral features and multi-task learning[c]//2016asia-pacific signal and information processing association annual summit and conference(apsipa).ieee,2017.
[0011]
[5]korzeniowski f,widmer g.a fully convolutional deep auditory model for musical chord recognition[c]//2016ieee 26th international workshop on machine learning for signal processing(mlsp).ieee,2016.
[0012]
[6]o'hanlon k,sandler m b.fifthnet:structure compact neural networks for automatic chordrecognition[j].ieee/acm transactions on audio,speech,and language processing,2021,pp(99):1-1.
[0013]
[7]hanlon k o,sandler m b.the fifthnet chroma extractor[c]//icassp 2020-2020ieee international conference on acoustics,speech and signal processing(icassp).ieee,2020.
[0014]
[8]lee,k.,m.slaney.automatic chord recognition from audio using an hmm with supervised learning[c]//international conference on ismir dblp,2006.
[0015]
[9]mauch,m.,s.dixon.mirex 2010:chord detection using a dynamic bayesian network[j].2010.
[0016]
[10]ni y,mcvicar m,santos-rodriguez r,et al.an end-to-end machine learning system for harmonic analysis of music[j].ieee transactions on audio speech&language processing,2012,20(6):1771-1783.
[0017]
[11]shota nakayama,shuichi arai.dnn-lstm-crf model for automatic audio chord recognition[c]//pattern recognition and artificial intelligence.ed.,2018,
[0018]
[12]brown,c.judith.calculation of a constant q spectral transform[j]
.journal of the acoustical society of america 89.1(1998):425
‑‑
434.
[0019]
[13]harte c a,sandler m b.automatic chord identification using a quantised chromagram[j].proceedings of ther audio engineering society spain,2005.
[0020]
[14]korzeniowski f,widmer g.feature learning for chord recognition:the deep chroma extractor[j].2016.
[0021]
[15]simonyan k,zisserman a.very deep convolutional networks for large-scale image recognition[j].computer science,2014.
[0022]
[16]mcvicar m,santos-rodriguez r,ni y,et al.automatic chord estimation from audio:a review of the state of the art[j].ieee/acm transactions on audio,speech,and language processing,2014,22(2):556-575.
[0023]
[17]lee c y,osindero s.recursive recurrent nets with attention modeling for ocr in the wild[j].ieee,2016..

技术实现要素：

[0024]
本发明提供了一种对当代流行音乐和弦进行分类的方法及装置，本发明通过设计的基于弦关联性挖掘的识别网络，可实现高和弦识别率，可识别包含有多种乐器伴奏的复杂音乐中的和弦类型，详见下文描述：
[0025]
第一方面、一种对当代流行音乐和弦进行分类的方法，所述方法包括：
[0026]
根据给定的和弦时间戳，对二维时频域表示结果进行cqt和补零或截断操作，使得时频表示的时间维度统一为单位和弦处理长度；
[0027]
将统一后的时频表示逐个馈入到卷积网络进行和弦特征提取，依次输出25维的特征向量；
[0028]
对每个和弦特征向量，将其前、后3个和弦特征向量串接起来，以构造出尺寸为25
×
7上下文特征矩阵；
[0029]
将上下文特征矩阵馈入到cnn网络中，以挖掘各和弦间的依赖关系，输出最后的和弦标签。
[0030]
其中，所述方法还包括：
[0031]
基于给定的和弦时间戳，通过完整音乐分割获得一系列持续时间不同的和弦分段。
[0032]
进一步地，所述对二维时频域表示结果进行cqt和补零或截断操作具体为：
[0033]
对cqt的每个t-f点进行对数运算，对于任意一个变换后值为s的t-f点，其压缩结果为：
[0034]
l＝log(1+|s|)
[0035]
其中，t-f为和弦二维时频表示的基本单位，即时频点；
[0036]
保证每个和弦分段长度设置为100个时间帧，其持续时间为2.5s。
[0037]
其中，所述cnn网络由级联卷积单元、两个全连接层和一个softmax层组成，
[0038]
所述级联卷积单元总共有4个卷积单元，每个卷积单元以池化层为结束标志、两个全连接层用于构建25维特征向量；
[0039]
所述cnn网络还包括：dropout层和batch normalization层。
[0040]
进一步地，所述和弦特征向量用于送到lstm-attention网络以学习时间上下文信息。
[0041]
第二方面、一种对当代流行音乐和弦进行分类的装置，所述装置包括：处理器和存储器，处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置中的任一项所述的方法步骤。
[0042]
本发明提供的技术方案的有益效果是：
[0043]
1)本发明将主流方法忽略的和弦时间戳纳入基本处理单元的构建中，该操作不仅排除了周围和弦的干扰，还可以通过cnn提取和弦更为完整、准确的特征表示；
[0044]
2)本发明构建了一个lstm-attention网络作为语言模型处理由cnn生成的特征向量，这被证明在探索和弦相关性方面是有效的；实验结果表明，本发明提出的方案同时具有识别准确率高、效率高和参数少的特点；
[0045]
3)本发明可识别包含有多种乐器伴奏的复杂音乐中的和弦类型，共计可识别25种和弦(即十二平均律中的每个音的大、小和弦和空和弦)；
[0046]
4)本发明通过设计的基于弦关联性挖掘的识别网络，可实现高和弦识别率，有机的融合了信号处理理论、深度学习技术，从而能在训练样本很少的情况下更准确识别出和弦类型，其对复杂音乐的和弦识别率可达83％以上(目前该方向识别率在83％左右)；
[0047]
5)本发明将适合于音乐特征表达的信号处理措施引入到网络设计中，可大大简化网络参数，其空间复杂度(内存资源)和时间复杂度(训练迭代次数)均可大为降低，实现高的识别效率；
[0048]
6)本发明提出的基于cnn和lstm-attention的深度学习模型通过挖掘和弦间的关联性可以大量减少待训练的参数，其参数仅为传统方法的1/8，从而达到简化网络的目的；
[0049]
7)本发明由于其网络结构简单，其训练速度也得到了极大的提升，在geforce rtx3090(显存24g)上训练一轮仅花费1分钟，总训练时间20分钟。
[0050]
8)本发明由于其紧凑的网络结构和高效的识别速率，可以极大降低网络对设备的需求，这有利于移植到其他移动端软件且并不会大量占用手机端资源，更好的协助音乐软件完成听歌识曲、自动识谱等功能。
附图说明
[0051]
图1为本发明提出的和弦识别的流程图；
[0052]
图2为音乐预处理单元结构示意图；
[0053]
图3为不同帧数和弦占比示意图；
[0054]
图4为特征提取单元结构示意图；
[0055]
图5为提出的lstm-attention网络结构示意图；
[0056]
图6为cnn模型accuracy和loss曲线示意图；
[0057]
图7为两个网络的错误识别率分析示意图；
[0058]
a)为cnn(黑)和cnn&lstm-attention(灰)网络中小和弦被错误识别为其他大和弦的错误率对比；b)为cnn(黑)和cnn&lstm-attention(灰)网络中大和弦被错误识别为其他大和弦的错误率对比；c)为cnn(黑)和cnn&lstm-attention(灰)网络中小和
弦被错误识别为其他小和弦的错误率对比；d)为cnn(黑)和cnn&lstm-attention(灰)网络中大和弦被错误识别为其他小和弦的错误率对比。
[0059]
图8为不同和弦类型占比示意图；
[0060]
图9为实验总体流程示意图；
[0061]
图10为一种对当代流行音乐和弦进行分类的装置。
[0062]
表1为提出的cnn架构；
[0063]
表2为提出的lstm-attention架构；
[0064]
表3为不同模型准确度对比。
具体实施方式
[0065]
为使本发明的目的、技术方案和优点更加清楚，下面对本发明实施方式作进一步地详细描述。
[0066]
实施例1
[0067]
本发明实施例提供了一种对当代流行音乐和弦进行分类的方法，本方法可估计出包含人声和多种乐器伴奏的复杂音乐的和弦类型，参见图1，该方法包括以下步骤：
[0068]
101：给定包含有和弦时间戳的音乐样本集(允许包含各类乐器伴奏)，设置单位和弦处理长度为2.5秒；
[0069]
102：根据时间戳，将音乐样本划分成若干个和弦分段；
[0070]
103：将各和弦分段依次进行恒q值变换(constant q-value transform,cqt)和幅值压缩，得到其二维时频域表示；
[0071]
104：根据给定的和弦时间戳，对二维时频域表示结果进行补零或者截断，使这些时频表示的时间维度统一为单位和弦处理长度(即2.5秒)；
[0072]
105：将统一后的和弦时频表示逐个馈入到卷积网络进行和弦特征提取，依次输出25维的特征向量；
[0073]
106：对每个和弦特征向量，将其前、后3个和弦特征向量串接起来，以构造出尺寸为25
×
7上下文特征矩阵；
[0074]
107：将上下文特征矩阵馈入到lstm-attention网络中，以挖掘各和弦间的依赖关系，输出最后的和弦标签(即25类和弦中的一种)。
[0075]
综上所述，本发明实施例通过上述步骤101-107设计的基于弦关联性挖掘的识别网络，可实现高和弦识别率，可识别包含有多种乐器伴奏的复杂音乐中的和弦类型。
[0076]
实施例2
[0077]
下面结合图2-图5，具体的计算公式对实施例1中的方案进行进一步地介绍，详见下文描述：
[0078]
一、acr方案流程
[0079]
图1展示了基于和弦关联性挖掘的acr方案的流程图，其流程包含3个阶段：音乐预处理、和弦特征提取以及和弦相关性挖掘。
[0080]
第一阶段是通过时间戳将整首歌曲分解成若干个和弦片段，以排除特征提取时和弦间的互相干扰；然后本发明实施例将分解后的和弦片段进行恒q值变换(constant q-value transform,cqt)，以在时频平面上获得更稀疏的特征。此外，为了满足后续特征提取
阶段统一维度的要求，该cqt特征需要在时间维度上进行零填充或列截断。在第二阶段，本发明实施例采用cnn进行训练，最终使用dense层输出的25维特征向量作为提取出的和弦特征。在第三阶段，本发明实施例将dense层的特征向量连接后输入lstm-attention网络以捕获时间上下文信息以挖掘了出于歌曲创作相关的和弦序列相关性，从而实现lstm-attention网络高精度和弦识别。
[0081]
二、音乐预处理
[0082]
此阶段旨在以排除特征提取时和弦间的互相干扰。具体来说考虑3个方面：基于时间戳的音频分割、cqt和零填充/截断操作，具体流程如图2所示。
[0083]
1、基于时间戳的音频分割
[0084]
基于给定的时间戳，通过完整音乐分割获得一系列持续时间不同的和弦分段。显然，在时间戳的引导下，本发明实施例可以在相邻的和弦序列之间产生精确的边界，同时也能起到排除和弦之间干扰的作用。
[0085]
2、cqt和零填充/截断
[0086]
对和弦分段进行cqt操作可以得到一个更为稀疏的二维时频表示，在该变换上音符沿频率轴呈现均匀分布。具体来说，cqt可以使84个(覆盖7个八度，每个8度包含12个半音)音符按频率高低均匀的分布在频率轴上。
[0087]
值得注意的是，对cqt进行相关参数设置可以简化后续基于cnn的特征提取。因此，本发明实施例进行了如下的两个处理：
[0088]
1)为了加快后续的cnn特征提取收敛速度，本发明实施例对cqt的每个t-f点进行对数运算来压缩幅度范围。具体来说，对于任意一个值为s(音乐cqt变换后的值)的t-f点，其压缩结果为：
[0089]
l＝log(1+|s|)
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(1)
[0090]
2)为了向cnn网络提供相同大小的二维图像，在上述压缩后的二维cqt频谱图时间轴上进行零填充/截断操作。
[0091]
即保证每个和弦分段长度设置为100个时间帧，其持续时间为2.5s。也就是说，对于超过100帧的和弦，本发明实施例只保留前100帧，丢弃后面的帧。对于少于100帧的和弦，将在其后面进行补零。此规范主要基于对数据集中和弦序列的长度(帧数)(the beatles'190歌曲)的统计确定的，其在具体分布列于图4。
[0092]
从图3的统计结果可以看出，帧数的规范(即100个时间帧)确保了尽可能较少截断带来的信息损失。最后，所有送到cnn训练频谱图xi，其维度为xi∈r
84
×
100
。此外，通过上述操作，和弦之间的干扰可以得到极大的抑制，这有利于提升cnn的特征提取效果。
[0093]
三、基于cnn网络的和弦特征提取
[0094]
对于预处理阶段生成的频谱图xi∈r
84
×
100
，尽管其t-f分量稀疏分布在整个二维t-f平面上，但该频谱图中的冗余度太高。因此，有必要采用深度学习网络来减少这种冗余。具体来说，考虑到本发明实施例最终将常用和弦分为25类(即12对大和弦和小和弦加上一个空和弦)，本发明实施例将和弦特征的维度从84
×
100减少到25
×
1，降低了计算复杂度。
[0095]
1、提出的cnn的结构
[0096]
如图4所示，本发明实施例提出的cnn主要由级联卷积单元(总共4个卷积单元，每个卷积单元以池化层为结束标志)、两个全连接层(构建25维特征向量)和一个softmax层
(实现反向传播、观察提取效果)。此外，为了加速收敛和避免模型过拟合，在上述网络中还加入了一些其他模块，如dropout层和batch normalization层。
[0097]
表1展示了本发明实施例的模型的具体结构，该模型只有不到90,000个参数。具体来说，对于前3个卷积单元，本发明实施例选择使用3
×
3卷积核的级联来扩大感知域。第4个卷积单元，本发明实施例使用更大的7
×
2卷积核作为最后一层卷积层来协助网络收集更多谐波信息。
[0098]
表1提出的cnn架构
[0099][0100][0101]
此外，如表1所示，除了第一个卷积单元使用了平均池化层，之后每个卷积层后面都和最大池化层相连。原因在于：1)众所周知，和弦的主要特征是3个主音，其频谱由3个主音的频率组成。最大池化操作有利于提取主音对应的峰值谱；2)最大池化操作避免了在特征提取阶段为了统一维度而进行零填充对短和弦产生的影响，它避开了cqt值在用平均池化时遭受大幅度衰减的可能。通过以上结构和参数设置，第4个卷积单元输出的维度为12
×1×
32。
[0102]
在卷积单元之后，本发明实施例使用2个全连接层分别完成维度从384到125再到
25的维度转换，这可以实现比单个完全连接实现更平滑的特征提取。之后通过softmax层地将这些25维特征向量分类为25类和弦类型。
[0103]
2、和弦相关性挖掘
[0104]
众所周知，现代音乐是按照一些和弦规则创作的(例如著名的caron和弦就是8个和弦组成和弦走向)，这些规则本质上是一首歌曲和弦间相关性的反映。因此，本发明实施例可以利用这些规则来纠正一些特征提取中出现的错误，从而提高识别率。
[0105]
在实验中，本发明实施例使用注意力机制和lstm结合去学习和弦的相关性，从而提高acr识别率。具体来说，在本发明实施例的网络中，本发明实施例在当前和弦特征向量前后各连接三个相邻的和弦向量组合成一个大小为xi∈r7×
25
的上下文矩阵，这些向量被送到后续的lstm-attention以学习时间上下文信息。接下来这7个特征向量的权重可以通过后续的注意力层进行量化计算，为最终的acr结果提供可靠的依据，具体结构如图5所示。值得注意的是，上述lstm-attention非常简单，只有7000个待训练的参数，具体参数在表2中列出。这主要归因于前面cnn将输入和弦准确地转化为简洁的25维特征向量，降低了特征的冗余，同时这也使本发明实施例提出的网络具有良好的泛化性能。
[0106]
表2提出的lstm-attention架构
[0107][0108]
实施例3
[0109]
下面结合图6-图9，表2-表3对实施例1和2中的方案进行可行性验证，详见下文描述：
[0110]
1、cnn训练和结果分析
[0111]
对于cnn网络，训练和验证的收敛曲线如图6所示，从中可以得出以下结论：
[0112]
1)无论是训练集还是测试集，都只用了大约50个epochs就进入了稳定阶段。cnn的快速收敛反映了本发明实施例所提出的方法(包括cqt对数幅度压缩、基于时间戳的音频分割、补零及截断、最大池化层等)在和弦特征的提取过程中是有效的。
[0113]
2)在稳定阶段，训练和验证的acr准确率分别达到80％、78％左右，对应的损失值为0.6、1.0。换句话说，验证集和训练集只存在微小的差异。这反映了图4和表1阐述的网络结构和参数设置是合理的，保证了训练好的cnn网络具有良好的泛化能力。
[0114]
2、lstm网络对精度提升的贡献分析
[0115]
虽然仅cnn网络就实现了78％的高acr率，但仍有必要探索lstm网络在精度提高方面的有效性。为了更好地评估这种有效性，本发明实施例将所提出的cnn-lstm网络与另外两个现有网络进行了比较：全卷积网络和dnn blocknet，其acr结果和参数量列在表3中。
[0116]
表3不同模型准确度对比
[0117][0118]
从表3可以得出以下结论：
[0119]
1)所提出的网络在识别准确度上优于全卷积网络和blocknet，它们的acr率分别为：83.2％、82.5％、82.3％。
[0120]
2)所提出的网络的参数量(95365)远低于其他两个网络(即分别为970668和1815817)。
[0121]
上述比较结果证实，本发明实施例提出的acr网络同时具有高acr率和低参数量。这种改进归因于以下原因：1)所提出的音乐预处理措施在抑制相邻和弦之间的干扰方面表现良好；2)提出的cnn网络可以精准提取出和弦特征。3)所提出的lstm网络很好地完成了和弦相关性挖掘的任务。
[0122]
由于上述原因，所提出的lstm网络将acr率从77％(仅使用cnn)提高到83.2％，从而超过了现有两个网络的性能。
[0123]
为了定量反映这种有效性，本发明实施例针对数据集，对以下4个方面产生的错误进行了统计分析，图7描述了上述误差统计结果，从中可以得出以下结论。
[0124]
1)观察两个网络的错误识别率，可以看到所有类型的错误识别率都有所下降，证明lstm-attention网络在提高和弦识别率方面是有效的；
[0125]
2)小和弦的错误识别率较高，可能因为在数据集中小和弦的占比较少，不利于网络充分学习小和弦特征；
[0126]
3)在图(a)中，本发明提出的lstm-attention网络可以有效降低大和弦被识别为小和弦误识别率。这可能是因为lstm-attention网络在训练过程中学到了更多的音乐调性(一首小调歌曲很少有大和弦，从而改善了小调歌曲的识别率)。
[0127]
4)由于不同的音乐流派有不同的和弦走向，在训练样本不足的情况下很难学习到和弦走向。但是对比两种网络的错误率(同类型和弦被识别为其他类型的和弦)，可发现总体上识别率还是有3％左右的提升。
[0128]
3、实验实施规范
[0129]
本发明实施例使用数据集isophonics(190首beatles歌曲)作为acr实验数据集，该数据集涉及了摇滚、爵士、流行、乡村音乐等流派。所有歌曲都详细标记了和弦边界(即时间戳)以及和弦类型。在实验操作中，本发明实施例将这190首歌曲串联起来，构成一个由14340个和弦组成的长序列，其和弦类型的比例如图8所示。
[0130]
众所周知，和弦主要由根音、三音和五音组成。就音符之间的距离而言，这14340个和弦可划分为25类(即12个大和弦、12个小和弦和1个空和弦)。具体来说，基于以下考虑对和弦进行分类。
[0131]
大和弦：指其三音与根音相距4个半音的和弦。典型的大和弦包括大三和弦、增三和弦、七和弦和大七和弦。
[0132]
小和弦：指其三音与根音相距3个半音的和弦。典型的小和弦包括小三和弦、减三
和弦和小七和弦。
[0133]
空和弦：指除大和弦和小和弦之外的所有剩余和弦，也包括休止和弦。
[0134]
在本发明实施例的实验中，这14340个和弦按10:1:1的比例分为训练集、验证集和测试集。而且本发明对cnn和lstm-attention网络分别进行训练。对于这两个网络，优化器都使用adam，batch size设置为64。考虑到lstm-attention网络的结构比cnn简单得多，本发明实施例将lstm-attention网络和cnn的epochs分别为100、400，保证每个网络都可以得到充分的训练。
[0135]
4、实验流程
[0136]
图9展示了本发明实验的总体流程，其具体说明如下：
[0137]
1)音乐预处理：通过时间戳将歌曲分解成若干个和弦片段，将分解后的和弦片段进行cqt变换，以在时频平面上获得更稀疏的特征；
[0138]
2)和弦特征提取：采用cnn进行训练，最终使用dense层输出的25维特征向量作为提取出的和弦特征；
[0139]
3)和弦关联性挖掘：将dense层的特征向量连接后输入lstm-attention网络以捕获时间上下文信息以挖掘和弦序列相关性，输出最后的和弦标签序列。
[0140]
实施例4
[0141]
一种对当代流行音乐和弦进行分类的装置，参见图10，该装置包括：处理器和存储器，存储器中存储有程序指令，处理器调用存储器中存储的程序指令以使装置执行以下的方法步骤：
[0142]
根据给定的和弦时间戳，对二维时频域表示结果进行cqt和补零或截断操作，使得时频表示的时间维度统一为单位和弦处理长度；
[0143]
将统一后的时频表示逐个馈入到卷积网络进行和弦特征提取，依次输出25维的特征向量；
[0144]
对每个和弦特征向量，将其前、后3个和弦特征向量串接起来，以构造出尺寸为25
×
7上下文特征矩阵；
[0145]
将上下文特征矩阵馈入到lstm-attention网络中，以挖掘各和弦间的依赖关系，输出最后的和弦标签。
[0146]
其中，方法还包括：
[0147]
基于给定的和弦时间戳，通过完整音乐分割获得一系列持续时间不同的和弦分段。
[0148]
进一步地，所述对二维时频域表示结果进行cqt和补零或截断操作具体为：
[0149]
对cqt的每个t-f点进行对数运算，对于任意一个变换后值为s的t-f点，其压缩结果为：
[0150]
l＝log(1+|s|)
[0151]
其中，t-f为和弦二维时频表示的基本单位，即时频点；
[0152]
保证每个和弦分段长度设置为100个时间帧，其持续时间为2.5s。
[0153]
其中，cnn网络由级联卷积单元、两个全连接层和一个softmax层组成，
[0154]
级联卷积单元总共有4个卷积单元，每个卷积单元以池化层为结束标志、两个全连接层用于构建25维特征向量；
[0155]
cnn网络还包括：dropout层和batch normalization层。
[0156]
进一步地，和弦特征向量用于送到lstm-attention网络以学习时间上下文信息。
[0157]
这里需要指出的是，以上实施例中的装置描述是与实施例中的方法描述相对应的，本发明实施例在此不做赘述。
[0158]
上述的处理器1和存储器2的执行主体可以是计算机、单片机、微控制器等具有计算功能的器件，具体实现时，本发明实施例对执行主体不做限制，根据实际应用中的需要进行选择。
[0159]
存储器2和处理器1之间通过总线3传输数据信号，本发明实施例对此不做赘述。
[0160]
本发明实施例对各器件的型号除做特殊说明的以外，其他器件的型号不做限制，只要能完成上述功能的器件均可。
[0161]
本领域技术人员可以理解附图只是一个优选实施例的示意图，上述本发明实施例序号仅仅为了描述，不代表实施例的优劣。
[0162]
以上所述仅为本发明的较佳实施例，并不用以限制本发明，凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：

1.一种对当代流行音乐和弦进行分类的方法，其特征在于，所述方法包括：根据给定的和弦时间戳，对二维时频域表示结果进行cqt和补零或截断操作，使得时频表示的时间维度统一为单位和弦处理长度；将统一后的时频表示逐个馈入到cnn网络进行和弦特征提取，依次输出25维的特征向量；对每个和弦特征向量，将其前、后3个和弦特征向量串接起来，以构造出尺寸为25
×
7上下文特征矩阵；将上下文特征矩阵馈入到lstm-attention网络中，以挖掘各和弦间的依赖关系，输出最后的和弦标签。2.根据权利要求1所述的一种对当代流行音乐和弦进行分类的方法，其特征在于，所述方法还包括：基于给定的和弦时间戳，通过完整音乐分割获得一系列持续时间不同的和弦分段。3.根据权利要求1所述的一种对当代流行音乐和弦进行分类的方法，其特征在于，所述对二维时频域表示结果进行cqt和补零或截断操作具体为：对cqt的每个t-f点进行对数运算，对于任意一个变换后值为s的t-f点，其压缩结果为：l＝log(1+|s|)其中，t-f为和弦二维时频表示的基本单位，即时频点；保证每个和弦分段长度设置为100个时间帧，其持续时间为2.5s。4.根据权利要求1所述的一种对当代流行音乐和弦进行分类的方法，其特征在于，所述cnn网络由级联卷积单元、两个全连接层和一个softmax层组成，所述级联卷积单元总共有4个卷积单元，每个卷积单元以池化层为结束标志、两个全连接层用于构建25维特征向量；所述cnn网络还包括：dropout层和batch normalization层。5.根据权利要求1所述的一种对当代流行音乐和弦进行分类的方法，其特征在于，所述和弦特征向量用于送到lstm-attention网络以学习时间上下文信息，所述网络具有7000个待训练的参数。6.一种对当代流行音乐和弦进行分类的装置，其特征在于，所述装置包括：处理器和存储器，处理器和存储器，所述存储器中存储有程序指令，所述处理器调用存储器中存储的程序指令以使装置执行权利要求1-5中的任一项所述的方法步骤。

技术总结

本发明公开了一种对当代流行音乐和弦进行分类的方法及装置，方法包括：根据给定的和弦时间戳，对二维时频域表示结果进行CQT和补零或截断操作，使得时频表示的时间维度统一为单位和弦处理长度；将统一后的时频表示逐个馈入到卷积网络进行和弦特征提取，依次输出25维的特征向量；对每个和弦特征向量，将其前、后3个和弦特征向量串接起来，以构造出尺寸为25