&

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了卷積神經(jīng)網(wǎng)絡(luò)下電子音樂辨識(shí)模型探析范文，希望能給你帶來靈感和參考，敬請(qǐng)閱讀。

卷積神經(jīng)網(wǎng)絡(luò)下電子音樂辨識(shí)模型探析

摘要：現(xiàn)有音頻辨識(shí)變模型無法分辨電子音樂類型，辨識(shí)精度較低，為此，設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂辨識(shí)模型。通過重建電子音樂信號(hào)頻譜內(nèi)諧波信息，對(duì)電子音樂信號(hào)進(jìn)行預(yù)處理，去除電子音樂信號(hào)頻譜內(nèi)的噪聲，并將去除噪聲后的電子音樂文件制作成波形圖。將電子音樂頻譜波形圖作為輸入，利用多層特征融合的混合和采樣方式提取輸入圖像內(nèi)的特性，利用反向傳播算法訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò)，通過SoftMax分類器試點(diǎn)電子音樂分類辨識(shí)。實(shí)驗(yàn)結(jié)果顯示，所設(shè)計(jì)模型能夠有效去除電子音樂內(nèi)的噪聲含量，在迭代次數(shù)達(dá)到100次時(shí)即可將模型擬合誤差降至下限值，且辨識(shí)率均值達(dá)到98．5％左右。

關(guān)鍵詞：卷積神經(jīng)網(wǎng)絡(luò)；電子音樂；辨識(shí)模型；諧波信息；混合采樣

0引言

網(wǎng)絡(luò)技術(shù)的快速發(fā)展令互聯(lián)網(wǎng)中產(chǎn)生大量視頻與音頻等多媒體數(shù)據(jù)［1］，電子音樂為網(wǎng)絡(luò)上最為普遍的多媒體音頻。電子音樂辨識(shí)作為音樂信號(hào)處理的核心問題之一，在歌曲識(shí)別、音頻匹配與推薦等方面均具有關(guān)鍵作用。針對(duì)網(wǎng)絡(luò)數(shù)據(jù)的海量性特性，研究一種可在海量音頻中準(zhǔn)確快速地獲取感興趣的電子音樂是當(dāng)前音頻識(shí)別領(lǐng)域中的熱點(diǎn)研究問題。文獻(xiàn)［2］提出一種雙向卷積神經(jīng)網(wǎng)絡(luò)的音樂識(shí)別模型。該模型構(gòu)建雙向卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)，提取音樂細(xì)節(jié)特征，將細(xì)節(jié)特征合并成一維特征向量。但該模型無法去除電子音樂內(nèi)的噪聲含量。文獻(xiàn)［3］提出一種直接利用視音頻特征進(jìn)行識(shí)別的算法，該算法融合BoW、GIST、顏色矩特征、顏色直方圖和音頻特征進(jìn)行識(shí)別，但該方法無法分辨電子音樂類型，辨識(shí)精度較低。針對(duì)當(dāng)前普遍使用的音頻辨識(shí)變模型無法分辨電子音樂類型，辨識(shí)精度較低等難題，設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂辨識(shí)模型，并通過實(shí)驗(yàn)驗(yàn)證該模型的實(shí)際應(yīng)用性能。

1基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂辨識(shí)模型

1．1電子音樂信號(hào)預(yù)處理

由于電子音樂在演奏過程中容易產(chǎn)生音符掩蔽與音符缺失的問題［4］，這些問題將對(duì)最終的音樂識(shí)別與錄制產(chǎn)生顯著影響。因此在構(gòu)建電子音樂辨識(shí)模型前需通過重建電子音樂信號(hào)頻譜內(nèi)諧波信息的方式對(duì)電子音樂信號(hào)進(jìn)行預(yù)處理，去除電子音樂信號(hào)頻譜內(nèi)的噪聲。設(shè)定采樣率為10080Hz，以此對(duì)電子音樂片段實(shí)施采樣處理，獲取一個(gè)音頻信號(hào)x（n），設(shè)該音頻信號(hào)長(zhǎng)度為I。利用窗函數(shù)W（n）對(duì)音頻信號(hào)x（n）實(shí)施預(yù)處理［5］，設(shè)定窗函數(shù)中窗寬度為窗長(zhǎng)度的2倍，由此獲取加窗后待處理的電子音樂信號(hào)矩陣MN×K，其中K＝2IN。用N×N的方陣表示傅里葉變換矩陣Ω，將電子音樂信號(hào)矩陣MN×K與傅里葉變換矩陣Ω相乘，由此獲取電子音樂分幀信號(hào)的頻譜矩陣S＝Ω×M。依照信號(hào)理論能夠得到［6］，電子音樂信號(hào)的諧波成分在諧波矩陣A上僅分布在分散的數(shù)個(gè)頻率成分上，同時(shí)在時(shí)間尺度上電子音樂存在顯著的重復(fù)性，由此得到矩陣A存在內(nèi)在的低秩特征，也就是電子音樂和弦波信息分布在低維子空間內(nèi)［7］。電子音樂非諧波成分E矩陣內(nèi)聚集各種不同類型噪聲，由于不同類型造成變化的頻繁性存在一定稀疏特性［8］，基于此可利用秩函數(shù)構(gòu)建諧波成分模型，利用零范數(shù)構(gòu)建稀疏噪聲模型。由此可將灰度低秩矩陣定義為一個(gè)雙目標(biāo)優(yōu)化問題，描述為式（1）。minA，E（rank（A），E0）s．t．S＝A＋E（1）式中，rank（A）和零范數(shù)·0分別表示矩陣A的秩函數(shù)和矩陣內(nèi)非零元素的數(shù)量；同時(shí)·0也可表示矩陣的稀疏程度。在式（1）內(nèi)引入大于零的折中因子λ，由此以單目標(biāo)優(yōu)化問題替代式（1）所示的雙目標(biāo)優(yōu)化問題，如式（2）。minA，Erank（A）＋λE0s．t．S＝A＋E（2）式中，多描述的優(yōu)化問題實(shí)質(zhì)上是1種多項(xiàng)式復(fù)雜程度的非確定性問題，基于此，需確定合適的可取代秩函數(shù)與零范數(shù)的函數(shù)。以確保優(yōu)化問題整體具有全局最優(yōu)解為目的［9］，要求確定取代函數(shù)為原函數(shù)凸包絡(luò)。而矩陣的核范數(shù)表示矩陣內(nèi)全部奇異值相加的結(jié)果，可理解為是矩陣秩函數(shù)的凸包絡(luò)，矩陣內(nèi)非零元素相加的結(jié)果可利用矩陣的1范數(shù)表示，一般情況下可經(jīng)其作為矩陣的稀疏算子，即0范數(shù)的凸包。基于此可將式（2）所示的單目標(biāo)優(yōu)化問題轉(zhuǎn)化為式（3）所示的凸優(yōu)化問題。minA，EA＋λE1s．t．S＝A＋E（3）式（3）所示的凸優(yōu)化問題可通過增廣拉格朗日乘子法解決，由此能夠獲取最優(yōu)解電子音樂諧波信息矩陣A，其為電子音樂原始信號(hào)頻譜重建后的諧波頻譜。重建后的諧波頻譜內(nèi)可分離稀疏噪聲，并重建了頻譜的低秩信息，由此可知，頻譜矩陣A內(nèi)具有一定魯棒性。將去除噪聲后的電子音樂文件制作成波形圖，利用卷積神經(jīng)網(wǎng)絡(luò)實(shí)現(xiàn)電子音樂辨識(shí)。

1．2基于卷積神經(jīng)網(wǎng)絡(luò)的辨識(shí)模型構(gòu)建

1．2．1典型卷積神經(jīng)網(wǎng)絡(luò)。輸入層、卷積層、下采樣層、全連接層標(biāo)和輸出層共同組成標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)［10］。卷積層與下采樣層結(jié)合是卷積神經(jīng)網(wǎng)絡(luò)提取目標(biāo)特征的主要結(jié)構(gòu)［11］，將去除噪聲后的電子音樂頻譜波形圖作為輸入層輸入信息，可用T表示。以Xi表示卷積神經(jīng)網(wǎng)絡(luò)第i層的特征（X0＝T）。在Xi為卷積層的條件下，描述為式（4）。Xi＝f（Xi－1＊Ki＋bi）（4）式中，Ki和bi分別表示可訓(xùn)練的卷積核和偏置量；＊和f（x）分別表示卷積運(yùn)算和激活函數(shù)。使用較為普遍的激活函數(shù)有sigmoid函數(shù)、tanb函數(shù)以及ReLu函數(shù)等［12］。綜合考慮不同激活函數(shù)性能，選取Re－Lu函數(shù)作為卷積層激活函數(shù)，描述為式（5）。f（x）＝max（0，x）（5）ReLu函數(shù)的主要優(yōu)勢(shì)主要體現(xiàn)在其可令卷積神經(jīng)網(wǎng)絡(luò)部分神經(jīng)元輸出為0，由此令卷積神經(jīng)網(wǎng)絡(luò)產(chǎn)生稀疏選性，降低計(jì)算過程的復(fù)雜性；同時(shí)ReLu函數(shù)可顯著提升卷積神經(jīng)網(wǎng)絡(luò)的分類能力，降低參數(shù)間的依賴性，在一定程度上改善卷積神經(jīng)網(wǎng)絡(luò)過擬合問題；ReLu函數(shù)的導(dǎo)數(shù)僅為1或0，可改善卷積神經(jīng)網(wǎng)絡(luò)誤差反向傳播過程中的梯度消失問題。下采樣層對(duì)卷積層獲取的各特征圖內(nèi)n×n區(qū)域的像素實(shí)施采樣處理，降低特征圖尺寸。普遍使用的采樣處理過程可分為上限值采樣與均值采樣［13］。在Xi表示下采樣層的條件下，上限值采樣與均值采樣表示為式（6）、式（7）。Xi＝f（WiPmax（Xi－1）＋bi）（6）Xi＝f（WiPmean（Xi－1）＋bi）（7）式中，Pmax（x）和Pmean（x）分別表示上限值采樣操作和均值采樣操作；Wi和bi分別表示取值與偏置值。下采樣層的主要功能是以保留原始特征信息為基礎(chǔ)，進(jìn)行特征圖降維處理，防止出現(xiàn)維數(shù)災(zāi)難，提升變形魯棒性；同時(shí)利用下采樣層還可壓縮特征圖，令計(jì)算過程難度下降。通常情況下，全連接層處于卷積層、下采樣層同輸出層之間，可將其定義為一個(gè)同淺層神經(jīng)網(wǎng)絡(luò)功能相似的多層感知機(jī)，其主要功能是將分布式特征表示映射至樣本標(biāo)記空間內(nèi)，并在卷積神經(jīng)網(wǎng)絡(luò)模型表示能力遷移過程中發(fā)揮防火墻功能［14］。輸出層為一個(gè)解決多分類問題的分類器，采用由Logis－tic回歸模型在多分類問題方面演化處的SoftMax分類器。考慮Logistic函數(shù)僅可實(shí)現(xiàn)二分類功能，因此SoftMax分類器在繼承Logistic函數(shù)回歸的基礎(chǔ)上，通過多項(xiàng)Logistic回歸完成多分類任務(wù)。用y表示Logistic回歸內(nèi)的多分類標(biāo)簽，其取值范圍為不小于2，訓(xùn)練樣本集合為k個(gè)被標(biāo)簽的樣本，描述為式（8）。T＝｛（x1，y1），（x2，y2），…，（xk，yk）｝（8）式中，yi∈｛1，2，…，k｝和xi分別表示分類標(biāo)簽與樣本集合。j表示不同電子音樂類型，判斷j的概率值，表示單個(gè)電子音樂頻譜波形圖歸為第k類標(biāo)簽概率的表達(dá)式為式（9）。P（y＝j(luò)｜x）（j＝1，2，…，k）（9）式中，能夠表示回歸樣本集合轉(zhuǎn)換為k維度的概率向量，概率向量的函數(shù)為式（10）。Max分類器的學(xué)習(xí)參數(shù)和歸一化處理概率并令概率總和為1的的數(shù)值。經(jīng)由樣本集訓(xùn)練與學(xué)習(xí)，SoftMax分類器利用迭代優(yōu)化過程擬合數(shù)據(jù)曲線，并優(yōu)化參數(shù)θ以降低損失函數(shù)值，其損失函數(shù)描述如式（11）。式中，1｛yi＝j(luò)｝表示若yi＝j(luò)，則兩者均為1，相反兩者均為0。損失函數(shù)迭代次數(shù)的提升可優(yōu)化SoftMax分類器參數(shù)［15－16］，提升參數(shù)準(zhǔn)確定，實(shí)現(xiàn)不同電子音樂頻譜波形圖樣本的準(zhǔn)確辨識(shí)。1．2．2卷積神經(jīng)網(wǎng)絡(luò)優(yōu)化標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像進(jìn)行一層層的映射，直至最后只將輸出層作為特征提取結(jié)果［17－18］，這一過程中在中間層丟失大量關(guān)鍵圖像特征，降低辨識(shí)精度。針對(duì)這一問題，結(jié)合層間特征融合思想，在輸出層輸出特征提取結(jié)果過程中輸出輸入圖像在卷積神經(jīng)網(wǎng)絡(luò)內(nèi)每一層的映射結(jié)果，選取主成分分析法對(duì)提取的全體輸出特征實(shí)施降維處理，將其融合為多層深度特征。同時(shí)，在下采樣過程中將上限值采樣與均值采樣相結(jié)合，即利用混合采樣的方式充實(shí)采樣層的多樣性。利用混合采樣模式能夠同時(shí)得到上限值采樣與均值采樣獲取的特征值［19－20］，得到更為豐富的圖像，提升卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)的穩(wěn)定性，混合采樣模式的表達(dá)式為式（12）、式（13）。Ti＝12（Pmean（Xi－1）＋Pmax（Xi－1））（12）Xi＝f（WiTi＋bi）（13）基于特征提取方式的優(yōu)化能夠改善標(biāo)準(zhǔn)卷積神經(jīng)網(wǎng)絡(luò)中單一輸出層與采樣層特征提取不全面的問題，可充分提取電子音樂頻譜波形圖的特征并實(shí)現(xiàn)特征融合，提升卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)性能。利用反向傳播算法進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練，卷積神經(jīng)網(wǎng)絡(luò)經(jīng)由正向計(jì)算與反向傳播過程，持續(xù)優(yōu)化權(quán)值與閾值，令自身均方誤差函數(shù)持續(xù)下降，以滿足卷積神經(jīng)網(wǎng)絡(luò)訓(xùn)練需求。

2實(shí)驗(yàn)結(jié)果與分析

實(shí)驗(yàn)為測(cè)試本文設(shè)計(jì)的基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂辨識(shí)模型對(duì)于電子音樂辨識(shí)的性能，選取國(guó)際音頻檢測(cè)賽事中所有數(shù)據(jù)的音頻數(shù)據(jù)集為實(shí)驗(yàn)對(duì)象，其中包含220首電子音樂（采樣率與比特率分別為10080Hz和16bits）。將實(shí)驗(yàn)對(duì)象內(nèi)全部電子音樂手動(dòng)標(biāo)記的標(biāo)簽文件作為實(shí)際標(biāo)簽文件，將這些標(biāo)簽文件作為測(cè)試數(shù)據(jù)的生成依據(jù)以及本文模型電子音樂辨識(shí)結(jié)果的對(duì)比依據(jù)。

2．1電子音樂預(yù)處理效果測(cè)試

利用本文模型對(duì)實(shí)驗(yàn)對(duì)象內(nèi)的電子音樂進(jìn)行預(yù)處理，研究對(duì)象中編號(hào)為22號(hào)的電子音樂預(yù)處理結(jié)果如圖1所示。分析圖1得到，采用本文模型對(duì)研究對(duì)象進(jìn)行預(yù)處理后，研究對(duì)象頻譜波動(dòng)更為平滑，這是由于本文模型中重建研究對(duì)象信號(hào)頻譜內(nèi)諧波信息，去除研究對(duì)象信號(hào)頻譜內(nèi)的噪聲，對(duì)去噪后的研究對(duì)象進(jìn)行辨識(shí)，可提升本文模型辨識(shí)結(jié)果。

2．2模型訓(xùn)練過程測(cè)試

將研究對(duì)象內(nèi)全部220首電子音樂分為兩部分，分別定義為訓(xùn)練樣本集和測(cè)試樣本集，各樣本集內(nèi)電子音樂數(shù)量分別為160首和60首。在本文模型中輸入訓(xùn)練樣本集進(jìn)行訓(xùn)練，本文模型訓(xùn)練過程如圖2所示。分析圖2得到采用本文模型辨識(shí)研究對(duì)像過程中，卷積神經(jīng)網(wǎng)絡(luò)初次迭代時(shí)，本文模型擬合誤差為0．067。隨著本文模型迭代次數(shù)逐漸上升，本文模型的擬合誤差呈逐漸下降狀態(tài)。本文模型迭代次數(shù)提升至30次時(shí)，本文模型的擬合誤差下降至0．01。在本文模型迭代次數(shù)上升至100次時(shí)，本文模型的擬合誤差下降至0．008。隨著本文模型迭代次數(shù)持續(xù)上升，本文模型的擬合誤差保持在0．008，由此說明本文模型具有較快的訓(xùn)練效率，即本文模型具有較快的辨識(shí)效率。同時(shí)由圖2可知，隨著本文模型迭代次數(shù)逐漸上升，本文模型的擬合誤差呈逐漸下降狀態(tài)，擬合誤差越小，表明擬合精度越高。這是因?yàn)槔肧oftMax分類器優(yōu)化迭代過程，使得損失函數(shù)迭代次數(shù)的提升可優(yōu)化SoftMax分類器參數(shù)，進(jìn)一步提升參數(shù)準(zhǔn)確率。且ReLu函數(shù)可顯著提升卷積神經(jīng)網(wǎng)絡(luò)的分類能力，降低參數(shù)間的依賴性，在一定程度上改善卷積神經(jīng)網(wǎng)絡(luò)過擬合問題，迭代次數(shù)的提升可進(jìn)一步提升擬合精度。

2．3不同方法下識(shí)別結(jié)果

為驗(yàn)證本文模型的有效性，將文獻(xiàn)［2］模型和文獻(xiàn)［3］模型作為對(duì)比對(duì)象，不同方法辨識(shí)結(jié)果如圖3所示。分析圖3得到，相比文獻(xiàn)［2］模型和文獻(xiàn)［3］模型，本文模型對(duì)測(cè)試樣本集內(nèi)各測(cè)試樣本進(jìn)行辨識(shí)，所得辨識(shí)率均高于98．5％，由此說明本文模型能夠準(zhǔn)確辨識(shí)測(cè)試樣本，具有較高的辨識(shí)率。

2．4模型采樣方式對(duì)辨識(shí)率的影響

為研究模型下采樣層不同采樣方式對(duì)模型辨識(shí)率的影響，在本文模型其他條件完全一致的條件下，對(duì)比下采樣層采用上限值采樣、均值采樣和混合采樣時(shí)本文模型的辨識(shí)率如圖4所示。分析圖4，本文模型采用上限值采樣方法、均值采樣方式和混合采樣方式進(jìn)行研究對(duì)象辨識(shí)的運(yùn)行時(shí)間差距較小，低于2s。說明不同采樣方式對(duì)本文模型的辨識(shí)效率的影響并不顯著。但本文模型采用混合采樣方式進(jìn)行辨識(shí)的辨識(shí)率均值達(dá)到98．5％，顯著高于采用上限值采樣與均值采樣時(shí)的辨識(shí)率。由此說明混合采樣方式可提升本文模型辨識(shí)率。

3總結(jié)

本文設(shè)計(jì)基于卷積神經(jīng)網(wǎng)絡(luò)的電子音樂辨識(shí)模型，在電子音樂信息預(yù)處理后，利用優(yōu)化后的卷積神經(jīng)網(wǎng)絡(luò)辨識(shí)電子音樂。實(shí)驗(yàn)結(jié)果顯示本文模型能夠準(zhǔn)確辨識(shí)電子音樂，且具有較快的效率。在后續(xù)優(yōu)化過程中主要針對(duì)如何利用多尺度池化的理念進(jìn)一步優(yōu)化卷積神經(jīng)網(wǎng)絡(luò)，令本文模型在保障辨識(shí)精度與效率的基礎(chǔ)上，能夠接受任意尺寸的輸入圖像。

作者:胡淑娟單位:仙桃職業(yè)學(xué)院教育學(xué)院

卷積神經(jīng)網(wǎng)絡(luò)下電子音樂辨識(shí)模型探析

相關(guān)文章閱讀

精選范文推薦