前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)化主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:模式識別卷積神經(jīng)網(wǎng)絡(luò) google earth 應(yīng)用
中圖分類號:TP39 文獻(xiàn)標(biāo)識碼:A 文章編號:1007—3973(2012)009—087—02
隨著科技的進(jìn)步,許多發(fā)明、電子產(chǎn)品使人們的生活更加方便。生活經(jīng)常見到的有:筆記本電腦的指紋鎖、數(shù)碼相機(jī)的人像識別功能、電腦手寫板、語音錄入設(shè)備、門禁中的虹膜識別技術(shù)等等,這些設(shè)備與技術(shù)中都包含了模式識別技術(shù)。這些看似抽象的技術(shù)與算法正與其他技術(shù)一起悄然的改變?nèi)藗兊纳睢?/p>
1 什么是模式識別
人們的許多感官功能看似簡單,但用人工的辦法實(shí)現(xiàn)卻比較困難。人與人見面相互打招呼。在看見對方的面部后,人能夠很快的認(rèn)定這張臉是個(gè)人臉,而且我認(rèn)識他,應(yīng)該和他打招呼。這個(gè)看似簡單的過程其實(shí)并不簡單,我們不僅僅要識別五官,還要掃描輪廓,而且還要判斷是否認(rèn)識等等??梢?,很多看似簡單的認(rèn)知過程,如果試圖用某一方法描述確實(shí)不宜。對人臉進(jìn)行模式識別就可以解決這個(gè)看似簡單的問題。
模式識別(Pattern Recognition)是指通過用計(jì)算機(jī)對事物或現(xiàn)象的各種形式的(光信息,聲信息,生物信息)信息進(jìn)行處理和和判讀,以對事物或現(xiàn)象進(jìn)行描述、辨認(rèn)、分類和解釋的過程,是人工智能的和信息捕獲的重要組成部分?,F(xiàn)在被廣泛應(yīng)用于計(jì)算機(jī)視覺,自然語言處理,生物特征識別,互聯(lián)網(wǎng)搜索等領(lǐng)域。
2 模式識別與google earth衛(wèi)星照片
在衛(wèi)星圖片中識別特定的目標(biāo),如道路,湖泊,森林等等,往往要運(yùn)用模式識別技術(shù),現(xiàn)在較為主流的是神經(jīng)網(wǎng)絡(luò)識別。上一代的技術(shù)室根據(jù)RGB提取的,在提取森林或湖泊的時(shí)候,有很多干擾顏色,對衛(wèi)星照片精度有很高要求。根據(jù)RGB提取效果不是十分理想,而且計(jì)算量大,對硬件有一定要求。
隨著神經(jīng)網(wǎng)絡(luò)識別技術(shù)的發(fā)展,現(xiàn)在計(jì)算機(jī)可自動(dòng)識別目標(biāo)。不必使用特殊的衛(wèi)星波段影像,小型機(jī)計(jì)算,只要從GOOGLE EARTH獲取的普通衛(wèi)星影像就可以自動(dòng)識別了。
Google Earth是Google公司開發(fā)推出的一款虛擬地球儀軟件,它把衛(wèi)星照片、航空照相布置在一個(gè)地球的三維模型上,是一款全球地圖集成軟件。Google Earth與模式識別技術(shù)的綜合運(yùn)用,使其衛(wèi)星圖片在道路規(guī)劃,通信線路管理,土地勘察,遙感探測等等行業(yè)有著很大的運(yùn)用。
在實(shí)際情況下對衛(wèi)星圖片進(jìn)行模式識別,實(shí)現(xiàn)起來有許多困難,光線條件、大地背景、大氣云層情況影響以及由于拍攝角度或空氣密度等原因?qū)е抡掌谋徽瘴矬w的幾何變形等都會對識別效果有直接影響。這些都對識別算法要求很高。本文選用的神經(jīng)網(wǎng)絡(luò)識別方法,具有識別率高、對不規(guī)則物體識別效果好等優(yōu)點(diǎn),被廣泛運(yùn)用在許多領(lǐng)域。本文使用改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)對google earth 衛(wèi)星圖片進(jìn)行處理,幾乎不用對照片進(jìn)行預(yù)處理。這大大節(jié)省了運(yùn)算時(shí)間,而且避免了二次處理后對原始文件的污染,大量原始信號被最大程度地保留。
3 模式識別與卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Networks)是近年發(fā)展起來并引起廣泛重視的一種高效識別方法。神經(jīng)網(wǎng)絡(luò)是受動(dòng)物神經(jīng)系統(tǒng)啟發(fā),利用大量簡單處理單元互聯(lián)而構(gòu)成的復(fù)雜系統(tǒng),以解決復(fù)雜模式識別與行為控制問題。目前,CNN已經(jīng)成為國內(nèi)外科學(xué)家研究的重點(diǎn)方向,特別是在模式識別領(lǐng)域。它的優(yōu)點(diǎn)是不需要對圖像進(jìn)行復(fù)雜的預(yù)處理,成為大家廣為使用的方法。CNN的基本結(jié)構(gòu)一般包括兩層:(1)特征提取層。每個(gè)神經(jīng)元的輸入與前一層的局部接受域相連,并提取該局部的特征。一旦該局部特征被提取后,與其他特征間的位置關(guān)系也隨之確定下來。(2)特征映射層。網(wǎng)絡(luò)的每個(gè)計(jì)算層由多個(gè)特征映射組成,每個(gè)特征映射是一個(gè)平面,平面上所有神經(jīng)元的權(quán)值相等。特征映射結(jié)構(gòu)采用影響函數(shù)核小的sigmoid函數(shù)作為卷積網(wǎng)絡(luò)的激活函數(shù),使得特征映射具有位移不變性。
4 卷積神經(jīng)網(wǎng)絡(luò)在衛(wèi)星圖片識別中的應(yīng)用
為提高google earth衛(wèi)星照片中目標(biāo)的識別率,創(chuàng)造性使用卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行模式識別,其主要部分基本設(shè)計(jì)結(jié)構(gòu)如圖1所示。
圖1中,整個(gè)結(jié)構(gòu)模仿動(dòng)物的神經(jīng)結(jié)構(gòu),大量的單一識別單元被關(guān)聯(lián)成一個(gè)網(wǎng)路。 C層則是由復(fù)雜(complex)神經(jīng)元組成的神經(jīng)層,它的輸入連接是固定的,不可修改,顯示接收信心被激勵(lì)位置的近似變化。網(wǎng)絡(luò)中C層的最后一層為識別層,顯示模式識別的結(jié)果。S層為簡單(simple)神經(jīng)元組成的神經(jīng)層,完成主要信息提取,其輸入連接是不是固定的,可在訓(xùn)練的過程中不斷修改。這個(gè)系統(tǒng)進(jìn)過不斷的訓(xùn)練,輸入照片的格式和大小會自動(dòng)地被識別,大大節(jié)省了前期的工作時(shí)間,提高了識別速度。
在訓(xùn)練集中同時(shí)需要常規(guī)積極樣本和消極樣本,樣本包括衛(wèi)星圖片中房屋和道路的1000個(gè)圖像目標(biāo)積極訓(xùn)練集。大多數(shù)基于學(xué)習(xí)方法的目標(biāo)物體識別使用一個(gè)大約為10?0的最小輸入窗口,好處是可以做到不遺漏任何重要信息。為了達(dá)到穩(wěn)定的效果,對所有原有的訓(xùn)練樣進(jìn)行色彩轉(zhuǎn)換和對比還原轉(zhuǎn)換,得到的積極樣本訓(xùn)練集有2400個(gè)目標(biāo)樣本。
5 實(shí)驗(yàn)結(jié)果
分兩個(gè)步驟進(jìn)行試驗(yàn),第一步對衛(wèi)星圖片進(jìn)行定位和裁剪等預(yù)處理,第二步選取合格衛(wèi)星圖片200個(gè)樣本圖片訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),訓(xùn)練后得到各層3個(gè)主要數(shù)據(jù):閾值、權(quán)值及神經(jīng)元細(xì)胞平面數(shù),然后使用優(yōu)化后的神經(jīng)網(wǎng)絡(luò)識別機(jī)對200個(gè)測試樣本進(jìn)行檢查,其正確的識別率達(dá)到97%。實(shí)驗(yàn)要注意訓(xùn)練的時(shí)間,系統(tǒng)過度訓(xùn)練后,識別率會不斷提高,但訓(xùn)練時(shí)間的不斷增加,測試失敗率到最小值后出現(xiàn)及其微細(xì)震蕩,造成識別率的小幅波動(dòng)。(見圖2)
實(shí)驗(yàn)表明,卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于衛(wèi)星圖片目標(biāo)識別是完全可行的,訓(xùn)練樣本越豐富則則識別率越高。與傳統(tǒng)模式識別方法相比有更高的識別率和抗干擾性。本文采用一種改進(jìn)的基于卷積神經(jīng)網(wǎng)絡(luò)的識別機(jī)制對衛(wèi)星照片中的目標(biāo)物體進(jìn)行識別。該識別方法通過對目標(biāo)物體圖片的學(xué)習(xí),優(yōu)化了系統(tǒng)中的關(guān)鍵參數(shù)的權(quán)值。大大提高了目標(biāo)物體的識別率。
參考文獻(xiàn):
[1] 高雋.智能信息處理方法導(dǎo)論[M].北京:機(jī)械工業(yè)出版社,2004.
[2] 高雋.人工神經(jīng)網(wǎng)絡(luò)原理及仿真實(shí)例[M].北京:機(jī)械工業(yè)出版社,2003.
[3] 邊肇祺.模式識別[M].北京:清華大學(xué)出版社,1987.
關(guān)鍵詞: 列車車號; 車號識別; 卷積神經(jīng)網(wǎng)絡(luò); LeNet?5
中圖分類號: TN911.73?34; TP391 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2016)13?0063?04
Abstract: For the character recognition of freight train license, the improved recognition method based on convolutional neural network LeNet?5 is proposed. Considering the structural features of the hierarchical convolutional neural network and local field, the parameters of quantity and size of each layer feature pattern in the network were improved correspondingly to form the new network model suitable for the freight train license recognition. The experimental results show that the proposed method has strong robustness to solve the license breakage and stain, and high recognition rate, which provides a guarantee for the accuracy of the entire license recognition system.
Keywords: train license; license recognition; convolutional neural network; LeNet?5
0 引 言
目前貨運(yùn)列車車號識別系統(tǒng)[1?2]主要是基于RFID技術(shù)實(shí)現(xiàn)的,但是,由于該系統(tǒng)的準(zhǔn)確性依賴于列車底部安裝的RFID標(biāo)簽,而RFID標(biāo)簽容易損壞、丟失,因此,此類系統(tǒng)無法保證車號識別的準(zhǔn)確性。為此,研究者開發(fā)了基于圖像的貨運(yùn)列車車號識別系統(tǒng),系統(tǒng)根據(jù)視頻采集到的圖像,利用模糊集合論[1?2]、人工神經(jīng)網(wǎng)絡(luò)[3]、支持向量機(jī)[4]以及隱馬爾可夫模型[4]等技術(shù)進(jìn)行車號字符的識別。但是,由于貨運(yùn)列車車號存在因噴涂方式而導(dǎo)致的單個(gè)字符斷裂,或者列車長期的野外運(yùn)行導(dǎo)致的車廂污損,車號字符的殘缺等現(xiàn)象,這使得目前的基于圖像的貨運(yùn)列車車號識別系統(tǒng)的魯棒性與識別率還有待進(jìn)一步提高。
LeNet?5[5?7]是由YannLecun等人提出的一種專門用于二維圖像識別的卷積神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)避免了人工提取特征依賴于主觀意識的缺點(diǎn),只需要將歸一化大小的原始圖像輸入網(wǎng)絡(luò),該網(wǎng)絡(luò)就可以直接從圖像中識別視覺模式。LeNet?5把特征提取和識別結(jié)合起來,通過綜合評價(jià)和學(xué)習(xí),并在不斷的反向傳播過程中選擇和優(yōu)化這些特征,將特征提取變?yōu)橐粋€(gè)自學(xué)習(xí)的過程,通過這種方法找到分類性能最優(yōu)的特征。LeNet?5已經(jīng)成功應(yīng)用于銀行對支票手寫數(shù)字的識別中。
為此,本文將卷積神經(jīng)網(wǎng)絡(luò)LeNet?5應(yīng)用于列車車號字符的識別中,為了使之適用于列車車號字符的識別需求,去除掉了LeNet?5中的一些針對手寫字符識別而特別設(shè)計(jì)的連接方式及參數(shù),并在此基礎(chǔ)上,改變網(wǎng)絡(luò)中各層特征圖的數(shù)量以形成新的網(wǎng)絡(luò)模型。
1 LeNet?5的改進(jìn)
卷積神經(jīng)網(wǎng)絡(luò)可以從很多方面著手改進(jìn)。諸如多層前饋網(wǎng)絡(luò),可以考慮在誤差函數(shù)中增加懲罰項(xiàng)使得訓(xùn)練后得到趨向于稀疏化的權(quán)值,或者增加一些競爭機(jī)制使得在某個(gè)特定時(shí)刻網(wǎng)絡(luò)中只有部分節(jié)點(diǎn)處在激活狀態(tài)等。本文主要從卷積神經(jīng)網(wǎng)絡(luò)的層次化以及局部鄰域等結(jié)構(gòu)上的特點(diǎn)入手,考慮卷積神經(jīng)網(wǎng)絡(luò)中各層特征圖數(shù)量及大小對網(wǎng)絡(luò)訓(xùn)練過程及識別結(jié)果的影響。
以LeNet?5結(jié)構(gòu)為基礎(chǔ),去除掉LeNet?5中的一些針對手寫字符識別而特別設(shè)計(jì)的連接方式及參數(shù),得到改進(jìn)后的神經(jīng)網(wǎng)絡(luò)。在此基礎(chǔ)上,改變網(wǎng)絡(luò)中各層特征圖的數(shù)量以形成新的網(wǎng)絡(luò)模型。定義一種新的網(wǎng)絡(luò)模型,將其命名為LeNet?5.1,該網(wǎng)絡(luò)結(jié)構(gòu)與LeNet?5基本相同,主要做出以下改變:
(1) 將原先LeNet?5所采用的激活函數(shù)由雙曲正切函數(shù)修改為Sigmoid函數(shù),此時(shí),網(wǎng)絡(luò)中所有層的輸出值均在[0,1]區(qū)間內(nèi),輸出層的最終結(jié)果也將保持在[0,1]區(qū)間內(nèi)。
(2) 省略掉F6層,將輸出層與C5層直接相連,連接方式為全連接,而不是原LeNet?5中所采用的徑向基函數(shù)(RBF)網(wǎng)絡(luò)結(jié)構(gòu)。
(3) 簡化原LeNet?5中的學(xué)習(xí)速率。原LeNet?5網(wǎng)絡(luò)中采用的學(xué)習(xí)速率為一個(gè)特殊的序列,而在本網(wǎng)絡(luò)中將學(xué)習(xí)速率固定為0.002。
(4) 輸入數(shù)據(jù)原始尺寸為28×28,采取邊框擴(kuò)充背景像素的方法將圖像擴(kuò)充至32×32。
之所以做以上相關(guān)改動(dòng),是因?yàn)樵嫉腖eNet?5就是專門為手寫字符識別任務(wù)而特殊設(shè)計(jì)的,這就造成了LeNet?5網(wǎng)絡(luò)中相關(guān)的預(yù)處理及參數(shù)的選擇過程或多或少均帶有一些針對特定問題的先驗(yàn)知識。例如激活函數(shù)中參數(shù)的選擇,學(xué)習(xí)速率定的速率序列以及數(shù)據(jù)預(yù)處理殊的填充方式等,這些特定的設(shè)計(jì)使得LeNet?5在其他任務(wù)的識別過程中并不一定適用,或者需要進(jìn)行長期的觀察實(shí)驗(yàn)以選得一組針對特定任務(wù)的較好的值,造成了LeNet?5不能快速的應(yīng)用于除手寫字符外其他的識別任務(wù)中。
2 改進(jìn)后的網(wǎng)絡(luò)對列車車號字符的識別
車號經(jīng)過分割之后為一個(gè)個(gè)的單字符圖像,采用邊框擴(kuò)充背景像素的方法將其歸一化為32×32,如圖1所示。
由圖1中可以看出,待識別的字符圖像質(zhì)量不高,有的數(shù)字字符出現(xiàn)殘缺、斷裂或者嚴(yán)重變形。這都給識別任務(wù)提出了一定的挑戰(zhàn)。
本文采集到的車號圖像來自于不同型號的貨運(yùn)列車。從中選取400幅圖像作為訓(xùn)練集,另外選取400幅圖像作為測試集。用上一節(jié)提出的LeNet?5.1網(wǎng)絡(luò)進(jìn)行訓(xùn)練,誤分類率曲線如圖2所示??梢钥闯?,在LeNet?5.1訓(xùn)練過程中,訓(xùn)練MCR(Misclassification Rate)和測試MCR的變化過程相對穩(wěn)定,驗(yàn)證了改進(jìn)后網(wǎng)絡(luò)結(jié)構(gòu)的合理性。在經(jīng)過16次的迭代之后,測試MCR降至最低(5.75%),之后基本保持穩(wěn)定,即16次迭代之后,網(wǎng)絡(luò)達(dá)到了當(dāng)前的最佳訓(xùn)練效果,達(dá)到了收斂狀態(tài)。這時(shí),訓(xùn)練MCR為0.5%,測試MCR是5.75%。
訓(xùn)練過程中的誤分類率曲線
而針對相同的數(shù)據(jù),采用原始的LeNet?5進(jìn)行訓(xùn)練和測試后,誤分類率如圖3所示。從圖3中可以看出,LeNet?5經(jīng)過了18次的迭代后,測試MCR才達(dá)到相對穩(wěn)定的狀態(tài),降至6%,最終的訓(xùn)練MCR為1%。相比之下,經(jīng)過簡化和改進(jìn)的LeNet?5.1,由于改進(jìn)了原始的LeNet?5中專門為手寫字符識別任務(wù)而特殊設(shè)計(jì)的一些預(yù)處理及函數(shù)選擇等固定模式,并且精簡了網(wǎng)絡(luò)結(jié)構(gòu),使得LeNet?5.1在列車車號的識別方面具有了更快的訓(xùn)練速度和收斂速度,另外,最終達(dá)到的準(zhǔn)確度也有所提升。
在證明了改進(jìn)后的LeNet?5.1網(wǎng)絡(luò)的合理性之后,增加訓(xùn)練圖像的規(guī)模,采用10 000幅車號數(shù)字字符圖像用來訓(xùn)練,5 000幅用來測試。為了與其他方法進(jìn)行比較,采用相同的訓(xùn)練數(shù)據(jù)對車號識別中常用的三層BP網(wǎng)絡(luò)進(jìn)行訓(xùn)練和測試,這里采用的BP網(wǎng)絡(luò)隱含層節(jié)點(diǎn)數(shù)量為450,學(xué)習(xí)速率采用0.01。實(shí)驗(yàn)結(jié)果比較如表1所示。從表1可以看出,改進(jìn)后的LeNet?5.1網(wǎng)絡(luò)的識別率比BP網(wǎng)絡(luò)的識別率高出4.62個(gè)百分點(diǎn),在識別速度方面,LeNet?5.1也明顯優(yōu)于傳統(tǒng)的BP神經(jīng)網(wǎng)絡(luò)。
3 針對車型號字母識別而改進(jìn)的神經(jīng)網(wǎng)絡(luò)及其結(jié)果
貨運(yùn)列車車號的組成是由車型號與車號共同組成的,因此還需要對車型號進(jìn)行識別,車型號中除了有阿拉伯?dāng)?shù)字字符之外,還有很多表示車種及車廂材質(zhì)等屬性的英文字母,這些英文字母同樣采用卷積神經(jīng)網(wǎng)絡(luò)來識別。由于車型號很多,初期針對若干常用型號的列車進(jìn)行識別,以測試網(wǎng)絡(luò)的性能,后期對全車型進(jìn)行識別。
3.1 常用列車車型的識別
在試運(yùn)行階段主要識別的車型局限于7種主要的車型:C64K,C64H,C70A,C70E,C80,C62AK和C62BK。由于車種都為敞篷車(第一個(gè)大寫字母C),主要對后面代表該車型載重量的兩位數(shù)字以及最后代表車廂材質(zhì)等屬性的字母進(jìn)行識別??紤]到車型號字符串的固定模式,如圖4所示,可以分別建立兩個(gè)不同的卷積神經(jīng)網(wǎng)絡(luò)分別用來識別數(shù)字和字母,由于之前已經(jīng)解決了數(shù)字的識別問題,接下來主要進(jìn)行字母的識別。要識別的代表車廂材質(zhì)的字母共有6個(gè):K,H,A,E,A和B,為了盡可能的避免因字母分割問題而導(dǎo)致的識別錯(cuò)誤,把AK和BK分別作為一個(gè)整體來識別,那么需要識別的字符組合變?yōu)椋篕,H,A,E,AK和BK。由于識別種類的減少,可以對網(wǎng)絡(luò)模型LeNet?5.1進(jìn)行相應(yīng)的簡化,命名該模型為LeNet?5.2。
LeNet?5.2是在LeNet?5.1的基礎(chǔ)上進(jìn)行改動(dòng)而得到的:
(1) 卷積層C1的特征圖由6個(gè)減少為4個(gè),相應(yīng)地,S2層的特征圖也由6個(gè)減少為4個(gè)。
(2) 卷積層C3的特征圖由16個(gè)減少為11個(gè),相應(yīng)地,S4層的特征圖也由16個(gè)減少為11個(gè)。
(3) 卷積層C5的特征圖個(gè)數(shù)由120個(gè)減少為80個(gè)。
(4) 輸出分類的數(shù)目由10個(gè)減少為6個(gè)。
另外,卷積層C3層與次抽樣層S2層的連接情況如表2所示。
表2的連接方式采用與表1相同的思想,每一列都說明了C3層中的一個(gè)特征圖是由S2中的那幾個(gè)特征圖結(jié)合而成。卷積層C3中第0個(gè)至第5個(gè)特征圖分別與次抽樣層S2中的兩個(gè)特征圖相連接,一共6種組合。C3中的這6個(gè)特征圖負(fù)責(zé)抽取上一層中某兩個(gè)特征圖所潛在的特征。C3層中第6個(gè)至第9個(gè)特征圖中每個(gè)特征圖分別對應(yīng)上一層中的3個(gè)特征圖的組合,而C3層中最后一個(gè)特征圖則與上一層中所有的特征圖相連接。這樣卷積層C3中的特征圖就包含了次抽樣層S2中多個(gè)特征圖的所有組合,這樣使得卷積層C3抽取到的特征比S2層更抽象、更高級,同時(shí),相對于輸入數(shù)據(jù),C3層相比S2層具有更好的對位移、扭曲等特征的不變性。
相比LeNet?5.1,LeNet?5.2將網(wǎng)絡(luò)層中的特征圖數(shù)量做了相應(yīng)的削減,減少了網(wǎng)絡(luò)中可訓(xùn)練參數(shù)的數(shù)量。
實(shí)驗(yàn)數(shù)據(jù)來自以上提到的7類常用車型。經(jīng)過前面過程的定位和分割之后,將分割之后代表車廂材質(zhì)等屬性的字母圖像收集起來。本實(shí)驗(yàn)中,共收集到6種代表不同車廂材質(zhì)屬性的字母共800幅,其中400幅用作訓(xùn)練數(shù)據(jù),另外400幅用作測試數(shù)據(jù)。
圖5為LeNet?5.2使用以上數(shù)據(jù)訓(xùn)練過程中得到的MCR曲線圖。由圖5中可以看出,在經(jīng)過13次迭代之后,測試MCR達(dá)到最低的3.25%,并且在隨后的迭代過程中基本保持穩(wěn)定,而對應(yīng)的訓(xùn)練MCR為0.75%。
3.2 全車型識別
經(jīng)過對鐵道行業(yè)標(biāo)準(zhǔn)《鐵路貨車車種車型車號編碼》(TB2435?93)里面包含的所有車型號進(jìn)行統(tǒng)計(jì),除了10個(gè)阿拉伯?dāng)?shù)字外,包括了除O,R,V,Z四個(gè)字母外所有的大寫英文字母,總共有32類字符。
訓(xùn)練過程中的誤分類率曲線
針對車型號的識別需求,本文在LeNet?5.1的基礎(chǔ)上提出了一種新的網(wǎng)絡(luò)模型,稱之為LeNet?5.3。與LeNet?5.2相反,LeNet?5.3是在LeNet?5.1的基礎(chǔ)上對網(wǎng)絡(luò)中各層的特征圖數(shù)量進(jìn)行擴(kuò)充:
(1) 卷積層C1的特征圖由6個(gè)增加至8個(gè),相應(yīng)地,S2層的特征圖也由6個(gè)增加至8個(gè)。
(2) 卷積層C3的特征圖由16個(gè)增加至24個(gè),相應(yīng)地,S4層的特征圖也由16個(gè)增加至24個(gè)。
(3) 卷積層C5的特征圖個(gè)數(shù)由120個(gè)增加至240個(gè)。
(4) 輸出層神經(jīng)元的個(gè)數(shù)由10個(gè)增加至32個(gè)。
其中卷積層C3層與次抽樣層S2層的連接情況參考LeNet?5.2所采用的原則,使卷積層C3中的特征圖包含次抽樣層S2中多個(gè)特征圖的主要組合。
與LeNet?5.1相比,LeNet?5.3需要有更多的輸出類別,各層的特征圖數(shù)量也做了相應(yīng)的增加,以增加整個(gè)網(wǎng)絡(luò)的識別性能。為了驗(yàn)證改進(jìn)后的LeNet?5.3的性能,收集了大量真實(shí)列車車廂圖片,經(jīng)過車號定位和分割之后,將單個(gè)的數(shù)字字符或者大寫字母字符圖像尺寸依次歸一化為32×32,分別建立訓(xùn)練圖像庫和測試圖像庫。
由于LeNet?5.1各層的特征圖數(shù)量多,因此該網(wǎng)絡(luò)涉及到的可訓(xùn)練參數(shù)也大大增加,這也意味著需要更多的數(shù)據(jù)樣本用于網(wǎng)絡(luò)訓(xùn)練。若訓(xùn)練集和測試集規(guī)模依然采用跟前面實(shí)驗(yàn)中一樣的各400幅,訓(xùn)練過程中的誤分類率曲線如圖6所示,圖6中的曲線變化非常不穩(wěn)定,波動(dòng)較大。測試MCR達(dá)到最低點(diǎn)后又突然升高,不能獲得穩(wěn)定的分類結(jié)果,訓(xùn)練過程無法收斂。
網(wǎng)絡(luò)訓(xùn)練過程中無法收斂的主要原因在于相比網(wǎng)絡(luò)中過多的需要訓(xùn)練確定的權(quán)值,數(shù)據(jù)集規(guī)模過小,已然不能滿足學(xué)習(xí)的要求。從特征圖角度來看,網(wǎng)絡(luò)無法通過不充足的訓(xùn)練樣本學(xué)習(xí)到穩(wěn)定而有效的特征圖組合,從而導(dǎo)致了網(wǎng)絡(luò)不收斂。要解決這個(gè)問題需要加大測試樣本的數(shù)量。
為了訓(xùn)練和測試LeNet?5.3,對數(shù)據(jù)集進(jìn)行了擴(kuò)充:訓(xùn)練圖像庫包含字符圖像4 000幅,測試圖像庫包含字符圖像2 000幅。訓(xùn)練過程中的誤分類率曲線如圖7所示。從圖7中可以看出,經(jīng)過32次迭代之后網(wǎng)絡(luò)趨于收斂,并且達(dá)到了較好的識別率。
4 結(jié) 語
本文針對貨運(yùn)列車車號識別的難題,提出了基于卷積神經(jīng)網(wǎng)絡(luò)LeNet?5改進(jìn)后的識別方法,主要對卷積神經(jīng)網(wǎng)絡(luò)中各層特征圖數(shù)量及大小進(jìn)行了改進(jìn)。且與傳統(tǒng)的BP網(wǎng)絡(luò)進(jìn)行了比較,從實(shí)驗(yàn)結(jié)果可以看出,改進(jìn)后的卷積神經(jīng)網(wǎng)絡(luò)無論在魯棒性還是識別率以及識別速度上都優(yōu)于BP網(wǎng)絡(luò),可以很好地勝任列車車號識別任務(wù)。
參考文獻(xiàn)
[1] 宋敏.鐵路車輛車號自動(dòng)識別系統(tǒng)的研究和開發(fā)[D].天津:河北工業(yè)大學(xué),2011:1?5.
[2] LU S, CHEN B M, KO C C. Perspective rectification of document images using fuzzy set and morphological operations [J]. Image and vision computing, 2005, 23(5): 541?553.
[3] SHAH P, KARAMCHANDANI S, NADKAR T, et al. OCR?based chassis?number recognition using artificial neural networks [C]// Proceedings of 2009 IEEE International Conference on Vehicular Electronics and Safety (ICVES). [S.l.]: IEEE, 2009: 31?34.
[4] CHEN D, BOURLARD H, THIRAN J P. Text identification in complex background using SVM [C]// Proceedings of 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. [S.l.]: IEEE, 2001: 621?626.
[5] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [J]. Proceedings of the IEEE, 1998, 86(11): 2278?2324.
[6] LECUN Y A, BOTTOU L, ORR G B, et al. Efficient backprop [M]// Anon. Neural networks: tricks of the trade. Berlin: Springer Berlin Heidelberg, 1998: 9?50.
>> 用于腦運(yùn)作分析的前向網(wǎng)絡(luò)樣本重組樹生成算法研究 基于三角構(gòu)成規(guī)則的加權(quán)有向網(wǎng)絡(luò)拓?fù)渖伤惴?適用于網(wǎng)絡(luò)漸進(jìn)傳輸?shù)亩喾直媛是€生成算法 全排列生成算法比較分析 KenKen問題的生成算法研究 曲線生成算法的文獻(xiàn)綜述 基于列生成算法的集裝箱班輪運(yùn)輸網(wǎng)絡(luò)優(yōu)化 基于全卷積神經(jīng)網(wǎng)絡(luò)的圖像縮略圖生成算法 傳感器網(wǎng)絡(luò)中一種基于編碼的MAC生成算法 數(shù)據(jù)庫關(guān)鍵詞檢索中候選元組集連接樹生成算法的研究 基于分類隨機(jī)算法的試卷生成算法研究 分析基于列生成算法的動(dòng)車組檢修計(jì)劃優(yōu)化 AOS自相似業(yè)務(wù)流等時(shí)幀生成算法的Matlab仿真分析 關(guān)于傳統(tǒng)空間緩沖區(qū)生成算法的分析 基于Bresenham的直線快速生成算法 題庫系統(tǒng)中試卷生成算法的改進(jìn) 一種可用于腦神經(jīng)網(wǎng)絡(luò)分析的有向網(wǎng)絡(luò)分解算法 形式概念演化生成算法 MPI通信代碼自動(dòng)生成算法 一種啟發(fā)式雙代號網(wǎng)絡(luò)圖自動(dòng)生成算法 常見問題解答 當(dāng)前所在位置:l.(Xie Qin. Framework of Brain Information Processing[Z].[2013-10-21]. .)
[30]謝勤.WAP算法連續(xù)化及其應(yīng)用[C].畢業(yè)論文,2004.
[31]謝勤.一種可用于腦神經(jīng)網(wǎng)絡(luò)分析的有向網(wǎng)絡(luò)分解算法[J].數(shù)字化用戶,2014,3:113-116.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [J].Digitization user,2014, 3:113-116.)
[32]謝勤.一種可用于腦神經(jīng)網(wǎng)絡(luò)分析的有向網(wǎng)絡(luò)分解算法[C].第八屆海內(nèi)外華人神經(jīng)科學(xué)家研討會論文集.北京:科學(xué)出版社,2014.(Xie Qin. An Arithmetic For Neural Network Analysis: From Directed Graph To FFN Trees [C]. Proceedings of Symposium for Chinese Neuroscientists Worldwide 2014. Beijing: Science Press. 2014.)
[33]謝勤.用于腦運(yùn)作分析的前向網(wǎng)絡(luò)樣本重組樹生成算法研究[C].電子技術(shù)與軟件工程,2016,4:258-264.(Xie Qin. FeedForward Network Sample Recombination Tree Generating Arithmetic(DG-FFN SR Trees Arithmetic) And Generation Of Sample Recombination Graph [J]. Electronic Technology & Software Engineering, 2016,4:258-264.)
(通訊作者:謝勤)
作者簡介
謝勤(1982-),男,A南理工大學(xué)碩士,中國神經(jīng)科學(xué)學(xué)會會員,工程師,近年在亞組委信息技術(shù)部完成核心信息系統(tǒng)――計(jì)時(shí)記分和成績處理系統(tǒng)項(xiàng)目實(shí)施管理方面的工作,其中計(jì)時(shí)記分系統(tǒng)投資一億。主要研究方向?yàn)橛?jì)算機(jī)科學(xué)與工程、人工智能、神經(jīng)生物學(xué)。
作者單位
1.廣州市科技和信息化局 廣東省廣州市 510000
2.第16屆亞運(yùn)會組委會信息技術(shù)部 廣東省廣州市 510000
3.廣州生產(chǎn)力促進(jìn)中心 廣東省廣州市 510000
4.廣州市科學(xué)技術(shù)信息研究所 廣東省廣州市 510000
5.廣州市科技創(chuàng)新委員會 廣東省廣州市 510000
關(guān)鍵詞:深度學(xué)習(xí);器材管理;深度信念網(wǎng)絡(luò);效率;損耗
1.引言
深度學(xué)習(xí)是機(jī)器學(xué)習(xí)的延伸和進(jìn)一步發(fā)展,它基于機(jī)器學(xué)習(xí),從廣義上講是機(jī)器學(xué)習(xí)的一種,但與機(jī)器學(xué)習(xí)有較大不同,深度學(xué)習(xí)的模型和人腦皮層結(jié)構(gòu)有較大相似,從某種意義上講,深度學(xué)習(xí)是智能學(xué)習(xí),可對復(fù)雜數(shù)據(jù)進(jìn)行有效處理[1]。深度學(xué)習(xí)模型既可以作為特征提取器,也可以用作特征分類器,并且二者可以同時(shí)應(yīng)用,直接得到想要的分類結(jié)果。器材有成千上萬種,每種器材的性能、數(shù)量、有效期、生產(chǎn)廠家這些基本要素Ю戳舜罅康氖據(jù),而深度學(xué)習(xí)應(yīng)用于大數(shù)據(jù)挖掘方面,實(shí)踐中已經(jīng)取得較好的效果?,F(xiàn)在是一個(gè)“大數(shù)據(jù)+深度學(xué)習(xí)”的時(shí)代。本文研究在器材管理中如何運(yùn)用深度學(xué)習(xí),來探尋器材管理中蘊(yùn)含的內(nèi)在規(guī)律,通過得出的管理規(guī)則進(jìn)行器材管理,來提高器材管理的信息化水平。
2.深度學(xué)習(xí)的典型模型
深度學(xué)習(xí)基礎(chǔ)是受限玻爾茲曼機(jī)(RBM),玻爾茲曼機(jī)( BM)可以認(rèn)為是一種能量模型。即參數(shù)空間中每一種情況均有一個(gè)標(biāo)量形式的能量與之對應(yīng)。對全連通玻爾茲曼機(jī)進(jìn)行簡化,其限制條件是在給定可見層或者隱層中的其中一層后,另一層的單元彼此獨(dú)立,即為受限玻爾茲曼機(jī)。深度學(xué)習(xí)的典型模型主要有:自動(dòng)編碼器(AE),卷積神經(jīng)網(wǎng)絡(luò)(CNN),深度信念網(wǎng)絡(luò)(DBN)三種[2]。
(1)自動(dòng)編碼器
自編碼器的基本原理:將輸入的原始信號進(jìn)行編碼,使用編碼得到的新信號重建原始信號,求得重建的元信號與原始信號相比重建誤差最小。它的優(yōu)點(diǎn)是可以有效的提取信號中的主要特征,減少信息冗余,提高信息處理效率。模式分類中經(jīng)常用到的以下方法:K均值聚類、稀疏編碼、主成分分析等均可理解為是一個(gè)自動(dòng)編碼器。
(2)卷積神經(jīng)網(wǎng)絡(luò)
卷積神經(jīng)網(wǎng)絡(luò)(CNN)善于提取數(shù)據(jù)局部特征,模型復(fù)雜度較低,權(quán)值的數(shù)量較少,它組合局部感受野(滑動(dòng)窗口)、權(quán)重共享(減少自由參數(shù)數(shù)量)、和空間或時(shí)間上的子采樣這3 種結(jié)構(gòu)去確保平移和變形上的不變性。
(3)深度信念網(wǎng)絡(luò)
深度信念網(wǎng)絡(luò)(DBN)主要采用貪婪逐層訓(xùn)練方法。簡言之通過預(yù)先訓(xùn)練與反向調(diào)節(jié)來訓(xùn)練整個(gè)DBN網(wǎng)絡(luò):在預(yù)先訓(xùn)練階段,先逐個(gè)訓(xùn)練每一個(gè)受限玻爾茲曼機(jī)RBM,逐層疊加,并將下一層的RBM 的輸出作為上一層RBM 的輸入; 在反向調(diào)節(jié)階段可以采用BP訓(xùn)練,通過誤差函數(shù)進(jìn)行反向調(diào)節(jié).
3.基于深度信念網(wǎng)絡(luò)(DBN)的器材管理方法
器材管理的目的是在最大器材利用率下所用資金最少,耗費(fèi)管理人員精力最少。從模型分析上來說,這是一個(gè)求最優(yōu)化模型的問題。深度信念網(wǎng)絡(luò)在求取最優(yōu)化方面具有一定的優(yōu)越性。深度信念網(wǎng)絡(luò)(DBN)的優(yōu)點(diǎn):(1)采用并行結(jié)構(gòu),可同時(shí)處理多組數(shù)據(jù),計(jì)算效率得到較大提升,對處理大數(shù)據(jù)有優(yōu)勢;(2)可以用較小的模型參數(shù)波動(dòng)得到較高的分類結(jié)果,模型穩(wěn)定性較好[3]。
對器材管理者來說如何制定性價(jià)比最高的器材采購方案,最優(yōu)的器材下發(fā)方案,最優(yōu)的器材存儲方案是急需解決的三個(gè)問題。
器材采購方案:其制定主要基于器材的價(jià)格,儲存年限,采購批次,采購量,售后服務(wù)等因素,針對每種器材的上述指標(biāo)進(jìn)行量化打分,再根據(jù)每種器材的側(cè)重點(diǎn)分配量化系數(shù),整合成10種數(shù)據(jù)輸入。將這些數(shù)據(jù)輸入到訓(xùn)練好的深度信念網(wǎng)絡(luò)(DBN)中得出每種器材的采購點(diǎn)數(shù),根據(jù)點(diǎn)數(shù)決定采購的器材數(shù)量、品種、規(guī)格和型號。
器材的下發(fā)方案:器材的下發(fā)要考慮不同單位的需求,現(xiàn)有庫存情況,近期器材補(bǔ)充情況,近期大項(xiàng)工作需求情況,根據(jù)不同情況對不同單位,不同器材,具體工作設(shè)定不同顏色的標(biāo)簽,通過標(biāo)簽整合,將這些數(shù)據(jù)輸入到訓(xùn)練好的深度信念網(wǎng)絡(luò)(DBN)中得到具體的下?lián)芊桨浮?/p>
器材儲存方案:儲存主要包括使用單位庫存情況,倉庫庫存情況,供貨單位協(xié)議代儲情況,運(yùn)用深度信念網(wǎng)絡(luò)(DBN)對器材消耗情況進(jìn)行分析,進(jìn)而得出,單位庫存的數(shù)質(zhì)量,使用單位庫存的數(shù)質(zhì)量,供貨單位協(xié)議代儲數(shù)質(zhì)量,使三者處于一個(gè)最優(yōu)化狀態(tài),既不影響使用,又可降低庫存空間的需求,減少資金占用。
4. 實(shí)驗(yàn)結(jié)果
本文采用深度信念網(wǎng)絡(luò)(DBN)對1000種器材采購、運(yùn)輸、庫存、消耗使用以及不同品牌的通用器材采購成本進(jìn)行了實(shí)驗(yàn)分析,通過深度信念網(wǎng)絡(luò)(DBN)的優(yōu)化,采購效率提高10%,運(yùn)輸時(shí)間縮短20%,庫存量降低15%,使用消耗準(zhǔn)確度提高5%,采購成本降低18%。
5. 未來發(fā)展與展望
深度學(xué)習(xí)方法在器材管理中的應(yīng)用還處于初步探索之中,但是初步運(yùn)用表明,其在“大數(shù)據(jù)+云計(jì)算”時(shí)代,對提高器材管理的信息化水平具有較大的實(shí)用價(jià)值和經(jīng)濟(jì)價(jià)值,用于器材管理的深度學(xué)習(xí)模型,還較為簡單,還有進(jìn)一步發(fā)展的空間,實(shí)踐應(yīng)用中對器材數(shù)據(jù)特征的提取還有待加強(qiáng),只有深刻的理解器材管理的特征及需求,才能有針對性的建立模型,提高模型的可靠性和有效性。使器材管理水平更上一層樓,使器材管理跟上信息化發(fā)展的步伐。
參考文獻(xiàn):
[1] 孫志軍,薛磊,許陽明.基于深度學(xué)習(xí)的邊際Fisher分析特征提取算法[J].電子與信息學(xué)報(bào),2013,35(4):805-811.
[2] 孫志軍,薛磊,許陽明,等.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究, 2012, 29( 8) : 2806 - 2810.
[3] 胡曉林,朱軍.深度學(xué)習(xí)―――機(jī)器學(xué)習(xí)領(lǐng)域的新熱點(diǎn)[J].中國計(jì)算機(jī)學(xué)會通訊, 2013,9( 7) : 64 - 69.
作者簡介:
康克成(1981.04-)河北昌黎人,研究生,碩士,工程師,中國人民92819部隊(duì),研究方向:信息與通信工程;
王強(qiáng)(1981.02-)山東膠州人,本科,助理工程師,中國人民92819部隊(duì),研究方向:裝備管理;
關(guān)鍵詞:計(jì)算機(jī)工程;視覺領(lǐng)域;深度學(xué)習(xí)技術(shù)
引言
計(jì)算機(jī)視覺簡言之即是依靠電子設(shè)備成像來代替生物視覺系統(tǒng),隨后依靠提前寫好的程序?qū)Λ@取的圖像信息實(shí)施處理。該技術(shù)的短期應(yīng)用目的在于完成相對簡單的智能視覺工作,而深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域的應(yīng)用,在很大程度上豐富了其功能,提高了識別效率,讓其能夠在更多行業(yè)發(fā)揮出自身價(jià)值。
1計(jì)算機(jī)視覺領(lǐng)域的深度學(xué)習(xí)技術(shù)
1.1圖像分類中的深度學(xué)習(xí)技術(shù)
基于深度學(xué)習(xí)技術(shù),卷積神經(jīng)網(wǎng)絡(luò)得到了進(jìn)一步的發(fā)展,其應(yīng)用范圍也更為寬泛,例如說在圖像分類中的運(yùn)用。圖像分析需要對圖像實(shí)施掃描分析,隨后對其具體類別予以劃分,更加注重其整體語義。目前相對普遍進(jìn)行圖像分類的數(shù)據(jù)集為ImageNet,其中囊括了非常豐富的內(nèi)容,存儲了近1500萬個(gè)圖像的URL并將圖像劃分為數(shù)萬余個(gè)類型。ImageNet每年組織開展的大規(guī)模視覺識別挑戰(zhàn)賽(ILSVRC)中,圖像分類算法與技術(shù)也不斷創(chuàng)新,圖像分類的準(zhǔn)確性也持續(xù)提升。ImageNet數(shù)據(jù)集表現(xiàn)出規(guī)模大、類型多的突出特點(diǎn),所以更加適用于遷移學(xué)習(xí),即是把部分核心技術(shù)或結(jié)構(gòu)拓展應(yīng)用到各個(gè)領(lǐng)域,對于視覺領(lǐng)域的深度模型來說,能夠把模型內(nèi)的網(wǎng)絡(luò)結(jié)構(gòu)和參數(shù)直接共享到其他數(shù)據(jù)集,從而對數(shù)據(jù)實(shí)施微調(diào)。圖像分類屬于計(jì)算機(jī)視覺領(lǐng)域最為基礎(chǔ)的環(huán)節(jié),對于圖像分類模型創(chuàng)建和數(shù)據(jù)分析處理經(jīng)驗(yàn)也能夠遷移應(yīng)用到其他領(lǐng)域中。
1.2目標(biāo)檢測中的深度學(xué)習(xí)技術(shù)
目標(biāo)檢測相對于圖像分類而言表現(xiàn)出更多的復(fù)雜性,主要任務(wù)是在囊括多種不同類型物體的圖像內(nèi)精確定位和識別某一物體,恰恰是出于這一目的,深度學(xué)習(xí)技術(shù)在目標(biāo)檢測中的應(yīng)用更為復(fù)雜,要實(shí)現(xiàn)更加精準(zhǔn)的效果也相對更難。近年來針對目標(biāo)檢測的算法日益更新,如優(yōu)化后的R-CNN算法,是借助于卷積神經(jīng)網(wǎng)絡(luò)思想,對物體進(jìn)行分類,提取物體特征。而SelectiveSearch算法的出現(xiàn)有了進(jìn)一步的創(chuàng)新和突破,有效促進(jìn)了檢測準(zhǔn)確性的提高,這也給通過卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行目標(biāo)檢測帶來了更多可能性,隨后的FastR-CNN算法極大地促進(jìn)了目標(biāo)檢測效率的提升,該算法對提取候選區(qū)的問題予以優(yōu)化,大大減少了候選區(qū)提取和目標(biāo)檢測過程的時(shí)間。目標(biāo)檢測網(wǎng)絡(luò)以FastR-CNN算法作為支撐,于輸出位置設(shè)置滑動(dòng)窗同時(shí)和候選區(qū)域網(wǎng)絡(luò)實(shí)施連接,目標(biāo)檢測的關(guān)鍵在于卷積神經(jīng)網(wǎng)絡(luò),依靠它把各個(gè)點(diǎn)的特征進(jìn)行提取,再借助回歸算法獲得對應(yīng)范圍出現(xiàn)目標(biāo)的概率[1]。
1.3人臉識別中的深度學(xué)習(xí)技術(shù)
人臉識別主要是借助相應(yīng)算法對人臉特征實(shí)施提取,因?yàn)槠浣⒌娜四樐P捅憩F(xiàn)出一定的不穩(wěn)定性,因此模型建立往往也表現(xiàn)出一定的難度,相對于建立剛體模型而言更為困難。人臉識別通常來說涉及人臉檢測定位以及特征提取兩個(gè)方面,人臉檢測定位是基于背景圖像中將人臉目標(biāo)分割出來,實(shí)施歸一化處理,而人臉特征提取算法不變。前者存在的技術(shù)難點(diǎn)是人臉目標(biāo)具有多樣性以及背景圖像具有復(fù)雜性,所以對背景情境實(shí)施合理假設(shè)并予以簡化是十分關(guān)鍵的。與此同時(shí),高維空間人臉模型的建立較為復(fù)雜,精確度估算難度較大,人臉特征提取的技術(shù)難度是因?yàn)槿四槍儆趶椥阅P停潆y度超過剛體模型。一般來說,較為常見對人臉特征實(shí)施提取與識別的方法有幾何特征法、特征臉?biāo)惴ㄒ约皬椥阅P头?,CNN算法和過去的特征提取算法比起來表現(xiàn)出更高的穩(wěn)定性和適用性,同時(shí)能夠有效抵抗外部干擾,促進(jìn)人臉識別技術(shù)的推廣應(yīng)用。
2應(yīng)用實(shí)例
2.1安防領(lǐng)域的應(yīng)用
深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域中的應(yīng)用可以為安防行業(yè)提供更佳的解決方案,比如說人臉識別技術(shù)的應(yīng)用,很多大型企業(yè)如Facebook、騰訊、阿里巴巴等都將非常關(guān)注和重視。作為深度學(xué)習(xí)技術(shù)在計(jì)算機(jī)視覺領(lǐng)域應(yīng)用的重要內(nèi)容,人臉識別在安檢以及反恐等領(lǐng)域中也能夠發(fā)揮出很好的效果。與此同時(shí),對行人角度的REID技術(shù)實(shí)施研究,依托于深度學(xué)習(xí)強(qiáng)化目標(biāo)檢測,對目標(biāo)特征實(shí)施提取和刻畫,能夠?yàn)楫惓P袨楸O(jiān)控和跟蹤帶來支持[2]。
2.2無人駕駛領(lǐng)域的應(yīng)用
對于無人駕駛領(lǐng)域來說,選擇激光或雷達(dá)這類傳感器的成本更高,基于深度學(xué)習(xí)的計(jì)算機(jī)視覺技術(shù)也能夠提供新的解決方案。依靠攝像機(jī)對視頻畫面進(jìn)行采集,對獲取到的圖像實(shí)施分析,提供類似于前車碰撞預(yù)警等功能。在這一過程中,計(jì)算機(jī)視覺技術(shù)可以實(shí)現(xiàn)對目標(biāo)的檢測識別、對目標(biāo)車輛的跟蹤分析、對車道線是否偏離進(jìn)行檢測等。基于深度學(xué)習(xí)技術(shù)的檢測識別表現(xiàn)出更加強(qiáng)大的優(yōu)勢,現(xiàn)階段深度學(xué)習(xí)芯片日益增多,對于無人駕駛技術(shù)的發(fā)展也帶來了更加有力的支持。
2.3智能家居領(lǐng)域的應(yīng)用
過去的很多智能家居產(chǎn)品一般都是依靠智能手機(jī)藍(lán)牙或者WiFi等途徑來實(shí)現(xiàn)對家居產(chǎn)品的控制,這一方案即便能夠做到家居智能化,但其水平依舊有待提高?;谏疃葘W(xué)習(xí)技術(shù),能夠有效促進(jìn)智能家居行業(yè)的更新發(fā)展,除開語言、語音識別之外,還能夠利用計(jì)算機(jī)視覺技術(shù)實(shí)現(xiàn)人際交流與互動(dòng),比如說手勢識別控制。2.4教育領(lǐng)域和圖片搜索領(lǐng)域的應(yīng)用基于深度學(xué)習(xí)的計(jì)算機(jī)視覺技術(shù)也能夠在智慧教育中得以普及應(yīng)用,如近年來很多新的拍照解題App,使用者只需要利用手機(jī)相機(jī)拍照上傳即可獲得相關(guān)題目的分析解答,促進(jìn)學(xué)習(xí)者學(xué)習(xí)效率的提升。此時(shí)視覺技術(shù)包括了對文字的檢測與識別,另外針對個(gè)人簡歷識別、文檔識別等方面也能夠進(jìn)行拓展應(yīng)用。同時(shí)計(jì)算機(jī)視覺技術(shù)還可以在圖片搜索領(lǐng)域中得以應(yīng)用,使用者通過拍攝上傳相應(yīng)的圖片,即可從數(shù)據(jù)庫中找出與原圖相似的圖片,深度學(xué)習(xí)屬于一種非常高效的技術(shù)手段,能夠提供更加快速高效的圖像檢測功能,結(jié)合圖像搜索引擎,為用戶帶來更加便捷的服務(wù)[3-5]。
2.5醫(yī)療影像數(shù)據(jù)中的應(yīng)用
醫(yī)學(xué)影像直接關(guān)系到對患者疾病診斷的準(zhǔn)確性,對于放射科的醫(yī)務(wù)人員來說,依靠醫(yī)學(xué)影像能夠促進(jìn)診斷效率的提升。現(xiàn)階段國內(nèi)外諸多醫(yī)學(xué)專家隊(duì)伍,在心血管、腫瘤、神經(jīng)內(nèi)科以及五官科等都建立了精準(zhǔn)深度學(xué)習(xí)模型,極大地推動(dòng)醫(yī)療水平的提升,為廣大患者帶來了更加便捷和高效的醫(yī)療服務(wù)?;谏疃葘W(xué)習(xí)技術(shù)的計(jì)算機(jī)視覺在醫(yī)療影像數(shù)據(jù)中的應(yīng)用主要集中在如下幾個(gè)方面:(1)能夠提供臨床診斷輔助等醫(yī)療服務(wù);(2)依靠數(shù)據(jù)分析技術(shù),能夠在很大程度上促進(jìn)醫(yī)療機(jī)構(gòu)經(jīng)營管理水平的提升;(3)在醫(yī)學(xué)影像中的應(yīng)用,能夠讓醫(yī)務(wù)工作者更加直觀便捷地獲取患者影像;(4)深度學(xué)習(xí)技術(shù)能夠?yàn)獒t(yī)療大數(shù)據(jù)的可視化帶來便利;(5)在藥企研發(fā)工作中的應(yīng)用,可以處理好過去一直以來藥物研發(fā)周期長和成本居高不下的問題;(6)在健康管理領(lǐng)域中的應(yīng)用,借助于可穿戴設(shè)備來對個(gè)人健康數(shù)據(jù)實(shí)施監(jiān)測,進(jìn)而對疾病風(fēng)險(xiǎn)予以提前預(yù)測。
關(guān)鍵詞:視覺注意;自頂向下;顯著性;對象信息;卷積神經(jīng)網(wǎng)
中圖分類號:TP391.41
文獻(xiàn)標(biāo)志碼:A
文章編號:1001-9081(2016)11-3217-05
0 引言
視覺注意機(jī)制的研究是探索人眼視覺感知的重要一環(huán)。在過去幾十年中,如何用計(jì)算模型模擬人眼視覺注意過程一直是核心問題。盡管取得了很大的進(jìn)步,但是快速準(zhǔn)確地在自然場景中預(yù)測人眼視覺注意區(qū)域仍然具有很高的挑戰(zhàn)性。顯著性是視覺注意的一項(xiàng)重要研究內(nèi)容,它反映了區(qū)域受關(guān)注的程度。本文的研究著眼于顯著性計(jì)算模型,更多模型對比和模型分類可以參考Borji等[1]的文章。視覺注意存在兩種機(jī)制:自底向上(Bottom-up)和自頂向下(Top-down)。過去的研究中,大多數(shù)的計(jì)算模型是基于自底向上的信息,即直接從圖像像素獲取特征。
自底向上顯著性計(jì)算模型開創(chuàng)性工作源自于文獻(xiàn)[2]的Itti模型,該模型是很多其他模型的基礎(chǔ)和對照基準(zhǔn),它通過整合多種低層次特征,如顏色、亮度、方向等,給出一個(gè)顯著度的概率分布圖。Harel等[3]在Itti模型的基礎(chǔ)上引入圖算法,通過計(jì)算節(jié)點(diǎn)間特征值相似性和空間位置距離進(jìn)行差異性度量獲取顯著圖。近年來隨著深度學(xué)習(xí)技術(shù)在目標(biāo)識別領(lǐng)域的成功應(yīng)用[4],研究者們對特征學(xué)習(xí)產(chǎn)生了更多的興趣。Borji等[5]通過稀疏編碼方法獲取特征,使用圖像塊的稀疏表示結(jié)合局部和全局統(tǒng)計(jì)特性計(jì)算圖像塊的稀有性(rarity),稀有性反映了當(dāng)前圖像塊中心位置的顯著性。Vig等[6]通過訓(xùn)練多個(gè)神經(jīng)網(wǎng)絡(luò)獲取層次特征,然后自動(dòng)優(yōu)化特征組合。特征提取的過程可以看作是一種隱式空間映射,在映射空間中使用簡單的線性模型進(jìn)行顯著或非顯著的分類。以上學(xué)習(xí)方法獲得的特征都是一些低層次特征,對圖像中的邊緣和特定紋理結(jié)構(gòu)敏感。此外,部分研究人員希望從數(shù)學(xué)統(tǒng)計(jì)和信號處理的角度來度量顯著性。Bruce等[7]根據(jù)最大化信息采樣的原則構(gòu)建顯著性模型。Li等[8]總結(jié)了多種基于頻域的視覺注意研究工作,提出了一種基于超復(fù)數(shù)傅里葉變換(Hypercomplex Fourier Transform)的視覺注意模型,并展示了其他多種基于頻域的模型在某種程度上都是此模型的特例。
以上模型均為數(shù)據(jù)驅(qū)動(dòng)的顯著性模型,模擬人眼視覺注意過程中自底向上的機(jī)制。由于人眼視覺注意過程中不可避免地受到知識、任務(wù)、經(jīng)驗(yàn)、情感等因素的影響,因而整合自底向上和自頂向下信息的視覺注意研究受到更多的關(guān)注?,F(xiàn)有模型整合的自頂向下信息可以分為三類:任務(wù)需求、場景上下文和對象特征。
Borji等[9]提出了一種構(gòu)建任務(wù)驅(qū)動(dòng)的視覺注意模型的聯(lián)合貝葉斯方法。Zhang等[10]提出了一種使用貝葉斯框架整合自底向上和自頂向下顯著性信息的方法。Siagian等[11]利用多種低層次特征對場景主旨進(jìn)行建模,使用場景主旨引導(dǎo)視覺注意的轉(zhuǎn)移。考慮到任務(wù)需求和場景上下文建模的復(fù)雜性,研究人員將對象特征視為一種高層次的知識表示形式引入視覺注意模型中。Judd等[12]和Zhao等[13]通過將低層次特征和對象特征整合在一個(gè)學(xué)習(xí)框架下來獲得特征整合過程中每張?zhí)卣鲌D的疊加權(quán)重,但是模型使用的對象特征只有人臉、行人、車輛等有限的幾種。Borji等[14]遵循了同樣的方法,但是在整合過程中添加了更多特征并且結(jié)合了其他顯著性模型的結(jié)果,最后用回歸、支撐向量機(jī)(Support Vector Machine, SVM)、 AdaBoost等多種機(jī)器學(xué)習(xí)算法結(jié)合眼動(dòng)跟蹤數(shù)據(jù)進(jìn)行訓(xùn)練。實(shí)驗(yàn)結(jié)果表明對象特征引入較大地提高了模型性能。Xu等[15]將特征劃分為像素級、對象級和語義級三個(gè)層次,并重點(diǎn)探索對象信息和語義屬性對視覺注意的作用;然而,模型中的對象級和語義級特征是手工標(biāo)定的,因而不是一種完全意義上的計(jì)算模型。
總的來看,雖然部分模型已經(jīng)使用對象特征作為自頂向下的引導(dǎo)信息,但是在對象特征的獲取和整合上仍有很大的局限性。首先,對不包含特定對象的場景適應(yīng)性較差;其次,對象特征描述困難,通常是通過特定目標(biāo)檢測方法獲取對象特征,計(jì)算效率低下;此外,對象特征的簡單整合方式不符合人眼的視覺感知機(jī)制。本文提出了一種結(jié)合深度學(xué)習(xí)獲取對象特征的視覺注意計(jì)算模型,重點(diǎn)研究了對象級特征的獲取和整合方法。算法結(jié)構(gòu)如1所示,其中像素級突出圖獲取采用現(xiàn)有視覺注意模型的方法,對象級突出圖獲取采用本文提出的基于卷積神經(jīng)網(wǎng)(Convolutional Neural Network, CNN)的特征學(xué)習(xí)和基于線性回歸的特征整合方法。實(shí)驗(yàn)結(jié)果表明,對象級特征的引入可以明顯提高顯著性預(yù)測精度,預(yù)測結(jié)果更符合人類視覺注意效果。
1 對象信息獲取
1.1 對象特征
大量實(shí)驗(yàn)證據(jù)表明對象特征引導(dǎo)視覺注意的轉(zhuǎn)移。視覺注意中引入對象特征是為了獲得圖像中對象位置等信息,目的與計(jì)算機(jī)視覺中的目標(biāo)檢測類似。因而,已有的視覺注意計(jì)算模型的對象特征通常是通過特定目標(biāo)檢測方法獲得。其中,Viola&Jones人臉檢測和Felzenszwalb車輛行人檢測是最常用的方法。文獻(xiàn)[12-14]均使用此類方法引入對象特征。由于這一類特征針對特定對象樣本進(jìn)行設(shè)計(jì)和訓(xùn)練,因而推廣能力不強(qiáng)。
li=fixations(obji)area(obji)(3)
其中: fixations()表示落入當(dāng)前對象區(qū)域的正樣本的數(shù)目;area()表示對象區(qū)域面積。li衡量當(dāng)前對象單位面積受關(guān)注的程度,對象單位面積受關(guān)注程度越高,其在對象整合過程中的權(quán)重應(yīng)越高,因而li與疊加權(quán)重成正比。
式(4)通過一個(gè)線性回歸模型對已有樣本數(shù)據(jù)進(jìn)行訓(xùn)練,獲得對象整合疊加權(quán)重W:
L=WF(4)
其中:F={F1,F(xiàn)2,…,F(xiàn)N}為訓(xùn)練樣本數(shù)據(jù)集合;L={l1,l2,…,lN}為訓(xùn)練樣本標(biāo)簽集合。
測試時(shí)根據(jù)式(5)~(6)獲得對象級突出圖:
3 顯著圖生成
視覺注意是自底向上和自頂向下兩種機(jī)制作用的結(jié)果。完全使用自頂向下的對象特征進(jìn)行顯著區(qū)域預(yù)測有一定缺陷,主要表現(xiàn)在以下幾個(gè)方面:首先,知識是對訓(xùn)練樣本數(shù)據(jù)的抽象表示,由于神經(jīng)網(wǎng)絡(luò)的規(guī)模和訓(xùn)練樣本中對象種類的限制,場景中部分對象對應(yīng)的特征沒有被抽象在網(wǎng)絡(luò)結(jié)構(gòu)中;其次,部分不具有明確語義的區(qū)域被錯(cuò)誤地認(rèn)為是對象,對視覺注意形成錯(cuò)誤的引導(dǎo);另外,人眼視覺注意轉(zhuǎn)移的生理學(xué)機(jī)制并不清楚,興趣區(qū)可能落在不具有對象特征區(qū)域中。因此,使用像素級特征給出低層次顯著性信息是必要的。
視覺注意模型中常用的像素級特征有顏色、亮度、方向等[2-3,12]。本文直接使用GBVS(Graph-Based Visual Saliency)算法[4]整合多種像素級特征獲取像素級突出圖Spixel。式(7)給出了整合的方法:
其中:S(i, j)為最終給出的視覺注意顯著圖;N()為歸一化操作;λ控制對象級突出圖與像素級突出圖的相對權(quán)重,通過實(shí)驗(yàn)分析可知λ=0.4時(shí)效果較好。當(dāng)圖像中不存在顯著物體或無法獲得高置信度的對象信息時(shí),圖像任意位置Sobj(i, j)=0,此時(shí)完全由像素級特征驅(qū)動(dòng)的視覺注意引導(dǎo)。
4 實(shí)驗(yàn)結(jié)果及分析
本次實(shí)驗(yàn)是以Visual Studio 2012為實(shí)驗(yàn)平臺,選取OSIE和MIT數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)。OSIE數(shù)據(jù)集包含700張含有一個(gè)或多個(gè)明顯語義對象的圖片以及15名受試者的眼動(dòng)跟蹤數(shù)據(jù),此外該數(shù)據(jù)集還提供了語義對象統(tǒng)計(jì)及人工標(biāo)注的精確對象區(qū)域。MIT數(shù)據(jù)集包含1003張自然場景圖片以及15名受試者的眼動(dòng)跟蹤數(shù)據(jù)。這兩個(gè)數(shù)據(jù)集是當(dāng)前視覺注意研究領(lǐng)域中較大的數(shù)據(jù)集。為了驗(yàn)證本文方法的準(zhǔn)確率,將本文算法與GBVS[4]、 Itti[2]、 Judd[3]、 AIM[10]、LG[8]等視覺注意方法進(jìn)行對比。
對比實(shí)驗(yàn)中使用的評價(jià)指標(biāo)為ROC(Receiver Operating Characteristic)曲線,實(shí)現(xiàn)方法與文獻(xiàn)[12,15]相同。圖6~8為實(shí)驗(yàn)對比結(jié)果,顯著區(qū)域百分比是通過對歸一化顯著圖作閾值處理獲得,真正率(True Positive Rate)反映當(dāng)前落入顯著區(qū)域的樣本占所有樣本的比例。通過變化顯著區(qū)域百分比獲得ROC曲線。為了更直觀比較算法效果,實(shí)驗(yàn)結(jié)果圖中標(biāo)注了每種算法的AUC(Area Under Curve)值,AUC值通過計(jì)算ROC曲線下的面積獲得。AUC值越大表示該方法給出的顯著性預(yù)測結(jié)果越準(zhǔn)確。
圖6為利用對象級突出圖作為顯著圖在OSIE數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果。相對于RCNN算法, fasterRCNN算法使用了更深層次的網(wǎng)絡(luò)結(jié)構(gòu)和更多對象類別的訓(xùn)練樣本,具有較高的對象位置預(yù)測準(zhǔn)確率和對象檢出率。實(shí)驗(yàn)分析可以看出,使用fasterRCNN算法生成對象級突出圖可以更好進(jìn)行顯著性預(yù)測。同時(shí),人臉特征(FACE)的引入進(jìn)一步提升了預(yù)測準(zhǔn)確性,從一個(gè)側(cè)面說明了對象性信息對視覺注意的轉(zhuǎn)移具有引導(dǎo)作用。
圖7是多種視覺注意算法在OSIE數(shù)據(jù)集上的ROC曲線,可以看出本文方法實(shí)驗(yàn)效果明顯好于其他算法。僅次于本文算法的是GBVS和Judd,Itti的準(zhǔn)確率較差。圖中對象級特征曲線為使用fasterRCNN結(jié)合人臉特征生成對象級突出圖獲得,由于該方法完全使用自頂向下的對象特征,顯著性預(yù)測準(zhǔn)確率明顯弱于其他方法,因而證明了引入像素級特征必要性。圖8為MIT數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,本文方法和Judd算法為最好的兩種方法,實(shí)驗(yàn)結(jié)果相差不大。AIM和LG方法效果較差。本文方法和Judd方法均使用了對象特征,可以看出整合了對象特征的方法相對于完全自底向上模型有明顯優(yōu)勢。
圖9中給出了多種算法顯著圖的直觀對比。與其他方法強(qiáng)調(diào)對象邊緣不同,本文結(jié)合了對象信息的方法可以有效突出圖像中的完整對象區(qū)域。
5 結(jié)語
本文提出一種結(jié)合對象信息的視覺注意方法。與傳統(tǒng)的視覺注意整合對象方法相比,該方法利用卷積神經(jīng)網(wǎng)學(xué)到的對象特征,獲取圖像中對象位置等信息;然后通過一個(gè)線性回歸模型將同一幅圖像的多個(gè)對象加權(quán)整合,獲得對象級突出圖;最后,根據(jù)視覺注意的層次整合機(jī)制,將低層次特征和對象特征進(jìn)行融合形成最終的顯著圖。本文方法在不同數(shù)據(jù)集上的準(zhǔn)確率要高于現(xiàn)有模型。針對包含明顯對象的圖像,本文方法克服了部分現(xiàn)有模型由于邊緣強(qiáng)化效果導(dǎo)致的顯著區(qū)域預(yù)測不準(zhǔn)的問題。本文方法仍然存在一定局限性,未來的工作將嘗試非線性對象整合以及增大訓(xùn)練樣本數(shù)量和網(wǎng)絡(luò)規(guī)模以獲取更多種對象特征。
參考文獻(xiàn):
在國內(nèi),百度DuerOS 2.0,希望成為新標(biāo)桿,阿里ET大腦又開啟新征程。
國外
谷歌:正式TensorFlow Lite可在移動(dòng)設(shè)備上運(yùn)行深度學(xué)習(xí)
今年5月,在GoogleI/O開發(fā)者大會上,Google宣布了一個(gè)專門針對移動(dòng)設(shè)備優(yōu)化系統(tǒng)的TensorFlow新版本。11月,正式了TensorFlow Lite。
據(jù)了解,這款被稱為TensorFlow Lite的軟件庫,是可在移動(dòng)設(shè)備上運(yùn)行的深度學(xué)習(xí)工具,它允許開發(fā)人員在用戶的移動(dòng)設(shè)備上實(shí)時(shí)運(yùn)行人工智能應(yīng)用。此外,自TensorFlow Lite正式公布以來,已經(jīng)出現(xiàn)了多個(gè)安裝在移動(dòng)設(shè)備上具有類似功能的學(xué)習(xí)軟件庫,包括蘋果的CoreML、Clarifai人工智能云端訓(xùn)練服務(wù),以及華為Mate10使用的麒麟970人工智能處理器。
亞馬遜:AWS re:Invent 2017大會AWS云推出新品EKS
11月,在亞馬遜舉辦的AWS re:Invent 2017大會上,公司了22款新品,分別涉及計(jì)算能力、數(shù)據(jù)庫、機(jī)器學(xué)習(xí)、智能硬件和IOT等領(lǐng)域,尤其是在計(jì)算能力、數(shù)據(jù)庫方面對AWS云服務(wù)進(jìn)行了升級。
其中,AWS云推出了新品EKS,是AWS云上托管的Kubernete容器服務(wù),不僅兼容多云環(huán)境,還具備高可用性、自動(dòng)部署,自主升級等優(yōu)勢,并可與AWS上其他服務(wù)集成,兩個(gè)平臺可無縫集成,在ECS中的應(yīng)用同樣可以使用AWS其它服務(wù)。
FB:Pytorch 0.3實(shí)現(xiàn)多方優(yōu)化增加對ONNX支持
今年初,F(xiàn)acebook在機(jī)器學(xué)習(xí)和科學(xué)計(jì)算工具Torch的基礎(chǔ)上,針對Python語言了一個(gè)全新的機(jī)器學(xué)習(xí)工具包PyTorch。日前,這款工具包又迎來了它的0.3.0版本,此版本增加了多個(gè)函數(shù)功能,多方面性能均有所提升。
其中,0.3版本中刪掉了Variable.reinforce()等隨機(jī)函數(shù),用torch.distributions包來代替。新功能包括構(gòu)建了一個(gè)in-built Profiler,能對模型進(jìn)行瓶頸分析,同時(shí)支持CPU和CUDA模型;增加Higher order gradients模塊;以及優(yōu)化器中增加了add_param_group函數(shù),能在構(gòu)建好的優(yōu)化器中增加新的參數(shù)組。除此之外,還增加了新的張量函數(shù)和功能,在新版本中,能通過ONNX將模型遷移到其他框架上。
IBM:強(qiáng)化AI實(shí)力Deep Learning Impact軟件工具
11月,IBM公布了一款最新軟件Deep Learning Impact,其幫助用戶開發(fā)的AI模型可使用流行的開源、深度學(xué)習(xí)框架,例如TensorFlow和Caffee。12月,這款工具被添加到IBM的Spectrum Conductor軟件中。
除了軟件,IBM還推出了為AI量身定制的基于Power9處理器的新系統(tǒng)。據(jù)了解,該系統(tǒng)可以在Power9 CPU和硬件加速器(例如GPU和FPGA)之間加速傳輸數(shù)據(jù)。此外,Power9將成為首個(gè)片上支持最新高速連接器(包括Nvidia下一代NVLink、OpenCAPI 3.0和PCIe 4.0)的商用平臺。
國內(nèi)
百度:DuerOS 2.0搭載AI硬件渡鴉raven H樹立新標(biāo)桿
在今年的百度世界大會上,主打下一代人機(jī)交互的DuerOS迎來一次重大升級,推出了2.0版本。據(jù)官方資料,DuerOS 2.0主要帶來了兩個(gè)變化:其一,是小度智能設(shè)備開放平臺的升級;其二,則是小度技能開放平臺的全新。至此,基于語音交互,DuerOS形成了兩個(gè)開放式平臺,可以對接設(shè)備開發(fā)商、生態(tài)合作伙伴、線上線下服務(wù)提供商。
此外,百度世界大會上同時(shí)了人工智能硬件產(chǎn)品渡鴉raven H,這款產(chǎn)品通過搭載DuerOS 2.0,在功能和用戶體驗(yàn)上樹立了新的標(biāo)桿。
騰訊:騰訊云正式Supermind用人工智能方式實(shí)現(xiàn)網(wǎng)絡(luò)規(guī)劃
11月,騰訊云正式SUPERMIND智能網(wǎng)絡(luò)產(chǎn)品。據(jù)介紹,相比此前網(wǎng)絡(luò)產(chǎn)品,SUPERMIND智能網(wǎng)絡(luò)將擁有高性能、全球互聯(lián)、智能化等三大特點(diǎn)。
據(jù)了解,用人工智能方式實(shí)現(xiàn)網(wǎng)絡(luò)規(guī)劃、建設(shè)以及運(yùn)維的全流程,是騰訊云SUPERMIND網(wǎng)絡(luò)產(chǎn)品最大的亮點(diǎn)。騰訊云SUPERMIND智能網(wǎng)絡(luò)能夠結(jié)合幾萬條線路特征智能規(guī)劃,通過歷史用量分析、網(wǎng)絡(luò)路徑分析、用戶反饋分析、節(jié)點(diǎn)規(guī)劃建議、專線擴(kuò)容建議等方面,合理規(guī)劃出網(wǎng)絡(luò)建設(shè)路線,大幅縮短規(guī)劃時(shí)間,節(jié)約時(shí)間成本。
阿里巴巴:ET大腦獲世界互聯(lián)網(wǎng)領(lǐng)先科技成果18強(qiáng)
自去年8月阿里巴巴推出ET大腦,一年多來已經(jīng)被用來解決和探索社會經(jīng)濟(jì)發(fā)展當(dāng)中依靠人腦所無法解決的棘手問題。據(jù)阿里巴巴集團(tuán)CEO張勇介紹:“整個(gè)ET大腦有非常多的人工智能技術(shù),不僅僅是機(jī)器視覺、語音識別、自然語言處理等單個(gè)的AI技術(shù),更重要的是這些技術(shù)有機(jī)整體的實(shí)現(xiàn)和全局的突破?!?/p>
在11月舉辦的第三屆世界互聯(lián)網(wǎng)大會上,15項(xiàng)世界互聯(lián)網(wǎng)領(lǐng)先科技成果同時(shí),其中便包括ET大腦。獲獎(jiǎng)原因包括AI、云計(jì)算、大數(shù)據(jù)能力與垂直領(lǐng)域知識深度結(jié)合,以及在應(yīng)方面,已廣泛應(yīng)用于城市治理、工業(yè)制造、社會安全等數(shù)十個(gè)垂直領(lǐng)域。
中國移動(dòng):移動(dòng)網(wǎng)絡(luò)業(yè)界首個(gè)AI平臺“九天”
12月,中國移動(dòng)面向業(yè)界首個(gè)AI平臺“九天”。
據(jù)了解,該平臺可以拆分出三個(gè)方面:第一方面,產(chǎn)品的應(yīng)用服務(wù),包括運(yùn)營、連接、服務(wù)三大領(lǐng)域,旗下分別包括智能營銷、智能決策、智能網(wǎng)絡(luò)、智能物聯(lián)以及智能客服等領(lǐng)域;第二方面,AI核心能力層可以將其處理的數(shù)據(jù)自主分為語音語言類型、圖像識別類型等;第三方面,“九天”的深度學(xué)習(xí)平臺是中國移動(dòng)首款基于GPU的深度學(xué)習(xí)訓(xùn)練平臺。
中科視拓:推出深度學(xué)習(xí)服務(wù)平臺SeeTaaS將深度學(xué)習(xí)開發(fā)過程簡化
10月,中科視拓推出一站式企業(yè)級深度學(xué)習(xí)平臺SeeTaaS,主要用于研發(fā)人臉識別、手勢識別、無人機(jī)視覺、視頻結(jié)構(gòu)化分析等在內(nèi)的企業(yè)級解決方案。據(jù)了解,該平臺可以提供深度學(xué)習(xí)相關(guān)的數(shù)據(jù)、算法、算力等服務(wù),同時(shí)將深度學(xué)習(xí)的開發(fā)過程簡化為:上傳數(shù)據(jù)、選擇算法、自動(dòng)調(diào)參、輸出訓(xùn)練模型、模型批量測試、模型跨平臺部署等。
應(yīng)用方面,中科視拓已與中國平安、中國航天科技、中國電信、華為、百度、三星、高通等企業(yè)達(dá)成合作。
EasyStack:推出全球首個(gè)同時(shí)支持GPU和FPGA開源云平臺
在2017中國開源產(chǎn)業(yè)峰會暨第21屆中國國際軟件博覽會分論壇上,EasyStack正式推出全球首個(gè)同時(shí)支持GPU和FPGA異構(gòu)計(jì)算的人工智能開源云平臺ESCould AI。
關(guān)鍵詞:辛烷值;快速檢測方法;氣相色譜法;紅外光譜法;拉曼光譜法
中圖分類號:TB 文獻(xiàn)標(biāo)識碼:A doi:10.19311/ki.1672-3198.2016.07.092
辛烷值是表征車用汽油抗爆性的重要指標(biāo),1926年美國科學(xué)家埃得將辛烷值引入汽油性能指標(biāo)。汽油在燃燒過程中,抵抗爆震的能力叫作抗爆性,辛烷值就是表示汽油抗爆性的指標(biāo)。辛烷值越高,其抗爆性能越好,汽油在汽缸中燃燒越充分,燃燒效率越高,尾氣排放中的一氧化碳、碳?xì)浠衔锖吭降停瑢Νh(huán)境的危害相應(yīng)越小。
馬達(dá)法辛烷值和研究法辛烷值是汽油的辛烷值的傳統(tǒng)測量方法,方法用樣品量大,時(shí)間長、費(fèi)用高,不適于生產(chǎn)控制的在線測試。本文對近幾年出現(xiàn)的幾種辛烷值測量的快速分析方法進(jìn)行總結(jié)和綜述,介紹相關(guān)方法的應(yīng)用進(jìn)展。
1 拉曼光譜法
拉曼分析方法作為一種光譜檢測技術(shù),不僅樣品預(yù)處理簡單、分析速度快、效率高、重現(xiàn)性好,另外還具有受水分干擾小、樣品無損、可進(jìn)行微量樣品探測、檢測頻帶寬、可快速跟蹤反應(yīng)過程等特點(diǎn);即便是非極性基團(tuán)如c=c,c=c等紅外吸收較弱的官能團(tuán),在拉曼光譜中也可以得到很強(qiáng)的吸收譜帶。因此,特別適合用于對含碳、氫基團(tuán)較高的汽油樣品的辛烷值檢測。
康健爽等2010年提出了一種使用拉曼分析測定汽油辛烷值的方法,并設(shè)計(jì)了辛烷值拉曼光譜在線檢測系統(tǒng)。這種辛烷值在線監(jiān)控系統(tǒng)能夠?qū)崟r(shí)監(jiān)控乙醇汽油中的組分變化,并給出對應(yīng)的拉曼分析曲線;根據(jù)光柵型和傅立葉變換型光譜儀各自特點(diǎn),選用光柵型拉曼光譜儀應(yīng)用于辛烷值在線檢測。以Lambert-Beer定律為基礎(chǔ),采用化學(xué)計(jì)量學(xué)方法,將檢測數(shù)據(jù)和采用標(biāo)準(zhǔn)方法測得的屬性數(shù)據(jù)之間關(guān)聯(lián),建立分析模型,在具體算法實(shí)現(xiàn)過程中,分別采用PCA和PLS兩種方法建立關(guān)聯(lián)分析模型,并用于乙醇汽油辛烷值的快速預(yù)測,指導(dǎo)實(shí)際調(diào)和過程。實(shí)踐證明,相對傳統(tǒng)的檢測手段,該系統(tǒng)具有測試速度快、分析時(shí)間短、檢測費(fèi)用低、經(jīng)濟(jì)效益高等特點(diǎn)。
2 氣相色譜法
李長秀等2003年建立了一種新方法,該方法將氣相色譜結(jié)果關(guān)聯(lián)建模用以計(jì)算汽油樣品的辛烷值。對汽油的組成采用高分辨毛細(xì)管柱進(jìn)行測定,根據(jù)汽油單體烴組分的含量和純組分辛烷值乘積的大小,將單體烴組分分為兩組,每一組為一個(gè)變量,建立實(shí)測辛烷值與兩個(gè)變量間的回歸模型。實(shí)際分析時(shí),根據(jù)樣品的類型帶入相應(yīng)的模型進(jìn)行關(guān)聯(lián)計(jì)算即可得到樣品的辛烷值。該方法與采用標(biāo)準(zhǔn)方法測定催化裂化汽油辛烷值的結(jié)果相比,測定結(jié)果的偏差約0.5個(gè)單位。該方法因?yàn)椴僮飨鄬唵?,樣品量耗費(fèi)少,且建模過程快速、簡便,適于穩(wěn)定工藝過程中的汽油辛烷值的在線監(jiān)測。
于愛東等采用毛細(xì)管氣相色譜法對汽油單體烴類進(jìn)行分離,用PONA汽油組成軟件對汽油單體烴進(jìn)行定性、定量、Pona組成計(jì)算.將汽油單體烴分為37組,建立實(shí)測辛烷值與37個(gè)變量之間的回歸模型,計(jì)算汽油辛烷值。該模型計(jì)算辛烷值與實(shí)測辛烷值的極差為0.26個(gè)單位,適用辛烷值在88~92之間的油品。辛烷值的計(jì)算公式能夠較好地反映汽油單體烴與辛烷值之間的關(guān)系。方法操作簡單,樣品用量少,結(jié)果準(zhǔn)確,適合于煉廠蒸餾、催化過程中汽油辛烷值的實(shí)時(shí)監(jiān)測。
3 近紅外光譜法
近紅外光譜分析方法是一種間接分析方法,它先利用一組汽油標(biāo)準(zhǔn)樣品,在汽油的近紅外光譜數(shù)據(jù)間和汽油辛烷值建立數(shù)據(jù)關(guān)聯(lián)分析模型,再用該模型預(yù)測未知汽油樣品的辛烷值。測量精度除受儀器精度影響外,還受所建分析模型精度影響。
韓言正等介紹了一種自主開發(fā)研制的汽油辛烷值近紅外光譜在線分析儀。該分析儀包括近紅外光譜在線測量、光譜預(yù)處理和實(shí)時(shí)建模等部分。對于原始的近紅外光譜數(shù)據(jù),采用多項(xiàng)式卷積算法進(jìn)行光譜平滑、基線校正和標(biāo)準(zhǔn)歸一化;通過模式分類與偏最小二乘進(jìn)行實(shí)時(shí)建模。該分析儀已成功應(yīng)用于某煉油廠生產(chǎn)過程的辛烷值在線監(jiān)測。
汽油辛烷值預(yù)測體系具有非線性的特點(diǎn),史月華等據(jù)此提出主成分回歸殘差神經(jīng)網(wǎng)絡(luò)校正算法(PCRRANN)用于近紅外測定汽油辛烷值的預(yù)測模型校正。該方法結(jié)合了主成分回歸算法(PC),與PLS(PartialLeastSquare),PCR,PLS(NPLS,Non lin-earPLS)等經(jīng)典校正算法相比,預(yù)測能力有明顯的提高。
獨(dú)立分量分析(ICA)是統(tǒng)計(jì)信號處理近年來的一項(xiàng)發(fā)展。顧名思義,這是一種分解技術(shù),其特點(diǎn)是把信號分解成若干相互獨(dú)立的成分。主分量分析(PCA)和奇異值分解(SVD)是人們較熟悉的分解信號的線性代數(shù)方法,ICA與它們的主要不同之處表現(xiàn)在:
(1)后者只要求分解出來的各分量互相正交(不相關(guān)),但并不要求它們互相獨(dú)立。用統(tǒng)計(jì)信號處理的語言來表達(dá),即:后者只考慮二階統(tǒng)計(jì)特性,而前者則要更全面考慮其概率密度函數(shù)的統(tǒng)計(jì)獨(dú)立性。
(2)后者按能量大小排序來考慮被分解分量的重要性。這樣的分解雖然在數(shù)據(jù)壓縮和去除弱噪聲方面有其優(yōu)點(diǎn),但分解結(jié)果往往缺乏明確的生理意義。前者雖然分解出的分量其能量大小存在不確定性,但當(dāng)測量值確實(shí)是由若干獨(dú)立信源混合而成時(shí),分解結(jié)果往往具有更好的生理解釋。由于測得的生理信號往往是若干獨(dú)立成分的加權(quán)迭加(例如,誘發(fā)腦電總是被自發(fā)腦電所淹沒,而且常伴隨有心電、眼動(dòng)、頭皮肌電等干擾),此ICA是一項(xiàng)值得注意的分解方法。
此外,神經(jīng)生理研究認(rèn)為,人類對認(rèn)知、感知信息的前期處理有“去冗余”的特點(diǎn)。ICA在這方面也表現(xiàn)出類似特性,因?yàn)榛ハ嗒?dú)立的分量之間互信息是最少的。ICA是伴隨著盲信號處理,特別是盲信源分離發(fā)展起來。其研究熱潮方興未艾,也正在引起生物醫(yī)學(xué)工程界的注意,IEEETransBME正在組織出版以它為重點(diǎn)的專輯。就國際范圍看,以下幾個(gè)研究單位目前工作比較領(lǐng)先:(1)美國加州大學(xué)生物系計(jì)算神經(jīng)生物學(xué)實(shí)驗(yàn)室,(2)日本Riken腦科學(xué)研究所腦信息研究室,(3)芬蘭赫爾辛基工業(yè)大學(xué)計(jì)算機(jī)及信息科學(xué)實(shí)驗(yàn)室,目前發(fā)表有關(guān)文獻(xiàn)較多的刊物有IEEETrans的SP和NN以及NeuralComputation等。本文目的是對ICA的原理、算法及應(yīng)用作一簡述,以引起國內(nèi)同行對它的關(guān)注。將側(cè)重于概念說明,而不追求數(shù)學(xué)上的嚴(yán)謹(jǐn)性。
2原理
2.1問題的提法,s-(n)是一組互相獨(dú)立的信源,A是混合矩陣,x-(n)是觀察記錄,即x-(n)=As-(n)。問題的任務(wù)是:在A陣未知且對s-(n)除獨(dú)立性外無其它先驗(yàn)知識的情況下,求解混矩陣B,使得處理結(jié)果y-(n)=Bx-(n)中各分量盡可能互相獨(dú)立,且逼近s(n)。容易理解,解答不是唯一的,它至少受以下條件的限制:(1)比例不定性:s-(n)中某一分量大K倍時(shí),只要使相應(yīng)的A陣系數(shù)減小K倍,x-(n)便保持不變。
因此,求解時(shí)往往把s-(n)假設(shè)成具有單位協(xié)方差陣,即s-中各分量均值為零,方差為1,且互相獨(dú)立。(2)排序不定性:y-與s-中各分量排序可以不同。因?yàn)橹灰獙φ{(diào)B陣中任意兩行,y-中相應(yīng)元素的位置也便對調(diào)。(3)s-(n)中至多只能有一個(gè)高斯型信源:這是因?yàn)楦咚剐旁吹木€性組合仍是高斯型的,因此混合后便無法再區(qū)別。(4)信源數(shù)目N只能小于或等于觀測通道數(shù)M。N>M情況目前尚未解決。以下討論設(shè)M=N。因此,y-(n)只是在上述條件下對s-(n)的逼近。換名話說,任務(wù)的實(shí)質(zhì)是優(yōu)化問題,它包括兩個(gè)主要方面:優(yōu)化判據(jù)(目標(biāo)函數(shù))和尋優(yōu)算法。
2.2目標(biāo)函數(shù)
這一領(lǐng)域的研究者已經(jīng)從不同角度提出了多種判據(jù)。其中以互信息極小判據(jù)(MinimizationofMutualInformation,簡記MMI)和信息或熵極大判據(jù)(Informax或MaximizationofEntropy,簡記ME)應(yīng)用最廣。由于最基本的獨(dú)立性判據(jù)應(yīng)由概率密度函數(shù)(probabilitydensityfunction,簡記pdf)引出,而工作時(shí)pdf一般是未知的,估計(jì)它又比較困難,因此通常采用一些途徑繞過這一困難。
常用的方法有兩類:①把pdf作級數(shù)展開,從而把對pdf的估計(jì)轉(zhuǎn)化為對高階統(tǒng)計(jì)量的估計(jì);②在圖1的輸出端引入非線性環(huán)節(jié)來建立優(yōu)化判據(jù)。后一作法實(shí)際上隱含地引入了高階統(tǒng)計(jì)量。(1)互信息極小判據(jù):統(tǒng)計(jì)獨(dú)立性的最基本判據(jù)如下:令p(y-)是y-的聯(lián)合概率密度函數(shù),pi(yi)是y-中各分量的邊際概率密度函數(shù)。當(dāng)且僅當(dāng)y-中各分量獨(dú)立時(shí)有:p(y-)=∏Ni=1pi(yi)因此用p(y-)與∏i=1pi(yi)間的Kullback-Leibler散度作為獨(dú)立程度的定量度量:I(y-)=KL[p(y-),∏Ni=1pi(yi)]=∫p(y-)log[p(y-)∏Ni=1pi(yi)]dy-(1)顯然,I(y-)0,當(dāng)且僅當(dāng)各分量獨(dú)立時(shí)I(y-)=0。因此,互信息極小判據(jù)的直接形式是:在y-=Bx-條(文秘站:)件下尋找B,使(1)式的I(y-)極小為了使判據(jù)實(shí)際可用,需要把I(y-)中有關(guān)的pdf展成級數(shù)。
由于在協(xié)方差相等的概率分布中高斯分布的熵值最大,因此展開時(shí)常用同協(xié)方差的高斯分布作為參考標(biāo)準(zhǔn)。例如,采用Gram-Charlier展開時(shí)有:P(yi)PG(yi)=1+13!k2yih3(y-i)+14!k4yih4(yi)+…式中PG(yi)是與P(yi)具有同樣方差(σ2=1)和均值(μ=0)的高斯分布。k3yi、k4yi是yi的三、四階累計(jì)量(cumulant),hn(yi)是n階Hermit多項(xiàng)式。此外還有許多其他展開辦法,如Edgeworth展開,利用負(fù)熵(Negentropy)等。不論采用何種展開方式,經(jīng)推導(dǎo)后總可把式(1)近似改成k3、k4的函數(shù):I(y)=F(k3y-,k4y-,B)(1)’F(·)的具體形式多種多樣,視推導(dǎo)時(shí)的假設(shè)而異。
這樣就得到互信息判據(jù)的實(shí)用近似形式:在y-=Bx-條件下尋找B,使式(1)的I(y-)極小(2)Infomax判據(jù):這一判據(jù)的特點(diǎn)是在輸出端逐分量地引入一個(gè)合適的非線性環(huán)節(jié)把yi轉(zhuǎn)成ri(如圖2)??梢宰C明,如果gi(·)取為對應(yīng)信源的累積分布函數(shù)cdf(它也就是概率密度函數(shù)的積分),則使r-=(r1…rN)T的熵極大等效于使I(y-)極小,因此也可達(dá)使y-中各分量獨(dú)立的要求。從而得到Infomax判據(jù):在選定適當(dāng)gi(·)后,尋找B使熵H(r-)極大需要指出的是,雖然理論上gi(·)應(yīng)取為各信源的cdf,但實(shí)踐證明此要求并不很嚴(yán)格,有些取值在0~1之間的單調(diào)升函數(shù)也可以被采用,如sigmoid函數(shù)、tanh(·)等。估計(jì)H(r-)固然也涉及pdf,但由于其作用已通過gi(·)引入,所以可以不必再作級數(shù)展開而直接用自適應(yīng)選代尋優(yōu)步驟求解。文獻(xiàn)中還提出了一些其他判據(jù),如極大似然、非線性PCA等,但它們本質(zhì)上都可統(tǒng)一在信息論的框架下,所以不再一一列舉[1]。
3處理算法優(yōu)化算法
可大致分為兩類,即批處理與自適應(yīng)處理。
3.1批處理批處理比較成熟的方法有兩類。較早提出的是成對旋轉(zhuǎn)法[2],其特點(diǎn)是把優(yōu)化過程分解成兩步。先把x-(n)經(jīng)W陣加以“球化”得z-(n),使z-(n)T=IN,即:各分量不相關(guān)且方差為1,然后再尋找合適的正交歸一陣U達(dá)到使y-各分量獨(dú)立的目的。前一步類似于PCA,后一步則可利用Givens旋轉(zhuǎn),根據(jù)目標(biāo)函數(shù),將z-中各分量兩兩成對反復(fù)旋轉(zhuǎn)直到收斂。這種方法計(jì)算量較大。1999年,Gadoso提出幾種方法對它作了進(jìn)一步改進(jìn)[3],其中包括:Maxkurt法、JADE法、SHIBBS法等,限于篇幅,本文不再敘述。近年來,提出的另一類方法是所謂“固定點(diǎn)”法(FixedPointMethod)[4,5
],其思路雖來源于自適應(yīng)處理,但最終算法屬于批處理。
簡單地說,通過隨機(jī)梯度法調(diào)節(jié)B陣來達(dá)到優(yōu)化目標(biāo)時(shí),有:B(k+1)=B(k)+ΔB(k)ΔB(k)=-μεkB(k)式中k是選代序號,εk是瞬時(shí)目標(biāo)函數(shù)。當(dāng)?shù)竭_(dá)穩(wěn)態(tài)時(shí)必有[E是總集均值算子]:E[ΔB(k)]=0(2)如果ΔB(k)與B(k)有關(guān),就可由(2)式解出B的穩(wěn)態(tài)值。不過由于(2)式總是非線性方程,因此求解時(shí)仍需要采用數(shù)值方法(如牛頓法、共軛梯度法等)迭代求解。實(shí)踐證明,不論是收斂速度還是計(jì)算量,此法均優(yōu)于前一種方法,而且它還可以根據(jù)需要逐次提取最關(guān)心的yi,因此是一類值得注意的方法。
3.2結(jié)合神經(jīng)網(wǎng)絡(luò)的自適應(yīng)處理結(jié)合神經(jīng)網(wǎng)絡(luò)的自適應(yīng)處理算法的框圖。1994年Cichocki提出的調(diào)節(jié)算法是:B(k+1)=B(k)+ΔB(k)ΔB(k)=μk[I-Ψ(y-k)ΦT(y-k)]B(k)式中Ψ、Φ都是N維矢量,其各元素都是單調(diào)升的非線性函數(shù):Ψ(yk)=sgnyk·y2k,ΦTy-k=3tanh(10yk)所得結(jié)果雖令人鼓舞,但是方法是經(jīng)驗(yàn)性的。其后學(xué)者們從理論上沿著這一方向作了更深入的討論,并發(fā)展出多種算法。概括地說,主要發(fā)展有以下幾點(diǎn):
(1)引入自然梯度(或相對梯度)。按照最陡下降的隨機(jī)梯度法推導(dǎo)出的系數(shù)調(diào)節(jié)公式往往具有如下一般形式:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]式中的Ψ(y-k)視具體算法而異。Infomax法中Ψ(·)由所選用的g(·)決定;MMI法中則與yk的三、四階矩有關(guān)。B-T(k)是矩陣求逆再轉(zhuǎn)置,它的計(jì)算量很大。Amari[7]在1998年提出將最陡下降梯度改為“自然梯度”,兩者間關(guān)系是:[自然梯度]=[最陡下降梯度]·BT(k)B(k)于是有:ΔB(k)=μk[B-T(k)-Ψ(y-k)x-Tk]BT(k)B(k)=μk[I-Ψ(y-k)y-Tk]B(k)由于此式避免了矩陣求逆,因此計(jì)算量明顯降低且收斂加快。目前,這一作法已被普遍接受。
(2)引入自然梯度后,采用不同的優(yōu)化判據(jù)得出的調(diào)節(jié)公式雖各有千秋,但大致都可表示為如下的“串行更新”形式:B(k+1)=B(k)+ΔB(k)=[I+H(y-k)]B(k)只是H(y-k)的具體形式各不相同。串行矩陣更新的算法還具有一些理論上值得注意的性質(zhì),如均勻特性(uniformproperty)和等變性(equivariant)等[8,9]。
(3)四階累計(jì)量k4>0的超高斯信號和k4<0的欠高斯信號,其處理過程應(yīng)當(dāng)予以區(qū)別。采用同一算法效果往往不好。目前的辦法多是在調(diào)節(jié)公式中引入一個(gè)開關(guān)。根據(jù)估計(jì)得k4的符號來切換不同算法,如擴(kuò)展的Infomax法就是一例[10]。此法的系數(shù)調(diào)節(jié)公式是:ΔB(k)=μk[I-Ktanh(y-k)·y-Tk-y-ky-Tk]B(k)其中K是對角陣,其對角元素之值為+1或-1,視該信號分量k4>0或<0而定。為了實(shí)時(shí)應(yīng)用,估計(jì)K4也可采用遞歸算法??傊?自適應(yīng)算法是目前采用較廣的方法。
4應(yīng)用舉例
4.1仿真計(jì)算為檢驗(yàn)經(jīng)ICA算法分解信源的能力,左圖是一組源信號,它們對系統(tǒng)來說是未知的。這一組信號經(jīng)混合后的觀察信號作為(中圖所示)ICA算法的輸入,分解后的結(jié)果如右圖所示??梢钥吹?除了波形的次序、極性和波幅發(fā)生變化之外,源信號的波形被很好地分解出來。一般情況下,臨床腦電信號中既有超高斯成分(如誘發(fā)電位),也有亞高斯成分(如肌電和工頻干擾)。為了檢驗(yàn)擴(kuò)展Infomax算法處理這類情況的能力,我們又用此法進(jìn)行了如圖6所示仿真實(shí)驗(yàn)。左圖第一行是一段自發(fā)腦電信號,第二行是仿真的視覺誘發(fā)電位,第三行是肌電干擾?;旌虾蟮男盘?圖中第二列所示)經(jīng)ICA分解得到如右圖所示的結(jié)果。這一結(jié)果表明擴(kuò)展ICA算法在同時(shí)存在超高斯和亞高斯信號的情況下,仍然能夠很好地實(shí)現(xiàn)盲分解。但應(yīng)指出:這一仿真結(jié)果并不說明通過ICA分解就能直接得到視覺誘發(fā)電位,因?yàn)檫€沒有涉及頭皮上的多導(dǎo)數(shù)據(jù)。
4.2實(shí)驗(yàn)VEP分析(1)多導(dǎo)腦電觀察中VEP的增強(qiáng):需要強(qiáng)調(diào),把多導(dǎo)腦電作ICA分解后直接取出其中與VEP有關(guān)的成分,得到的并不是頭皮電極處的VEP分量,因?yàn)樗鼈冎皇欠纸獬鰜淼男旁?而這些信源的位置并不在頭皮上,為了得到電極處測量值中的VEP成分,需按下述步驟處理:用訓(xùn)練得的W陣直接對頭皮上取得的多導(dǎo)腦電數(shù)據(jù)進(jìn)行ICA分解,得到各獨(dú)立分量組成的矩恥y=Bx(見圖7a);再根據(jù)各分量的波形特征及產(chǎn)生時(shí)段,選擇與VEP有關(guān)的一部分分量(例如在前300ms中具有較大幅度的分量),并將其余分量置0,得到新的獨(dú)立分量矩陣y’;再反變換回頭皮各電極處得x’=B-1-y’。這樣才能得到去除噪聲和干擾后各電極處的VEP。
采用這樣的方法可顯著地減少提取VEP所需要的累加次數(shù)。左圖是經(jīng)3次累加所得VEP,中圖是經(jīng)50次累加所得結(jié)果,右圖則是用左圖經(jīng)圖7中ICA處理后提取的VEP。比較中、右兩圖,兩者波形趨勢基本相同,但后者比前者其主要峰、谷顯然更清楚,而累加次數(shù)由50減到3。(2)ICA分量的空間模式:把某一個(gè)ICA分量的瞬時(shí)值經(jīng)B-1逆推回頭皮各電極處得x-’后,就可以按斷層圖的插補(bǔ)方法得到該時(shí)該分量在頭皮上的空間分布模式。這個(gè)空間分布模式也可以用更簡單辦法得到:只要把逆矩陣B-1中相應(yīng)于某ICA分量的列中各元素的值賦與頭皮各電極處,再作斷層圖插值,就可以表現(xiàn)該ICA分量在任意時(shí)刻的空間分布模式。也就是:x’i(t)=b’ijy’j(t),i=1~N式中b’ij是B-1的第i行第j列元素。
可見ICA分量y’j(t)在頭皮各電極處的對應(yīng)值等于用逆陣B-1第j列各元素來對y’j(t)加權(quán)。因此,列矢量b’j=[b’1,…,b’Nj]可以用來統(tǒng)一地表現(xiàn)任意時(shí)刻y’j的空間模式。
5總結(jié)與展望
本文粗略介紹了ICA的原理、算法和應(yīng)用,可以看到ICA確是一個(gè)值得注意的研究方向,但其理論體系尚未完整,實(shí)際采用的處理方法多少還帶有經(jīng)驗(yàn)性。例如為什么對非線性特性gi的要求不甚嚴(yán)格就沒有明確解釋;又如算法的穩(wěn)定性、收斂性在實(shí)踐中是經(jīng)常遇到的問題。從應(yīng)用方面看也還有許多待開發(fā)的領(lǐng)域,例如如何應(yīng)用于生理信號的模式識別與系統(tǒng)建模等。從生物醫(yī)學(xué)信號分析的角度看,還有一些亟待深入的問題。例如:
(1)在以上分析中混合陣A被假設(shè)為恒定。這對靜態(tài)的圖像分析或固定信源是合理的;但在生理實(shí)際中,等效信源一般在空間并不固定,因而混合陣A應(yīng)視為時(shí)變的,而且傳導(dǎo)過程中還會引入容積導(dǎo)體的卷積及遲作用。這可能是實(shí)際生理信號分解結(jié)果不夠理想的原因之一。
(2)一般公認(rèn),生理信號的非平穩(wěn)性較強(qiáng),而以上分析并沒有考慮信號的非平穩(wěn)性。