前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經網絡的定義主題范文,僅供參考,歡迎閱讀并收藏。
1.神經網絡的架構正變得越來越復雜。感知和翻譯等大多數神經網絡的架構正變得越來越復雜,遠非此前簡單的前饋神經網絡或卷積神經網絡(CNN)所能比。特別需要注意的是,神經網絡正與不同的技術(如LSTMs、自定義目標函數等)相混合。
神經網絡是多數深度學習項目的根基。深度學習基于人腦結構,一層層互相連接的人工模擬神經元模仿大腦的行為,處理視覺和語言等復雜問題。這些人工神經網絡可以收集信息,也可以對其做出反應。它們能對事物的外形和聲音做出解釋,還可以自行學習與工作。
2.長短期記憶網絡(LSTMs)。當你閱讀本文時,你是在理解前面詞語的基礎上來理解每個詞語的。你的思想具有連續性,你不會丟棄已知信息而從頭開始思考。傳統神經網絡的一大缺陷便無法做到這一點,而遞歸神經網絡能夠解決這一問題。
RNN(循環神經網絡)擁有循環結構,可以持續保存信息。過去幾年里,RNN在語音識別和翻譯等許多問題上取得了難以置信的成功,而成功的關鍵在于一種特殊的RNN――長短期記憶網絡。
3.“注意力模型”。“注意力”是指神經網絡在執行任務時知道把焦點放在何處。我們可以讓神經網絡在每一步都從更大的信息集中挑選信息作為輸入。例如,當神經網絡為一張圖片生成標題時,它可以挑選圖像的關鍵部分作為輸入。
4.神經圖靈機依然有趣,但還無法勝任實際工作。當你翻譯一句話時,并不會逐詞進行,而會從句子的整體結構出發。機器難以做到這一點,這一挑戰就被稱為“強耦合輸出整體估計”。
神經圖靈機就是研究者們在硅片中重現人類大腦短期記憶的嘗試。它的背后是一種特殊類型的神經網絡,它們可以適應與外部存儲器共同工作,這使得神經網絡可以存儲記憶,還能在此后檢索記憶并執行一些有邏輯性的任務。
5.深度學習讓計算機視覺和自然語言處理不再是孤島。卷積神經網絡最早出現在計算機視覺中,但現在許多自然語言處理(NLP)系統也會使用。LSTMs與遞歸神經網絡深度學習最早出現在NLP中,但現在也被納入計算機視覺神經網絡。
此外,計算機視覺與NLP的交匯仍然擁有無限前景。
6.符號微分式越來越重要。隨著神經網絡架構及其目標函數變得日益復雜,手動推導出“反向傳播”的梯度也變得更加困難而且容易出錯。谷歌的TensorFlow等最新的工具包已經可以超負荷試驗符號微分式,能夠自動計算出正確的微分,以確保訓練時誤差梯度可被反向傳播。
7.神經網絡模型壓縮的驚人成果。多個團隊以不同方法大幅壓縮了訓練一個良好模型所需的素材體量,這些方法包括二值化、固定浮點數、迭代修剪和精細調優步驟等。
這些技術潛在的應用前景廣闊,可能將會適應在移動設備上進行復雜模型的訓練。例如,不需要延遲就可以得到語音識別結果。此外,如果運算所需要的空間和時間極大降低,我們就可以極高幀率(如30 FPS)查詢一個模型,這樣,在移動設備上也可以運用復雜神經網絡模型,近乎實時地完成計算機視覺任務。
8.深度學習和強化學習繼續交匯。在“端對端”機器人等領域出現了令人激動的進展,現在機器人已經可以一起運用深度和強化學習,從而將原始感官數據直接轉化為實際動作驅動。我們正在超越“分類”等簡單工作,嘗試將“計劃”與“行動”納入方程。
關鍵詞:卷積神經網絡;人臉識別;大樣本;對抗生成網絡
中圖分類號:TP391 文獻標識碼:A 文章編號:2095-1302(2017)07-00-04
0 引 言
近幾年,基于大量訓練數據的卷積神經網絡(Convolutional Neural Networks,CNN)在目標檢測、目標識別、顯著性檢測、行為識別、人臉識別和對象分割等計算機視覺領域取得了舉世矚目的成果。這些令人鼓舞的成績主要歸功于以下幾點:
(1)將大量有標簽的數據作為訓練集,學習出具有百萬參數的模型,從而使卷積神經網絡能夠有效提取對象的本質特征;
(2)不斷改進性能優異的網絡結構,如Very Deep VGG Network[1],Google Inception Network[2]和Deep Residual Networks[3]等;
(3)各種并行計算硬件設備(如GPU)的支持,大大提高了CNN訓練模型的效率。其中,將標簽的大量數據作為訓練集起著至關重要的作用。
本文以人臉識別為例,討論和綜述多樣本算法的研究現狀和發展方向。
有效的特征是目標識別的關鍵,對人臉識別問題來說亦如此。傳統的主成分分析(Principal Component Analysis,PCA)[4,5],線性區分分析(Linear Discriminant Analysis, LDA)[6]和局部二值模式化(Local Binary Pattern,LBP)[7,8]等取得了不錯的成績。基于傳統特征的人臉識別受限于環境,此類特征作用在復雜或者背景多變的人臉圖像時,其識別性能往往大幅下降,如在LFW數據集上其識別率驟然下降[9]。
采用CNN作為特征提取模型,主要考慮到該模型的所有處理層,包括像素級別的輸入層,均可從數據中學習到可調節的參數。即CNN能自喲喲笫據中學習特征,無需人工設計特征。合理有效的特征需從大量數據和大量參數中自動學習獲取,從而達到優秀的識別性能。基于卷積神經網絡的世界領先方法均使用了上百萬的數據,其中最具有代表性的如VGG-Face網絡需要260萬個人臉圖像樣本進行訓練[10],Facebook的DeepFace網絡需要440萬個有標簽的人臉圖像樣本訓練[11]。而Google更使用了2億樣本數據來訓練FaceNet網絡[12]。
1 多樣本獲取現狀
如引言所述,有效合理的特征是目標識別的關鍵,而CNN能從大量有標簽的數據中自動學習圖像的本質特征。獲得圖像特征的關鍵因素是有標簽的大數據。因此許多研究的前提工作均聚焦在人工獲取數據和給數據加標簽方面。然而,獲取百萬級的數據并非易事。大數據獲取需要人工從網上下載、處理,然后給數據添加標簽,耗費大量的人力物力。雖然也有一些公開免費的數據集,且收集該類數據相對比較容易,如CASIA-WebFace[13],有49萬個圖像,但遠少于Facebook和Google的數據集。在這種情況下,缺乏大量樣本直接阻礙了深度學習方法的使用,成為阻礙提高檢測率和識別率的瓶頸。除了深度學習技術提取特征需要大量樣本外,已有研究證明[14-19],基于傳統方法的技術同樣需要大量樣本作為支撐。在這種形勢下,通過圖像處理與機器學習技術自動增加樣本集已成為必要手段。
無論基于傳統方法的識別問題,還是基于深度學習的識別問題,大量有標簽的數據作為訓練集在算法中起著舉足輕重的作用。如果樣本不足,算法往往過擬合,無法提高算法的性能。為了獲得更多樣本,一些研究工作從網絡上獲取數據,例如在IMDb上,已經把9萬有標簽的數據集擴大到了26萬 [10]。除此之外,Facebook獲取了440萬個有標簽的人臉進行DeepFace網絡訓練[11],而Google使用2億個數據訓練FaceNet網絡[12]。
目前獲取方法具有如下局限:
(1)現有方法耗時耗力,需要經費支持。獲取百萬級的數據并非易事。大數據獲取需要人工從網上下載、處理,然后給數據添加標簽,耗費大量的人力物力。這種情況下,只有像Facebook和Google這樣的大公司會收集大量有標簽的數據進行網絡訓練。而大多數情況下的數據收集涉及個人隱私與財力物力等問題,對于一般的小公司或科研院所而言,收集數據普遍難度較大。
(2)收集特殊圖片困難。對于一些特殊的圖像,如醫學圖像,遙感圖像,現實中數量本身就少,加之無法直接從網上獲取,因此小樣本很容易導致過擬合。
2 樣本集擴大算法研究現狀
2.1 基于傳統方法的多樣本算法研究現狀
對于傳統的樣本生成算法,如果數據集中有足夠的訓練樣本,均可得到比較滿意的識別結果,但在現實的人臉數據庫中,人臉的數據樣本卻是有限的。文獻[20]表明,增加圖像樣本的數量可以較大幅度提高識別的準確率。
為了增加樣本數量,提高識別準確率,科研工作者已做了大量工作。其中,借助原始樣本產生虛擬樣本是一種有效的增加數據集方法。這種方法大致分為如下幾類:
(1)通過人臉圖像的對稱性來得到原始樣本的虛擬樣本,如Xu[14,15]和Liu等[21]提出借助原始圖像的“對稱臉”和“鏡像臉”產生虛擬樣本,從而擴大數據集并提高人臉識別的正確率,Song[22]也提出相應的算法來改進人臉識別的性能;
(2)通過改變圖像的光照、姿勢和表情等來產生虛擬樣本,例如Boom等用一種稱為VIG的方法對未知光照情況進行建模[16],Abdolali[17]和Ho[18]等提出了類似的算法擴大數據集;
(3)基于人臉圖像自身的特征生成虛擬樣本,Ryu等根據原始樣本的分布來產生虛擬樣本[19],Liu等也根據圖像本身特性來產生虛擬樣本[23]。
(4)基于數學的多樣本產生方法,如Zhang等提出利用奇異值分解的方法獲得基于原始樣本的虛擬樣本[24]。借助圖像合成方法生成的新樣本如圖1所示。
圖1 借助圖像合成方法生成新樣本
除了借助圖像處理方法獲得原始樣本的新樣本外,還可以利用圖像合成算法獲取多樣本,本研究做了相關實驗,其結果如圖1所示。假設數據集中有c類人臉圖像,每類有ni個樣本,令表示第i類中的第j個樣本,這里i=1,2,…,c,j=1,2,…,ni,h和w分別代表樣本xij的高和寬(均為像素值)。用X=[X1,X2,…,Xc]代表所有樣本,則Xi=[xi1,xi2,…,xini],i=1,2,…,c代表第i類樣本。則有:
其中, P(Xi)代表所生成的第i類新樣本, f(g)表示圖像處理函數,代表多個樣本的串聯,即將多個樣本聯合起來得到一個類別的新樣本。
2.2 基于深度學習的多樣本生成算法研究現狀
大量有標簽的訓練數據是機器學習成功的關鍵,尤其對于強大的深度學習技術,大數據集能提高CNN的性能,防止過擬合[25]。為了擴充數據集,已有一些工作在不改變圖像語義的情況下進行,如水平鏡像[26]、不同尺度的剪裁[27,28]、旋轉[29]和光照變化[27]等傳統方法。
DeepID[30]采取了增大數據集手法來訓練網絡,只有大的數據集才能使得卷積神經網絡訓練得更加充分,該研究采用兩種方法增大數據集:
(1)選擇采集好的數據,即映入CelebFaces數據集。
(2)將原始數據集中的圖片多尺度、多通道、多區域的切分,然后分別進行訓練,再把得到的向量串聯起來,即得到最后的向量。
以上方法僅局限于相對簡單的圖像處理技術,該類方法生成的多樣本具有一定的局限性。比如,真正意義上的旋轉應按一定的角度進行3D旋轉,而不僅僅是圖像本身的角度旋轉。合成數據能一定程度上解決以上問題,如Shotton等通過隨機森林合成3D深度數據來估計人體姿勢,Jaderberg等使用合成數據來訓練CNN模型識別自然場景下的文字[31]。這些研究的結果均優于使用剪裁,旋轉等傳統方法。但使用3D合成圖像比較復雜,需要較多的前期工作。
近年來,借助生成對抗網絡(Generative Adversarial Networks,GANs)來生成原始樣本的方法吸引了很多學者。2014年6月,Goodfellow 等發表了論文《Generative Adversarial Nets》[32],文中詳盡介紹了GANs的原理、優點及其在圖像生成方面的應用,標志著GANs的誕生。早期的GANs模型存在許多問題,如GANs網絡不穩定,甚至有時該網絡永遠不會開始學習,生成的結果無法令人滿意。文獻[32]中生成器生成的圖片十分模糊,針對此問題,Denton等提出一個被稱為 LAPGANs的模型[33],該模型用多個卷積神經網絡連續生成圖像,這些新圖像的清晰度不斷提高,最終得到高分辨率圖像。GANs除了基于圖像生成圖像外,還可以通過文字生成圖像,如文獻[34]搭起了文本到圖像的橋梁,通過GANs將文本直接轉換成對的圖像。文獻[35]將GAN應用于超分辨率中,該文獻提出了全新的損失函數,使得 GANs 能對大幅降采樣后的圖像恢復其生動紋理和小顆粒細節。另外,Radford 等提出了名為DCGANs的網絡[36],該文獻指出,用大數據集訓練出的 GANs 能學習一整套層級的特征,并具有比其他無監督學習模型更好的效果。以上方法均為基于一大類原始樣本生成另一大類圖像。
基于GAN生成樣本的過程如圖2所示。首先將同類別的原始圖像輸入到生成對抗網絡GAN的生成器網絡G中,生成“假冒”圖像G1和G2,接著借助判別器D來判斷輸入的圖像是真實圖像還是“假冒”圖像。生成器G努力生成類似原始樣本的圖像,力爭判別器D難以區分真假;而判別器D應不斷提高自身性能,有能力鑒別出由生成器G生成的圖像為贗品。生成器G和判別器D的價值函數如下:
生成器G最小化log(1-D(G(z))),判別器D最大化logD(x),使得最大概率按照訓練樣本的標簽分類, 生成模型G隱式定義了一個概率分布Pg,希望Pg 收斂到數據真實分布Pdata。
圖2 GAN生成新樣本示意圖
3 結 語
綜上所述,基于原始樣本的多樣本生成算法是一個值得深入研究探索的問題,具備清晰而明確的理論意義和現實應用意義。雖然研究人員已經對相關問題進行了一些研究,取得了一系列成果,但是多樣本的產生方法缺乏全面、深入的理解,尚未出現具有里程碑意義的研究成果。具體而言,本文認為,基于原始樣本的多樣本生成問題需要在如下幾個方面展開深入的研究:
(1)在研究多樣本生成算法時,保留原始樣本的本質特征,如在人臉識別中,拋棄不必要信息(光照、表情和姿勢)的影響是一項十分有意義的工作。
(2)在合成新樣本時,設計合理有效的構造元素,使合成的新表示更接近自然亦是一個值得研究的方向。
(3)基于生成對抗網絡,研究某一類對象的生成新樣本的核心算法是一項有意義的工作。
參考文獻
[1] K Simonyan, A Zisserman.Very deep convolutional networks for large-scale image recognition [Z]. Computer Science, 2014.
[2] C Szegedy,W Lin,Y Jia, et al. Going deeper with convolutions[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2015.
[3] K He,X Zhang,S Ren,et al. Deep residual learning for image recognition[C]. in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition,2016.
[4] Turk, Matthew, Pentland, et al.Eigenfaces for Recognition[J]. Journal of Cognitive Neuroscience, 2014,3(1): 71-86.
[5] A Pentland.Looking at People: Sensing for Ubiquitous and Wearable Computing[J].IEEE Transactions on Pattern Analysis & Machine Intelligence, 2000,22(1): 107-119.
[6] C Liu, H Wechsler.Robust coding schemes for indexing and retrieval from large face databases[J]. IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2000,9(1): 132-137.
[7] T Ojala,M Pietik?inen.Multiresolution gray-scale and rotation invariant texture classification with local binary patterns[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2002,24(7): 404-420.
[8] T Ahonen, A Hadid, M Pietikainen.Face Description with Local Binary Patterns: Application to Face Recognition[J]. European Conference on Computer Vision, 2004,28(12): 469-481.
[9] GB Huang, M Mattar, T Berg,et al. Labeled faces in the wild: A database for studying face recognition in unconstrained environments[Z].Month,2008.
[10] OM Parkhi, A Vedaldi, A Zisserman.Deep Face Recognition[C]. British Machine Vision Conference, 2015.
[11] Y Taigman,M Yang, Marc, et al. DeepFace: Closing the Gap to Human-Level Performance in Face Verification[C]. in Conference on Computer Vision and Pattern Recognition,2014.
[12] F Schroff,D Kalenichenko,J Philbin.FaceNet: A unified embedding for face recognition and clustering[C]. in IEEE Conference on Computer Vision & Pattern Recognition,2015.
[13] D Yi,Z Lei, S Liao, et al.Learning face representation from scratch[Z]. Computer Science, 2014.
[14] Y Xu, X Zhu, Z Li, et al.Using the original and ‘symmetrical face’ training samples to perform representation based two-step face recognition[J]. Pattern Recognition, 2013,46(4): 1151-1158.
[15] Y Xu.Integrate the original face image and its mirror image for face recognition[J]. Neurocomputing, 2014,31(7): 191-199.
[16] BJ Boom, LJ Spreeuwers, RNJ Veldhuis.Virtual illumination grid for correction of uncontrolled illumination in facial images[J]. Pattern Recognition, 2011,44(9): 1980-1989.
[17] F Abdolali,S Seyyedsalehi. Improving pose manifold and virtual images using bidirectional neural networks in face recognition using single image per person[Z]. in International Symposium on Artificial Intelligence and Signal Processing,2011.
[18] HT Ho,R Chellappa. Pose-invariant face recognition using Markov random fields[J].IEEE Transactions on Image Processing A Publication of the IEEE Signal Processing Society, 2013,22(4): 1573.
[19] Y.-S., Ryu.,S.-Y., O..Simple hybrid classifier for face recognition with adaptively generated virtual data[J]. Pattern Recognition Letters, 2012,23(7): 833-841.
[20] A Wagner,J Wright, A Ganesh,et al.Toward a Practical Face Recognition System: Robust Alignment and Illumination by Sparse Representation[J]. IEEE Transactions on Pattern Analysis & Machine Intelligence, 2012,34(2): 372-386.
[21] Z Liu,X Song,Z Tang.Integrating virtual samples and fuzzy discriminant analysis for sparse representation-based face classification[J]. Journal of Electronic Imaging, 2015,24(2): 23013.
[22] YJ Song,YG Kim,UD Chang,et al. Face recognition robust to left/right shadows; facial symmetry[J]. Pattern Recognition, 2006,39(8): 1542-1545.
[23] Z Liu, X Song, Z Tang.Fusing hierarchical multi-scale local binary patterns and virtual mirror samples to perform face recognition[J]. Neural Computing & Applications, 2015,26(8): 2013-2026.
[24] G Zhang,W Zou,X Zhang,et al. Singular value decomposition based sample diversity and adaptive weighted fusion for face recognition[J]. Digital Signal Processing, 2017,62: 150-156.
[25] K Chatfield,K Simonyan,A V edaldi,et al. Return of the devil in the details: Delving deep into convolutional nets[Z]. Computer science, 2014.
[26] H Yang, I Patras.Mirror, mirror on the wall, tell me, is the error small? [J]. Der Chirurg; Zeitschrift für alle Gebiete der,2015,69(12):235-240.
[27] A Krizhevsky, I Sutskever, GE Hinton. ImageNet Classification with Deep Convolutional Neural Networks [J]. Advances in Neural Information Processing Systems, 2012,25(2): 1097-1105.
[28] G Levi,T Hassner. Age and gender classification using convolutional neural networks[C].in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition Workshops,2015.
[29] S Xie, Z Tu. Holistically-nested edge detection[C]. in Proceedings of the IEEE International Conference on Computer Vision,2015.
[30] Y Sun, X Wang, X Tang.Deep Learning Face Representation from Predicting 10,000 Classes[C]. in Computer Vision and Pattern Recognition,2014.
[31] M Jaderberg, K Simonyan,A Vedaldi,et al.Synthetic data and artificial neural networks for natural scene text recognition[Z]. Eprint Arxiv, 2014.
[32] I Goodfellow,J Pougetabadie, M Mirza, et al. Generative adversarial nets[Z]. in Advances in neural information processing systems, 2014.
[33] E Denton,S Chintala,A Szlam. Deep Generative Image Models using a Laplacian Pyramid of Adversarial Networks[Z]. Computer science,2015.
[34] S Reed,Z Akata, X Yan,et al. Generative adversarial text to image synthesis[C]. in Proceedings of The 33rd International Conference on Machine Learning,2016.
【關鍵詞】:高速公路 防逃 人臉識別 高清視
中圖分類號:U412.36+6 文獻標識碼:A
人臉識別的分類與概述
人臉識別就是通過計算機提取人臉的特征,并根據這些特征進行身份驗證。人臉與人體的其他生物特征(指紋、虹膜等)一樣與生俱來,它們所具有的唯一性和不易被復制的良好特性為身份鑒別提供了必要的前提;同其他生物特征識別技術相比,人臉識別技術具有操作簡單、結果直觀、隱蔽性好的優越性。人臉識別一般包括三個步驟:人臉檢測、人臉特征提取和人臉的識別與驗證。其處理流程如圖
輸入圖像 人臉圖像人臉特征輸出結果
人臉識別的一般步驟
人臉識別方法繁多,早期研究較多的方法有基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法。目前人臉識別方法主要研究及應用的是基于統計的識別方法、基于連接機制的識別方法以及其它一些綜合方法。下面是這幾類方法的基本介紹:[2]
(1)基于幾何特征的人臉識別方法
幾何特征矢量是以人臉器官如眼睛、鼻子、嘴巴等的形狀和幾何關系為基礎的特征矢量,其分量通常包括人臉指定兩點間距離、曲率、角度等。早期的研究者Brunelli[3]等人采用改進的積分投影法提取出用歐式距離表征的35維人臉特征矢量用于人臉識別。Huang Chung Lin等人[4]采用動態模板[5,6,7]與活動輪廓模型提取出人臉器官的輪廓[8,9,10]。基于幾何特征的人臉識別方法有如下優點:符合人類識別人臉的機理,易于理解;對每幅圖像只需要存儲一個特征矢量,存儲量小;對光照變化不敏感。但這種方法同樣存在一些問題,如從圖像中提取這些特征比較困難;對強烈的表情變化和姿態變化的魯棒性差等。
(2)基于模板匹配的人臉識別方法
模板匹配大都采用歸一化相關,直接計算兩幅圖之間的匹配程度。最簡單的人臉模板就是將人臉看成一個橢圓[10,11]。另一種方法就是將人臉用一組獨立的小模板表示,如眼睛模板、嘴巴模板、鼻子模板等,采用彈性模板方法提取這些模板特征[12]。Brunelli等人專門比較了基于幾何特征的人臉識別方法和基于模板匹配的人臉識別方法,他們得出的結論是:基于幾何特征的人臉識別方法具有識別速度快和內存要求小等優點,但基于模板匹配的識別率要高于基于幾何特征的識別率。
(3)基于統計的人臉識別方法
基于統計特征的識別方法包括基于特征臉的方法和基于隱馬爾可夫模型的方法。特征臉(Eigenface)方法[13]是從主成分分析導出的一種人臉識別和描述技術。主成分分析實質上是K-L展開的網絡遞推實現,K-L變換是圖像壓縮中的一種最優正交變換,其生成矩陣一般為訓練樣本的總體散布矩陣。特征臉方法就是將包含人臉的圖像區域看作是一種隨機向量,因此可以采用K-L變換獲得其正交K-L基底。對應其中較大特征值的基底具有與人臉相似的形狀,因此又稱之為特征臉。
隱馬爾可夫模型(HMM)是用于描述信號統計特性的一組統計模型。基于人臉從上到下、從左到右的結構特征,Samaria等人[14]首先將1-D HMM和2-D Pseudo HMM用于人臉識別。Kohir等[15]采用1-D HMM將低頻DCT系數作為觀察矢量獲得了好的識別效果。Eickeler等[16]采用2-DPseudo HMM識別DCT壓縮的JPEG圖像中的人臉圖像。Nefian等[17]采用嵌入式HMM識別人臉。
(4)基于連接機制的人臉識別方法(神經網絡彈性圖匹配)
基于連接機制的識別方法,包括一般的神經網絡方法和彈性圖匹配(Elastic Graph Matching)方法。神經網絡在人臉識別應用中有很長的歷史[18]。Demers 等[19]提出采用PCA方法提取人臉圖像特征,用自相關神經網絡進一步壓縮特征,最后采用一個多層處理器來實現人臉識別。Laurence等[20]通過一個多級的SOM實現樣本的聚類,將卷積神經網絡(CNN)用于人臉識別。Lin等[21]采用基于概率決策的神經網絡(PDBNN)方法。最近,徑向基函數RBF神經網絡因具有逼近性好、空間描述緊湊和訓練速度快等特點而被用于人臉識別。Gutta等[22]提出了將RBF與樹分類器結合起來進行人臉識別的混合分類器結構,后來他們用RBF神經網絡進行了針對部分人臉的識別研究[23],他們的研究表明利用部分人臉也可以有效地識別人臉。Er等[24]采用PCA進行維數壓縮,再用LDA抽取特征,然后基于RBF進行人臉識別。Haddadnia 等[25]基于PZMI(Pseudo Zernike Moment Invariant)特征,并采用混合學習算法的RBF神經網絡進行人臉識別。此外,Lucas 等采用連續的n-tuple網絡識別人臉。
彈性圖匹配方法是一種基于動態鏈接結構的方法[26]。在人臉圖像上放置一組矩形網格節點,每個節點的特征用該節點處的多尺度Gabor幅度特征描述,各節點之間的連接關系用幾何距離表示,從而構成基于二維拓撲圖的人臉描述。根據兩個圖像中各節點和連接之間的相似性可以進行人臉識別。Wiskott等[27]將人臉特征上的一些點作為基準點,強調了人臉特征的重要性。他們采用每個基準點存儲一串具有代表性的特征矢量,大大減少了系統的存儲量。Würtz 等[28]只使用人臉面部的特征,進一步消除了結構中的冗余信息和背景信息,并使用一個多層的分級結構。Grudin等[29]也采用分級結構的彈性圖,通過去除了一些冗余節點,形成稀疏的人臉描述結構。Nastar等[30]提出將人臉圖像I(x,y)表示為可變形的3D網格表面(x, y, I(x,y)),將人臉匹配問題轉換為曲面匹配問題,利用有限元分析的方法進行曲面變形,根據兩幅圖像之間變形匹配的程度識別人臉。
(5)基于形變模型的方法
基于形變模型的方法是一個受到重視的方法。通過合成新的視覺圖像,可以處理姿態變化的問題。Lanitis等[31]通過在人臉特征邊沿選擇一些稀疏的基準點描述人臉的形狀特征,然后將形狀變形到所有人臉圖像的平均形狀,再根據變形后的形狀進行紋理(灰度)變形,形成與形狀無關的人臉圖像。然后分別對形狀和灰度進行PCA變換,根據形狀和紋理的相關性,用PCA對各自的結果進一步分析,最終得到描述人臉的AAM(Active Appearance Model)模型。通過改變這些參數可得到不同變化的人臉圖像,模型參數能夠用于人臉識別。Romdhani 等[32]采用激光掃描儀獲得人臉的3D數據,分別對一些基準點構成的形狀和基準點的灰度(或彩色)完成PCA,得到3D人臉形狀和灰度(彩色)基圖像,通過變化參數就可獲得不同的3D人臉模型。通過施加一些先驗約束可以避免合成不真實的人臉圖像。利用線性形狀和紋理誤差,通過3D模型向2D輸入圖像的自動匹配實現人臉識別。
項目采用的識別算法
人臉自動識別技術經過多年來的研究已經積累了大量研究成果。但是仍然面臨很多問題,尤其是在非約束環境下的人臉識別。結合本研究項目及應用環境綜合考慮,采用特征臉方法對視屏資料中的司機臉部進行提取識別。
特征臉方法是90年代初期由Turk和Pentland提出算法,具有簡單有效的特點, 也稱為基于主成分分析(principal component analysis,簡稱PCA)的人臉識別方法。把人臉圖像空間線性投影到一個低維的特征空間。PCA實質上是K-L展開的網絡遞推實現。K-L變換是圖像壓縮技術中的一種最優正交變換。人們將它用于統計特征提取。從而形成子空間法模式識別的基礎。若將K-L變換用于人臉識別,則需假設人臉處于低維線性空間。由高維圖像空間K-L變換后,可得到一組新的正交基,由此可以通過保留部分正交基獲得正交K-L基底。如將子空間對應特征值較大的基底按照圖像陣列排列,則可以看出這些正交基呈現出人臉的形狀。因此這些正交基也稱為特征臉,這種人臉的識別方法也叫特征臉法。
特征子臉技術的基本思想是:從統計的觀點,尋找人臉圖像分布的基本元素,即人臉圖像樣本集協方差矩陣的特征向量,以此近似地表征人臉圖像。這些特征向量稱為特征臉(Eigenface)。
利用這些基底的線性組合可以描述、表達和逼近人臉圖像,因此可以進行人臉識別與合成。識別過程就是將人臉圖像映射到由特征臉張成的子空間上,比較其與已知人臉在特征臉空間中的位置,具體步驟如下:[33]
(1)初始化,獲得人臉圖像的訓練集并計算特征臉,定義為人臉空間;
(2)輸入待識別人臉圖像,將其映射到特征臉空間,得到一組權值;
(3)通過檢查圖像與人臉空間的距離判斷它是否為人臉;
(4)若為人臉,根據權值模式判斷它是否為數據庫中的某個人。
1. 計算特征臉
假設人臉圖像包含個像素,因此可以用維向量Γ表示。如人臉訓練集由幅人臉圖像構成,則可以用表示人臉訓練集。
其均值為:
(2-1)
每幅圖像與均值的差為:
(2-2)
構造人臉訓練集的協方差矩陣:
(2-3)
其中 。
協方差矩陣的正交分解向量即為人臉空間的基向量,也即特征臉。
一般比較大(通常大于1000),所以對矩陣直接求解特征向量是不可能的,為此引出下列定理:
SVD定理:設是一秩為的維矩陣,則存在兩個正交矩陣:
(2-4)
(2-5)
以及對角陣:
(2-6)
滿足
其中:為矩陣和的非零特征值,和分別為和對應于的特征矢量。上述分解成為矩陣的奇異值分解(SVD),為的奇異值。
推論:
(2-7)
由上述定理可知:
人臉訓練集所包含的圖像一般要比圖像的像素數小的多,因此可以轉求矩陣
(2-8)
的特征向量,M為人臉訓練集圖像總數。
矩陣的特征向量由差值圖像與線性組合得到:
=(2-9)
實際上,m(m
(2-10)
識別
基于特征臉的人臉識別過程由訓練階段和識別階段兩個階段組成。在訓練階段,每個己知人臉映射由特征臉張成的子空間上,得到m維向量:
(2-11)
距離閾值定義如下:
(2-12)
在識別階段,首先把待識別的圖像映射到特征臉空間,得到向量
(2-13)
與每個人臉集的距離定義為
(2-14)
為了區分人臉和非人臉,還需計算原始圖像與其由特征臉空間重建的圖像之間的距離:
(2-15)
其中:
(2-16)
采用最小距離法對人臉進行分類,分類規則如下:
(1)若,則輸入圖像不是人臉圖像;
(2)若,則輸入圖像包含未知人臉;
(3)若,則輸入圖像為庫中的某個人臉。
實際上,特征臉反映了隱含在人臉樣本集合內部的信息和人臉的結構關系。將眼睛、面頰、下頜的樣本集協方差矩陣的特征向量稱為特征眼、特征頜和特征唇,統稱特征子臉。特征子臉在相應的圖像空間中生成子空間,稱為子臉空間。計算出測試圖像窗口在子臉空間的投影距離,若窗口圖像滿足閾值比較條件,則判斷其為人臉。
基于特征分析的方法,也就是將人臉基準點的相對比率和其它描述人臉臉部特征的形狀參數或類別參數等一起構成識別特征向量,這種基于整體臉的識別不僅保留了人臉部件之間的拓撲關系,而且也保留了各部件本身的信息,而基于部件的識別則是通過提取出局部輪廓信息及灰度信息來設計具體識別算法。現在Eigenface(PCA)算法已經與經典的模板匹配算法一起成為測試人臉識別系統性能的基準算法;而自1991年特征臉技術誕生以來,研究者對其進行了各種各樣的實驗和理論分析,FERET測試結果也表明,改進的特征臉算法是主流的人臉識別技術,也是具有最好性能的識別方法之一。
該方法是先確定眼虹膜、鼻翼、嘴角等面像五官輪廓的大小、位置、距離等屬性,然后再計算出它們的幾何特征量,而這些特征量形成一描述該面像的特征向量。其技術的核心實際為"局部人體特征分析"和"圖形/神經識別算法。"這種算法是利用人體面部各器官及特征部位的方法。如對應幾何關系多數據形成識別參數與數據庫中所有的原始參數進行比較、判斷與確認。Turk和Pentland提出特征臉的方法,它根據一組人臉訓練圖像構造主元子空間,由于主元具有臉的形狀,也稱為特征臉,識別時將測試圖像投影到主元子空間上,得到一組投影系數,和各個已知人的人臉圖像比較進行識別。
結束語
從目前國情來講,在一段時間內高速公路收費還會繼續存在,某些司機逃費的僥幸心也同樣會有。通過帶路徑識別功能的 RFID 復合卡作為通行卡,利用 RFID 卡的信息對車輛進行跟蹤,在不增加硬件投入的情況下,直接可以給車道收費系統提供抓拍高清圖像,以及其它報警聯動系統提供圖像等,可有效解決高速公路沖卡逃費問題,可廣泛應用于封閉式管理的公路收費系統。
參考文獻:
[1]江艷霞. 視頻人臉跟蹤識別算法研究. 上海交通大學博士學位論文,2007.
[2]Brunelli R and Poggio T., Feature Recognition: Features Versus Templates. IEEE Transactions on
PAMI, 1993, 15(10):1042 -1052.
[3]李剛. 基于特征臉法的正面人臉識別研究. 國防科學技術大學碩士學位論文,2002.11
[4]JOHN CANNY. A Computational Approach to Edge Detection. IEEE TRANSACTIONS ON PATTERN
ANALYSIS AND MACHINE INTELLIGENCE, VOL.PAMI-8, NO.6, NOVEMBER 1986.
[5]張建飛、陳樹越等. 基于支持向量基的交通視頻人車識別研究[J]. 電視技術,2011
[6]肖波、樊友平等. 復雜背景下基于運動特征的人面定位[J]. 重慶大學學報,2002
[7] 《中華人民共和國交通部公路聯網收費技術要求》,交通部
[8] 《廣東省高速公路聯網收費系統》,DB44 127-2003,廣東省質量技術監督局
[9] 《視頻安防監控數字錄像設備》,GB 20815-2006
[10]《安全防范工程技術規范》,GB 50348-2004
關鍵詞:圖像分割 閾值分割 遺傳算法 小波變換
中圖分類號:TP391 文獻標識碼:A 文章編號:1002-2422(2010)02-0001-03
圖像分割是按照一定的規則把圖像劃分成若干個互不相交、具有一定性質的區域,把人們關注的部分從圖像中提取出來,進一步加以研究分析和處理。圖像分割的結果是圖像特征提取和識別等圖像理解的基礎,對圖像分割的研究一直是數字圖像處理技術研究中的熱點和焦點。圖像分割使得其后的圖像分析,識別等高級處理階段所要處理的數據量大大減少,同時又保留有關圖像結構特征的信息。圖像分割在不同的領域也有其它名稱,如目標輪廓技術、目標檢測技術、閾值化技術、目標跟蹤技術等,這些技術本身或其核心實際上也就是圖像分割技術。
1 經典圖像分割方法
1,1閾值分割方法
閾值分割是常見的直接對圖像進行分割的算法,根據圖像像素的灰度值的不同而定。對應單一目標圖像,只需選取一個閾值,即可將圖像分為目標和背景兩大類,這個稱為單閾值分割:如果目標圖像復雜,選取多個閾值,才能將圖像中的目標區域和背景被分割成多個,這個稱為多閾值分割,此時還需要區分檢測結果中的圖像目標,對各個圖像目標區域進行唯一的標識進行區分。閾值分割的顯著優點,成本低廉,實現簡單。當目標和背景區域的像素灰度值或其它特征存在明顯差異的情況下,該算法能非常有效地實現對圖像的分割。閩值分割方法的關鍵是如何取得一個合適的閾值,近年來的方法有:用最大相關性原則選擇閾值的方法、基于圖像拓撲穩定狀態的方法、灰度共生矩陣方法、最大熵法和谷值分析法等,更多的情況下,閾值的選擇會綜合運用兩種或兩種以上的方法,這也是圖像分割發展的一個趨勢。
1,2基于邊緣的圖像分割方法
邊緣總是以強度突變的形式出現,可以定義為圖像局部特性的不連續性,如灰度的突變、紋理結構的突變等。邊緣常常意味著一個區域的終結和另一個區域的開始。對于邊緣的檢測常常借助空間微分算子進行,通過將其模板與圖像卷積完成。兩個具有不同灰度值的相鄰區域之間總存在灰度邊緣,而這正是灰度值不連續的結果,這種不連續可以利用求一階和二階導數檢測到。當今的邊緣檢測方法中,主要有一次微分、二次微分和模板操作等。這些邊緣檢測器對邊緣灰度值過渡比較尖銳且噪聲較小等不太復雜的圖像可以取得較好的效果。但對于邊緣復雜的圖像效果不太理想,如邊緣模糊、邊緣丟失、邊緣不連續等。噪聲的存在使基于導數的邊緣檢測方法效果明顯降低,在噪聲較大的情況下所用的邊緣檢測算子通常都是先對圖像進行適當的平滑,抑制噪聲,然后求導數,或者對圖像進行局部擬合,再用擬合光滑函數的導數來代替直接的數值導數,如Mart算子、canny算子等。在未來的研究中,用于提取初始邊緣點的自適應閾值選取、用于圖像層次分割的更大區域的選取以及如何確認重要邊緣以去除假邊緣將變的非常重要。
1,3基于函數優化的分割方法
此方法是圖像分割中另一大類常用的方法。其基本思路是給出一個目標函數,通過該目標函數的極大化或極小化來分割圖像。GA.Hewer等人提出了一個具有廣泛意義的目標函數。統計學分割方法、結合區域與邊緣信息的方法、基于貝葉斯公式的分割方法等是目前幾種活躍的函數優化方法。
統計學分割方法是把圖像中各個像素點的灰度值看作是具有一定概率分布的隨機變量,且觀察到的實際物體是作了某種變換并加入噪聲的結果。統計學分割方法包括基于馬爾科夫隨機場方法、標號法、混合分布法等。
區域增長法和分裂合并法是基于區域信息的圖像分割的主要方法。區域增長有兩種方式,一種是先將圖像分割成很多的一致性較強的小區域,再按一定的規則將小區域融合成大區域,達到分割圖像的目的。另一種實現是給定圖像中要分割目標的一個種子區域,再在種子區域基礎上將周圍的像素點以一定的規則加入其中,最終達到目標與背景分離的目的;分裂合并法對圖像的分割是按區域生長法沿相反方向進行的,無需設置種子點。其基本思想是給定相似測度和同質測度。從整幅圖像開始,如果區域不滿足同質測度,則分裂成任意大小的不重疊子區域,如果兩個鄰域的子區域滿足相似測度則合并。
2 結合特定工具的圖像分割算法
雖然圖像分割目前尚無通用的理論,但是近年來大量學者致力于將新概念、新方法應用于圖像分割,結合特定理論的圖像分割方法在圖像分割方面取得了較好的應用效果。如小波分析和小波變換、神經網絡、遺傳算法等數學工具的利用,有效地改善了分割效果。
2,1基于遺傳算法的圖像分割
遺傳算法是模擬自然界生物進化過程與機制求解問題的一類自組織與自適應的人工智能技術。對此,科學家們進行了大量的研究工作,并成功地運用于各種類型的優化問題,在分割復雜的圖像時,人們往往采用多參量進行信息融合,在多參量參與的最優值求取過程中,優化計算是最重要的,把自然進化的特征應用到計算機算法中,將能解決很多問題。遺傳算法的出現為解決這類問題提供了新而有效的方法,不僅可以得到全局最優解,而且大量縮短了計算時間。王月蘭等人提出的基于信息融合技術的彩色圖像分割方法,該方法應用剝殼技術將問題的復雜度降低,然后將信息融合技術應用到彩色圖像分割中,為彩色分割在不同領域中的應用提供了一種新的思路與解決辦法。
2,2基于人工神經網絡技術的圖像分割
基于神經網絡的分割方法的基本思想是先通過訓練多層感知器來得到線性決策函數,然后用決策函數對像素進行分類來達到分割的目的。近年來,隨著神經學的研究和進展,第三代脈沖耦合神經網絡(PCNN)作為一種新型人工神經網絡模型,其獨特處理方式為圖像分割提供了新的思路。脈沖耦合神經網絡具有捕獲特性,會產生點火脈沖傳播,對輸入圖像具有時空整合作用,相鄰的具有相似輸入的神經元傾向于同時點火。因此對于灰度圖象,PCNN具有天然的分割能力,與輸入圖像中不同目標區域對應的神經元在不同的時刻點火,從而將不同區域分割開來。如果目標區域灰度分布有重疊,由于PCNN的時空整合作用,如果灰度分布符合某種規律,PCNN也能克服灰度分布重疊所帶來的不利影響,從而實現較完美的分割。這是其一個突出的優點,而這恰恰是其他的分割方法所欠缺的,其在未來的圖像分割中將起主導作用。
2,3基于小波分析和變換的圖像分割
近年來,小波理論得到了迅速的發展,而且由于其具有良好的時頻局部化特性和多分辨率分析能力,在圖像處理等領域得到了廣泛的應用。小波變換是一種多尺度多通道分析工具,比較適合對圖像進行多尺度的邊緣檢測。從圖像處理角度看,小波變換具有“變焦”特性,在低頻段可用高頻率分辨率和低時間分辨率,在高頻段可用低頻率分辨率和高時間分辨率,小波變換在實現上有快速算法具有多分辨率,也叫多尺度的特點,可以由粗及精地逐步觀察信號等優點。近年來多進制小波也開始用于邊緣檢測。另外,把小波變換和其它方法結合起來的圖像分割技術也是現在研究的熱點。
3 圖像分割的應用現狀
在圖像處理中,圖像分割是一種重要的技術,是圖像分析的基礎。隨著圖像分割技術研究的深入,其應用日趨廣泛,幾乎出現在有關圖像處理的所有領域,并涉及各種類型的圖像。凡屬需要對圖像目標進行提取、測量的工作都離不開圖像分割。通常,圖像分割是為了進一步對圖像進行分析、識別、壓縮、編碼等,圖像分割的準確性將直接影響后繼的工作,因此,分割的方法和精確程度是至關重要的。目前,圖像分割在圖像工程中占據非常重要的位置,圖像分割已在交通、醫學、遙感、通信、軍事和工業自動化等諸多領域得到廣泛應用。表1是應用領域表。
關鍵詞:小波變換,非整數次諧波,諧波檢測
1 引言
近年來,隨著電力電子技術的迅速發展,各種變頻器、變流器、開關電源和電抗器等非線性設備的應用日益增多,產生了大量的高次諧波,造成電力系統電壓、電流嚴重畸變,引發了一系列問題。
傳統的快速傅氏變換以求和替代積分,以降低精度為代價來提取實時性,可以得出各次諧波的幅值相位。
瞬時無功功率理論自20世紀80年代提出后,突破了傳統的平均值為基礎的功率定義,具有較好的實時性,抗干擾能力強。
神經網絡方法其特點是算法基于誤差曲面上的梯度下降,權調數量與輸入量一致,并保持與誤差的負梯度方向一致,因此能保證網絡的收斂性。
小波變換理論適合于對局部頻域進行精確分析,它提供了一個自適應的可調采樣窗口,具有更強的實時性。而且小波變換理論分析時頻問題的良好特性使得它在檢測非整數次諧波方面優于其他理論。本文采用連續小波變換分析系統中的整數次與非整數次諧波,并通過Matlab仿真得到了較好的分析結果,表明了小波變換具有檢測電力系統中各種諧波的良好功能。
2 諧波檢測原理
小波變換公式:。論文格式。
其中,為小波基函數,a為伸縮因子,為平移因子,x(t)為待分析信號。
由上式可知,小波變換實質上是信號x(t)與小波母函數的卷積,是對信號滿足一定附加條件的濾波。而濾波的范圍則是由參數α, 來決定,反映在小波母函數和小波因子的選擇上。可見,小波變換是按頻帶而不是按頻點的方式處理頻域,因此信號頻率的微小波動不會對處理產生很大影響,且不要求對信號進行整周期采樣;其次,由小波變換的時間局部性可知,在信號局部發生波動時,它不會像傅立葉變換那樣把影響擴散到整個頻譜,而只改變當時一小段時間的頻譜分布,這使其可以跟蹤時變信號和暫態信號。
由于小波變換具有良好的時頻局部化特征,使得小波變換應用于電力系統的諧波檢測有著很好的理論基礎,可以根據不同尺度的小波變換系數的幅值來測量諧波的頻率。由連續小波變換公式可見,信號的連續小波變換相當于信號通過有限長的帶通濾波器不同的尺度因子α決定帶通濾波器的帶通特性。如果能夠使不同頻率的諧波位于不同的頻帶中,就能夠把包括整數次非整數次的不同頻率的諧波分離出來。因此,利用小波變換可以實現整數次和非整數次的諧波含量的測量。
本文中采用Daubechies小波對函數進行小波變換。論文格式。一般將其簡寫為dbN,N是小波的階數。dbN沒有明確的表達式(除了N=1外),但轉換函數h的平方模是很明確的。
令,其中為二項式的系數,則有:
式中,。
3 仿真結果分析
對本文提出的檢測方法進行數字仿真,其中3.1是對于含有基波、2、3.4次諧波檢測信號的仿真,3.2是對含噪的的諧波信號檢測的仿真。論文格式。
3.1 含有基波、2、3.4次諧波檢測信號的仿真
由于非線性元件和電力電子器件的廣泛應用,使電力系統中存在著大量的整數次與非整數次諧波。采樣一個周期,而系統中分別有基波、2、3.4次諧波時,采用db3小波對信號進行5層分解。
圖1 線形組合后的信號
圖2 小波分解后各層的逼近信號
圖3 小波分解后各層的細節信號
當信號中含有基波、2次、3.4次諧波時,其線形組合后的信號如圖1所示,對組合信號進行5層db3分解后的逼近信號如圖2所示,細節信號如圖3所示。從圖2可以看出,逼近信號a1顯示了3.4次諧波,逼近信號a2顯示了基波,二次諧波則出現在細節信號d2中。由此可知,對于常規傅立葉變換不能檢測非整數次諧波的問題,可以利用小波變換分析系統中存在的非整次諧波。通過分析小波變換對諧波檢測的特點,選用了db3小波變換并分析了含有非整次諧波的系統,證明了小波變換對于解決含有非整次諧波的檢測和分析具有良好的特性。
3.2對含噪的諧波信號的仿真
在電網電壓中,由于各種現代電力電子設備的干擾,不但存在諧波信號,而且有著廣泛的噪聲信號。采樣一個周期,而系統中分別含有3.7次諧波和噪聲信號時,采用db3小波對信號進行5層分解。
圖4 含噪聲信號線形組合后的信號
圖5 含噪聲信號小波分解后各層的逼近信號
圖6 含噪聲信號小波分解后各層的細節信號
當信號中含有3.7次諧波和噪聲信號時,其線形組合后的信號如圖4所示,對組合信號進行5層db3分解后的逼近信號如圖5所示,細節信號如圖6所示。從圖6可以看出,3.7次諧波體現在逼近信號部分,而白噪聲體現在細節信號部分。由此可知,小波變換不但具有良好的非整次諧波的檢測能力還具有良好的噪聲分辨能力。
4 結論
小波變換是針對快速傅立葉變換在分析非穩態信號方面的局限性形成和發展起來的一種十分有效的時頻分析工具,它克服了快速傅立葉變換的缺點,采用不同尺度的分析方法,能在信號的不同部位得到最佳的時域分辨率和頻域分辨率,為非穩態信號的分析提供了一條新的途徑,通過本文的仿真可知,它對于含有整數次、非整數次諧波和含噪諧波的檢測有著很大的優越性。
參考文獻
1 石國萍、田立軍. 基于小波變換的統一電能質量控制器檢測方法研究. 2004,16(1):34-37
2 林易群等. 基于小波多孔算法的暫態電能質量檢測方法. 中國電力,2002,35(10):54-57
3 張慶超. 基于小波神經網絡的輸電線路故障檢測. 天津大學學報,2003,36(6):710-713
4 薛蕙、楊仁剛. 利用Morlet連續小波實現非整次諧波檢測. 電網技術,2002,26(12):41-44
5 歐陽森. 基于小波原理的電能質量檢測數據實時壓縮方法. 電網技術,2003,27(2):37-39
關鍵詞 Sobel算法;算子;邊緣檢測;多方向模板;邊緣細化
中圖分類號:TP391 文獻標識碼:A 文章編號:1009-3044(2016)27-0159-03
Abstract: Edge extraction is an essential part of image research. In this paper, a variety of edge extraction methods were compared. The traditional Sobel algorithm is described. In view of the traditional Sobel algorithm, the existence of the detection direction is not strong and edge extraction of the characteristics of the rough, an improved 5*5 template extraction method for multi direction algorithm is proposed.. After getting the picture again using the algorithm to deal with edge thinning. According to the experimental results, it can be concluded that compared with the traditional Sobel, the improved algorithm is more fine and the direction is stronger than the traditional one.
Key words:sobel arithmetic; operator; edge detection; multi direction template; edge thinning
1 引言
唐卡在藏族文化、歷史、政治等各個領域都有涉及,凝聚著藏族人民的智慧,記載了藏族歷史發展,具有很高的研究價值。 在日常生活中,人們主要采用語音和圖像這兩種方式來進行信息的傳遞[1],隨著科學技術和數字媒體的不斷發展,圖像所包含的信息越來越豐富。在醫學、氣象監控、藝術創作、傳真、微生物工程等都有很大應用,因而圖像處理的技術變得越來越重要。而圖像邊緣是整個圖像的整體概貌,圖像的邊緣提取也就成了圖像處理技術過程中最基礎也最重要的一步,人們也希望找到一種方法可以抗噪強、定位準、不漏檢、不誤檢[2]。目前,邊緣提取算法主要可以分為三大類:
第一是基于導數的方法,比如[3]:1)Sobel算法:一階微分算法,在圖像空間利用兩個方向模板與圖像進行卷積;2)Roberts算法:一階微分的邊緣檢測算子,利用相鄰對角方向的兩個像素之差檢測邊緣;3)Prewitt算法:一階微分算法,利用水平和垂直兩個方向的卷與圖像的每個像素進行卷積,兩者得出的最大值即為結果;4)Kirsch算法:利用8個方向算子與圖像的像素進行卷積檢測邊緣;5)Canny算法:一種多級算法;
第二是基于能量準則的算法,比如:1)松弛算法: 指對于每個頂點v∈V,都設置一個屬性d[v],用來描述從源點s到v的最短路徑上權值的上界,稱為最短路徑估計;2)神經網絡分析: 從神經心理學和認知科學研究成果出發,應用數學方法發展起來的一種具有高度并行計算能力、自學能力和容錯能力的處理方法;3)Snake算法: 給出初始的輪廓,然后進行迭代,使輪廓沿能量降低的方向靠近,最后得到一個優化的邊界;
第三種是剛發展的一些新技術,比如:小波變換: 一種新的變換分析方法,它繼承和發展了短時傅立葉變換局部化的思想,同時又克服了窗口大小不隨頻率變化等缺點,能夠提供一個隨頻率改變的“時間-頻率”窗口,是進行信號時頻分析和處理的理想工具。
2 常用邊緣提取算法的比較
傳統的邊緣算法主要有Sobel算法、Prewitt算法、Roberts算法、Kirsch算法、Canny算法。這些邊緣檢測算法操作簡單,速度快,但是檢測的邊緣容易受到噪聲的干擾,所以都存在檢測出的邊緣不準確,造成誤差的原因主要有:1)圖像本身所具有的真實灰度與我們想檢測的灰度值之間不完全吻合;2)算子模板方向固定,忽略了其他方向的邊緣;3)都比較容易受噪聲影響。[4]
表1對傳統邊緣提取的算法在邊緣輸出、漏檢、假檢、邊緣檢測精度、耗時、抗噪能力等方面進行了比較。從表中可以看出,Sobel算法除了耗時比較長以外,是幾種傳統算法中最實用的一種算法,本文通過比較,以傳統Sobel算法為基礎,在此分析基礎上提出了一種改進后的Sobel算法。
3 傳統的sobel算法
3.1 傳統Sobel算法基本理論
Sobel算法是基于梯度的一階導數的邊緣檢測方法,由于圖像的灰度邊緣處會有跳變的現象[6],從而根據此現象來進行邊緣的檢測。傳統Sobel算子在圖像空間利用兩個方向模板與圖像進行卷積,一個是水平梯度方向,來檢測垂直邊緣;一個是垂直梯度方向,來檢測水平邊緣。模板中的數字為模板系數,中間的點表示中心元素,梯度方向與邊緣方向總是正交垂直。兩個方向的算子如圖1所示:
3.2 算法實現
首先分別將水平和垂直方向上的兩個模板的中心點與圖像中的每個像素對應;然后用模板與圖像進行卷積;最后兩個模板與圖像進行卷積后得出的兩個值,比較大小,選出最大值,則為某點的新的像素值。也可理解為是求最大值的方法,用公式定義如下:
g(i,j)=|f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-f(i-1,j-1)-2f(i,j-1)-f(i+1,j-1)|+|f(i-1,j-1)+2f(i-1,j+1)+f(i+1,j-1)-2f(i+1,j)-f(i+1,j+1)|
卷積模板如圖1,卷積的最大值為該點的輸出值。由于傳統的Sobel算法只考慮了水平和垂直兩個方向,忽略了邊緣的多方向性;其次,檢測出的邊緣有很多的偽邊緣,并且檢測出的邊緣較粗,本文提出了8方向的5*5模板的改進方法。
4 改進后的sobel算法
4.1 8個方向模板
傳統的Sobel算法只考慮了水平和垂直兩個方向,檢測出的邊緣較粗,并且具有偽邊緣,因此,有人提出了一些改進的方法,例如:1)先用Sobel進行邊緣檢測,用ostu二值化,最后用多像素邊緣細化算法進行細化;2)先用Sobel進行邊緣檢測,用Sobel進行細化,最后用自適應的動態閾值計算方法進行二值化;3)基于Sobel算法梯度相乘的熱紅外圖像邊緣提取;4)自適應權值的改進算法等等。而本文的改進方法是將邊緣方向擴展為0°、45°、90°、135°、180°、225°、270°、315° 8個方向,以此增加邊緣方向的準確性。如圖2,圖3所示[6]:
4.2 改進后算法的實現
設(i,j)為圖像上各點像素坐標,g(i,j)為圖像在該點的灰度值,[g(i,j)]矩陣為將要檢測的圖像,w(i,j)為最后檢測所得的結果,由于8個方向模板為5*5,s[g(i,j)]即為以點(i,j)為中心的5*5模板,f(k)為圖3中8個模板(其中k為0、1、2、3、4、5、6、7、),m為長度為8的數組。
第一步:將f(k)與s[g(i,j)]進行卷積,將計算所得的結果的絕對值存放在數組m中;
第二步:目的是:查找第一步算出的8個結果中的最大值,在一組數組中查找最大最小值,有二分法、冒泡排序法、選擇排序法等等,由于本文涉及的數組中數據較少,因此選擇順序查找法來找出數組中的最大值,順序查找法就是假定要從n個整數中查找最大值, 則從頭到尾逐個查找。具體步驟如下:
a、 令max=m[0],k=1;
b、 若m[k]>max,則max=m[k];否則,k=k+1;
c、 若k
第三步:將max賦給w(i,j),即為該點的輸出值[7]。
最后的輸出值即為該點新的像素值。
4.3 邊緣細化
我們采用改進后的算法對圖像進行邊緣提取,得到的圖像1與原始的圖像相比,圖像1的邊緣灰度有變化,在此基礎上,我們在對圖像1進行同樣的處理,再用改進后算法進行提取,得到的圖像2在圖像1的基礎上,中間的圖像部分變成了背景,得到的邊緣更細,兩次所到的圖像邊緣進行相減,即:2-1得到圖像3,關于圖像3,我們將其邊緣像素的負值全部改為0,所得到的圖像即為細化后的結果圖。
5 實驗結果
為檢測改進后的算法與傳統算法的效果,在VC++環境下,以轉經筒和唐卡為例對進行邊緣提取后的效果圖進行對比。圖4圖5為原圖;圖6圖7為傳統算法提取的結果;圖8圖9為改進后的效果圖。有圖可以看出,;圖6檢測出的邊緣相對清晰完整,而圖5提取的邊緣比較模糊,并且數據比較亂,圖6相對圖5檢測的邊緣更加豐富,總的來說,本文的方法很好保護了各方向的邊緣,得到了更好的效果。
6 結論
針對傳統Sobel算法的一些弊端,本文擴展成5*5的8方向模板,重新定義了模板中的權值,和傳統Sobel算法相比,在一定程度較好的保留并檢測出了各個方向的邊緣,且相對簡單,對于傳統的其他算法,如Roberts算法、Prewitt算法等都可以依據此方法進行改進,增加模板、擴展邊緣方向為8個或者更多,以此得到更好的應用。
參考文獻:
[1]鄭英娟.基于八方向Sobel算子的邊緣檢測[J].數字信息處理,2013(S2).
[2]章毓晉.圖像工程[M].北京:清華大學出版社,1999.
[3]何春華.基于改進Sobel算子的邊緣檢測算法的研究[J].信息光學與圖像處理,2012(3).
[4]李安安.幾種圖像邊緣檢測算法的比較和展望[J].信息 技術與通信,2009(12).
[5]高飛.Sobel邊緣檢測算子的改進研究[J].算法分析,2016(1).
本文結合計算機行業的發展,對計算機網絡云計算技術進行了分析研究,希望能為計算機技術的進步提供一定的理論支持。
一、計算機網絡的云計算技術概念
美國的網絡公司最早提出計算機網絡云計算技術的概念,隨著科學的進步與發展已經逐漸成為了一門成熟的技術,有著豐富的理論基礎與實踐經驗。現在的“云計算”技術是指能將網絡、硬件、設備相融合,同時實現規模性、安全性、虛擬性的技術。目前來看,對計算機網絡云計算的定義還沒有統一的趨勢,每一名研究人員都有自己的研究與看法,通過研究與分析,本文對云計算的觀點是:首先,每一個“云”都是獨立的計算機分布體系,基于網絡化、虛擬化的計算機服務層,與計算機中的資源保持一定的節奏,實現計算機資源的同步。其次,計算機網絡云是一個綜合體,并非是獨立的,計算機軟件的開發中離不開云計算的環節,其重點就是網絡云計算特征的研究。對于計算機網絡的使用者來說,計算機集成軟件層面,能被接受與理解的就是云計算,在本文重點突出的就是云計算的屬性。最后,計算機網絡的使用者沒有進行長期的規劃后使用,很容易出現浪費現象,目前的云計算技術可以實現分或秒內的數據計算,可以很好地避免資源過載或資源浪費現象。
通過研究可以看出,計算機網絡云計算技術可以定義成計算機網絡中進行的某種服務形式,其中相關的硬件設施與軟件系統統稱為計算機網絡云計算。定義中包括網絡計算機、超級計算機、集成技術等,相關的技術既有區別又有聯系。計算機網絡云計算技術的原理是:大量的數據分布于分布式計算機中,同時保證用戶的數據系統與計算機同步運行,進而實現及時將需要的資源切換到相應的應用中,根據使用者的訪問需求進行存儲系統與計算機系統的定位。計算機網絡云計算技術可以基于用戶服務需求及時提供所需的網絡信息資源。計算機網絡云計算技術適應性強,彈性好,專業技術性高,發展前景十分好,應用越來越廣泛。
二、計算機網絡云計算技術的分類
基于多樣化的標準,計算機云計算的分類也有多種方式。比較常見的是:根據服務方式的不同,云計算可以分為私有云和公有云。私有云是根據用戶的自身情況進行獨立使用,同時建立平臺,操作性與實用性十分好。公有云是ζ淥用戶的資源進行開發利用。在選擇私有云與公有云時,應該考慮的主要因素是:
1.服務的延續性
大部分情況下,公有云提供的服務容易受外界影響,如網絡故障等情況,而私有云則不會出現這種問題。
2.數據安全性
如果對于穩定性與安全性不存在過高要求,則比較適合使用公有云。
3.綜合使用成本
通常狀況下,如果對于計算資源要求不高可以選用公有云,如果對于計算資源要求較高則比較適合建立自己的私有云平臺。
4.監控能力
公有云可以將使用用戶對系統的監控能力屏蔽起來,這對于金融保險投資行業是十分有必要的。
三、計算機網絡云計算技術的實現
為了將計算機系統的系統處理過程進行簡化,通常將該過程劃分為預處理過程與功能實現過程兩大部分。對系統的各項功能進行分解,得到一些不需要進行功能實現過程與預處理過程的功能。對于可以進行預先處理過程的功能通常是一次性處理,在執行過程中,可以將預處理過程得到的結果直接使用,以此完成特點的系統功能。該方法與原則的采用,極大地簡化了系統,大幅度提高了系統運行效率。計算的云化中的系統就是計算云化系統,它的計算量十分巨大,系統計算運行效率極高。但因為計算云化系統為一次處理系統,只要計算云規則生成,計算云化系統的使命與任務也就完成,而不是在對計算機加以應用時需要該系統。通常在計算機網絡云計算中形成的系統就是云計算系統,是一個十分簡單的系統,對計算機的處理能力沒有過高要求,同時應用于各類計算機系統計算中。
四、計算機網絡云計算的計算與優勢
建立計算機網絡云計算過程的第一步是服務器架構的建立,其對計算機網絡云計算技術中的IAAS部分進行充當。目前來看,仍沒有關于網絡云計算服務器架構的專門、統一的標準出現,這需要一定的相關技術進行支持,例如計算區域網SAN和附網NAS等,這都是應用比較多的服務器架構技術。NAS文件計算系統是松散結構型的集群,它的架構有很明顯的分布式特征。NAS文件系統集群中的各個節點具有互補與相互影響的特點,文件是最小的單位,因為只要在集群存儲文件就可以計算出文件的數據信息,直接減少了很多計算的冗余性。它的拓展性很高,同時成本較低,安全控制系統安全穩定。如果客戶發出過多的請求,NAS系統的限制就表現出來,二級計算就可以通過NAS的云服務完成。
SAN是一種緊密結合類型的集群,在集群中存儲文件之后,可以分解成很多個數據塊。相比于集群之中的節點,各數據塊之間能夠進行相互訪問。節點可以借助于訪問文件間的數據塊針對客戶的請求進行處理。SAN系統之中可以通過節點數量增減來響應請求,同時提升界定本身的性能。為了能夠將以SAN為基礎的OBS發展起來,就需要更好的性能與更低的成本。而SAN計算建構的硬件價格十分高,同時依托于SAN的服務價格,因此可以適當地降低一下性能,保證更好的性能與更低的成本。
五、實例――基于谷歌云計算技術的AlphaGo亮點分析
AlphaGo通過谷歌云計算技術,擁有與人類棋手類似的“棋感”,其技術遠勝于1997年IBM公司研制的超級電腦“深藍”。“深藍”面對的是相對圍棋簡單多的國際象棋,設計理念為根據棋局情況不斷演算各種可能的步驟,最終從各種步驟中選定走棋方案。AlphaGo背后的云計算技術,可以讓AlphaGo無需“暴力”分析演算所有步驟,只需要把運算能力都集中在“棋感策略”網絡中最有可能的情況上。其背后的深層算法,具備三大亮點:(1)深度卷積神經網絡學習技術:“棋感策略”網絡的本質學習人類圍棋大師走法思維。AlphaGo藉此擁有強大的盤面評估能力。(2)增強學習算法技術:此算法可通過自我對弈來持續提升AlhpaGo的棋感策略和盤面評估能力,并且給出落子選擇。(3)蒙特卡洛搜索技術:“評價網絡”的核心,可以融合棋感策略和盤面評估能力,修正落子選擇而最終給出落子方案。
六、計算機網絡云計算技術發展遇到的問題
在目前計算機網絡云計算技術廣泛地運用到各個領域的過程中,云計算技術也存在一些缺陷與不足還需要引起我們的重視,同時在云計算的應用過程中應采用足夠的措施來對數據信息的安全性進行可靠的保障,這是計算機網絡云計算技術發展過程中十分重要的一項課題。現在的大部分云端是通過瀏覽器進行接入的,瀏覽器是計算機系統中非常薄弱的地方,存在著很多的缺陷與漏洞,因此用戶的云端接入瀏覽器時,用戶證書與認證密鑰特別容易因為瀏覽器漏洞而產生泄密。同時由于不同的應用都需要在云端中進行認證,這就需要保證認證機制的高效性與安全性。在應用服務層之中,應該采取安全有效的措施來保護用書的隱私安全,在基礎設施層中要采取安全可靠的方法保C數據的安全性。
七、采取措施保障網民數據安全
如果數據的安全不能得到保障,就會對云計算的發展產生不利影響,所以為了能夠保障網民數據的安全。就需要采取切實可行的手段來保證數據的安全性。
1.隔離操作系統與數據
為了能夠切實有效地保障網民信息的安全,就需要充分使用Hypervisor,從而將網民的操作系統與數據資源隔離起來,從而有效地保證了計算資源的安全性,避免了網民操作系統所帶來的可能的不利影響。
2.重置API保護層
服務商提供給用戶API,用戶根據需要進行應用。但同時第三方也有可能對這些API進行使用。為了保證數據的安全性,就需要你安裝API保護層,重疊保護API。
3.嚴格身份認證
服務商應嚴格的執行身份認證,防范冒充網民身份的行為,加強對賬號與密碼的管理控制,確保網民只訪問自己的程序與數據,從而保證數據資源的安全性。
【關鍵詞】清晰度評價函數;一體化攝像機;高斯噪聲
The research of focusing evaluation function based on the room camera
HAN Seng-jie
(Civil Aviation University of China,College of Electronics and Information engineering,Tianjin,300300,China)
Abstract:Focusing evaluation function is important as to the room camera to achieve the focus of image and get high-quality image.We have a comprehensive performance comparison of several commonly used focusing evaluation functions,quantitative analysis of the efficiency of different algorithms including no bias,single peak and sensitivity according to the simplicity and real-time.The results showed that:Brenner functions and Laplace function is suitable for small-scale precision focusing for its relatively narrow peak width,high sensitivity.Tenengrad function,Robert function and squared gradient function is suitable for mid-range auto-focus, because they have relatively high sensitivity,and also they have a certain focus range.It’s instructive to the room camera to achieve automatic focusing.
Key words:focusing evaluation function;room camera;Gauss noise
1.引言
一般來說,一體化攝像機是指可以自動聚焦、鏡頭內建的小型攝像機。外觀上,具有美觀、小巧。應用上,其電源、視頻、控制信號均有直接插口,安裝方便。功能上可自動聚焦,近些年,一體化攝像機在視頻會議、安防監控、高速公路監控等場合的應用越來越廣泛。
自動聚焦技術的發展對一體化攝像機的廣泛應用也起著非常重要的作用。傳統的聚焦方法基本屬于測距法,利用超聲波或者紅外線測量目標與攝像機之間的距離從而調整焦距以實現自動聚焦。由于要有發射和接收裝置,提高了成本,并且會使得攝像機顯得笨重。
隨著數字圖像處理理論的不斷成熟,越來越多的自動聚焦算法是基于圖像處理理論的。數字圖像處理理論認為,信號或圖像的大部分能量集中在幅度譜的低頻段和中頻段,但是圖像細節的豐富度和輪廓的銳度取決于圖像的高頻成分。因此,各種檢驗圖像邊緣信息或計算圖像高頻分量的自動聚焦算法應運而生。一幀圖像中的高頻成分值被稱為清晰度評價函數,自動聚焦的過程就是求取清晰度評價函數最大值的過程。當圖像清晰時,圖像細節豐富,在空域表現為相鄰像素的特征值,如灰度、顏色等變化較大,在頻域表現為頻譜的高頻分量多。可以評判圖像中高頻分量的大小,并判斷對焦正確與否。
確定合適的清晰度評價函數是自動調焦的核心問題。理想的自動調焦評價函數必須具備以下幾個特征[1]:
a.無偏性。計算出來的曲線要和圖像的清晰度變化事實相吻合;
b.單峰性。在成像系統的正焦位置取得單一的極值,不能出現其他局部極值;
c.靈敏度。是指對不同程度的離焦圖片,清晰度評價值要求有一定的差別;
d.具有足夠的信噪比。在一定的噪聲干擾條件下,保證系統正確地檢測到離焦信號,完成自動調焦;
e.高效性。計算能夠滿足實時性要求,保證迅速完成自動調焦過程。
圖1是圖像高頻成分含量與聚焦鏡頭位置之間的關系。
2.常用清晰度評價函數的研究
圖像清晰度評價函數在基于圖像處理的自動調焦技術中起著關鍵的作用。圖像清晰度識別技術近年來已引起國內外學者的重視,其中最流行的是時域對比度評價函數,常用的有Brenner函數、Tenengrad函數、Robert函數、Laplace函數、方差函數和平方梯度等[2][3][4];還有頻域的頻譜評價函數[5];小波變換評價函數[6];基于DCT變換的評價函數[7];神經網絡評價函數[8]。其中頻域類、統計學類等調焦函數由于在調焦過程中對環境的穩定性要求較高,并且其調焦曲線非常不理想,大多數都不能正確的表達焦點的位置,同時考慮到聚焦速度和準確性的要求,因此沒有列入,我們選擇常用的時域對比度評價函數進行分析。
Brenner函數,是最簡單的與梯度有關的評價函數[9][10][11],它只是計算相差兩個單位的兩個像素的灰度差,該函數的優點是具有較高的靈敏度且計算量較小,其表達式為:
式中,I(x,y)表示圖像中第x行第y列像素的灰度值。當調焦評價函數F(I)數值最大時,圖像最清晰。
Robert梯度評價函數,是在灰度差分絕對值之和算法基礎上考慮I(x,y)和I(x+1,y+1),灰度差的像元位置關系后,采用的一種評價函數,其表達式如下:
式中I(x,y)表示圖像中第x行第y列像素的灰度值。
方差函數,清晰聚焦的圖像應有比模糊的圖像具有更大的灰度級差異,所以方差函數也可以作為一個對焦清晰的評價標準[9][12]。方差函數定義為:
式中μ為平均灰度級,
即
I(x,y)表示圖像中第x行第y列像素的灰度值。
平方梯度函數,它用相鄰點的差分計算一個點的梯度值[12],其算法如下:
其中I(x,y)為一幅圖像在點(x,y)的灰度值。
Tenengrad函數,它使用Sobel算子來算圖像在水平方向和垂直方向的梯度,為了使圖像邊緣的梯度最大,對梯度進行平方運算,其表達式如下所示:
其中,S(x,y)>T(T為灰度閾值)
為梯度幅度Gx(x,y),Gy(x,y)的計算模版為
在此模版下,
Laplace函數,使用Laplace算子和圖像進行卷積得到圖像的二階微分,其微分平方和作為最后評價結果,其表達式如下:
3.清晰度評價函數的性能分析
為了便于比較這六種算法的性能和特點,按照清晰度評價函數應具備的特性,我們從三個角度對這六種清晰度評價函數的性能進行分析。本文采用小龍電器公司自主研制生產的一體化攝像機SMC-480,其光學系統參數表如表1所示。
3.1 清晰度評價函數的曲線特性對比
本文為研究清晰度評價函數,其數據源都是針對同一組圖像進行處理,同時該組圖像是對同一平面目標,通過控制一體化攝像機調焦鏡頭的前后縱向位置來實現圖像的調焦,前后縱向移動的步進間隔距離為0.004mm。在聚焦點位置前后分別采集24個欠焦和24個過焦圖像。加上聚焦良好圖像,共得到50幅圖像。采集的圖像大小為640 pixel×480 pixel。本文的數據分析是以采集到的圖像數據為依據,并將圖像序號按由最遠的欠焦狀態經過聚焦狀態后,再到過焦狀態編排,共采集了50張圖片,如圖2給出了其中的12幅示意圖。
為了便于比較各種算法的性能和特點,本文將上述六種算法的仿真結果描繪出來,如圖3所示。它的縱坐標表示各種算法的歸一化圖像清晰度評價值,橫坐標表示不同程度的離焦圖片的序號,共50張。圖4是對圖3函數極值的局部放大。
從圖3和圖4中可以得出如下結論:1)對圖像的單峰性來說,Brenner函數、Tenengrad函數、Robert函數、Laplace函數和平方梯度等能得到比較一致的結果,并且只有一個極值點,具有單峰性,符合要求,而方差函數的極值點不夠突出,容易產生誤調焦,因此不能使用。2)從圖像的無偏性來說,Brenner函數、Tenengrad函數、Robert函數、Laplace函數和平方梯度等的清晰度評價值都隨著圖像的離焦或者變焦程度變化而變化,都在第25幅圖像位置取得最大值,這和肉眼看到的事實是相符合的。3)從圖像的靈敏度角度來看,Laplace函數和Brenner函數的峰頂寬度相對較窄,相對而言,Laplace函數更為尖銳,靈敏度高,因此適合于小范圍精確調焦。也就是說,對微小焦距的改變更為敏感,性能上更加優良。Tenengrad函數、Robert函數和平方梯度的靈敏度居中,在焦點附近具有比較高的靈敏度,同時也有一定的調焦范圍,適于中等范圍的自動調焦。
3.2 圖像加噪聲后清晰度評價函數的曲線特性
我們對標準圖像加入噪聲,根據模糊成像原理,可以用高斯函數對標準圖像進行處理。高斯模糊的基本思路是根據二維正態分布公式生成一個高斯矩陣,求新圖像中的每一點時,將高斯矩陣的中心對準舊圖像的這一點,并將所有點根據高斯矩陣上對應的點加權平均。二維正態分布公式如下:
u,v分別為水平、豎直距離。高斯模糊的標準差σ,表示模糊的延伸距離,它的缺省值一般設為1。當時,高斯矩陣上對應的權值已經小得可以忽略,因此可以只計算一個大小為的矩陣。通過設置不同的模糊半徑(radius)參數即需要移位的像素數,達到不同程度的高斯模糊效果。圖像數據源仍是圖二所示中采集到的圖像,現在我們對標準圖像分別進行1×1-6×6半徑的高斯模糊,同時添加方差為20的高斯噪聲,得到6幅圖像,圖5給出了其中一幅聚焦清晰和一幅清晰圖像的加噪圖像。
實驗結果如圖6所示,縱坐標是每個清晰度評價函數的歸一化值,橫坐標是受不同噪聲影響的6幅不同圖像,從圖中可以看出,Laplace函數和Brenner函數在峰值附近變化明顯,在一定的噪聲干擾條件下,能識別出噪聲影響的程度,該函數性能靈敏度高,具有足夠的信噪比,其聚焦分辨力和抗噪性能明顯優于其他方法。而Tenengrad函數、Robert函數和平方梯度的信噪比居中,方差函數的抗干擾性能則最差。
3.3 清晰度評價函數實驗驗證
上述中本文對清晰度評價函數的性能和特點進行了分析,不過為了進一步驗證Laplace函數、Brenner函數、Tenengrad函數、Robert函數和平方梯度函數的性能,本文采集了另外圖像進行驗證。通過控制一體化攝像機調焦鏡頭的前后縱向位置來實現圖像的調焦,前后縱向移動的步進間隔距離為0.008mm。在聚焦點位置前后分別采集14個欠焦和14個過焦圖像。加上聚焦良好圖像,即第15幅,共得到29幅圖像。采集的圖像大小為630 pixel×490 pixel。
通過matlab仿真,本文得到如下結論,如圖8所示。
在圖7中,Laplace函數、Bren-
ner函數、Tenengrad函數、Robert函數和平方梯度函數的歸一化清晰度評價函數值的最大值都在圖像序號為15的位置,也剛好是最佳聚焦圖像。這和實際圖像采集中是相對應的。同時,就Laplace函數和Brenner函數相比較而言,他們都滿足單峰性,不過Laplace函數更為尖銳,靈敏度高。Tenengrad函數、Robert函數和平方梯度和圖3及圖4的結論相一致。
4.結論
清晰度評價函數是數字圖象處理的一個重要內容之一,對于實現一體化攝像機自動對焦具有重要的意義。本文在小龍電器公司生產的一體化攝像機SMC-480研究的基礎上,針對目前常用的清晰度評價函數的實用性能加以評價,對比實驗證明,Laplace函數和Brenner函數的峰頂寬度相對較窄,靈敏度高,因此適合于小范圍精確調焦。Tenengrad函數、Robert函數和平方梯度的靈敏度居中,在焦點附近具有比較高的靈敏度,同時也有一定的調焦范圍,適于中等范圍的自動調焦。
參考文獻
[1]屈玉福.視覺瞄準測頭的研究[D].哈爾濱:哈爾濱工業大學,2001:20-24.
[2]沈庭芳,方子文.數字圖像處理及模式識別[M].北京:北京理工大學出版社,1998.
[3]夏德深,傅德盛.現代圖像處理技術與應用[M].南京:東南大學出版社,1997.
[4]Castleman K R.數字圖像處理[M].北京:電子工業出版社,1998.
[5]李奇,馮華君,徐之海,等.數字圖像清晰度評價函數研究[J].光子學報,2002,31(6):
736-738.
[6]謝攀,張利,康宗明,等.一種基于尺度變化的DCT自動聚焦算法[J].清華大學學報,2003,43(1):55-58.
[7]陳國金,朱妙芬,施滸立等.基于最小各向同性小波濾波的圖像清晰度識別[J].光子學報,2008,37(2):395-399.
[8]陳國金,朱妙芬,施滸立.小波變換與神經網絡復合的圖象清晰度識別研究[J].紅外技術,2007,29(11):670-674.
[9]TTE Yeo,S H Ong,Jayasooriah and R Sinniah.Autofocusing for Tissue Microscope.Image and Vision Computing.1993,11(10):629-639.
[10]Lawrence Firestone,Kitty Cook,Kevin Culp,Neil Talsania,and Kendall,Preston,parison of Autofocus Methods for Automated Microscopy.1991(12):195-206.
[11]Brenner,J F,Dew,B S,Horton,J B,King,T,
Neirath,P W and Sellers,W D.An Automated Microscope for Cytologic Research.1971(24):
100-110.
1圖像特征表示方法概述
設計圖像的特征表示是計算機視覺中一項非常基本的研究內容,圖像的分類、檢索、標注等工作都是以提取圖像特征為初始步驟,好的特征表示可以在相關圖像分析中取得更佳的效果.因此,圖像特征的設計與構造,直接影響算法的性能.而如何定義一個好的圖像特征卻是非常困難的:一方面,設計的圖像特征對于同一類別下圖像之間的變化(比如尺度、光照變化、對象位置變化等)要有足夠的魯棒性;另一方面,設計的圖像特征要具備足夠的判別性來處理不同類別間圖像的變化.近年來,研究者提出了大量的底層特征用于各種圖像分析任務,其中最具有代表性的是基于梯度朝向直方圖的SIFT(scale-invariantfeaturetransform)[1]和HOG(histogramoforientedgradient)[2].盡管這類特征取得了一定意義的成功,但研究者發現,這類單一的底層特征并不足以在某些應用上達到更好的效果,因此提出了一類中間層的圖像特征表示方法.其中,BoW(bagofwords)[3]是這類圖像特征表示方法的典型代表,該方法在場景分類中獲得了較好的性能.BoW算法生成圖像特征表示分為3個過程:圖像底層特征的獲取、學習過完備字典和計算圖像的碼字直方圖表示.然而,BoW方式并沒有考慮特征向量在圖像空間上的位置關系,使得其特征描述能力并沒有達到最大化.為了彌補這一缺陷,空間金字塔匹配(spatialpyramidmatching,簡稱SPM)[4]方法通過在一幅圖像的不同層次上計算碼字直方圖,形成了一個BoW多層特征,將BoW模型與圖像空間進行合理融合.然而,由于SPM方法利用直方圖交核函數來度量兩幅圖像間的相似度,導致無法產生低維度的圖像特征表示,而且需要完整計算訓練集圖像間相似度的Gram矩陣,因此,其算法復雜度為O(n2)(其中,n為訓練集中圖像的個數).為了解決這一問題,有效匹配核算法(efficientmatchkernel,簡稱EMK)[5]在碼字間相似性的基礎上構造了一個低維特征映射空間,整個圖像的特征可以表示為碼字映射在這個低維特征空間后的平均,且可以采用線性SVM方法訓練分類器,在圖像分類應用中獲得了非常不錯的效果.然而,有效匹配核算法仍然依賴于人為定義的圖像局部特征(如SIFT或HOG),只不過是通過計算有限維空間的局部線性特征表示來推出整體圖像的線性特征.
Bo等人擴展了有效匹配核算法并提出了核描述子(kerneldescriptor,簡稱KD)[6]方法.這種方法只需定義任意兩個局部圖像塊之間的相似性,且該相似性函數滿足核函數定義.由于每個核函數都隱性定義了一個映射,它將圖像塊映射為再生核希爾伯特空間(reproducingkernelHilbertspace,簡稱RKHS)中一個非常高維的向量,這樣,核函數可以表示為RKHS中兩個高維向量的內積,通過核主成分分析(kernelprincipalcomponentanalysis,簡稱KPCA)[7]算法,可以由核函數推出圖像塊特征的有限維線性表示.這種低維空間中的表示就稱為核描述子,并且采用EMK算法將其推廣到整個圖像的特征表示.盡管核描述子方法的設計思想較為新穎,但仍然存在計算復雜度過高這一缺陷,限制了其在大規模圖像數據庫上的應用.事實上,在KPCA方法的離線階段,所有聯合基向量對之間的相似性都需要計算,這是非常耗時的.更重要的是:在線階段計算一個新圖像塊的特征映射時,該圖像塊與所有聯合基向量之間的相似性也是需要計算的,而這實際上是不需要的.Xie等人[8]通過使用不完整Cholesky分解替代KPCA算法,成功地解決了這個問題,并且通過迭代,應用不完整Cholesky分解算法表示整個圖像特征[9].但文獻[8,9]中,通過不完整Cholesky分解得到的標志聯合基向量并沒有對應實際的圖像塊,因此,其產生的特征判別能力并沒有最大化地得到利用.
Wang等人提出了有監督的核描述子方法[10],該方法利用訓練集中的圖像類標來輔助設計底層圖像塊特征.盡管他們利用該特征取得了不錯的分類效果,但這個算法運行過程中需要大量有類標的圖像,并且對象優化函數求解過程復雜,時間復雜度過高.除了上述生成圖像底層特征表示的方法以外,另外一類構成圖像特征的方法基于深度學習理論.2006年,Hinton等人[11,12]提出了用于深度信任網絡(deepbeliefnetwork,簡稱DBN)的無監督學習算法,DBN的多層結構,使得它能夠學習得到層次化的特征表示,實現自動特征抽象,文獻[12]將DBN模型成功用于手寫數字識別應用上.Bengio等人在文獻[13]中提出了基于自編碼器(auto-encoder)[14]的深度學習網絡,在手寫數字識別圖像數據庫上得到了類似的實驗結果.另外,文獻[1517]提出了一系列基于稀疏編碼的深層學習網絡,在圖像應用中取得了一定的成功.LeCun等人用誤差梯度設計并訓練卷積神經網絡(convolutionalneuralnetwork,簡稱CNN),其在圖像分類,特別是手寫體字符識別應用中得到優越的性能.在此基礎上,Krizhevsky等人[21]將CNN模型應用到分類大規模ImageNet圖像數據庫,更加充分地顯示了深度學習模型的表達能力.盡管在深度學習模型下獲得的圖像特征有很強的判別表示能力,但其要求計算機硬件條件較高,單機環境下很難實現.除此之外,更加詳細地介紹圖像特征描述子領域的綜述可以參考文獻[23].本文在大數據時代背景下,為了能夠快速得到圖像塊的線性特征表示,提出了有效圖像塊描述子(efficientpatch-leveldescriptor,簡稱EPLd)方法.該方法在不完整Cholesky分解基礎上,可以自動地進行圖像塊篩選,對于求解新圖像塊的線性特征表示,只需計算它和一小部分基圖像塊的相似性就足夠了.有了圖像塊的特征表示之后,一幅圖像就對應著一個圖像塊特征的集合,該集合可以看作是特征空間中基于某個分布的樣本集,這樣,兩幅圖像之間的差異可以看作兩個分布的距離.本文采用基于高維概率分布的MMD距離[24]進行估算,進而計算兩幅圖像間的相似性.本文首先介紹核描述子方法,然后給出有效圖像塊描述子算法的具體實現過程以及如何利用MMD距離計算兩幅圖像的相似性,并在幾個著名的圖像分類數據庫上進行實驗,最后給出工作的結論和展望.
2核描述子方法簡介
核描述子方法是對圖像像素點屬性(梯度/形狀/顏色+位置)基礎上生成的聯合基向量應用KPCA方法,從而計算新圖像塊的有限維特征表示.為了方便敘述,本文采用像素點的梯度屬性來介紹核描述子方法.通過公式(2)可以看到,核描述子方法的主要缺陷有以下3點:(1)算法計算復雜度高,因為需要對dodp維的聯合基向量形成的Gram矩陣計算特征值分解,如果聯合基向量的維度過高或者個數過多,KPCA算法甚至無法實施;(2)對聯合基向量進行KPCA獲得的tij并不是稀疏的,這也就意味著在計算新圖像塊的特征表示時,需要和所有的聯合基向量進行在線計算,所以算法需要存儲全部的聯合基向量;(3)算法無法進行特征選擇,即,并不知道聯合基向量中哪些樣本最具代表性.
3有效圖像塊描述子算法
針對核描述子方法的3點不足之處,文獻[8]解決了其主要缺陷的第一、第二兩點,但是文獻[8]在本質上仍然使用聯合基向量,所以沒有明確地進行特征選擇,即,找出哪些圖像塊是最具代表性的,使得其特征表示能力并沒有達到最大化.為了更加完善地解決核描述子方法的缺陷,本文提出了一種新的圖像塊特征表示方法,稱為有效圖像塊描述子.該方法基于對圖像塊相似度矩陣執行不完整Cholesky分解。總體上來說,有效圖像塊描述子算法由兩部分構成:1)首先從訓練圖像集中均勻抽取足夠的圖像塊,然后在這些圖像塊形成的Gram矩陣上執行不完整Cholesky分解算法.如果設定N代表圖像塊的個數,M代表分解后矩陣的秩,通常情況下,M<<N.這樣做的好處有兩點:首先,在分解過程中只需要按需計算O(MN)個Gram矩陣元素的值;其次,對Gram矩陣執行Cholesky分解的時間復雜度為O(M2N),遠遠低于KPCA算法的O(N3).2)經過第1步分解步驟之后,選擇出了M個最具代表性的基圖像塊,新圖像塊的特征表示僅僅通過O(M)次計算就可以得到.算法的具體步驟將在以下部分詳細介紹.
3.1Gram矩陣的低秩近似半正定的Gram矩陣K可以分解為GGT,所以不完整Cholesky分解的目標就是找到一個矩陣G,其大小為NM,使得TGG在M足夠小的情況下近似K.在執行不完整Cholesky分解算法的過程中,選擇出M個最具代表性的基圖像塊,利用所有圖像塊和這M個基圖像塊之間的相似性,可以近似恢復Gram矩陣K.這里,M的值是可以通過算法在線確定的,由算法中提前給定的近似精度參數來控制.關于不完整Cholesky分解的詳細執行過程可以參考文獻[26],其中,作為輸入參數的Gram矩陣K實際上是按需計算的,即,算法執行過程中需要用到哪兩個訓練圖像塊間的相似度,就按照公式(1)計算得到.算法執行后,就得到了一些具有代表性的基圖像塊,用向量P保存基圖像塊的索引序號,同時得到了矩陣G,使得.TGGK
3.2構造圖像塊特征映射算法一旦獲得了NM的矩陣G,新圖像塊的特征(有效圖像塊描述子)就可以由G構造.其中,新圖像塊特征維度大小由M確定,每一維度i的值可由新圖像塊與P(i)所指示的基圖像塊間相似性K(newpatch,P(i))恢復得到。通過算法1可以看到:選擇出的M個最具代表性的基圖像塊可以看成是一系列局部圖像塊的非線性濾波器,將每個新圖像塊和這些基圖像塊進行相似性度量的過程,也可看成是對這個新圖像塊進行特征提取的過程.另外,針對圖像塊相似度矩陣執行不完整Cholesky分解往往可以保證獲得精度非常高的低秩近似,且分解過程中只與某些訓練樣本(圖像塊)有關.也就是說,利用這些訓練樣本就可以很好地近似恢復相似度矩陣,所以訓練集中的圖像塊具有不同程度的重要性.因此,我們稱重要性最高的前M個圖像塊為“最具代表性”的基圖像塊.為了更加形象地展示這些重要的基圖像塊,我們在Scene-15圖像庫上提取了最重要的前16個基圖像塊,如圖1所示(每個圖像塊由其像素點的梯度幅值來表示).可以看到,每個圖像塊都包含了豐富的邊緣和紋理信息.本文提出的有效圖像塊描述子算法不只繼承了文獻[8]的有效性,而且很好地解決了核描述子算法中的第3點缺陷,最大限度地發揮了圖像塊特征的判別能力.
4利用MMD距離計算圖像間的相似性
基于算法1,每一個圖像塊都可以用有效圖像塊描述子來表示.一幅圖像通過稠密采樣確定很多關鍵點,每一個關鍵點都對應著一個局部的圖像塊,因此,一幅圖像就對應著一個局部特征的集合.假定圖像I1包含m個圖像塊,則其特征集合可以表示為Fp(patchp1,patchp2,…,patchpm),圖像I2包含n個圖像塊,其特征集合表示為Fq(patchq1,patchq2,…,patchqn).Fp可以看作特征空間中來自分布p的一個樣本集,同樣,Fq也可以看作是來自分布q的樣本集.這樣,圖像I1與I2之間的差異性就可以由p和q兩個分布的距離表示.當然,這兩個概率分布之間的距離只能通過這兩個樣本集進行估算.為此,本文采用基于高維概率分布的MaximumMeanDiscrepancy(MMD)距離[24]進行估算.MMD距離可以看作是將兩個概率分布,通過非線性核函數映射到再生核希爾伯特空間(RKHS)后均值的距離.對于上述分布p和q的MMD距離估計可由公式(3)計算。單純地利用公式(3),并沒有考慮局部特征在整幅圖像上的空間分布信息.為了解決這個問題,本文首先采用空間金字塔方法將整幅圖像進行逐層劃分;然后,在兩幅圖像每個層次對應的小圖像上計算它們之間的MMD距離;最終,將所有層次的MMD距離按照其對應層次的權重進行匯總求和,然后度量兩幅圖像I1與I2之間的差異性.
5實驗
本文使用像素點的梯度、形狀和顏色屬性分別構造基于梯度的有效圖像塊描述子(EPLd-G)、基于形狀的有效圖像塊描述子(EPLd-S)和基于顏色的有效圖像塊描述子(EPLd-C).為了測試有效圖像塊描述子算法的性能,分別在3個著名的圖像分類數據庫(Scene-15,Caltech-101[28]和UIUC-8[29])上做了實驗.在接下來的實驗中,計算3個不同類型的有效圖像塊描述子都是首先將圖像按照固定比率縮放到不超過300300像素點;特別地,在計算EPLd-G和EPLd-S時,將縮放后的圖像中的像素點的灰度值標準化為[0,1]范圍.圖像塊通過每隔8個像素點的稠密采樣方式從訓練集圖像中進行抽取,大小為1616像素點.EPLd-All是將EPLd-G,EPLd-S和EPLd-C這3個描述子串接起來形成的.訓練線性SVM分類器使用LIBLINEAR[30],其中,圖像間的相似性利用MMD距離來定義.在計算MMD時,將圖像按照11,22和33分為3個層次來匯總求和,尺度參數在不同的數據庫上利用交叉驗證方法確定.所有的實驗均重復10次,每次的訓練集和測試集都隨機抽取確定,將10次分類準確率的平均值和方差記錄下來.實驗中的其他參數從公平比較的角度考慮,與文獻[6,8]設置相同.
5.1Scene-15Scene-15場景數據庫包含4485張圖片,這些圖片分屬15個類別,有室內場景和室外場景,每一個類別包含200張~400張圖片不等.按照慣例,從每個類別中隨機抽取100張圖片作為訓練,剩余圖片作為測試.在算法中設置Pivots的個數為200,即,利用不完整Cholesky分解選出200個最具代表性的基圖像塊來構造維度為200的有效圖像塊描述子.實驗結果列在表1中(其中,KD代表核描述子方法[6],EKD代表有效核描述子方法[8],EPLd代表本文提出的有效圖像塊描述子方法),EPLd方法獲得在這個數據庫上的最佳分類準確率(87.0%).另外,EPLd方法在所有4種不同情況(梯度、形狀、顏色和上述3種屬性的匯總)下的性能均超過了文獻[6,8].在實驗中,除了測試分類準確率來體現EPLd的判別能力,還通過不同維度下測試分類準確率來體現EPLd的有效性.我們發現,在特征維度只有50維的情況下也獲得了接近最優分類準確率的性能,這充分體現出EPLd算法的有效性和健壯性.事實上,通過表2可以看到:特征維度從50維增加到300維,分類準確率并沒有得到明顯的提升.造成這一現象的原因是,不完整Cholesky分解容易獲得高質量的低秩近似.表2中的數據表明:即使是50維的低秩近似也足以體現Gram矩陣中的關鍵信息,而這些關鍵信息直接決定了分類的性能.在后面的實驗中,從算法效率的角度考慮都使用了100維的特征表示.
5.2Caltech-101Caltech-101圖像數據庫包含9144張圖片.這9144張圖片隸屬于101個對象類別外加一個背景類別,每個類別中的圖片在31張~800張不等.表3中,將EPLd與其他有代表性的描述子算法進行了對比.同樣根據慣例,每個類別隨機挑出30張圖片進行訓練,從剩余圖片中挑選不超過50張進行測試.可以看到:EPLd算法達到了最佳的分類準確率(77.1%),甚至在僅僅使用梯度屬性的情況下(EPLd-G)也達到了非常不錯的分類效果(73.7%).
5.3UIUC-8UIUC-8圖像數據庫包含1579張圖片,這1579張圖片隸屬于8個運動類別,每個類別下包含圖片137張~250張不等.按照慣例,隨機從每個類別中抽取70張圖片進行訓練,從剩余圖片中挑選60張進行測試.分類準確率結果列于表4中.通過表4可以看到,EPLd-All非常接近最佳分類準確率(87.2%vs.87.23%).在實驗部分的最后,本文對比了構造3種不同描述子(EPLdvs.KDvs.EKD)的計算效率.其中,最耗時的是形狀特征,一幅標準圖像(最大300300分辨率,圖像塊大小為1616像素點,圖像塊間隔8個像素點)上的EPLd-S與EKD-S描述子在Matlab環境下計算需要耗時2s,而KD-S需要耗時2.5s.對于梯度特征,EPLd-G與EKD-G描述子耗時0.9s,KD-G耗時1s.以上對比結果列在表5中.表5中的對比結果是在生成100維特征情況下得到的,如果提高特征的維度,EPLd與EKD的計算效率提升相對于KD會表現得更加明顯.另外一點需要指出的是:EPLd與EKD的計算耗時雖然基本相同,但EPLd描述子的特征判別能力相對于EKD描述子要強很多,這一點通過在3個圖像數據庫上的實驗對比結果可以得到印證.所以,綜合考慮,EPLd描述子無論在計算效率還是在判別能力上都要優于EKD和KD描述子.
6結束語