前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的卷積神經網絡的缺陷主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:ROS;表面缺陷;圖像采集;神經網絡;模型訓練
飛機蒙皮是包圍在飛機骨架結構外且用粘接劑或鉚釘固定于骨架上,形成飛機氣動力外形的維形構件,在飛機正常工作狀態下扮演著重要的角色,一旦飛機蒙皮出現缺陷等問題,需要及時的反饋出來并且維修。傳統的飛機表面缺陷檢測方式大多數是由人工來完成,會存在效率低、成本高等缺點,甚至會出現檢測失誤的情況。本文就針對鋁合金表面缺陷檢測方面,提出一種基于ROS的飛機表面缺陷檢測系統,采用移動機器人底盤定位和導航技術,結合深度學習、圖像處理等技術檢測出存在缺陷的位置并標記出來,通過機器代替傳統人工的方式,旨在提高檢測效率和檢測精度,為飛機表面缺陷檢測提供一種方式。
1系統的總體設計
飛機表面缺陷檢測系統主要由檢測模塊、ROS機器人模塊、圖像處理模塊三大部分組成,系統的總體結構框圖如圖1所示。系統的具體工作原理為:在某一區域范圍內,檢測模塊以樹莓派為核心控制器,通過檢測模塊中的圖像采集系統對鋁合金材料表面進行圖像采集,將采集到的圖像通過TCP通信傳輸到圖像處理模塊上[4]。圖像處理模塊利用深度學習中設計的卷積神經網絡進行數據訓練,得到檢測模型,將檢測模型應用到圖像預處理上。此時,OpenCV對檢測模塊得到的圖像進行圖像處理[5],最終得到缺陷出現的位置。當前區域檢測完畢后,通過ROS機器人模塊的定位和導航功能,驅動運動執行機構工作,并移動到相鄰下一塊檢測區域,直到所有位置都檢測完畢。上述工作原理可實現飛機表面缺陷檢測系統,下文將對其包括的三大模塊進行說明介紹。
2檢測模塊設計
如圖2所示,系統的檢測模塊主要是包括樹莓派和攝像頭,其中樹莓派作為檢測模塊的處理器,搭建的有Ubuntu系統,是系統實現的重要組成部分。樹莓派可以提供普通計算機的功能,并且功耗低。可直接在樹莓派上安裝Keil進行開發,具有很好的開發效果,運行穩定。本次飛機表面缺陷檢測系統實現了樹莓派將攝像頭拍攝的圖片發送到圖像處理模塊上,同時也搭載ROS系統實現了移動底盤的定位和導航功能。
3ROS機器人模塊設計
ROS隨著機器人技術發展愈發受到關注,采用分布式框架結構來處理文件,這種方式允許開發者單獨設計和開發可執行文件。ROS還以功能包的形式封裝功能模塊,方便移植和用戶之間的共享。下面將介紹其建圖和導航功能的實現。
3.1建圖設計
本文在ROS系統中使用Gmapping算法軟件包實現建圖[7],在ROS系統中設計了建圖過程中各節點及節點間的話題訂閱/的關系如圖3所示。在圖3建圖節點話題關系圖上,其中橢圓形里代表節點,矩形基于ROS的飛機表面缺陷檢測系統胡浩鵬(紐約大學NewYorkUniversity紐約10003)框里代表的是主題,節點指向主題代表著該節點了主題消息,主題指向節點代表著該節點訂閱了主題消息。在建圖過程中,主要涉及激光雷達節點、鍵盤控制節點、底盤節點、Gmapping節點和地圖服務節點。
3.2導航設計
ROS提供的Navigation導航框架結構如圖4所示,顯然MOVE_BASE導航功能包中包括全局路徑規劃和局部路徑規劃兩部分,即在已構建好的地圖的基礎上,通過配置全局和局部代價地圖,從而支持和引導路徑規劃的實施。為了保證導航效果的準確,通過AMCL定位功能包進行護理床的位置定位[8]。獲取目標點的位置后,MOVE_BASE功能包結合傳感器信息,在路徑規劃的作用下,控制指令,控制護理床完成相應的運動。
4圖像處理模塊設計
圖像處理模塊設計主要分為圖像預處理、模型訓練和卷積神經網絡三大部分,通過TCP通信協議進行通信,TCP通信是一種面向連接的通信,可完成客戶端(樹莓派)和服務端(PC)的信息傳遞[9]。下面主要對卷積神經網絡部分進行介紹。
4.1卷積神經網絡訓練流程
通過相機采集到的缺陷和問題圖像作為訓練樣本,這部分是檢測飛機表面缺陷的關鍵一步,然后對訓練樣本進行訓練,具體步驟如下所示。(1)訓練標記數據:首先使用圖像預處理中標記好的道路故障提取出來,通過卷積神經網絡對標記框內的目標數據進行訓練;(2)提取特征數據:將道路故障的類型統計并歸納;(3)誤差反饋學習:對測試樣本進行誤差反饋學習,并進行測試;(4)優化訓練數據:將得到的測試結果與設定的故障分類結果進行誤差對比,不斷優化訓練集,最終得到理想的訓練數據。
4.2缺陷檢測流程
缺陷檢測流程如圖5所示,首先輸入缺陷原始圖像,通過特征提取網絡,將處理后的圖像使用檢測器進行檢測,其中檢測器里為卷積神經網絡訓練后得到的模型,最終缺陷檢測后得到的識別后的圖像,并反饋出來。
4.3實驗測試
鋁合金表面缺陷主要有碰傷、刮花、凸粉、臟點等常見的缺陷,下面將以這四種為主要對象進行檢測訓練,各自訓練集數量為1000張。通過卷積神經網絡對缺陷的特征進行提取和分類,最終實現了缺陷的檢測。本次實驗測試的樣本為200張,每種缺陷50張,均采集自鋁合金材料表面且與訓練樣本一致,實驗結果如表1所示。由表1可知,檢測臟點的準確率高達98%,刮花和凸粉的準確率也達到94%,但碰傷的準確率相對較低,只有88%。可能造成的原因是:①硬件原因導致采集的圖像清晰度比較低;②碰傷缺陷不明顯,無人機難以識別;③訓練的數據集較少,特征學習誤差大;但最后結果是滿足了設計需求,還需進一步改進。
5總結與展望
關鍵詞:PCA算法;人臉識別;五級并行PCA模型;權重計算;均值濾波
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2016)19-0147-02
Research on Face Recognition System Based on Parallel PCA Algorithm
ZHAO Ya-peng
(College of Information Science and Engineering, Shandong University of Science and Technology, Qingdao 266590, China )
Abstract:In order to solve the problem of fast and accurate face recognition, a face recognition method based on parallel PCA algorithm is proposed. Using principal component analysis (PCA) method can reduce the dimension of features, easy to implement, training time is short, the design and implementation of a parallel algorithm for PCA, first of all according to the whole image to extract the 4 part of face images, then the whole image and 4 partial images at the same time by the same structure of the PCA model of learning, face feature vector extraction, the Euclidean distance for matching calculation of the test images and training images, finally through the test image with the five level parallel PCA model identification results are weighted decision, in order to achieve face recognition. Using the image data of the ORL face database , the simulation results in Matlab show that the method has a great degree of improvement in accuracy, the recognition speed is relatively fast, with a high degree of robustness.
Key words:PCA algorithm;Face recognition;Five level parallel PCA model;Weight calculation;Mean filter
1 概述
隨著智能終端設備(手機、Pad、門禁等)的不斷發展,身份識別已經成為我們日常生活的重要組成部分,身份驗證技術被廣泛應用于各個領域,特別是人們對于個人隱私信息的保護,使得身份識別再次成為關注的焦點。人臉識別作為身份識別的重要手段之一,因其具有識別率高、采集性強、接受性高等特點,在身份識別的各類方法中具有獨特的優勢,成為了目前比較熱門的研究領域。
目前,卷積神經網絡(Convolutional Neural Networks)是圖像識別領域最重要的研究熱點,而且在語音識別領域也取得了不錯的效果,但是卷積神經網絡的整個訓練過程比較費時,而且實現相對復雜,而基于PCA算法的人臉識別技術因其自身存在的許多缺陷,一直沒有被廣泛應用,但該方法實現簡單、學習速度較快,因此,本文主要研究改進的并行PCA算法,以彌補傳統PCA算法在人臉識別領域的不足。
本文提出的基于并行PCA算法的人臉識別技術,首先對原始圖像進行預處理,如灰度歸一化和中值濾波等操作,以消除圖像噪聲、光照等因素造成的影響,使得特征提取更加準確可靠。然后,通過5級并行PCA模型獲取數據的不同特征矩陣,然后將訓練圖像和測試圖像分別進行子空間的投影,利用歐氏徑向基函數(Euclidean Radial Basis Function)進行人臉的匹配,最后根據訓練得到的權值向量進行加權決策。本文通過ORL人臉數據庫的仿真實驗證明,該算法的效果明顯好于PCA算法。
2 并行PCA算法
PCA(Principal Component Analysis)即主成分分析技術,PCA是基于K-L變換的統計學分析方法,是多元分析中常用的方法,其基本思想是將高維數據投影到低維空間,主要過程在于特征值的計算和矩陣的降維。將PCA應用于人臉識別時,首先將圖像轉化成矩陣向量,然后進行矩陣的奇異值分解(Singular Value Decomposition),將高維向量通過計算得到的特征向量矩陣投影到低維的向量空間,從而減少數據的計算量。
2.1 基于并行PCA算法的人臉識別流程
本文中提出的并行PCA算法,正是基于上述的PCA算法,通過建立5級的PCA算法模型同時進行數據特征的學習,使得最終的人臉識別準確率得到進一步的提高,具體的人臉識別流程如圖1所示。
2.2 并行PCA算法的實現的步驟
2.2.1 人臉圖像的預處理
首先,需要把ORL人臉數據數據庫的所有訓練圖像大小進行歸一化,并轉化為像素矩陣,矩陣大小記為,為矩陣的行數,為矩陣的列數。之后利用均值濾波和灰度歸一化進行圖像的去噪處理,以消除光線等問題對圖像造成的影響,以方便后期的特征提取等操作。
2.2.2 人臉圖像的PCA降維
根據PCA的原理,可以將每一張圖像看成是一個高維的向量,所有的圖像可以看成是這個高維空間中的一點,PCA要做的就是找出另外一個盡可能多的反應圖像特征的低維空間。
假如樣本由n張大小為p*q的人臉圖像組成,那么每一張圖像可以保存為一列向量,向量維數是p*q,真個樣本可以看成是一個行數為n,列數為p*q的矩陣記為矩陣A。
根據上述過程,首先求出矩陣A的協方差矩陣,然后求出協方差矩陣的特征值,選取前m個最大的特征值,然后求出對應的特征向量,組成一個特征矩陣。通常所說的“特征臉”就是這些特征向量,而特種功能矩陣就是“特征臉”空間或者說子空間。然后可以將每一張圖片投影到該子空間,得到了每一張圖像的投影矩陣(l*m)。
2.2.3 人臉圖像的識別
對于待識別的圖像,也可以看成是一列向量,投影到子空間得到一個投影矩陣,然后一一求出這個投影矩陣與樣本圖像投影矩陣最相似的。然而有可能該人臉不是人臉庫中的,所以最相似的人臉也不一定是同一個人臉,還需要設置一個閾值來判斷待識別人臉是否是人臉庫中的。
人臉識別部分正是基于上述的PCA算法,在本文所提出的并行PCA模型中,是由5級的PCA模型同時進行人臉識別這一操作,最后根據訓練得到的權值向量進行決策,通過使用多個PCA模型,從而使得整個識別過程的準確率得到進一步的提升。
3 系統設計及實現
3.1 系統總體設計
本文中所提出的基于并行PCA算法的人臉識別系統,包括人臉圖像采集模塊、圖像預處理模塊、識別模塊。人臉圖像采集模塊主要是采集訓練圖像數據和測試圖像數據,并由原始圖像提取出4幅與之對應的部分圖像;圖像預處理模塊主要就是進行圖像歸一化和圖像的去噪工作,圖像的歸一化包括大小歸一化和灰度歸一化,可以使用比較常見的直方圖均衡化等技術,而圖像的去噪可以使用中值濾波技術,以去除比較常見的高斯噪聲等;人臉識別模塊是基于5級相互獨立的PCA模型進行特征值的學習和比對,而且通過訓練得到的權值向量進行最終的是臉識別決策。整個系統的實現是基于Matlab進行仿真實驗的,實驗數據來自劍橋大學AT&T實驗室創建的ORL人臉數據庫。
3.2系統功能模塊實現
3.2.1人臉圖像采集實現
圖像采集模塊主要就是將存儲在本地的圖像文件通過Matlab的imread函數讀入矩陣中,以方便后期的PCA操作,其核心語句為Image{t}=imread([[filepath,FilDir(ii).name],'\',ImDir{ii}(jj).name]);
使用上述語句即可讀入訓練數據和測試數據文件。
3.2.2 圖像預處理模塊
該模塊的主要任務就是利用中值濾波和直方圖均衡化進行圖像的去噪工作,以消除不同光照和圖像噪聲的影響,提高準確率。其核心代碼為:
S1=zeros(1,256);
for i=1:256
for j=1:i
S1(i)=GP(j)+S1(i);
end
end
S2=round((S1*256)+0.5);
for i=1:256
GPeq(i)=sum(GP(find(S2==i)));
end
3.2.3 識別模塊
圖像經過之前的預處理之后,需要將圖像矩陣轉化為列向量,一幅圖像就是一列向量,整個訓練圖像構成了整個特征空間矩陣,測試圖像也會轉化為一列向量,之后會利用矩陣之間的運算進行圖像的分析計算。識別模塊的工作就是根據測試圖像和之前所有的訓練數據進行對比,查找到與之最相似的圖像,實驗的結果如圖2所示。
4 結論
PCA算法作為傳統的人臉識別算法,因其自身存在的許多缺陷而沒能發揮較好的作用,但是其自身具有其他算法所不具有的特點,本文設計的并行PCA算法雖然是基于PCA算法,但是借鑒了卷積神經網絡的多層結構,而且使用加權操作進行最終人臉識別的決策。基于ORL人臉數據庫的測試結果表明,該并行PCA算法的準確率和魯棒性均得到了進一步的提升,與其他的單獨PCA算法具有十分明顯的優勢。
參考文獻:
[1] 張利芳. 基于PCA算法的人臉識別系統研究[D].太原:中北大學,2015.
[2] 楊海燕,蔣新華. 基于并行卷積神經網絡的人臉關鍵點定位方法研究[J]. 計算機應用研究, 2015, 32(8): 2517-2519.
[3] 楊穎嫻. 基于PCA算法和小波變換的人臉識別技術[J]. 微電子與計算機, 2011, 28(1): 92-94.
[4] 段寶彬,韓立新. 改進的卷積神經網絡及在碎紙拼接中的應用[J]. 計算機工程與應用, 2014, 50(9): 176-181.
關鍵詞:交通標志檢測;ITS;TSR;顏色檢測;形狀檢測
中圖分類號:TB
文獻標識碼:A
doi:10.19311/ki.16723198.2017.12.089
1引言
隨著經濟的發展,汽車出行在為人們帶來便利的同時也增加了安全事故的發生。智能交通系統ITS(Intelligent Transportation System)作為一種全新的汽車識別模式,能夠緩解交通事故的發生。具體表現在,汽車在行駛過程中,利用車載系統對交通標志進行識別,再反饋給駕駛員,為駕駛提供路況信息,使駕駛員能夠對路況做出準確的判斷,減少交通意外的發生。另一方面,對于無人駕駛和交通標志的識別,也l揮著重要的維護作用。
近幾十年來,交通標志檢測與識別受到了諸多學者的關注與研究,ITS在減少安全事故和緩解道路壓力方面發揮著重要作用,交通標志識別系統TSR(Traffic Sign Recognition)也應運而生。交通標志識別系統包括很多方面,交通標志檢測是其一個子方面,但其重視程度不言而喻,它的應用范圍很廣,如無人駕駛車輛和駕駛員輔助系統等,在行車過程中,為駕駛員提供實時路況檢測。雖然目前在交通標志檢測方面取得了一些突破性的進展和一些階段性的成果,但隨著道路環境的多樣化和不確定因素,使得檢測仍存在諸多困難。總的來說,交通標志檢測實用性強,關注度高,在任何時候熱度都不會消減,會引發更多的人去深入研究。
2交通標志檢測系統組成
交通標志檢測包括五部分:圖像采集,預處理,顏色分割,形狀檢測,精準定位。圖形的采集尤為重要,對于采集到傾斜的圖像,我們需要對其進行矯正處理。對于正常圖像,大多數情況我們需要對其做預處理,以消除光照等的影響,然后可以通過交通標志特有的顏色和形狀信息對其進行分割處理,以得到待選區域。再根據一些特定的算法對干擾區域進行剔除,從而得到目標區域。對于目前交通標志檢測的研究現狀,雖然取得了突破性的進展,但各種算法亦有優缺點,面對復雜多變的交通環境很難做出很好的檢測,所以有必要對交通標志的檢測進行更進一步的討論和研究。
3國內外研究現狀
3.1國外研究現狀
早在1987年日本就進行了交通標志的檢測與識別,采用了模板匹配的經典算法,其平均識別時間為0.5秒。發到國家也不甘落后,1993年美國針對“停車”的標志研究開發了ADIS系統,采用了顏色聚類的方法對目標進行檢測,然而AIDS存在一個明顯的缺陷,就是時間不穩定。為了滿通標志時間識別的精確性,1994年,戴姆勒-奔馳汽車公司與大學合作開發,最終,一個全新的系統誕生了,其速度之快令人嘆服,達到3.2s/幅,交通標志數據庫中,有40000多幅圖像,其識別準確率為98%。交通標志檢測與識別研究進入新千年。越來越多的科研工作者和科研機構加入到交通標志檢測與識別中去,使得檢測技術有了很大的進步。在2001年Winconsin大學的Liu和Ran基于HIS空間的顏色閾值分割法,結合神經網絡進行識別,經過實驗顯示該系統的準確率為95%。2005年Carethloy實驗室和Nick Barnes自動化研究所利用交通標志在圖形上的對稱性來確定交通標志的質心位置,其建立的交通標志識別系統的準確率為95%。在2009年Muhammad等人運用多個方法進行識別實驗得到最好的識別準確率為97%。2011年德國以德國交通標志數據庫(GTSRB)為基礎舉辦了交通標志識別大賽(IJCNN2011)。標志著交通標志檢測與識別受到了全世界的高度關注,這也促進了交通標志檢測與識別的研究進展。Ciresan等人在IJCNN2011大賽上采用深度卷積神經網絡(Deep Convolution Neural Network)識別算法得到了比人類識別平均率高的結果。2013年,對于交通標志檢測系統,Kim J.B將視覺顯著性模型運用到其中,使交通識別的準確性更高。
3.2國內研究現狀
與國外相比,在時間上,對于交通檢測系統,我國運用的稍微落后。在交通標志檢測研究方面,將顏色和形狀結合的相關檢測方法較為廣泛,在識別算法方面,國內一些學者也取得了顯著性的成果。在2000年郁梅提出了一種基于顏色的快速檢測方法。2004年,根據不變矩特征和BP神經網絡,王坤明等人對交通識別系統做了進一步的闡述。2008年,交通識別系統有了進一步的發展,以BP神經網絡為基礎,寧波大學朱雙東教授等人將交通標志的顏色區分成了五種最基本的顏色。2012年朱淑鑫在RGB和HIS空間上進行多閾值分割。2013年,“紅色位圖”方法被提出,其主要利用在邊緣信息的形狀檢測上,王剛毅希望通過這一方法來提高紅色圓形標志區域的檢測率。
4交通標志檢測算法現狀
我國的交通標志主要分為警告、禁止、指示三大類,交通標志顏色主要有紅色、藍色、黑色、黃色和白色五種基本顏色,交通標志的形狀有四大類,即三角形、矩陣、八邊形和圓形。目前針對道路交通標志檢測的算法主要是基于顏色的檢測、形狀的檢測以及顏色和形狀相結合的檢測,下面我們對常見的檢測方法進行簡單的概述。
4.1基于色的檢測方法
由于交通標志具有很明顯的顏色特征,所以很多文獻都對這一方法做了討論和研究。常見的顏色空間有RGB、HSI、Lab、Ycgcr、Ycbcr等。De La Escalear A等人運用RGB閾值的方法將顏色分類。但此方法受光照影響因素較大,為了減少光照等環境因素的影響,Ruta等人提出了RGB空間顏色增強的方法,這種方法可以快速將標志區域檢測出來。由于RGB空間亮度和色度的混合在一起的,后來研究者們運用了更符合人類對顏色的視覺理解的HIS、HSV空間。為了使交通標志的檢測精度更高,在HIS空間中設定閾值這個方法被提出了,事實上,一個交通標志可以由幾種顏色構成,因此,S.LafuenteCArroyo等人希望通過這種方法對于不同顏色的交通標志都能檢測出來。但HIS顏色空間聚類效果不好,因此,為了更好的對交通標志的顏色進行區分,選擇聚類效果好的顏色空間至關重要,在此基礎上,Jitendra N.Chourasia等人主張使用Ycbcr顏色區間。
4.2基于形狀的檢測方法
除了利用顏色對交通標志進行檢測之外,還可以利用交通標志的形狀,這也是其另一個重要的特點。最常用的檢測圓形和直線是Hough變換,事實證明,Kuo W J等人通過Hough變換,對交通標志進行檢測,效果顯著,但由于其計算量大的原因不適用于實時性監測。另一種形狀檢測法是基于拐角提取算法,Escalera等人提出拐角檢測算法,簡單來說,就是根據形狀的變化所產生的像素點判斷能否為拐點,來進行檢測,但是,其唯一的缺點是誤檢率也比較高。Rangarajan等人提出了一種最優拐角檢測方法,通過設計好的掩膜與圖像做卷積運算后將拐角檢測出來,魯棒性好。
4.3基于顏色和形狀的檢測方法
既然基于顏色和基于形狀的方法都不能得到很好的交通標志檢測,于是很多學者將這兩種方法結合起來,產生了綜合顏色和形狀的檢測方法。并也取得了一些顯著性的成果。M.Zadeh等人利用圖像處理的相關知識,先把圖像進行顏色分割,再運用形態學的相關方法提取區域邊緣,最后對待定區域進行跟蹤和幾何分析,從而提取得到目標檢測區域。但該方法對噪聲特別敏感。所以當圖像的噪聲很強時這種檢測方法的效果并不理想。
5交通標志檢測與識別難點
盡管近幾十年提出了很多新的檢測方法,但目前的研究成果還不能夠勝任復雜多變的現實場景。交通標志識別系統TSR設計到多個研究領域,包括圖像處理、人工智能、模式識別和機器學習等相關領域,因此,關于交通標志識別系統的研究任重而道遠,在未來,不管是自然場景下,還是復雜場景下,對于交通識別系統研究,都應重點關注。現階段交通標志檢測與識別主要面臨的困難和挑戰如下:
(1)環境對交通標志的影響。這主要表現在四季中風雨對交通標志的損壞,這在一定程度上會降低圖像的清晰度。交通標志長年暴露在外面,難免會出現變形、污損、褪色等情況,這對檢測也造成了困難。
(2)拍攝角度的影響。不同的拍攝角度對檢測具有比較大的影響,對傾斜的圖像我們需要對其做一個矯正處理。
(3)現場場景環境中有很多干擾物體,使得在分割的時候會把不是標志的物體也分割出來,對我們檢測帶來了一定程度上的干擾。
(4)交通標志類型復雜,種類多,目前所了解的就有130多種,包括警告標志、指示標志、禁令標志、指路標志等等,給檢測大大增加了難度。
(5)實時性改進的問題,由于汽車移動速度快,而且在移動過程中往往在一定程度上有抖動和變速等動作,捕捉到的圖像會產生變形模糊,處理時間過長會導致司機反應時間縮短。
(6)準確率有待進一步提升。準確率太低的話不但達不到駕駛輔助作用,反而會引起交通事故發生。
(7)沒有公用樣本數據。國內目前統一的評判標準和數據庫尚未建立起來。
(8)智能交通識別系統服務于大眾,因此需要考慮經濟成本問題。
綜合以上可知,由于在現實場景中以上問題的存在,所以在設計道路交通標志檢測與識別算法的時候必須有針對性的解決上訴問題。
6總結
總的來說,交通標志檢測與識別系統(TSR)的發展前景非常好,被廣泛運用于輔助駕駛系統、無人汽車駕駛和各種道路檢測標志的檢測修復等領域。本文主要對國內外的研究現狀做了一個回顧和分析,許多研究學者也做出了一些階段性的成果和進展,但由于自然環境下一些復雜多變的因素對檢測造成了困難和挑戰,因此TSR系統的研究還面臨許多難題有待解決。隨著人工智能和機器學習等算法的提升,我們堅信未來的道路交通標志檢測與識別會邁上一個新的臺階。
參考文獻
[1]徐華青,陳瑞南,林錦川等.道路交通標志檢測方法研究[J].福州大學學報,2010,(3):387392.
[2]常發亮,黃翠,劉成云等.基于高斯顏色模型和SVM的交通標志檢測[J].儀器儀表學報,2014,35(1):4349.
[3]Salichs M A.TRAFFIC SIGN DETECTION FOR DRIVER SUPPORT SYSTEMS[C].2001.
[4]Kehtarnavaz N,Griswold N C,Kang D S.Stop-sign recognition based on color/shape processing[J].Machine Vision and Applications,1993,6(4):206208.
[5]Priese L,Lakmann R,Rehrmann V.Ideogram identification in a realtime traffic sign recognition system[C].Intelligent Vehicles 95 Symposium. Proceedings of the.IEEE,1995:310314.
[6]Liu H,Ran B.Vision-Based Stop Sign Detection and Recognition System for Intelligent Vehicles[J].Transportation Research Record Journal of the Transportation Research Board,2001,1748(1):161166.
[7]Barnes N,Loy G,Shaw D,et al.Regular polygon detection[C].Tenth IEEE International Conference on Computer Vision.IEEE,2014:778785.
[8]Muhammad A S,Lavesson N,Davidsson P,et al.Analysis of Speed Sign Classification Algorithms Using Shape Based Segmentation of Binary Images[J].Lecture Notes in Computer Science,2009,5702:12201227.
[9]Kim J B.Detection of traffic signs based on eigen-color model and saliency model in driver assistance systems[J].International Journal of Automotive Technology,2013,14(3):429439.
[10]郁梅,郁伯康.基于彩色D像的指示標志檢測[J].計算機工程與應用,2000,36(4):169172.
[11]王坤明,許忠仁.基于不變矩和神經網絡的交通標志識別方法研究[J].計算機應用研究,2004,21(3):254255.
[12]朱雙東,蔣甜甜,劉蘭蘭.基于顏色規格化的交通標志識別[J].計算機應用與軟件,2008,25(1):220222.
[13]朱淑鑫.基于顏色特征的交通標志圖像分割研究[J].考試周刊,2012,(81):111112.
[14]Wang G,Ren G,Jiang L,et al.Hole-based traffic sign detection method for traffic signs with red rim[J].The Visual Computer,2014,30(5):539551.
[15]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.
[16]Ruta A,Li Y,Liu X.Real-time traffic sign recognition from video by class-specific discriminative features[J].Pattern Recognition,2010,43(1):416430.
[17]Lafuente-Arroyo S,Salcedo-Sanz S,Maldonado-Basc,et al.A decision support system for the automatic management of keep-clear signs based on support vector machines and geographic information systems[J].2010,37(1):767773.
[18]Chourasia J N,Bajaj P.Centroid Based Detection Algorithm for Hybrid Traffic Sign Recognition System[C].International Conference on Emerging Trends in Engineering and Technology.IEEE,2010:96100.
[19]Kuo W J,Lin C C.Two-Stage Road Sign Detection and Recognition[C].IEEE International Conference on Multimedia and Expo.IEEE Xplore,2007:14271430.
[20]De l E A,Moreno L E,Salichs M A,et al.Road traffic sign detection and classification[J].IEEE Transactions on Industrial Electronics,1997,44(6):848859.
關鍵詞:大學計算機基礎;教學改革;人工智能;智慧課堂
云計算、大數據、人工智能新興領域的崛起,推動信息技術全面滲透于人們的生產生活中。信息技術的核心在于計算機技術和通信技術。然而,雖然目前各個高校都開設了計算機基礎課程,但是其教學卻存在著諸多問題,導致該課程無法達到預期的教學效果。教育部在2012年《教育信息化十年發展規劃(2011-2020年)》,其中指明“以教育信息化帶動教育現代化,促進教育的創新與變革”[2]。因此,本文以華中師范大學計算機基礎課程教學為例,深入闡述了傳統計算機基礎課程教學的弊端,提出了在當前人工智能如火如荼的時代背景下,如何應用人工智能相關技術對傳統的計算機基礎教學進行改革的具體方案。該方案以創建網絡智慧課堂教學模式改革為主體,輔以教學觀念、知識體系和課程考核方式改革,以期對高校的計算機基礎課程教學有所裨益。
1傳統教學的缺陷
⑴課程的教學地位沒有引起足夠的重視一些高校為計算機基礎課程分配較少的學時(少于48學時),甚至有的專業將此課程設置為選修課。這種設置降低了該課程在教師和學生心目中的位置,導致了對該課程的忽視。同時,不少老師因為學時不夠,時間緊迫,僅僅講述與考試相關的內容,不考的一概不講。這導致學生的眼界受限,知識和能力受限,無法培養其全面綜合的計算機素質。還有的專業沒有將這門課給專業的計算機學院的老師講授,而是隨意安排授課人員。沒有經過系統專業訓練的教師缺乏足夠的知識儲備,很難講好這一門看似簡單的課程。⑵課程教學內容的制定與當今時代對于信息化人才的需求脫節一些高校的現狀是計算機基礎的課程教材知識陳舊[3]、質量堪憂,教材總是無法跟上知識更新的步伐,例如都2019年了還在講Office2010。有的高校由于缺乏對課程的重視,沒有對教材優中選優,而是基于利益的考慮,優先選擇自己院系編寫的教材。其教材內容是七拼八湊,沒有整體性、邏輯性和連貫性,更不用說前瞻性。這樣的教材,無疑對學生的學習設置了巨大的屏障。除此以外,一些院校的課程教學知識體系不夠明確和完善,教學大綱的制定不夠科學。從教學大綱中制定的學時分配來說,常常偏重實用性[4],常用計算機軟件操作占據了大部分的課時。這會讓教師在授課時輕理論而重操作,如此培養學生,非常不利于其計算思維的形成,對后續其他計算機相關課程的學習也是很大的傷害。⑶教學模式過于傳統,信息化水平較低從教學方式上來說,傳統的教學模式以教師課堂授課為中心,是以教師為主體的教學模式[5]。在這種模式下,教師仍然主要以填鴨式教學為主[6],無法通過課堂教學發現學生的個性化特點,并進行有針對性的教學。另外,雖然計算機基礎課程一般都配備了實驗課時,但是實驗課常常是采用教師布置上機任務、學生做完抽樣檢查的模式。這對于大課堂來說,教師的任務繁重,無法搜集到每一個學生的任務完成情況,無法清晰地掌握學生學習的實際情況和薄弱環節。而且,該課程缺乏相應的研討課時,很難讓學生對其所學知識進行深入思考和探究,以增強思辨能力和對課程的學習興趣。⑷課程考核方式不夠公平合理從考核方式上來說,該課程普遍采用“平時成績”+“期末考試”的加權方式對學生成績進行評定。平時成績多由考勤分所得,期末考試多采用機考模式。這種考核方式過于單一化、機械化,無法對學生進行全方位的評價。很多學生來到教室打考勤,但可能根本沒聽講,而是在睡覺或者玩手機。期末機考的公平合理性也是存在著很多的漏洞。例如機考的試題庫可以十年不變,分值的分配和難度的掌握都沒有經過系統的考量。甚至有的考試系統不夠穩定和安全,頻頻爆出Bug,嚴重影響了考試結果的真實性。
2新人工智能環境下對計算機基礎課程改革的具體方案
2012年開始,在隨著卷積神經網絡技術在視覺處理方面的應用取得巨大的成功之后,人工智能到達了有史以來的第三個爆發期。目前,深度學習技術在AlphaGo、無人駕駛汽車、機器翻譯、智能助理、機器人、推薦系統等領域的發展如火如荼。與此同時,人工智能技術在教育領域方面的應用已經興起。人工智能的教學產品也已有先例,例如基于MOOC平臺研發的教學機器人MOOCBuddy等等。基于人工智能的教育是融合云計算、物聯網、大數據、VR、區塊鏈等新興技術的增強型數字教育[2].在當前人工智能的大時代背景下,針對傳統計算機基礎的種種弊端,我們提出了如下教學改革方案。⑴改變教學理念,確立計算機基礎課程的重要地位計算機基礎作為高校的一門公共課,實則應當作為各個專業的學生后續的學習、科研的必修之課程。因此,高等學校應從源頭上確立該課程的重要地位,將該課程納入必修課范疇,并給與更充分合理的課時分配。除教學課時、實驗課時之外,需要為該課程增加一定的研討課時。任課老師必須是來自于計算機專業的人才。同時,定時舉辦關于該課程的教學培訓、教學研討會和教學比賽,改變教師的教學理念,從源頭上給予該課程足夠的重視。⑵優化教學內容,重新制定課程的教學知識體系教材是教師教學的主要依據,也是學生獲得系統性知識的主要來源。因此,教材對于教學的重要性不言而喻。教材的選取需要優中擇優,必要的時候可以根據自身院校的情況自己編寫,力求使用好的教材使教學事半功倍。在選定優質教材的基礎上,制定更加合理的教學大綱,優化計算機基礎課程的教學知識體系,突出計算機學科入門相關基礎理論知識的重要地位。對現有的過時內容進行更新,例如操作系統以Windows10的操作取代Windows7,Office這部分使用Office2019版本取代2010的版本,同時增加關于算法入門知識、程序設計入門知識以及人工智能、區塊鏈等前沿知識單元的介紹。以華中師范大學為例,我們在圖1中給出了該校計算機基礎課程的教學知識體系結構圖。⑶充分利用現代化的教學工具和人工智能技術,構建智慧課堂,改變傳統教學模式現代化的教學應當轉變以教師為核心的教學模式,更加突出學生的主體性地位。因此,在人工智能、物聯網、大數據等技術和蓬勃發展的情形下,應當改變傳統的課堂教學形式,充分利用現代化信息技術,將傳統課堂教學和網絡課堂教學模式相結合,構建智慧課堂。融合課堂教學身臨其境的效果與網絡課堂自主性強且方便師生交流的特點,通過師生之間多層次、立體化的互動,達到提升教學效果的目的。同時,建立功能強大、完善的學生實驗平臺,基于不同專業學生的不同特點和不同需求,進行個性化的作業設置。針對教師布置的實驗任務和學生的完成情況,結合在線網絡教學系統,通過傳感器及網絡數據,搜集學生的學習行為數據,并且使用人工智能算法進行智能分析,使教師對當前的學生的學習情況一目了然,并能引導學生對重點、難點的鞏固和掌握。研討課以學生為主體,按照所選課題進行分組調研、分組討論,刺激學生的學習興趣,培養其思辨能力。研討內容最終可以課程論文的形式上交至課程共享平臺,由教師和同學共同給出評分。這里,仍以華中師范大學為例,我們將在線教學系統、實驗課平臺、研討課共享平臺等集成為一個基于人工智能技術的網絡智慧教學綜合平臺系統。該系統主要包括用戶管理、在線教學、課堂互動、作業管理、考試管理、BBS系統、智能分析和平臺管理8個模塊,其主要功能如圖2所示。該系統采用C/S模式,系統的服務器選用Linux服務器,同時開發基于PC機的和手機端的客戶端系統,方便學生和教師隨時選用、更加靈活。在線教學模塊中的智能學習助理功能,能夠根據歷史用戶的學習行為和當前用戶的學習行為,自動地識別學習內容中的難點以及當前學生的難點內容,有針對性地對學生進行知識點強化。課堂互動模塊中,通過可穿戴式傳感器搜集學生的學習行為,用于后續智能分析模塊中對學生的學習態度和學習行為進行智能分析。在線作業評價模塊包括機器評價和教師評價兩個功能。機器評價是系統為學生作業(客觀題、主觀題)自動評分,其中主觀題的評分也是使用人工智能技術來實現。教師評分時可以參考機器評分,減少教師工作量。同時,教師評分為機器評分提供機器學習的經驗數據,促進機器評分更加智能。智能分析模塊能夠依據學生的在線課程學習模塊、課堂學習模塊、作業管理模塊等搜集到的學習行為數據進行綜合分析,促使教師深入了解學生的學習情況和個性化特點,提升教學的針對性,并且有助于后續對學生進行全面、綜合的分析和成績評定。所有系統模塊中使用到的智能分析技術包括基本的統計分析、以及各類機器學習算法(k-means,NaveBayes,SupportVectorMachine,DeepLearning等等)。⑷改變傳統成績考核的方式在“教學”+“實驗”+“研討課”課程結構以及網絡智慧教學綜合平臺的輔助之下,學生的成績評定更加全面化、多元化、公平化、自動化[7]。平時成績中,除了教學綜合平臺的“課堂簽到”次數之外,還增加更多豐富多元化的考察信息,如:學生的課堂討論、在線課程學習和考核結果、平時作業完成情況,以及智能分析模塊中輔助分析的學習態度、學習能力、平時成績預測。期末上機考試系統也是智慧課堂綜合平臺的一個子模塊,是精心設計的穩定、安全、功能強大的子系統,方便教師每一年更新試題庫,修改bug。試題庫中的每一套試卷都應當經過科學的考卷質量分析,使其難度、覆蓋范圍在一個均衡、合理的范圍。最后,教師通過對各類平時成績指標以及期末考試成績加權,給出最終的學習成績。通過規范、合理、公平、全面的考核體系,獲得對學生公平、完善的評價機制,激勵學生并刺激教學良性運轉。
3結束語
1圖像特征表示方法概述
設計圖像的特征表示是計算機視覺中一項非常基本的研究內容,圖像的分類、檢索、標注等工作都是以提取圖像特征為初始步驟,好的特征表示可以在相關圖像分析中取得更佳的效果.因此,圖像特征的設計與構造,直接影響算法的性能.而如何定義一個好的圖像特征卻是非常困難的:一方面,設計的圖像特征對于同一類別下圖像之間的變化(比如尺度、光照變化、對象位置變化等)要有足夠的魯棒性;另一方面,設計的圖像特征要具備足夠的判別性來處理不同類別間圖像的變化.近年來,研究者提出了大量的底層特征用于各種圖像分析任務,其中最具有代表性的是基于梯度朝向直方圖的SIFT(scale-invariantfeaturetransform)[1]和HOG(histogramoforientedgradient)[2].盡管這類特征取得了一定意義的成功,但研究者發現,這類單一的底層特征并不足以在某些應用上達到更好的效果,因此提出了一類中間層的圖像特征表示方法.其中,BoW(bagofwords)[3]是這類圖像特征表示方法的典型代表,該方法在場景分類中獲得了較好的性能.BoW算法生成圖像特征表示分為3個過程:圖像底層特征的獲取、學習過完備字典和計算圖像的碼字直方圖表示.然而,BoW方式并沒有考慮特征向量在圖像空間上的位置關系,使得其特征描述能力并沒有達到最大化.為了彌補這一缺陷,空間金字塔匹配(spatialpyramidmatching,簡稱SPM)[4]方法通過在一幅圖像的不同層次上計算碼字直方圖,形成了一個BoW多層特征,將BoW模型與圖像空間進行合理融合.然而,由于SPM方法利用直方圖交核函數來度量兩幅圖像間的相似度,導致無法產生低維度的圖像特征表示,而且需要完整計算訓練集圖像間相似度的Gram矩陣,因此,其算法復雜度為O(n2)(其中,n為訓練集中圖像的個數).為了解決這一問題,有效匹配核算法(efficientmatchkernel,簡稱EMK)[5]在碼字間相似性的基礎上構造了一個低維特征映射空間,整個圖像的特征可以表示為碼字映射在這個低維特征空間后的平均,且可以采用線性SVM方法訓練分類器,在圖像分類應用中獲得了非常不錯的效果.然而,有效匹配核算法仍然依賴于人為定義的圖像局部特征(如SIFT或HOG),只不過是通過計算有限維空間的局部線性特征表示來推出整體圖像的線性特征.
Bo等人擴展了有效匹配核算法并提出了核描述子(kerneldescriptor,簡稱KD)[6]方法.這種方法只需定義任意兩個局部圖像塊之間的相似性,且該相似性函數滿足核函數定義.由于每個核函數都隱性定義了一個映射,它將圖像塊映射為再生核希爾伯特空間(reproducingkernelHilbertspace,簡稱RKHS)中一個非常高維的向量,這樣,核函數可以表示為RKHS中兩個高維向量的內積,通過核主成分分析(kernelprincipalcomponentanalysis,簡稱KPCA)[7]算法,可以由核函數推出圖像塊特征的有限維線性表示.這種低維空間中的表示就稱為核描述子,并且采用EMK算法將其推廣到整個圖像的特征表示.盡管核描述子方法的設計思想較為新穎,但仍然存在計算復雜度過高這一缺陷,限制了其在大規模圖像數據庫上的應用.事實上,在KPCA方法的離線階段,所有聯合基向量對之間的相似性都需要計算,這是非常耗時的.更重要的是:在線階段計算一個新圖像塊的特征映射時,該圖像塊與所有聯合基向量之間的相似性也是需要計算的,而這實際上是不需要的.Xie等人[8]通過使用不完整Cholesky分解替代KPCA算法,成功地解決了這個問題,并且通過迭代,應用不完整Cholesky分解算法表示整個圖像特征[9].但文獻[8,9]中,通過不完整Cholesky分解得到的標志聯合基向量并沒有對應實際的圖像塊,因此,其產生的特征判別能力并沒有最大化地得到利用.
Wang等人提出了有監督的核描述子方法[10],該方法利用訓練集中的圖像類標來輔助設計底層圖像塊特征.盡管他們利用該特征取得了不錯的分類效果,但這個算法運行過程中需要大量有類標的圖像,并且對象優化函數求解過程復雜,時間復雜度過高.除了上述生成圖像底層特征表示的方法以外,另外一類構成圖像特征的方法基于深度學習理論.2006年,Hinton等人[11,12]提出了用于深度信任網絡(deepbeliefnetwork,簡稱DBN)的無監督學習算法,DBN的多層結構,使得它能夠學習得到層次化的特征表示,實現自動特征抽象,文獻[12]將DBN模型成功用于手寫數字識別應用上.Bengio等人在文獻[13]中提出了基于自編碼器(auto-encoder)[14]的深度學習網絡,在手寫數字識別圖像數據庫上得到了類似的實驗結果.另外,文獻[1517]提出了一系列基于稀疏編碼的深層學習網絡,在圖像應用中取得了一定的成功.LeCun等人用誤差梯度設計并訓練卷積神經網絡(convolutionalneuralnetwork,簡稱CNN),其在圖像分類,特別是手寫體字符識別應用中得到優越的性能.在此基礎上,Krizhevsky等人[21]將CNN模型應用到分類大規模ImageNet圖像數據庫,更加充分地顯示了深度學習模型的表達能力.盡管在深度學習模型下獲得的圖像特征有很強的判別表示能力,但其要求計算機硬件條件較高,單機環境下很難實現.除此之外,更加詳細地介紹圖像特征描述子領域的綜述可以參考文獻[23].本文在大數據時代背景下,為了能夠快速得到圖像塊的線性特征表示,提出了有效圖像塊描述子(efficientpatch-leveldescriptor,簡稱EPLd)方法.該方法在不完整Cholesky分解基礎上,可以自動地進行圖像塊篩選,對于求解新圖像塊的線性特征表示,只需計算它和一小部分基圖像塊的相似性就足夠了.有了圖像塊的特征表示之后,一幅圖像就對應著一個圖像塊特征的集合,該集合可以看作是特征空間中基于某個分布的樣本集,這樣,兩幅圖像之間的差異可以看作兩個分布的距離.本文采用基于高維概率分布的MMD距離[24]進行估算,進而計算兩幅圖像間的相似性.本文首先介紹核描述子方法,然后給出有效圖像塊描述子算法的具體實現過程以及如何利用MMD距離計算兩幅圖像的相似性,并在幾個著名的圖像分類數據庫上進行實驗,最后給出工作的結論和展望.
2核描述子方法簡介
核描述子方法是對圖像像素點屬性(梯度/形狀/顏色+位置)基礎上生成的聯合基向量應用KPCA方法,從而計算新圖像塊的有限維特征表示.為了方便敘述,本文采用像素點的梯度屬性來介紹核描述子方法.通過公式(2)可以看到,核描述子方法的主要缺陷有以下3點:(1)算法計算復雜度高,因為需要對dodp維的聯合基向量形成的Gram矩陣計算特征值分解,如果聯合基向量的維度過高或者個數過多,KPCA算法甚至無法實施;(2)對聯合基向量進行KPCA獲得的tij并不是稀疏的,這也就意味著在計算新圖像塊的特征表示時,需要和所有的聯合基向量進行在線計算,所以算法需要存儲全部的聯合基向量;(3)算法無法進行特征選擇,即,并不知道聯合基向量中哪些樣本最具代表性.
3有效圖像塊描述子算法
針對核描述子方法的3點不足之處,文獻[8]解決了其主要缺陷的第一、第二兩點,但是文獻[8]在本質上仍然使用聯合基向量,所以沒有明確地進行特征選擇,即,找出哪些圖像塊是最具代表性的,使得其特征表示能力并沒有達到最大化.為了更加完善地解決核描述子方法的缺陷,本文提出了一種新的圖像塊特征表示方法,稱為有效圖像塊描述子.該方法基于對圖像塊相似度矩陣執行不完整Cholesky分解。總體上來說,有效圖像塊描述子算法由兩部分構成:1)首先從訓練圖像集中均勻抽取足夠的圖像塊,然后在這些圖像塊形成的Gram矩陣上執行不完整Cholesky分解算法.如果設定N代表圖像塊的個數,M代表分解后矩陣的秩,通常情況下,M<<N.這樣做的好處有兩點:首先,在分解過程中只需要按需計算O(MN)個Gram矩陣元素的值;其次,對Gram矩陣執行Cholesky分解的時間復雜度為O(M2N),遠遠低于KPCA算法的O(N3).2)經過第1步分解步驟之后,選擇出了M個最具代表性的基圖像塊,新圖像塊的特征表示僅僅通過O(M)次計算就可以得到.算法的具體步驟將在以下部分詳細介紹.
3.1Gram矩陣的低秩近似半正定的Gram矩陣K可以分解為GGT,所以不完整Cholesky分解的目標就是找到一個矩陣G,其大小為NM,使得TGG在M足夠小的情況下近似K.在執行不完整Cholesky分解算法的過程中,選擇出M個最具代表性的基圖像塊,利用所有圖像塊和這M個基圖像塊之間的相似性,可以近似恢復Gram矩陣K.這里,M的值是可以通過算法在線確定的,由算法中提前給定的近似精度參數來控制.關于不完整Cholesky分解的詳細執行過程可以參考文獻[26],其中,作為輸入參數的Gram矩陣K實際上是按需計算的,即,算法執行過程中需要用到哪兩個訓練圖像塊間的相似度,就按照公式(1)計算得到.算法執行后,就得到了一些具有代表性的基圖像塊,用向量P保存基圖像塊的索引序號,同時得到了矩陣G,使得.TGGK
3.2構造圖像塊特征映射算法一旦獲得了NM的矩陣G,新圖像塊的特征(有效圖像塊描述子)就可以由G構造.其中,新圖像塊特征維度大小由M確定,每一維度i的值可由新圖像塊與P(i)所指示的基圖像塊間相似性K(newpatch,P(i))恢復得到。通過算法1可以看到:選擇出的M個最具代表性的基圖像塊可以看成是一系列局部圖像塊的非線性濾波器,將每個新圖像塊和這些基圖像塊進行相似性度量的過程,也可看成是對這個新圖像塊進行特征提取的過程.另外,針對圖像塊相似度矩陣執行不完整Cholesky分解往往可以保證獲得精度非常高的低秩近似,且分解過程中只與某些訓練樣本(圖像塊)有關.也就是說,利用這些訓練樣本就可以很好地近似恢復相似度矩陣,所以訓練集中的圖像塊具有不同程度的重要性.因此,我們稱重要性最高的前M個圖像塊為“最具代表性”的基圖像塊.為了更加形象地展示這些重要的基圖像塊,我們在Scene-15圖像庫上提取了最重要的前16個基圖像塊,如圖1所示(每個圖像塊由其像素點的梯度幅值來表示).可以看到,每個圖像塊都包含了豐富的邊緣和紋理信息.本文提出的有效圖像塊描述子算法不只繼承了文獻[8]的有效性,而且很好地解決了核描述子算法中的第3點缺陷,最大限度地發揮了圖像塊特征的判別能力.
4利用MMD距離計算圖像間的相似性
基于算法1,每一個圖像塊都可以用有效圖像塊描述子來表示.一幅圖像通過稠密采樣確定很多關鍵點,每一個關鍵點都對應著一個局部的圖像塊,因此,一幅圖像就對應著一個局部特征的集合.假定圖像I1包含m個圖像塊,則其特征集合可以表示為Fp(patchp1,patchp2,…,patchpm),圖像I2包含n個圖像塊,其特征集合表示為Fq(patchq1,patchq2,…,patchqn).Fp可以看作特征空間中來自分布p的一個樣本集,同樣,Fq也可以看作是來自分布q的樣本集.這樣,圖像I1與I2之間的差異性就可以由p和q兩個分布的距離表示.當然,這兩個概率分布之間的距離只能通過這兩個樣本集進行估算.為此,本文采用基于高維概率分布的MaximumMeanDiscrepancy(MMD)距離[24]進行估算.MMD距離可以看作是將兩個概率分布,通過非線性核函數映射到再生核希爾伯特空間(RKHS)后均值的距離.對于上述分布p和q的MMD距離估計可由公式(3)計算。單純地利用公式(3),并沒有考慮局部特征在整幅圖像上的空間分布信息.為了解決這個問題,本文首先采用空間金字塔方法將整幅圖像進行逐層劃分;然后,在兩幅圖像每個層次對應的小圖像上計算它們之間的MMD距離;最終,將所有層次的MMD距離按照其對應層次的權重進行匯總求和,然后度量兩幅圖像I1與I2之間的差異性.
5實驗
本文使用像素點的梯度、形狀和顏色屬性分別構造基于梯度的有效圖像塊描述子(EPLd-G)、基于形狀的有效圖像塊描述子(EPLd-S)和基于顏色的有效圖像塊描述子(EPLd-C).為了測試有效圖像塊描述子算法的性能,分別在3個著名的圖像分類數據庫(Scene-15,Caltech-101[28]和UIUC-8[29])上做了實驗.在接下來的實驗中,計算3個不同類型的有效圖像塊描述子都是首先將圖像按照固定比率縮放到不超過300300像素點;特別地,在計算EPLd-G和EPLd-S時,將縮放后的圖像中的像素點的灰度值標準化為[0,1]范圍.圖像塊通過每隔8個像素點的稠密采樣方式從訓練集圖像中進行抽取,大小為1616像素點.EPLd-All是將EPLd-G,EPLd-S和EPLd-C這3個描述子串接起來形成的.訓練線性SVM分類器使用LIBLINEAR[30],其中,圖像間的相似性利用MMD距離來定義.在計算MMD時,將圖像按照11,22和33分為3個層次來匯總求和,尺度參數在不同的數據庫上利用交叉驗證方法確定.所有的實驗均重復10次,每次的訓練集和測試集都隨機抽取確定,將10次分類準確率的平均值和方差記錄下來.實驗中的其他參數從公平比較的角度考慮,與文獻[6,8]設置相同.
5.1Scene-15Scene-15場景數據庫包含4485張圖片,這些圖片分屬15個類別,有室內場景和室外場景,每一個類別包含200張~400張圖片不等.按照慣例,從每個類別中隨機抽取100張圖片作為訓練,剩余圖片作為測試.在算法中設置Pivots的個數為200,即,利用不完整Cholesky分解選出200個最具代表性的基圖像塊來構造維度為200的有效圖像塊描述子.實驗結果列在表1中(其中,KD代表核描述子方法[6],EKD代表有效核描述子方法[8],EPLd代表本文提出的有效圖像塊描述子方法),EPLd方法獲得在這個數據庫上的最佳分類準確率(87.0%).另外,EPLd方法在所有4種不同情況(梯度、形狀、顏色和上述3種屬性的匯總)下的性能均超過了文獻[6,8].在實驗中,除了測試分類準確率來體現EPLd的判別能力,還通過不同維度下測試分類準確率來體現EPLd的有效性.我們發現,在特征維度只有50維的情況下也獲得了接近最優分類準確率的性能,這充分體現出EPLd算法的有效性和健壯性.事實上,通過表2可以看到:特征維度從50維增加到300維,分類準確率并沒有得到明顯的提升.造成這一現象的原因是,不完整Cholesky分解容易獲得高質量的低秩近似.表2中的數據表明:即使是50維的低秩近似也足以體現Gram矩陣中的關鍵信息,而這些關鍵信息直接決定了分類的性能.在后面的實驗中,從算法效率的角度考慮都使用了100維的特征表示.
5.2Caltech-101Caltech-101圖像數據庫包含9144張圖片.這9144張圖片隸屬于101個對象類別外加一個背景類別,每個類別中的圖片在31張~800張不等.表3中,將EPLd與其他有代表性的描述子算法進行了對比.同樣根據慣例,每個類別隨機挑出30張圖片進行訓練,從剩余圖片中挑選不超過50張進行測試.可以看到:EPLd算法達到了最佳的分類準確率(77.1%),甚至在僅僅使用梯度屬性的情況下(EPLd-G)也達到了非常不錯的分類效果(73.7%).
5.3UIUC-8UIUC-8圖像數據庫包含1579張圖片,這1579張圖片隸屬于8個運動類別,每個類別下包含圖片137張~250張不等.按照慣例,隨機從每個類別中抽取70張圖片進行訓練,從剩余圖片中挑選60張進行測試.分類準確率結果列于表4中.通過表4可以看到,EPLd-All非常接近最佳分類準確率(87.2%vs.87.23%).在實驗部分的最后,本文對比了構造3種不同描述子(EPLdvs.KDvs.EKD)的計算效率.其中,最耗時的是形狀特征,一幅標準圖像(最大300300分辨率,圖像塊大小為1616像素點,圖像塊間隔8個像素點)上的EPLd-S與EKD-S描述子在Matlab環境下計算需要耗時2s,而KD-S需要耗時2.5s.對于梯度特征,EPLd-G與EKD-G描述子耗時0.9s,KD-G耗時1s.以上對比結果列在表5中.表5中的對比結果是在生成100維特征情況下得到的,如果提高特征的維度,EPLd與EKD的計算效率提升相對于KD會表現得更加明顯.另外一點需要指出的是:EPLd與EKD的計算耗時雖然基本相同,但EPLd描述子的特征判別能力相對于EKD描述子要強很多,這一點通過在3個圖像數據庫上的實驗對比結果可以得到印證.所以,綜合考慮,EPLd描述子無論在計算效率還是在判別能力上都要優于EKD和KD描述子.
6結束語