前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的如何學習計算機視覺主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:計算機視覺;研討式教學;小組探討;課前回顧
作者簡介:陳芳林(1983-),男,湖南株洲人,國防科學技術(shù)大學機電工程與自動化學院,講師;周宗潭(1969-),男,河南洛陽人,國防科學技術(shù)大學機電工程與自動化學院,教授。(湖南 長沙 410073)
中圖分類號:G643.2 文獻標識碼:A 文章編號:1007-0079(2013)26-0065-02
進入21世紀,創(chuàng)新型人才的培養(yǎng)成為各國政府和高等教育界關(guān)注的一個焦點。世界各國研究型大學的共同特點是在研究生教育階段致力于培養(yǎng)富有創(chuàng)新意識和創(chuàng)新能力的高級人才。[1]研討式教學是培養(yǎng)研究生創(chuàng)新精神、科研能力的有效途徑,教師講解與學生探討兩部分相結(jié)合是研討式教學采用的主要模式。[2]將課程分成兩部分之后,教師講解的時間就必須壓縮,教師一方面需要思考如何在較短的時間內(nèi)完成課程的講解,同時還需要考慮課程講解要與學生探討部分緊密結(jié)合。因此,如何上好研討式教學教師講解這部分課,越來越受高等院校的重視。本文針對筆者教授工科研究生課程“計算機視覺”的實踐與經(jīng)驗,闡述了筆者對于如何上好研討式教學教師講解這部分課的個人體會??偨Y(jié)為兩點:第一,首先要充分做好課程準備;第二,上課環(huán)節(jié)采取回顧—案例—小結(jié)的講解方式。下面從課程準備、課前回顧、課程講解、課后小結(jié)四個方面分別闡述(如圖1所示)。
一、“計算機視覺”課程準備
要上好一門研討式教學的課程,一定要結(jié)合該門課程的特點,量身定制課程內(nèi)容,進行精心準備。本節(jié)先介紹“計算機視覺”課程的特點,然后結(jié)合該門課程的特點,介紹筆者對于“計算機視覺”的課程準備。
1.“計算機視覺”課程特點
“計算機視覺”是“數(shù)字圖像處理”和“模式識別”等課程的后續(xù)課程。該課程重點在于圖像或者圖像序列的分析理解。課程知識在機器人導(dǎo)航、偵查、測繪、測量、精密加工和目標跟蹤等多個領(lǐng)域都有廣泛的應(yīng)用。[3]近年來基于視覺信息的控制反饋也開始受到廣泛關(guān)注。國內(nèi)高校一般都為研究生開設(shè)了此門課程。
計算機視覺技術(shù)應(yīng)用廣泛、算法原理涉及面廣:涉及到概率與數(shù)理統(tǒng)計、信號與系統(tǒng)、圖像等基礎(chǔ)知識?!坝嬎銠C視覺”是一門重要的控制類、電子類及計算機類專業(yè)研究生的選修課程,它內(nèi)容廣泛、綜合性強,研討能力的培養(yǎng)顯得非常關(guān)鍵。
2.課程準備
首先,結(jié)合“計算機視覺”課程內(nèi)容廣泛、技術(shù)日益更新和豐富的特點,將課程36學時分為12次課,每次課為3小時,每堂課教師講解一個專題。這種設(shè)計,一方面可以更廣地涉及計算機視覺的各個領(lǐng)域;另一方面以專題的形式來講解,可以將學生帶入到該專題,介紹基本背景、理論、知識和方法,讓學生有一個初步的了解,方便課后學生對感興趣的專題進一步深入挖掘與研究。
其次,在課程開始之前,教師仔細統(tǒng)籌,安排好每次課的專題,這樣既方便學生一開始對整個課程有一個整體的了解,也方便學生選擇課堂研討的題目與內(nèi)容。根據(jù)12個專題,將各個專題講解的內(nèi)容與課件在開課之前準備好,這樣有利于把握各個專題之間的前后承接關(guān)系。例如,“區(qū)域”與“分割”是既有區(qū)分又有聯(lián)系的兩個專題,在課程開始之前,將課件準備好,就有利于宏觀把握,在“區(qū)域”專題提到的分割算法,就不需要在“分割”專題再次重復(fù),而在“分割”專題可以結(jié)合前面“區(qū)域”專題進行互相補充,以幫助學生融會貫通。
最后,在每個專題上課之前,再對課件進行精雕細琢,主要是對內(nèi)容分好層次,對方法進行分類,力圖在較短的時間內(nèi),讓學生對該專題有較全面的認識。例如,在講解圖像分割時,由于圖像分割方法非常多,可以將分割方法分為若干個大類,每個大類只講1~2個方法。這樣既可以盡可能涉及更廣的領(lǐng)域,又可以提高講解的效率。
二、“計算機視覺”課前回顧
課前回顧是指每堂課的前面一小段時間用來回顧上一堂課的內(nèi)容。雖然課前回顧時間非常短,一般為3~8分鐘,但是課前回顧是課堂教學中的一個重要環(huán)節(jié)。課前回顧可以幫助學生加強將要學習的內(nèi)容與已學過內(nèi)容之間的聯(lián)系。通過課前回顧,學生可以回憶前續(xù)課程所講解的概念、理論、算法的步驟等內(nèi)容,有助于解決新問題或者理解新知識。
課前回顧最重要的是既要復(fù)習前續(xù)課程的內(nèi)容,又要注意將前續(xù)內(nèi)容與當前內(nèi)容聯(lián)系起來。由于講解時間有限,要使研討式教學的教師講解部分效率高,教師幫助學生回憶上堂課的概念、模型、算法等內(nèi)容,就變得非常重要。如果不做課前回顧,那么當講到某處新知識時,往往需要停下來,將前續(xù)課程再講一遍,否則學生無法理解新的知識,這樣就降低了教學的效率。
課前回顧的時間,一般以3~8分鐘為宜。課前回顧的形式可以多樣化,如講解課后作業(yè)、回顧概念、提問等。筆者認為應(yīng)根據(jù)當天課程與前續(xù)課程的關(guān)系,采取合適的方式。各種方式結(jié)合使用,提高課前回顧的效率。
三、“計算機視覺”課程講解——案例教學
案例教學已經(jīng)成功地應(yīng)用于數(shù)學、計算機科學等領(lǐng)域的教學。通過案例,學生可以很快地掌握相應(yīng)的概念、算法的步驟等,從而提高教師講解部分的效率。[4]例如,在講解馬爾科夫隨機場時,筆者通過案例式教學,將馬爾科夫隨機場用一個生活中的例子來向?qū)W生解釋。首先,將馬爾科夫隨機場分解成兩個重要的概念,分別是隨機場與馬爾科夫性,然后將它們對應(yīng)到例子中,幫助學生理解。
隨機場包含兩個要素:位置(site)和相空間(phase space)。當給每一個“位置”中按照某種分布隨機賦予“相空間”的一個值之后,其全體就叫做隨機場(如圖2(a))。[5]這個概念非常抽象,難以理解。筆者應(yīng)用案例式教學,拿莊稼地來打比方?!拔恢谩焙帽仁且划€畝農(nóng)田,“相空間”好比是種的各種莊稼。給不同的地種上不同的莊稼,就好比給隨機場的每個“位置”,賦予“相空間”里不同的值。所以,可以形象地理解隨機場就是在哪塊地里種什么莊稼的布局(如圖2(b))。
馬爾科夫性指的是一個隨機變量序列按時間先后順序依次排開時,第N+1時刻的分布特性,與N時刻以前的隨機變量的取值無關(guān)。為了更直觀地理解馬爾科夫性,筆者仍然拿莊稼地打比方,如果任何一塊地里種的莊稼的種類僅僅與它鄰近的地里種的莊稼的種類有關(guān),與其他地方的莊稼的種類無關(guān),這種性質(zhì)就是馬爾科夫性。
符合上述兩個特征,那么這些地里種的莊稼的集合,就是一個馬爾科夫隨機場。通過案例式教學,筆者發(fā)現(xiàn)可以加深加快學生對課程內(nèi)容的理解,提高教師講解環(huán)節(jié)的效率。
四、課后小結(jié)
課后小結(jié)指的是一堂課將要結(jié)束時,教師對本堂課進行一個簡短的總結(jié)。許多成功的教師都會在其教學中堅持課后小結(jié)這個環(huán)節(jié),給學生一個總體的印象,以幫助學生消化本次課程的內(nèi)容。
研討式教學教師講解部分的課后小結(jié)與普通教學方式應(yīng)有所區(qū)別。筆者認為這主要是因為通過課后小結(jié)可以將本次課程所講內(nèi)容與學生的研討環(huán)節(jié)結(jié)合起來,而不僅僅是對內(nèi)容進行簡單的總結(jié)。
為了達到課后小結(jié)使本次課程內(nèi)容與學生探討環(huán)節(jié)建立聯(lián)系的目的,筆者在教學中常采用如下方式:首先,像普通教學方式一樣,總結(jié)本次課程內(nèi)容;然后,在此基礎(chǔ)上,拋出若干問題,這些問題,不需要學生馬上解答,而是留給學生課后思考,提供他們選擇研討主題的素材;最后,介紹其他在本次課程中沒有涉及到的前沿知識、方法與理論,拓寬學生的視野,從而增加學生選擇探討主題的覆蓋面。
通過應(yīng)用這種方式,筆者發(fā)現(xiàn)學生的思維更開闊,在探討環(huán)節(jié),學生往往可以選擇一些比較新穎的主題(例如視頻中不動點的檢測等),而不僅僅局限于教師所講內(nèi)容,從而提高了研討式教學的效果。
五、結(jié)論
在“計算機視覺”課程中引入研討式教學,通過總體設(shè)計規(guī)劃好整門課程內(nèi)容,課堂講解注意采用回顧—案例—小結(jié)的方式,筆者對如何上好研討式教學教師講解這部分課進行了個人經(jīng)驗的總結(jié)。通過本次教學改革,筆者體會到如果要提高教學效果,一定要注意教師講解與學生探討兩個環(huán)節(jié)的緊密結(jié)合。
參考文獻:
[1]侯婉瑩.我國研究型大學本科生科研研究[D].濟南:山東大學,
2009.
[2]張晴,李騰,韋艷,等.研討式教學模式的理論研究[J].中國科技縱橫,2011,(10).
[3]D.H .巴拉德.計算機視覺[M].北京:科學出版社,1987.
【關(guān)鍵詞】計算機視覺;數(shù)字色彩;感性認知
一、色彩的視覺生理機制與計算機色彩設(shè)置的關(guān)系
眼睛是人類的視覺器官,視覺系統(tǒng)就像一架攝相機,具有較完善的光學系統(tǒng)及各種使眼球轉(zhuǎn)動并調(diào)節(jié)光學裝置的肌肉組織。光線透過眼的折光系統(tǒng)到達視網(wǎng)膜,并在視網(wǎng)膜中形成物像,同時興奮視網(wǎng)膜的感光細胞,然后,信息沿視神經(jīng)傳導(dǎo)到大腦皮質(zhì)的視覺中樞產(chǎn)生視覺。實現(xiàn)閱讀的第一反應(yīng)區(qū)域處于大腦后方的枕葉皮層(視覺皮層),人類的視覺系統(tǒng)自動對視覺輸入構(gòu)建結(jié)構(gòu),并在神經(jīng)系統(tǒng)層面上感知形狀、圖形、物體。
視覺能夠感受到物體細節(jié),通常稱為視覺視敏度,也就是對所觀察的實物細節(jié)或圖像細節(jié)的辨別能力,具體量化起來就是能分辨出平面上的兩個點的能力。人眼的分辨能力是有限的,在一定距離、一定對比度和一定亮度的條件下,人眼只能區(qū)分出小到一定程度的點,如果點更小,就無法看清。以光學色彩為基礎(chǔ)的計算機顯示器,熒屏上的數(shù)字色彩是由許多紅、綠、藍紫三原光小色點構(gòu)成,以不同比例的混合得出自然界的各種顏色。在各種顏色的反射光快速地先后刺激或同時刺激人眼過程中,顯示器色光點過于細小,超出人眼能夠分辨的視敏度,待傳到人眼中識別時,視覺不能識別全部微妙變化的色彩波段,視覺對相似的色彩歸納在一起,光在人眼中留下的印象在視覺中混合,將信息傳入大腦皮層,印象由人的視覺器官完成視覺混合。色彩混合后明度是被混合色的平均明度,混合效果近看色彩豐富,遠看色調(diào)統(tǒng)一。
電腦顯示器工作時的正常顯示狀態(tài)是根據(jù)人的視覺明視而設(shè)計的,開機工作狀態(tài)下,感知顯示圖像的始終是視錐細胞。視覺明視中感受相當光照水平和顏色刺激的視錐細胞中含有感紅色素、感綠色素和感藍色素,三類視椎細胞分別對紅綠藍色(RGB)光敏感。這意味著,人類的色覺與計算機顯示器類似,人們感知世界的視覺狀態(tài)基本處于視覺明視,通過紅綠藍色像素探測形成多種顏色,使人在視覺明視中感知到真實的色彩。
二、計算機視覺色彩感知中的敏感源
在適當?shù)臈l件下,視覺對光的強度具有敏感性。眼睛對暗適應(yīng)越久,對光的反應(yīng)越敏感。視覺對光強度(明度)感受存在一段適合閾值。強度閾值內(nèi)可以讀取色彩,而在強度的閾值以外,人眼只能看出光亮卻看不出顏色,明度過高分辨不出顏色。計算機顯示亮度的設(shè)置是參考視覺感受亮度的共性閾值而設(shè)計的,適合閾值范圍內(nèi),視覺可以讀取計算機顯示器中色彩。
視覺對光波長的敏感性不同于對光強度的敏感性。視網(wǎng)膜的不同部位對色調(diào)的敏感性是不同的。視網(wǎng)膜中央凹能分辨各種顏色,從中央凹到邊緣部分,對顏色的辨別能力逐漸減弱,先喪失紅、綠色的感受性,最后黃、藍色的感受性也喪失,成了全色盲。在整個光譜上,人眼能分辨出大約150種不同的顏色(光波),但人對光波(顏色)的辨別感受能力因不同波長而不一樣。
在視覺感知計算機色彩過程中色彩認知心理的共性經(jīng)驗可以產(chǎn)生敏感源。色彩認知心理來源于生活共性經(jīng)驗的理性“歸納”。視覺生理機制的共同特征使色彩視覺感知存在基本相同的生理基礎(chǔ)。色彩的直接心理效應(yīng)來自色彩的物理光刺激對人的生理發(fā)生的直接影響,視覺生理及視覺心理等方面的共性特征使人們在色彩視覺意象存在相似的感受。視覺感知過程中,以往的認知結(jié)構(gòu)對現(xiàn)有的認知過程的影響,生活經(jīng)驗影響人的認知心理變化過程,心理之間的相互聯(lián)系、相互制約,使人類認知過程相近的模式。著名的認知心理學家布魯納認為,在人們認知的過程中,必須考慮到通過視覺感官對客觀聯(lián)系的色彩信息進行組織,結(jié)合視覺經(jīng)驗感知新的客觀事物,用歸納方法能找出事物的共性,“感知”出相互聯(lián)系的客觀事物中相近的東西。
色彩心理共性源于“經(jīng)驗色”。人類可以通過本能的眼睛或是肢體觸探物質(zhì)本身的微妙變化感知生活,不斷產(chǎn)生認知“經(jīng)驗”。在歷史和風俗的影響下,色彩所蘊藏的深層意義來至生活經(jīng)歷的聯(lián)想,視覺色彩通過聯(lián)想鏈來理解傳播信息。在生活實踐中,不同的色彩刺激結(jié)合識別色彩的習慣與經(jīng)驗,形成明顯的情緒感,產(chǎn)生不同的情緒反射,使人既能感覺積極興奮,也能使人消沉或感傷,其影響最明顯的是色相。純度的關(guān)系也很大,高純度色有興奮感,低純度色有沉靜感。明度也可以表現(xiàn)情緒,暖色系中高明度、高純度的色彩呈興奮感,低明度、低純度的色彩呈沉靜感。利用色彩視覺心理經(jīng)驗有利于完成認知任務(wù),對于實際生活具有很強的指導(dǎo)性,這些“經(jīng)驗”向我們明確地肯定了色彩對人心理的影響具有共性。
色彩心理共性源于人們學習和推理。在認知過程中人類情感普遍交流的同時產(chǎn)生相互認同,不斷找到與周圍的環(huán)境現(xiàn)象結(jié)合的個人經(jīng)驗。知識學習積累物質(zhì)的色彩、材料、形狀、物理的空間、運動與時間等認知共性,這些共通的經(jīng)驗,可以在大量事實研究中歸納出一些自然規(guī)律,詮釋事物,形成可以指導(dǎo)和影響社會發(fā)展的觀點。
三、計算機數(shù)字色彩設(shè)計
人們在各自分隔的世界里共同生活,色彩視覺感知受人的經(jīng)歷、記憶力、看法和視覺靈敏度等各種因素的影響,但相近的生活習性,相似的生活經(jīng)驗,使人們會采用相近的方式理解色彩。感性色彩的科學設(shè)計可以滿足計算機視覺的準確性,提高網(wǎng)絡(luò)平臺交互速度,促進經(jīng)濟,滿足視覺風尚,幫助高效實現(xiàn)計算機交互。人類共通的視覺經(jīng)驗,產(chǎn)生感知色彩的一般規(guī)律,可以歸納出以下計算機數(shù)字色彩設(shè)計法則。
(1)經(jīng)驗影響感知,應(yīng)用色彩隱藏的寓意引導(dǎo),盡可能與圖像結(jié)合表達。例如,每人看云和水滴會聯(lián)想熟知的圖形,看火會聯(lián)想到紅橙色的激動與熱辣。人們能快速識別圖像,而且觸發(fā)相關(guān)信息回憶。使用經(jīng)驗圖標,一般人們不需要學習,就能識別所提示的意思。
(2)看到和選擇比回憶和輸入要容易。為用戶提供色彩鮮明的選項,在顏色之外使用其它提示,讓它們從中選擇,而不是強迫用戶回憶選項再告訴電腦。
(3)使用縮略圖緊湊地描繪全尺寸的圖像??s略圖能讓人一次性看很多選項,熟悉的圖形內(nèi)容會引起注意,方便選擇。使用獨特的色彩,用飽和度、亮度及色相區(qū)分內(nèi)容。
(4)避免使用色盲人無法區(qū)分的顏色(例如,色盲人可以識別白色和不同深淺的綠色地圖)。
(5)將強烈的對抗色分開(強烈的對抗色使人產(chǎn)生難受的閃爍感)。
(6)利用色彩引導(dǎo)邊界視力,提供低分辨的線索,引導(dǎo)眼球運動。對視覺選擇性感知,邊界視野中的暗色和靜止物體經(jīng)常不被注意到,邊界視線中物體的運動通常會被察覺。例如,出錯提示在點擊電腦按鍵位置1-2厘米邊界視力以外,出錯提示將不被看到。
(7)物體之間的相對距離會影響人們感知它們是否及如何組織在一起。(互相靠近物體看起來為一組)。例如,計算機圖形設(shè)計,拉近距離或分組框和分割線隔開,減少用戶視覺凌亂。相似物體視覺歸屬于一組,色彩中的類似色可以歸屬成一組。
(8)視覺傾向于感知連續(xù)的形式而不是離散的碎片。例如,形間斷,但色彩相同,視覺自動連續(xù)成完整圖形。例如,計算機音量滑動條范圍的色彩連續(xù),滑動條手柄連續(xù)整體感知(灰色地、紅色條)。
(9)人們傾向于分解復(fù)雜的場景來降低復(fù)雜度,視覺自動組織并解析數(shù)據(jù),簡化數(shù)據(jù)。例如,圖計算機圖形中應(yīng)用此原理,平面色彩顯示三維物體和復(fù)雜的二維圖形解析為三維場景(假空間錯視)。
近年來,計算機視覺在安防領(lǐng)域的應(yīng)用正備受關(guān)注,身份識別是核心問題。人臉識別是一種基于臉部特征信息進行身份識別的技術(shù),人臉檢測是其中的基礎(chǔ)和關(guān)鍵部分。介紹了四種不同的人臉檢測技術(shù),分析了相關(guān)的算法和理論,概述了各自的優(yōu)缺點。最后,討論了人臉檢測技術(shù)今后的研究方向及發(fā)展趨勢。
【關(guān)鍵詞】計算機視覺 身份識別 人臉檢測
1 人臉檢測問題綜述
在國土安全和社會安全問題日益突顯的背景下,世界各國家都對安防領(lǐng)域進行不遺余力地投入。隨著計算機視覺技術(shù)的不斷發(fā)展,基于生物特征識別的身份識別技術(shù)受到人們的廣泛關(guān)注,在未來一段時間內(nèi)生物識別技術(shù)將成為信息產(chǎn)業(yè)的一次革命。其中人臉識別技術(shù)作為一種極具潛力的生物識別方式,以其識別速度快,主動性強,性價比高等顯著的技術(shù)優(yōu)勢,在各個領(lǐng)域都體現(xiàn)出了巨大的商業(yè)價值和社會價值。
人臉檢測是人臉識別的前提和關(guān)鍵,一般采用相機實時采集含有人臉的圖像或視頻流,并自動在圖像中對人臉進行檢測和跟蹤。人臉的自動檢測是一項頗有難度的工作,主要體現(xiàn)在:(1)不同族群年齡等問題導(dǎo)致人臉的差異性。(2)人臉上的胡須等附屬物對檢測造成的干擾。(3)人體姿態(tài)變化和遮擋物存在對檢測的影響。(4)環(huán)境和硬件條件對圖像采集效果的影響。針對這些問題,國內(nèi)外著名高校和科研機構(gòu)進行了很多相關(guān)的研究,致力于解決在復(fù)雜背景下如何準確高效地進行人臉檢測的問題。
2 實現(xiàn)人臉檢測的相關(guān)技術(shù)
根據(jù)近年來計算機視覺領(lǐng)域人臉檢測問題的研究進展,本文在這里進行總結(jié)性綜述,目前人臉檢測的方法可以分為基于知識和統(tǒng)計兩類,有以下四種常用的檢測算法。
2.1 模板匹配
模板匹配可以分成固定模板和變形模板。固定模板指的是根據(jù)先驗數(shù)據(jù)歸納出一個統(tǒng)一的模板,然后根據(jù)一個能量函數(shù)確定被檢測區(qū)域中和模板相關(guān)程度較高的位置,即人臉位置。由于不同人物之間臉部的差異性很大,加上環(huán)境等因素的影響,此方法并不具有很強的實用性。變形模板原理上和固定模板的操作方式相同,不過變形模板自身的參數(shù)模型在一定范圍內(nèi)具有可變性,因此檢測的動態(tài)范圍更大,檢測效果相對較好一些。
2.2 樣本學習
由于人臉的復(fù)雜性,顯式描述十分困難,因此基于統(tǒng)計模式的檢測方法受到了人們的廣泛關(guān)注。此方法將人臉看做一種模式,通過對大量樣本圖像的機器學習完成分類器的構(gòu)造,利用分類器實現(xiàn)對人臉的檢測判別,在這里問題被轉(zhuǎn)化為模式識別中的二分類的形式。
首先,需要建立一個樣本空間,其中包括“人臉”和“非人臉”的正負兩種樣本,對樣本圖片歸一化處理后,順序展開后進行主分量分解,在大量樣本形成的高維矩陣中計算其特征值和特征向量,然后采用一定的學習機制在特征空間中建立分類,以此可得到用來檢測樣本圖片是否為人臉的正負判別規(guī)則式,二者為互斥關(guān)系。此檢測方法具有較高的準確度,但是需要大量的正負樣本圖片,MIT等一些高校和研究機構(gòu)建立了開放的人臉庫。
2.3 人工神經(jīng)網(wǎng)絡(luò)
人工神經(jīng)網(wǎng)絡(luò)(ANN )是將模式的統(tǒng)計特性包含在ANN的結(jié)構(gòu)和參數(shù)中,對于人臉這類復(fù)雜的、難以顯式描述的抽象型模式,這一檢測方法具有其自身特別的優(yōu)勢。
神經(jīng)網(wǎng)絡(luò)方法本質(zhì)上也是基于樣本學習,首先使用經(jīng)過預(yù)處理的“人臉”樣本以及采用“自舉”方法收集分類器錯分的樣本作為正負樣本訓(xùn)練各個ANN,然后根據(jù)結(jié)果進一步對分類器進行修正,構(gòu)造多層感知器(MLP)網(wǎng)絡(luò)作為分類器對人臉進行檢測。人工神經(jīng)網(wǎng)絡(luò)是并行分布式系統(tǒng),采用了與傳統(tǒng)人工智能和信息處理技術(shù)不同的原理,模擬大腦神經(jīng)網(wǎng)絡(luò)處理、記憶信息的方式進行目標檢測。神經(jīng)網(wǎng)絡(luò)模型克服了傳統(tǒng)的基于算數(shù)邏輯符號的人工智能在處理直覺、非結(jié)構(gòu)化信息方面的缺陷,具有自適應(yīng)、自組織和實時學習的特點,應(yīng)用在人臉檢測問題中性能表現(xiàn)突出。
2.4 基于隱馬爾可夫模型
隱馬爾可夫模型(HMM)是一種雙重隨機過程,一種是有限狀態(tài)的馬爾可夫鏈,另一種是序列的觀察值。由于只能通過觀察值得到馬爾可夫鏈的狀態(tài),因此稱之為隱馬爾可夫模型。對于人臉而言,可以把它分為前額、眼睛、鼻子、嘴巴、下巴五個部分來檢測。根據(jù)這五個區(qū)域位置順序不變性,可以分別用相應(yīng)的觀察向量序列檢測每一個部分,使用一個包含五個狀態(tài)的一維連續(xù)HMM來表示人臉。接著對各塊進行KL變換,提取每塊一些最大的特征向量作為觀察值對HMM進行訓(xùn)練。此后,還提出了一種嵌入式隱馬爾可夫模型,該方法除了將人臉劃分為五塊外,還在每塊中從左至右嵌入了一個HMM。接著進行二維DCT變換,把變換后得到的系數(shù)作為訓(xùn)練值。
3 結(jié)束語
人臉檢測是個發(fā)展很快的研究方向,人臉檢測技術(shù)的發(fā)展趨勢是利用多特征,多種分類方式進行啟發(fā)式知識與統(tǒng)計學習方法的結(jié)合,未來對人臉檢測的研究將會更注重其實時的應(yīng)用,這就對檢測算法的效率提出了更高的要求。另外,可以消除光照對人臉成像影響的紅外人臉識別技術(shù),加入相互對比機制的包含正臉、側(cè)臉三維信息的人臉三維模型重建檢測技術(shù)也正在研究當中。隨著技術(shù)的不斷進步和市場逐漸的規(guī)范化,人臉檢測識別技術(shù)會越來越多地應(yīng)用于社會的各個領(lǐng)域,在促進社會發(fā)展的同時方便人們的生活。
參考文獻
[1]許燕,王維蘭.基于視覺運動人臉檢測技術(shù)的研究[J].計算機仿真, 2014(1):434-437.
[2]孫寧,鄒采榮,趙力.人臉檢測綜述[J].電路與系統(tǒng)學報,2006,11(6):101-108.
作者簡介
姚坤(1990-),男,現(xiàn)為聊城大學物理科學與信息工程學院碩士研究生,主要研究方向為機器視覺。
(大連東軟信息學院電子工程系,遼寧大連116023)
摘要:智能科學與技術(shù)概論課程是智能科學與技術(shù)專業(yè)重要的必修基礎(chǔ)課,對整個專業(yè)課程體系有概括性的引導(dǎo)作用,對學生深入學習后續(xù)課程有很大幫助。文章從智能科學與技術(shù)概論課程的教學實際出發(fā),提出該課程的整體課程規(guī)劃,并根據(jù)學生的學習情況驗證其適用性。
關(guān)鍵詞 :智能科學;專業(yè)基礎(chǔ)必修課;課程規(guī)劃
基金項目:2012年遼寧省普通高等學校本科工程人才培養(yǎng)模式改革試點項目(G2201249)。
第一作者簡介:林寶尉,男,講師,研究方向為計算機視覺、模式識別,linbaowei@neusoft.edu.cn。
0 引言
智能科學與技術(shù)概論課程是智能科學與技術(shù)專業(yè)的必修基礎(chǔ)課。學生通過學習基礎(chǔ)課,能夠了解整個專業(yè)的知識構(gòu)成、體系結(jié)構(gòu)以及發(fā)展方向,便于將來學習必修專業(yè)課,包括模式識別、人工智能、智能機器人等課程。在這個過程中,如何讓學生順利地過渡到更高層次的專業(yè)課學習中,如何提高其學習興趣,如何幫助學生深入了解各門專業(yè)課之間的層次關(guān)系,都是該專業(yè)設(shè)置過程中需要考慮的問題。智能科學與技術(shù)概論的規(guī)劃起到了承上啟下的作用。雖然專業(yè)導(dǎo)引課也從全局對該專業(yè)的情況進行了介紹,但其內(nèi)容以學生職業(yè)引導(dǎo)、興趣培養(yǎng)為主,對專業(yè)課程的設(shè)置并無過多展開。因此,智能科學與技術(shù)概論課程的設(shè)置十分必要。
1 課程規(guī)劃設(shè)置
1.1 能力指標
課程將學生的能力體系分為5個部分:技術(shù)知識與推理能力、開發(fā)式思維與創(chuàng)新、個人職業(yè)能力、態(tài)度與習慣、時間構(gòu)思設(shè)計實現(xiàn)和社會貢獻,與其對應(yīng)的二級、三級及詳細指標見表1。每個能力指標平均對應(yīng)4個學時,共32個學時。
1.2 講授方式
(1)精講多練。通過講解智能科學的相關(guān)內(nèi)容并結(jié)合相關(guān)實驗,讓學生掌握智能科學的基礎(chǔ)知識,提高其學習興趣,為后續(xù)課程的學習打下良好基礎(chǔ)。
(2)以項目為導(dǎo)向組織教學,通過案例教學,將構(gòu)思、設(shè)計、實施和運行引入教學過程中。
(3)鼓勵學生自主學習,加強基本職業(yè)能力的訓(xùn)練。教學過程中注意互動和引導(dǎo),運用講授教學、練習教學、實驗教學、案例教學等多種教學方法完成教學任務(wù)。
(4)教學實施過程中,提供豐富的教學資源,如多媒體課件、案例、網(wǎng)絡(luò)資源、優(yōu)秀學生作品和外文技術(shù)資料等。
(5)對學生進行多方面考核與評價。結(jié)合課程實施過程,從知識掌握、能力水平、態(tài)度表現(xiàn)等方面,對學生進行全方位的考核。
1.3 講授內(nèi)容
該課程講授內(nèi)容分為3個單元,具體內(nèi)容如下。
單元一:智能科學導(dǎo)論,主要涉及智能科學與技術(shù)的目標界定、學科分類、涉及范圍、學科定位、人類認知以及學科簡史等知識點。該單元將在2個學時中完成,并要求學生課外學習2個學時。
單元二:學科基礎(chǔ)理論知識,主要涉及機器系統(tǒng)、視覺感知、高級語言編程等知識點。該單元主要介紹支撐學科的相關(guān)課程,并在實踐課中使用高級語言編寫簡單系統(tǒng)。該單元共10個課時,其中包括4個實踐課時。
單元三:專業(yè)課介紹,主要涉及數(shù)字圖像處理介紹、模式識別介紹、計算機視覺介紹、智能機器人介紹等相關(guān)必修專業(yè)課的入門介紹,并在每次課程結(jié)束后配合實踐編程、工具使用、機器人搭建等實踐環(huán)節(jié)提高學生的學習興趣,使其全面認識后續(xù)專業(yè)學習。該單元共20個學時,其中包括12個實踐課時。
1.4 實驗設(shè)置
實驗課程共16個學時,包括4次實驗,詳細內(nèi)容如下。
實驗一:數(shù)字圖像處理實驗。使用課程中講授的Matlab語言,實現(xiàn)數(shù)字圖像的傅里葉變換、邊緣檢測功能。該實驗共4個課時,配合單元一以及單元二的部分知識點,使學生基本掌握Matlab編程語言,并理解數(shù)字圖像處理的基本知識。
實驗二:模式識別機器學習實驗。該實驗利用高級程序語言,實現(xiàn)數(shù)據(jù)的SVM算法以及KMeans算法,讓學生理解模式識別以及機器學習等知識。該實驗共4個學時。
實驗三:計算機視覺實驗。使用圖像拼接、3D場景重建等相關(guān)專業(yè)工具,實現(xiàn)二維圖片的3D重現(xiàn)。該實驗共4個學時。
實驗四:機器人實驗。學生在機器人實驗室,實際動手組裝博創(chuàng)模塊化機器人,并編程實現(xiàn)機器人運動調(diào)試。該實驗共4個學時,實驗地點為模塊化機器人實驗室。
1.5 結(jié)課考試
在教學的各個環(huán)節(jié),教師從出勤情況、日常表現(xiàn)、作業(yè)、實驗、結(jié)課項目及結(jié)課報告的完成情況對學生進行全方位的考核,其中結(jié)課項目、調(diào)查報告及實驗作業(yè)占最終成績的90%。結(jié)課項目為小組項目,4個學生為一個小組完成系統(tǒng)的設(shè)計、編寫、調(diào)試等步驟,并組織5名教師對每個小組進行答辯考核。
2 問題及改進
學校于2012年申請創(chuàng)辦智能科學與技術(shù)專業(yè)。該專業(yè)培養(yǎng)學生掌握計算機基礎(chǔ)、電子電路、控制方法、智能信息處理與識別等基本知識,使其具備信息處理、自動控制、人工智能系統(tǒng)開發(fā)等基本能力。智能科學與技術(shù)概論課程在大二下學期開設(shè),共32學時,其中理論教學16學時,實踐教學16學時。通過理論教學和實踐教學,學生了解了智能科學的基礎(chǔ)理論知識,掌握該專業(yè)核心專業(yè)課的關(guān)系,認識相關(guān)后續(xù)課程,并能夠使用簡單的算法和工具,為日后深入學習專業(yè)課打下良好基礎(chǔ)。
2.1 教材選擇
由于本專業(yè)辦學時間較短,沒有足夠的針對智能科學與技術(shù)概論的教材可供選擇。現(xiàn)階段使用較多的教材為《智能科學與技術(shù)導(dǎo)論》以及《智能科學》。《智能科學與技術(shù)導(dǎo)論》是鐘義信主編、北京郵電大學出版社出版的、適合智能專業(yè)大一新生使用的專業(yè)教材,對整個專業(yè)有詳細的介紹,適合作為新生的專業(yè)導(dǎo)引課程,安排16個學時較為合適,并不適于我校智能科學與技術(shù)概論課程的要求?!吨悄芸茖W》是史忠植主編、清華大學出版社出版的專業(yè)教材,該教材對整個智能專業(yè)的重要內(nèi)容都有涉及,系統(tǒng)地介紹了智能科學的概念和方法,吸收了腦科學、認知科學、人工智能、數(shù)理邏輯、社會思維學、系統(tǒng)理論、科學方法論和哲學等方面的研究成果,適合高年級學生使用,安排64個學時較為合適,也不適于我校情況。
鑒于上述原因,我們設(shè)計該課程時,前半部分理論知識介紹使用了《智能科學與技術(shù)導(dǎo)論》,后半部分專業(yè)課程介紹使用自制課件。經(jīng)過2輪的教學實踐以后,我們將根據(jù)教材使用情況編寫自用的講義教材。
2.2 內(nèi)容設(shè)計
該課程內(nèi)容會介紹智能專業(yè)的重要專業(yè)課,但要在32學時內(nèi)完成所有專業(yè)課程的介紹,并保證該課程內(nèi)容不與專業(yè)導(dǎo)引課以及智能信息處理導(dǎo)引課沖突,難度很大,因此選擇最合適的講授內(nèi)容,對于該課程的授課效果非常重要。
在授課過程中我們發(fā)現(xiàn),學生對簡單的數(shù)字圖像處理、計算機視覺的流行應(yīng)用以及動手要求強的機器人課程興趣較大,但對數(shù)學推導(dǎo)要求較高的模式識別、機器學習等課程接受程度較低。該課程的教學目的是讓學生了解相關(guān)課程的意義、歷史、發(fā)展等知識,所以,建議加大實驗動手課程的課時比例,讓學生多使用相關(guān)知識、算法和應(yīng)用,盡量避開復(fù)雜的數(shù)學推導(dǎo)。
2.3 資源配置
學校的智能科學與技術(shù)專業(yè)創(chuàng)建于電子工程系,依托電子系的軟硬件實驗室,培養(yǎng)學生的軟硬件知識儲備,提高學生的實際動手能力。其中,軟件算法將配合嵌入式設(shè)備進行硬件集成,并指導(dǎo)學生設(shè)計具有智能算法應(yīng)用的硬件設(shè)備。教學過程中將使用校實驗室中的模式識別嵌入式開發(fā)板、博創(chuàng)模塊化機器人平臺以及Turtlebot智能機器人平臺。該課程在實際講授時,理論課以及算法相關(guān)實驗在大班進行,硬件實踐課程在小班進行,能取得較好的授課效果。
3 實施效果
在該課程設(shè)計內(nèi)容的指導(dǎo)下,智能科學與技術(shù)概論已經(jīng)完成了2輪的課程教學,并在課程結(jié)束后組織學生填寫調(diào)查問卷。題目分兩類,第一類包括課程目標是否清晰、該課程能否提起學生對該專業(yè)課的學習興趣、該課程的實驗設(shè)計能否有效提高學生的動手能力,以及該課程的內(nèi)容相關(guān)設(shè)計是否優(yōu)秀。統(tǒng)計結(jié)果如圖1所示。除極個別學生外,大多數(shù)學生都選擇了符合以及完全符合,說明該課程設(shè)計可以滿足教學要求。第二類問題總結(jié)學生在課程中獲取的知識能力,包括編程調(diào)試、理論知識應(yīng)用、信息獲取、技術(shù)文檔寫作、自主學習、分析問題、解決問題等,為多選題。從圖2可以看出,學生對各項能力的認可率均超過50%,其中信息獲取、分析問題等能力的認可率接近80%,說明該課程設(shè)計基本滿足教學目標。
4 結(jié)語
智能科學與技術(shù)概論對智能專業(yè)學生的深入學習起到了重要的引導(dǎo)作用。我們根據(jù)自身的實際情況出發(fā),設(shè)計出適合該專業(yè)學生的課程設(shè)計安排。經(jīng)過兩輪的實施效果證明,該課程的設(shè)計方式比較適合學生。隨著課程的持續(xù),我們將不斷解決存在的問題,并編寫適合我校學生使用的教材。
參考文獻:
[1]鐘義信,智能科學技術(shù)導(dǎo)論[M].北京:北京郵電大學出版社,2007.
[2] Edward FC,Johan M,Soren O.重新認識工程教育:國際CDIO培養(yǎng)模式與方法[M].顧佩華,沈民奮,陸小華,譯.北京:高等教育出版社,2009.
微軟的游戲操控設(shè)備 Kinect 有一句廣告語:You are the controller(你就是遙控器)。通過 Kinect,普通人不需要使用任何手柄、搖桿、鼠標或者其他遙控器就能操控游戲,這讓 Kinect 遠遠超越了普通家用游戲機的段位。事實是,人們也沒有把它僅僅當成游戲機,無數(shù)黑客對其進行破解,開發(fā)出一系列創(chuàng)新發(fā)明,有模擬光劍道具,也有自動跟著垃圾跑的垃圾桶,甚至英國一所大學正在基于它研發(fā)一種技術(shù)幫助中風患者恢復(fù)健康。
新的人機交互方式讓計算機能讀懂人所傳遞的命令。現(xiàn)在,眼睛是人們開發(fā)的下一個目標。去年底丹麥公司 Senseye 了一個視頻,視頻里,一個人捧著平板電腦在玩“切水果”的游戲——不過,他沒有動一根手指,而是完全用眼神控制。后來,這家由四個丹麥博士生創(chuàng)立的公司改名為“The Eye Tribe”,他們開發(fā)的眼控技術(shù)能通過智能手機或者平板電腦的前置攝像頭獲取圖像,利用計算機視覺算法進行分析。軟件能定位眼睛的位置,估計你正在看屏幕的什么地方,甚至精確到非常小的圖標。這項眼控技術(shù)能夠取代手指,控制平板電腦或手機。據(jù)國外媒體報道,他們已經(jīng)開始與手機制造商和運營商進行合作,希望明年能將正式產(chǎn)品推向市場。
除了用眼神控制手機,用眼睛操控的概念筆記本、眼控相機等產(chǎn)品也已面世。以眼神的移動軌跡為基礎(chǔ)進行的人機交互方式,是繼 Kinect 之后人機交互界面的又一次革命。
眼睛上的實驗
17 世紀初,人們就開始研究眼睛的運動。1879 年,法國人路易斯·艾米·賈維爾觀察到,人們的眼睛在閱讀文字時,并非像之前猜想的是平滑地一行行掃射,而是每隔幾個字就會有短暫的視覺停留。
于是人們很好奇:閱讀時,眼睛會停留在哪些字上?停留多長時間?
為了研究這個問題,埃德蒙·休伊做出世界上第一個眼睛追蹤器:一個有洞的隱形眼鏡,和一個會根據(jù)眼睛活動擺動指針的鋁制指示器相連。但這個追蹤器因為要和眼球接觸,對眼睛的干擾比較大。另一個芝加哥的家伙托馬斯·巴斯維爾轉(zhuǎn)換了思路,做出了一個非接觸式的追蹤器,他利用光束照射眼睛,通過在電影膠片上記錄眼睛反射的光記錄眼睛的活動軌跡。他用這個裝置研究人們閱讀和觀看圖片的行為習慣。
到了 1980 年,眼睛追蹤器被用來研究和人機交互有關(guān)的問題;比如,研究人員很好奇用戶如何在電腦菜單中搜索命令。最近幾年,人們越來越多運用眼部追蹤器研究用戶如何和不同的計算機界面互動,結(jié)果往往能改變界面的設(shè)計。其他的研究包括用戶如何對待下拉菜單,他們通常將注意力集中在網(wǎng)站的什么位置,開發(fā)人員就會知道該在哪里設(shè)計廣告位。
隨著眼控技術(shù)的發(fā)展,和人類對視覺生理及心理的了解,基于人類視覺系統(tǒng)(Human Vision System, 簡稱“HVS”)的凝視繪制技術(shù)也逐漸成為圖形學的研究熱點。這種技術(shù)通過略去不為用戶感知的畫面區(qū)域的圖像細節(jié)來提高圖像的繪制和顯示效率。
在研究中,人們普遍達成的共識是,“注意力”和眼睛看在哪并不統(tǒng)一,前者總是比眼睛要領(lǐng)先大約 100-250 微秒;也就是說,人的注意力轉(zhuǎn)移到新的位置 100-250 微秒后,眼睛才會跟隨其后。
在技術(shù)上,眼控技術(shù)已經(jīng)相當成熟,在工業(yè)控制、機器人學和臨床醫(yī)學領(lǐng)域都有應(yīng)用,只是還沒有應(yīng)用到消費領(lǐng)域。它是基于角膜反射原理,通過光在用戶眼睛角膜上形成高亮度反射點作為參考點,當眼球轉(zhuǎn)動注視屏幕上不同位置時,由于眼球近似為球體,光斑不動,瞳孔相對光斑發(fā)生偏移,利用瞳孔中心和光斑的位置關(guān)系就能確定視線方向。目前運用最廣泛的設(shè)計是以視頻為基礎(chǔ)的眼睛追蹤器。一個設(shè)想鏡頭聚焦在一只或一雙眼睛上,在觀眾受到某種刺激時記錄它們的變動。眼控技術(shù)的核心是算法,如何讓系統(tǒng)迅速準確地“學習”人眼睛的各種行為,這是個挑戰(zhàn)。
EyePhone 應(yīng)該翻譯成“眼機”或者“目機”?似乎都不太好聽。在大觸屏手機廣泛流行之前,有人就開始研究如何用眼睛控制手機了。
美國達特茅斯學院(Dartmouth College)就有一支眼控手機的研發(fā)團隊,他們試圖創(chuàng)造一套眼睛追蹤系統(tǒng),開發(fā)以眼睛來控制手機的操作方法。
讓眼睛追蹤系統(tǒng)運用到操作系統(tǒng)里,重要的是設(shè)計一套能夠?qū)崿F(xiàn)的軟件。首先,你需要校準這個系統(tǒng),在室內(nèi)室外不同光線下盯著同一張圖片看,讓軟件學習、識別你的眼睛在不同光照條件下的運動。他們在諾基亞 N810 上做了試驗,設(shè)計出一個初始“眼菜單”,屏幕被分為9格,分別對應(yīng)郵件、接電話、拍照片、日歷、短信等不同功能。當一個人盯著某一塊區(qū)域看時,某一個功能區(qū)域就被激活高亮顯示,一眨眼,這個功能就被激活。
根據(jù)《麻省理工科技評論》雜志 2010 年的報道,眼控式手機的技術(shù)研發(fā)已經(jīng)數(shù)年。進行這項技術(shù)開發(fā)的主要目的,是希望能讓手部殘疾的人克服無法使用電話的障礙。
在這項研究中,整個系統(tǒng)技術(shù)含量最高的部分就是自動校正系統(tǒng),它需要算法優(yōu)化,提高光學采集精度,實現(xiàn)視線跟蹤,適應(yīng)外部環(huán)境光強度變化,判別眼睛睜、閉狀態(tài)等。帶領(lǐng)“EyePhone”研發(fā)團隊的安德魯·坎貝爾(Andrew Campbel)教授認為,眼控式手機解放了雙手,不僅僅是殘疾人,每個人都能享受到它帶來的極大便利。但靠眼神操作手機,比在桌上的電腦執(zhí)行眼控指令更困難,因為使用者和手機都是行動中的物體,而周圍環(huán)境也是變幻莫測,如何演算和辨識使用者在不同的狀態(tài)下所傳達的眼神收發(fā)訊號,是最難解決的問題。
在 2011 年的 Cebit 展上,聯(lián)想和瑞典眼控技術(shù)公司 Tobbi 聯(lián)合了一款概念筆記本,特制的長方形感應(yīng)器能夠追逐眼球的移動軌跡,記錄數(shù)據(jù),電腦處理器把這些數(shù)據(jù)轉(zhuǎn)化為鼠標控制,整個系統(tǒng)并不會讓眼控的過程感覺十分刻意,也不會像傳統(tǒng)的眼控系統(tǒng)一樣過于敏感或是過于駑鈍。
Tobii 公司成立于 2001 年,是一家專門研發(fā)眼動追蹤和眼動控制技術(shù)的公司。除了桌面眼動電腦,他們也在研發(fā)一款具備眼控界面的 windows 平板電腦 C12,用戶可以轉(zhuǎn)動眼珠來移動 C12 上的鼠標指針,而眨眼則代表點擊。機器里設(shè)置了一個校準界面,允許多個用戶定義眼控指令。
1研究方向
到2007年底,每秒鐘能進行1000萬億次浮點運算的超級計算機將要問世,這是計算機科學家的最新杰作!但是,即便是如此強大的超級計算機,目前還無法實現(xiàn)人腦能夠輕而易舉完成的許多感知信息處理任務(wù)。例如,在混雜的車站里辨認熟人面孔、在熱鬧的晚宴里同朋友自由交談、在國際會議上嫻熟地用外語與各國同行討論研究成果,等。因此,為了建立計算機與人更加友好、自然的用戶界面,我們必須創(chuàng)建新的智能計算理論與方法。我們認為將計算機科學與腦科學相結(jié)合,研究仿腦計算理論與模型將是通向這一終極目標的一條理想之路?!吧虾=煌ù髮W-微軟智能計算及智能系統(tǒng)實驗室”的主要研究目標就是為了突破傳統(tǒng)數(shù)字計算機在智能信息處理的瓶頸,聯(lián)合實驗室匯集了上海交通大學計算機科學與工程系、自動化系和電子工程系的相關(guān)領(lǐng)域的10余名教授、副教授,擬在下列方向開展合作研究:
仿腦計算理論與模型
超并列機器學習理論與算法
基于人類視覺信息處理的計算機視覺理論與方法
腦-計算機接口技術(shù)
機器人技術(shù)
多媒體信息獲取技術(shù)
無縫媒體通訊技術(shù)
這里需要強調(diào)的是,微軟亞洲研究院湯曉鷗博士為聯(lián)合實驗室研究方向的確定和研究課題的篩選作出了重要貢獻。湯曉鷗博士在聯(lián)合實驗室成立之初,就來上海交通大學為我們作了一場精彩的學術(shù)報告,不僅介紹了微軟亞洲研究院在計算機視覺領(lǐng)域最新的研究成果,而且為我們的學生詳細介紹了如何腳踏實地、一步一步地開展高水平的科學研究,使同學們受益匪淺。自聯(lián)合實驗室成立以來,微軟亞洲研究院的多名國際知名專家來上海交通大學講學,他們是“深藍項目”之父許峰雄博士、系統(tǒng)結(jié)構(gòu)專家張崢博士和自然語言處理專家周明博士。
2006年度微軟亞洲研究院資助了聯(lián)合實驗室在機器學習、機器人和多媒體通信三個方向的研究課題,具體內(nèi)容如表1所示。
2研究成果
聯(lián)合實驗室成立一年多來,取得了多項創(chuàng)新性的研究成果,已在國內(nèi)外學術(shù)刊物和會議上30余篇。由于篇幅限制,下面僅對部分成果作簡要介紹。
(1) 超并列機器學習理論與算法
上海交通大學計算機科學與工程系呂寶糧教授在仿腦計算、機器學習和腦-計算機接口等方向與微軟亞洲研究院系統(tǒng)結(jié)構(gòu)組、文本組和圖像組有著密切的合作與交流,他們共同致力于研究大規(guī)模分布式超并列機器學習理論與算法,并將其研究成果應(yīng)用于人臉識別、自然語言處理、生物信息學和腦-計算機接口等領(lǐng)域。在此期間共同進行博士和碩士研究生以及本科生的培養(yǎng),聯(lián)合發(fā)表學術(shù)論文。與微軟研究院的文本組、圖像組和機器學習組定期交流和選派學生實習。通過雙方真誠的合作,智能信息處理方向已有2名博士生和5名碩士順利通過答辯。目前上海交通大學有1名博士后、3名博士生、5名碩士生和4名ACM班的本科三年級學生投入到合作研究課題中,來自微軟亞洲研究院的1名優(yōu)秀青年員工在機器學習方向作為博士生進行聯(lián)合培養(yǎng)。
(2) 無縫媒體通訊技術(shù)
上海交通大學電子工程系熊紅凱副教授在無縫媒體通信方向,與微軟亞洲研究院網(wǎng)絡(luò)多媒體IM組已經(jīng)進行了多年的合作研究,他們共同致力于無縫媒體通信的良好遠景,主要研究視頻信號多元化智能處理與傳輸,工作包括可伸縮視頻編碼、分布式視頻編碼、網(wǎng)絡(luò)編碼,等。微軟研究院IM組吳楓等研究人員與他們在此期間共同進行博士和碩士研究生的培養(yǎng),支持他們參與國際技術(shù)標準MPEG-21和JVT的制訂,聯(lián)合提交技術(shù)提案和發(fā)表學術(shù)論文。
通過合作研究,媒體通信方向已有2名博士生、3名碩士生順利畢業(yè);目前上海交通大學在此方向有2名博士生、4名碩士生投入到合作課題中;微軟亞洲研究院有2名優(yōu)秀員工在媒體通信方向作為博士生進行聯(lián)合培養(yǎng),實現(xiàn)一體化技術(shù)合作。合作研究的積累,使得該團隊獲得了2005年和2006年度國家自然科學基金面上和重點項目的相關(guān)課題資助。另外,2007年獲得了國家“十一五”863計劃專題。
(3) 移動機器人的視覺定位技術(shù)
服務(wù)機器人是一個新興的快速發(fā)展的研究領(lǐng)域。服務(wù)機器人的首要問題是其必須在執(zhí)行任務(wù)中應(yīng)付復(fù)雜的環(huán)境。復(fù)雜環(huán)境中的目標定位技術(shù)成為其中一項挑戰(zhàn)性課題。
項目組提出了一種新的單目攝像頭實時定位算法,可以實時計算攝像頭的三維運動軌跡。該算法基于視覺路標,集成了目標識別、特征跟蹤和3D定位算法。其核心思想是:識別場景中的視覺路標,并主動跟蹤匹配特征點,計算攝像機的3D運動軌跡。為了提高算法實時性,相對耗時的目標識別模塊只在初始化時尋找和識別路標,接著跟蹤算子跟蹤匹配特征點,轉(zhuǎn)入實時跟蹤過程,同時輸出3D軌跡。
實驗表明,結(jié)合目標識別、跟蹤和3D定位,本文算法可以主動發(fā)現(xiàn)和實時跟蹤感興趣目標,對于普通PC和USB攝像頭,能以30幀/s跟蹤運動目標。3D定位也有較好的精度,準確跟蹤時,定位誤差一般在5cm之內(nèi)。此外由于每幀都單獨計算位姿,因此不存在累積誤差,目標丟失后也能快速被識別和跟蹤。
3人才培養(yǎng)
聯(lián)合實驗室成立伊始,雙方就將人才培養(yǎng)作為合作的重中之重,經(jīng)過雙方的共同努力和友好合作,在一年多的時間里,已經(jīng)實施了下列三個具有特色人才培養(yǎng)項目。
(1) 博士生聯(lián)合培養(yǎng)項目
上海交通大學與微軟亞洲研究院的博士生聯(lián)合培養(yǎng)項目是實驗室在人才培養(yǎng)方面的合作亮點。該項目主要包含兩方面的內(nèi)容,一方面上海交通大學聘用微軟亞洲研究院的資深研究員為上海交通大學博士生導(dǎo)師并與上海交通大學的教授一起聯(lián)合指導(dǎo)博士研究生;另一方面微軟亞洲研究院選派具有碩士學位的優(yōu)秀員工到上海交通大學攻讀博士學位。目前有六位微軟研究員被聘為上海交通大學客座教授,其中沈向洋博士、洪小文博士、張崢博士、宋歌平博士和湯曉鷗博士為博士生導(dǎo)師。2006年4月微軟亞洲研究院選送了六位優(yōu)秀青年員工來上海交通大學攻讀博士學位,這些博士生首先在上海交通大學完成學位課程的學習,之后他們將在上海交通大學導(dǎo)師的指導(dǎo)下在微軟亞洲研究院進行博士學位論文的研究工作。這六名博士生的導(dǎo)師分別是上海交通大學計算機科學與工程系的張申生教授、俞勇教授和呂寶糧教授;電子工程系的張文軍教授和孫軍教授。博士生聯(lián)合培養(yǎng)項目的實施,既是微軟亞洲研究院對優(yōu)秀青年員工繼續(xù)發(fā)展的支持和鼓勵,同時通過雙方深入的交流,將微軟亞洲研究院的研究理念和企業(yè)需求帶到上海交通大學,為雙方的共同發(fā)展作出了貢獻。
(2) 卡內(nèi)基?梅隆大學聯(lián)合人才培養(yǎng)項目
微軟亞洲研究院聯(lián)手上海交通大學和美國卡內(nèi)基?梅隆大學聯(lián)合培養(yǎng)高素質(zhì)人才。根據(jù)“卡內(nèi)基?梅隆大學-上海交通大學-微軟亞洲研究院”三方達成的協(xié)議,上海交通大學、卡內(nèi)基?梅隆大學每年將互換5名優(yōu)秀本科學生進行為期一學期的學習,在兩校學習之后,這些學生將到微軟亞洲研究院進行為期三個月的實習,其間他們將參與實際項目的研發(fā)工作。這一“產(chǎn)學研”跨國合作的模式,將為中國培養(yǎng)高素質(zhì)的“IT國際人”提供一種有效的便捷渠道。到目前為止,上海交通大學電子信息與電氣工程學院經(jīng)過嚴格挑選,已選派了十多位優(yōu)秀的本科生去卡內(nèi)基?梅隆大學電子與計算機工程系學習,這些學生分別來自計算機科學與工程系、自動化系和電子工程系。卡內(nèi)基?梅隆大學也已選派了多名交換生來上海交通大學和微軟亞洲研究院學習和實習。經(jīng)過三方的聯(lián)合培養(yǎng),不僅拓寬了學生的視野,而且進一步提升了學生的綜合素質(zhì)。在參加該項目的學生中,有的同學已在本領(lǐng)域高水平的國際雜志和會議上發(fā)表了多篇學術(shù)論文。此外隨著三方合作的進一步深入和上海交通大學國際化辦學的進一步深化,將會使上海交通大學更多的本科生同學有機會親密接觸世界知名學府和研究院。
隨著移動終端的興起,數(shù)據(jù)的產(chǎn)生已經(jīng)成了一種非常廉價并且隨時隨地都可完成的技術(shù)。而移動互聯(lián)網(wǎng)的發(fā)展又促進了數(shù)據(jù)的產(chǎn)生、流動和集中?,F(xiàn)實生活中我們可以非常輕松地刷新微博感受周圍世界的變化,也可以通過手機的拍照功能在網(wǎng)上分享我們生活中的精彩時刻。我們發(fā)現(xiàn),與我們現(xiàn)實世界相對應(yīng)的數(shù)字化世界正在急劇地膨脹,新的信息隨時隨地都在產(chǎn)生,在這種背景下很多科學家們認為我們正在迎來一個新的時代,“大數(shù)據(jù)”時代。在“大數(shù)據(jù)”時代,如何為每個人快速找到他們需要的信息是計算機科學家們所面臨的嚴峻挑戰(zhàn)。他們必須利用機器學習技術(shù),讓計算機程序自動為人們搜尋具備潛在價值的信息。然而在過去幾十年里,龐大的數(shù)據(jù)量成了機器學習技術(shù)面臨的又一重大問題。目前這一領(lǐng)域面臨著一個巨大的挑戰(zhàn),那就是機器學習的可擴展性問題,即如何面對海量的數(shù)據(jù)提出高效的學習算法。本書是關(guān)于這一主題的第一本專著。
本書圍繞并行計算和分布式計算介紹了機器學習算法的擴展問題。全書共21章。在第1章引言介紹之后,又分4個部分,其中第1部分討論了擴展機器學習的相關(guān)架構(gòu),含第2-5章:2.MapReduce及其在組合決策樹學習中大規(guī)模并行的應(yīng)用;3.介紹了利用DryadLINQ進行大規(guī)模機器學習;4.介紹了IBM并行學習工具庫;5.介紹了機器學習算法中的均勻細粒度數(shù)據(jù)并行計算。第2部分介紹了監(jiān)督和非監(jiān)督學習,含第6-13章:6.基于不完全Cholesky分解的并行支持向量機PSVM;7.利用硬件加速的大規(guī)模并行支持向量機;8.利用自舉決策樹進行大規(guī)模排序?qū)W習;9.變換回歸算法;10.因子圖中的并行信任擴散方法;11.在潛在變量模型中的并行吉布斯采樣;12.使用MapReduce和MPI進行大規(guī)模譜聚類;13.基于信息論的并行聚類方法。第3部分其他的學習模式,含第14-17章:14.并行在線學習;15.介紹了基于圖的并行半監(jiān)督學習;16.介紹了基于關(guān)聯(lián)矩陣分解的分布式轉(zhuǎn)移學習;17.大規(guī)模并行特征選擇。第4部分相關(guān)應(yīng)用,含第18-21章:18.利用GPU在計算機視覺中進行大規(guī)模學習;19.基于大規(guī)模FPGA的卷積網(wǎng)絡(luò)學習;20.在多核系統(tǒng)上對樹結(jié)構(gòu)數(shù)據(jù)進行挖掘;21.自動語音識別的可擴展并行化方法。
本書是可擴展機器學習領(lǐng)域難得的專著,本書第一編著者Ron Bekkerman目前是LinkedIn的高級研究人員,第二編著者Mikhail Bileno目前是微軟機器學習研究組的成員,而第三編著者John Lanford則是雅虎公司的科學家。另外值得注意的是本書每一章的作者既有來自斯坦福、耶魯、卡內(nèi)基梅隆等著名高校的教授,也有來自雅虎、谷歌、 IBM 、惠普、微軟等工業(yè)界研究院的資深研究人員。對于目前國內(nèi)如火如荼的“大數(shù)據(jù)”研究來說,相信本書會為廣大研究生和科研人員提供不可替代的第一線經(jīng)驗。
【關(guān)鍵詞】視覺測量 數(shù)字圖像處理 開放性實驗
【中圖分類號】G642 【文獻標識碼】A 【文章編號】1006-9682(2012)10-0001-03
一、引 言
數(shù)字圖像處理作為一門學科大約形成于20世紀60年代初期,并首次在航空航天領(lǐng)域取得了成功應(yīng)用。數(shù)字圖像處理技術(shù)的發(fā)展除了與計算機技術(shù)、信息技術(shù)的快速發(fā)展密切相關(guān)以外,還得益于其在航空航天、工業(yè)、生物醫(yī)學、軍事、通信工程、商務(wù)、環(huán)境、林業(yè)等諸多領(lǐng)域的廣泛應(yīng)用,正是這些應(yīng)用需求,促進了數(shù)字圖像處理技術(shù)的深入研究和快速發(fā)展。“數(shù)字圖像處理”課程是隨著計算機和信息技術(shù)發(fā)展應(yīng)運而生的一門新興課程,已成為信息類專業(yè)本科生的重要專業(yè)課。通過該課程的學習,要求學生掌握數(shù)字圖像處理的基本概念和原理,能夠?qū)D像進行各種處理,如圖像增強、圖像運算、圖像編碼、邊緣檢測等,為圖像通信、模式識別、計算機視覺以及其他交叉學科等工程領(lǐng)域的應(yīng)用奠定基礎(chǔ)。
“數(shù)字圖像處理”課程的理論教學很抽象,僅僅通過理論教學學生很難掌握數(shù)字圖像處理的基本原理。如果把數(shù)字圖像處理的廣泛應(yīng)用引入課堂理論教學,將具體知識點與其在實踐中的使用相結(jié)合,同時為學生提供邊學邊實踐的機會,不僅可以提高學生的學習興趣,加深對抽象理論知識的理解,增強其動手實踐的能力,還可以拓展學生的視野,與目前學科前沿技術(shù)相銜接。
二、視覺測量技術(shù)
在現(xiàn)代三維測量新技術(shù)中,視覺測量是由計算機視覺、圖像處理、模式識別等多學科交叉結(jié)合而形成的科學。圖1所示,視覺測量是一種非接觸性測量手段,以數(shù)字圖像作為信息載體,對被測目標進行成像,通過提取多個像面的二維像點信息,標定相機內(nèi)、外參數(shù),并重建、優(yōu)化被測目標的三維信息,實現(xiàn)測量。視覺測量基于嚴謹?shù)睦碚摵同F(xiàn)代的硬軟件設(shè)施,可以達到相當高的精度和可靠性,便于對大型工件、設(shè)備的尺寸、位置、三維輪廓等進行高精度測量,而且移動方便,可快速靈活地構(gòu)建適于不同測量對象的系統(tǒng),進行現(xiàn)場測量。目前,視覺測量技術(shù)已經(jīng)廣泛應(yīng)用于建筑工程、航空航天、汽車制造、生物醫(yī)學、考古等各個領(lǐng)域。[1~5]因此,視覺測量技術(shù)正在深入工業(yè)生產(chǎn)和社會生活的各個領(lǐng)域,研究和應(yīng)用新的基于光學、數(shù)字圖像和視覺信息融合的三維測量方法,既具有重要的理論意義,又具有重大的實用價值,應(yīng)用前景非常廣闊。
根據(jù)視覺測量的基本原理,利用數(shù)字圖像處理技術(shù)獲取的二維信息是視覺測量中相機標定、三維重建等環(huán)節(jié)的基礎(chǔ),對于系統(tǒng)的測量精度、穩(wěn)定性等方面具有決定性的影響,是視覺測量領(lǐng)域的關(guān)鍵技術(shù)。在長期的數(shù)字圖像處理課程教學以及視覺測量研究工作中發(fā)現(xiàn),可以將視覺測量中關(guān)于數(shù)字圖像處理的應(yīng)用內(nèi)容引入課堂教學中,與具體理論知識相結(jié)合,加深學生對于課程理論的理解,使其接觸到科學研究的前沿內(nèi)容。此外,通過設(shè)置開放性實驗等環(huán)節(jié),引導(dǎo)有興趣和能力的學生進行實踐能力的培養(yǎng),使學到的知識“活”起來。
三、視覺測量與數(shù)字圖像處理課程的融合
為了改善數(shù)字圖像處理課程的教學效果,提高教學效率,將視覺測量技術(shù)與數(shù)字圖像處理課程相融合,本文主要在教學方法和教學手段改革、視覺測量需求與理論知識點結(jié)合、實踐動手能力提高等方面進行了研究。
1.教學方法和教學手段改革
為了貫徹學生是教育主體的教育思路,使學生學會學習,并充分激發(fā)學生的創(chuàng)新能力和素質(zhì)培養(yǎng),促進學生個性的發(fā)展,同時有利于師生彼此促進共同進步的原則,針對數(shù)字圖像處理課程的特點,采取了以下措施:
(1)重視數(shù)字圖像處理課程的基礎(chǔ)理論教學。數(shù)字圖像處理內(nèi)容豐富,應(yīng)用靈活廣泛,但學生在掌握某些具體應(yīng)用技術(shù)時感到理解困難。因此,在實際教學上,首先需要注重相關(guān)的基礎(chǔ)理論教學。[6]例如,數(shù)字圖像的本質(zhì)是數(shù)字信號,所以在課程前期階段,專門有針對性地復(fù)習和講解了信號分析與處理方面的基本理論,包括數(shù)字信號處理的常用方法、離散傅里葉變換和快速傅里葉變換、離散余弦變換等,這些理論在數(shù)字圖像處理課程中有具體應(yīng)用。這不僅有利于對數(shù)字圖像處理內(nèi)容的掌握,也可以反過來加深對相關(guān)理論的理解。另一方面注意授課內(nèi)容的精選,內(nèi)容不在于多,而在于少而精,突出重點,使學生在有限學時內(nèi)有最大的收獲。例如,在頻域空間進行圖像增強時,不能將頻域空間的所有方法都對學生講授,而是突出講解了關(guān)于頻域空間與時域空間處理之間的關(guān)系,針對頻域圖像平滑介紹一種低頻濾波器,分析其原理和特點。這樣不僅節(jié)省了教學時間,而且重點突出,同時也引導(dǎo)學生查閱其他相關(guān)方法,讓他們自己去動腦思考,提高其思維能力。
(2)完善和改革課堂教學方法。在課堂教學過程中,我們始終重視啟發(fā)式教學,遵循“提出問題”、“啟發(fā)式思考”、“解決問題”的教學過程,使用“問題教學法”引導(dǎo)學生去思考、分析問題,激發(fā)學生學習的積極性,提高教學效果。課堂開始時,根據(jù)授課內(nèi)容,提前向?qū)W生拋出相關(guān)問題,在講課過程中則圍繞該問題講解課程內(nèi)容,最后提出問題的解決方法。例如,在講解“直方圖均衡化圖像增強技術(shù)”一節(jié)內(nèi)容時,首先向?qū)W生展示了兩幅曝光不足和曝光過量的圖片,并且為了提高學生的學習興趣,認識數(shù)字圖像處理的實際應(yīng)用,圖片取自于視覺測量、航空交會對接定位等領(lǐng)域的實際圖片,向?qū)W生提問,“如果實際應(yīng)用中,由于環(huán)境光的影響,拍攝到了這樣的圖片,應(yīng)該怎么辦?”課堂講解過程中,隨著直方圖、直方圖增強技術(shù)的理論、直方圖均衡化方法等內(nèi)容的展開,使學生逐漸理解并掌握直方圖均衡化方法,最后,給學生演示了直方圖均衡化方法的實現(xiàn),并看到了利用該方法對圖片增強前后的圖片效果。這種啟發(fā)引導(dǎo)式的課堂教學方法,取得了良好的效果。
(3)傳統(tǒng)和現(xiàn)代化教學手段相結(jié)合。隨著計算機、通信技術(shù)應(yīng)用的迅速普及,國內(nèi)高校的課堂教學已普遍采用了多媒體技術(shù),利用計算機、投影儀、幻燈機等現(xiàn)代化教學設(shè)備,結(jié)合計算機輔助教學(CAI)展示教學內(nèi)容。這些現(xiàn)代化技術(shù)的確為課堂帶來了很多豐富多彩的教學手段。數(shù)字圖像處理是以圖像為處理對象,其輸出的形式主要以圖像和圖形為主,該課程也十分適宜將教學內(nèi)容制成課件,采用多媒體計算機開展現(xiàn)代化教學。借助多媒體,使學生較直觀地看到各種圖像的處理需求、處理過程、處理效果等,這是普通教材和參考資料所無法比擬的。因此,我們針對課堂教學需求,進行了多媒體課程教學資源建設(shè),如教學大綱、教學日歷、授課教案和課件等通過多媒體平成,便于講課,同時也便于學生課后的復(fù)習。例如,將視覺測量原理、過程等,通過多媒體課件的形式演示出來,相比較口頭介紹等方法具有更加直觀的效果。除了多媒體教學手段,傳統(tǒng)的板書式教學作為補充手段也在數(shù)字圖像處理課程中得到應(yīng)用,主要用在課堂教學內(nèi)容框架展示、理論推導(dǎo)等方面。
2.視覺測量與理論知識點結(jié)合
為了提高算法對于目標特征的識別效果,視覺測量通常采用圓形或方形特征點(圖2),在獲取的圖像中對特征的成像位置進行識別和精確定位。視覺測量對于圖像處理的要求主要包括圖像預(yù)處理、特征粗定位、特征精定位等內(nèi)容,對應(yīng)數(shù)字圖像處理課程中的圖像增強、邊緣檢測、特征識別、幾何運算等知識點。[7]
圖2 視覺測量常用特征點
(1)圖像預(yù)處理。圖像預(yù)處理的主要方法包括彩色圖像灰度化、圖像增強等,為此,在講解彩色圖像內(nèi)容時,介紹了RGB、HSI等彩色模型以及不同彩色模型之間的轉(zhuǎn)換,并引出如何將彩色信息轉(zhuǎn)換成灰度信息。通過分析彩色表示模型,建立了彩色到灰度圖像的轉(zhuǎn)換。
向?qū)W生展示常用視覺測量圖像效果的基礎(chǔ)上,為了減少圖像噪聲的影響、提高圖像識別效果,提出改善圖像質(zhì)量的目標,需要進行圖像增強。結(jié)合圖像增強中常用的直方圖增強技術(shù)、空域和頻域圖像增強方法在視覺測量圖像處理中的實際應(yīng)用,給學生展示直觀的處理效果,加深對圖像增強方法的理解。
(2)特征點粗定位。數(shù)字圖像處理的邊緣檢測是該課程比較重要的一部分內(nèi)容,邊緣檢測中包含了多種方法,便于學生對不同邊緣檢測算法的作用效果有直觀印象,將各種算法應(yīng)用于視覺測量圖像征點的邊緣檢測,并有針對性地選擇相應(yīng)參數(shù),使學生不僅學習了各種邊緣檢測算法的使用,也看到了算法的特點。
根據(jù)視覺成像的特點,圓形特征點成像后一般為橢圓,所以,利用邊緣檢測得到的邊緣像點數(shù)據(jù),講解用邊緣點進行指定特征識別的方法,如基于Hough變換的特征檢測方法。為了引導(dǎo)學生思考,采用啟發(fā)式講課方法,講解了Hough變換檢測直線的方法,引出如何用Hough變換檢測像面上的圓或橢圓,并鼓勵有能力的學生實現(xiàn)相應(yīng)算法。
(3)特征點精定位。特征點精定位的目的是在實現(xiàn)特征點粗定位的基礎(chǔ)上,對圓形特征點中心在像面上的精確坐標進行定位。精確定位主要設(shè)計到數(shù)字圖像處理中的點運算,但需要考慮采用的具體定位算法,如灰度重心法、加權(quán)灰度重心法、橢圓擬合法等。引導(dǎo)學生通過文獻資料查找和實現(xiàn)相關(guān)定位算法,并且與國際領(lǐng)先的專業(yè)軟件進行定位精度對比。通過比較,可以使學生發(fā)現(xiàn)不同算法之間的區(qū)別,并分析不同的原因。進一步,引導(dǎo)學生嘗試對定位算法做一定的改進,這種改進,不需要從算法根本上做出很大的創(chuàng)新,只是從某一方面進行微小的變化,使其能夠適合特定的應(yīng)用需求。例如,如果對視覺測量像面上特征點定位采用加權(quán)灰度重心法時,通過調(diào)整加權(quán)系數(shù),得到不用的效果,從而分析加權(quán)系數(shù)對于定位精度的影響,并據(jù)此得出適用于該需求的結(jié)論。
四、開放性實驗
長期以來,“數(shù)字圖像處理”課程教學主要采用課堂理論教學,教學內(nèi)容也多為經(jīng)典的內(nèi)容,很難反映課程內(nèi)容的時代特征。實驗教學是高等教育的重要組成部分,是抽象思維與形象思維、傳授知識與訓(xùn)練技能相結(jié)合的過程,在人才培養(yǎng)中具有課堂理論教學環(huán)節(jié)不可替代的作用,對培養(yǎng)理工科大學生的創(chuàng)造性是不可缺少的。雖然目前大多數(shù)課程都設(shè)置了實踐環(huán)節(jié),但也普遍存在著很多問題,[8]例如,實驗課成績占課程成績比例小,學生對實驗的重視度不夠,存在著抄襲他人實驗結(jié)果和報告的現(xiàn)象;實驗?zāi)J絾我唬瑢嶒瀮?nèi)容陳舊、呆板,多為驗證性實驗,缺乏創(chuàng)新性和挑戰(zhàn)性,學生完全處于被動狀態(tài),最終導(dǎo)致實驗不認真,敷衍了事,所學的知識和操作技術(shù)遺忘快;不能保證每個學生都有充分的時間和機會做實驗,個別學生逐漸養(yǎng)成依賴心理,最終只有一部分學生得到了鍛煉;理論課與實驗課教學老師分離,造成理論和實踐環(huán)節(jié)脫節(jié)等。
針對目前“數(shù)字圖像處理”課程實驗的現(xiàn)狀,根據(jù)視覺測量像面特征點定位需求,開設(shè)相關(guān)開放性實驗項目“視覺測量特征點提取定位實驗”,實驗要求學生結(jié)合數(shù)字圖像處理課程知識理論,對視覺測量采集的數(shù)字圖像進行處理,提取相關(guān)特征點。針對視覺測量中常用的特征點(圓形、方形)進行自動檢測,并實現(xiàn)高精度定位,主要實驗內(nèi)容包括:圖像預(yù)處理、特征點粗定位、特征點精定位、算法設(shè)計與實現(xiàn)、實驗結(jié)果分析等。
教師在開放性實驗項目中承擔的角色主要是方案設(shè)計和實施過程中的指導(dǎo)、監(jiān)督,對方案的具體實現(xiàn)方法不做限制性要求,主要由學生結(jié)合課堂教學內(nèi)容以及查閱文獻資料來設(shè)計并完成。為了提高項目完成的效率,教師可以通過適當?shù)囊龑?dǎo)為學生指出主要方向。
對于單個學生來說,這樣的實驗項目有些困難,“團隊合作”也是新時期對科技人才素質(zhì)的要求,所以可以通過建立項目小組的方式開展實驗。小組成員將實驗內(nèi)容進行分工,每人負責不同的部分,通過相互合作、幫助,完成整個實驗項目。通過這種形式,也在某種程度上鍛煉了學生的團隊合作意識和合作方法。
五、結(jié)束語
通過將視覺測量領(lǐng)域研究成果引入“數(shù)字圖像處理”課程,并在教學方法、教學手段、教學內(nèi)容、開放性實踐等方面的改革和嘗試,逐步做到科學研究成果與課堂理論教學的有機結(jié)合,不僅豐富了課程的教學內(nèi)容,提高了學生的學習興趣,加深了對理論知識的理解,而且使學生接觸到科學研究的前沿領(lǐng)域,開拓了視野,對創(chuàng)新能力的培養(yǎng)鍛煉等方面也具有重要意義。
參考文獻
1 E.M. Mikhail, J.S. Bethel. Introduction to Modern Photogramme
-try[M]. New York: John Wiley & Sons,2001
2 胡安文、季錚、盛慶紅.基于近景數(shù)字視覺測量的飛機表面模型重建[J].地理空間信息,2004(6):23~25
3 Nicola D’Apuzzo. Overview of 3D surface digitization technologi-es in Europe[C]. Three-Dimensional Image Capture and Applications VI, Proc. of SPIE-IS&T Electronic Imaging, San Jose (CA),2006
4 劉常杰、邾繼貴、葉聲華.汽車白車身機器視覺檢測系統(tǒng)[J].汽車工程,2000(6):373~376
5 彭三城、孫星明、劉國華.三維人體自動測量技術(shù)綜述[J].計算機應(yīng)用研究,2005(4):1~5
6 Wang Jun, Dong Mingli, Liang Bo. A fast target location method for the photogrammetry system[C].Proc. of SPIE-ISMCM, Beijing,2011
CBIR圖像特征相似性度量相關(guān)反饋
1基于內(nèi)容的圖像檢索的算法設(shè)計
1.1圖像的預(yù)處理
圖像預(yù)處理的目的是為了便于圖像特征的提取及相似性度量的計算以便提高圖像的檢索效率。預(yù)處理是對原始圖像集進行一系列處理以產(chǎn)生圖像描述特征庫的過程,主要包括:尺度統(tǒng)一、格式轉(zhuǎn)換、灰度處理等。
1.2圖像特征的提取
特征提取是庫生成的核心,負責提取圖像的視覺特征包括顏色、形狀、紋理、空間位置關(guān)系等特征,圖像特征的提取應(yīng)準確而且快速,提取的特征能有效的表征該圖像或者說有區(qū)分圖像的能力。
1.2.1顏色特征提取
顏色特征是圖像的基本特征之一,顏色特征也是圖像檢索中應(yīng)用最廣泛的視覺特征,顏色特征的提取也相對容易,通過計算每中顏色的像素的個數(shù)并建立顏色直方圖來實現(xiàn)。顏色直方圖反映圖像顏色分布的統(tǒng)計特征,是研究圖像顏色的常用手段。直方圖是顯示圖像中每一灰度級像素個數(shù)的函數(shù)。
1.2.2紋理特征提取
根據(jù)二維傅立葉變換的分離特性:,根據(jù)上面的分離形式,可通過兩次運用一維傅立葉變換來實現(xiàn)二維傅立葉變換。
頻譜:
頻譜是圖像的重要特征,反映圖像的灰度分布,如果圖像中目標形狀或排列呈現(xiàn)某種方向性,那么具有較高值的頻譜也呈現(xiàn)出與圖像目標方向正交的方向性分布。
1.2.3形狀特征提取
通過對邊界特征的描述來獲取圖像的形狀參數(shù),圖像的邊界一般是指周圍圖像灰度強度有反差變化的那些像素的集合。
1.2.4相似性度量
采用歐幾里得距離作為圖像特征向量之間的相似性度量方法,進行相似度匹配。
1.2.5相關(guān)反饋
由于計算機視覺對色彩特征的表示、相似度定義和人對色彩的感知存在著一定差距以及高層語義概念同低層特征之間的差距,基于圖像內(nèi)容檢索的結(jié)果總不是很理想,為了把用戶模型嵌入到圖像檢索系統(tǒng),最近幾年在基于內(nèi)容的圖像檢索領(lǐng)域引入了相關(guān)反饋機制。
相關(guān)反饋的目的是從用戶與查詢系統(tǒng)的實際交互過程中進行學習,發(fā)現(xiàn)并捕捉用戶的實際查詢意圖,并以此修正系統(tǒng)的查詢策略,從而得到與用戶實際需求盡可能相吻合的查詢結(jié)果。
基于內(nèi)容檢索中的相關(guān)反饋技術(shù)大致分為參數(shù)調(diào)整方法、聚類分析方法、概率學習方法和神經(jīng)網(wǎng)絡(luò)方法。
2實驗結(jié)果
作者用delphi實現(xiàn)了上面算法的特征分解、特征提取、相似形度量和相關(guān)反饋算法。從150幅圖像中進行搜索,返回了20幅圖象。圖象數(shù)據(jù)庫中包含了花、樹、蝴蝶和貓。
查詢對象是包含一只貓,返回實驗結(jié)果如圖1:
返回的20圖像中有7幅含有貓。
用戶從圖像檢索的界面選“是”和“否”對圖像的結(jié)果進行反饋,系統(tǒng)根據(jù)用戶的選擇會自動調(diào)整檢索的特征表示權(quán)重值,從而進行第二次的檢索。第二次的檢索返回的20圖像中含有貓的圖像增加到12幅,大大提高了檢索效率。
3結(jié)束語
隨著圖像數(shù)據(jù)庫的增加,基于內(nèi)容的圖像檢索顯的尤為重要,提取哪圖像些特征,如何提取特征以進行高效、準確的檢索是基于內(nèi)容的圖像檢索技術(shù)中的核心問題。采用傅立葉變換提取圖像的紋理特征、邊界矩來檢測圖像邊界,再而引入相關(guān)反饋算法,原型系統(tǒng)基本實現(xiàn)了高速、有效的圖像檢索,在以后的研究中還會嘗試選擇不同的相關(guān)反饋檢索算法,更進一步提高系統(tǒng)的檢索效率。
參考文獻:
[1]董衛(wèi)軍,周明全,耿國華,黎曉.基于內(nèi)容的圖像檢索技術(shù)研究[J].計算機工程,2005,(10).