前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的計算機視覺的研究方向主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞 計算機視覺;立體匹配;研究情況
中圖分類號:TP391 文獻標識碼:A 文章編號:1671-7597(2014)07-0001-01
隨著科學技術的快速發展,計算機技術也得到了飛速的發展。將計算機技術應用于人類的視覺系統,并輔助人們觀察到一些眼睛難以看到的東西,已經逐漸成為一門大家所熱捧和追逐的技術。隨著人們對視覺傳感器技術越來越多的探索,人們也逐漸實現了古代時想擁有千里眼的夢想。目前,人們已經把視覺傳感器技術和計算機技術良好的結合在一起,并把這些技術應用到食品、建筑、醫藥、電子、航天航空等眾多領域當中。而該項技術的快速發展,也幫助人們解決了一些日常工作當中人類視覺存在盲區的問題,保證了人們工作過程的安全。視覺技術與IT技術的完美結合使得人們的生活變得更加便利,讓人們親身體會到了IT技術給人們生活帶來的便捷。
1 雙目立體視覺概述
雙目立體視覺又稱雙目視覺技術,是目前計算機視覺應用領域的重要研究內容。雙目立體視覺控制系統的組成因其采用的原理和應用功能的不同,組成也都各不相同。
雙目立體視覺的實現原理是基于人眼的視網膜看物體的特性,從兩個不同的方向來觀看同一個物體的不同角度,從而實現清楚的了解到物體的圖像的目的。雙目立體視覺從不同的角度獲得物體的投影信息,并根據匹配的結果,獲取同一個物體不同偏差位置的信息。最后在依據三角測量技術,根據已經獲得的這些偏差信息從而獲得這些不同點對應的距離信息,并最終獲得這些實際物體的具體坐標位置信息。
視差測距技術告訴我們,要清楚的觀察到一個物體的全貌,需要兩個觀察物從不同的方向,或者固定一個觀察物,移動另外一個觀察物的方式,以達到拍攝同一個物體的目的。根據同一個物體在兩個觀察物當中的位置偏差,從而確定該物體的三維信息。一般來說,雙目立體視覺的組成包括:圖像獲取設備、圖像預處理設備、攝像機標定設備、立體匹配設備、根據二維信息實現三維重構設備等五個重要設備。
2 雙目立體視覺技術的原理
立體畫又可以稱之為三維立體畫,是一種人們可以從三維立體圖中獲取二維平面圖信息的技術。三維立體圖表面看似毫無規則,但是假如通過一些特殊的技術或者通過合理的觀察手段和觀察設備,就可以看到一組秩序井然的美妙圖片。
三維立體圖是一組重復的二維圖片有序的堆積積累而成,因此可以呈現出立體效果。人體觀察物體的原理大致如下:當人類通過左右眼觀察所在的空間平面的時候,這些平面圖都只是一些毫無秩序的圖片。而當左右眼重新聚焦或者在觀察畫面的時候呈現一定的層次感,則人類的左右眼觀察到的一組重復案在經過人體識別以后,這些畫面之間將存在一定的距離差異,從而在腦中生成立體感。
雙目立體視覺技術正是基于以上的原理,從兩個不同的方向去觀察物體,并獲得目標圖像的信息,并經過一定的處理獲得三維重建的物體立體信息的技術。
雙目立體視覺在計算機技術中實現三維重建的大致流程
如下。
1)攝像機定位,并通過單片機計算得到要獲取圖像信息需要的外部的參數的大概值,并根據這些參數值設定攝像機。
2)用設定參數的攝像機拍攝目標場景的畫面,并采集這些畫面的二維圖的信息。
3)通過計算機技術實現雙目匹配,并判定采集畫面中的二維圖像中的不同點之間的對應關系。
4)在第三步中若得到兩組二維圖像的關系是稠密的時候,則生成三維視差圖。如果不是則進一步采集圖片信息。
5)根據得到的視差圖最終實現場景的三維圖形的重建。
3 雙目立體匹配技術的研究難點和未來的發展方向
盡管目前有很多學者都投身到雙目立體匹配技術的研究和開發當中,直至目前為止也解決了很多關于視覺理論當中存在的很多缺陷問題。但是視覺問題是一個復雜且難以解決的問題,特別是在雙目立體匹配問題方面更是困難重重。立體匹配技術的難點已經成為限制將雙目技術應用到計算機技術當中的重要瓶頸。
立體匹配的主要手段就是找到計算機采集到兩幅和多副圖片的中像素的對應關系,然后根據這些像素關系判定并生成三維重建圖。但是二維圖像的匹配存在層層困難,主要體現在以下幾個方面。
1)由于視角的問題或者觀察物體存在遮擋問題,導致采集回來的圖片信息存在盲點,這樣子更難找到圖片的匹配區域。
2)場景中的一些深度不連續的區域大都處在場景當中的邊界位置,這些位置容易出現像素不高,邊界不清晰等問題,這些問題也給圖像匹配帶了很多困擾。
3)場景當中的低紋理的圖片匹配特征和匹配關系較少,而且該位置的每個像素點極為相似。假如只是通過簡單的像素相似性檢測的話,會檢測到很多匹配結果,而這些匹配結果當中有一大部分是錯誤的。這樣子的結果勢必會導致最終的圖像匹配正確率極為低下。
從以上的分析,我們可以看出立體匹配技術存在很多技術上的難點,這些都在很大程度上限制雙目立體匹配技術在計算機當中的應用發展。如何才能設計出有效、準確、快速、通用性強的立體匹配算法將會是以后雙目立體匹配計算發展的重要方向。也只有通過設計出一套行之有效的立體匹配算法才能使得雙目立體匹配技術在計算機視覺當中得到廣泛的應用。
4 結束語
人們通過眼睛可以感受到外界事物的存在,可以清楚的了解到事物的立體信息,分辨出觀察物的廣度和深度,以及物體的遠近。因此人類視覺感知系統就是一個雙目的立體感知系統。本文講述的計算機中的雙目立體匹配技術正是基于人眼視覺觀察物體的原理,通過雙目立體視覺原理,對計算機采集獲得兩幅二維圖像的信息進行分析,并結合計算機的分析,最終獲得同人類眼睛一樣觀察到物體三維表面信息的目的。雙目立體匹配技術與計算機技術的完美結合幫助人們可以更加輕易的獲得物體的信息。希望在不久的將來,可以將該項技術應用于人類的視網膜當中,以幫助一些視網膜存在問題的人們,讓他們重新感受到光明,感受世間的溫暖。
參考文獻
[1]高文,陳熙霖.計算機視覺算法與系統原理[M].北京:清華大學出版社,2002.
[2]明祖衡.雙目立體視覺測距算法研究[M].北京:北京理工大學,2008.
[3]劉昌,郭立,李敬文,劉俊,楊福榮,羅鋒.一種優于SAD的匹配準則及其快速算法[J].電路與系統學報,2007,12(4):137-14.
[4]陳蛟.雙目立體匹配的算法研究及其多核并行化[M].南京:南京郵電大學,2012.
關鍵詞:計算機視覺;定標方法;應用特點
中圖分類號:TP319文獻標識碼:A文章編號:16727800(2012)007014902
作者簡介:許志雄(1968-),男,浙江紹興人,江漢石油鉆頭股份有限公司工程師,研究方向為計算機多媒體。
0引言
計算機技術的應用在諸多領域占據了主要位置,并得到了人們的極大重視。在此形勢下,攝像機的高清晰度亦成為了人們追逐的目標,而在計算機視覺中的定標方法有各種不同的處理方式,從而為攝像機的發展提供了一個絕好的機會。由此,計算機視覺中的攝像機定標方法成為當今世界攝像機研究領域里至關重要的一個方面,以攝像機得到的圖像信息作為出發點來計算三維空間中自然場景的幾何信息成為計算機視覺的基本任務之一,并且它的應用特點也得到了人們的密切關注。
1攝像機視覺投影原理
透鏡成像的原理利用了光的折射現象,而攝像機的視覺投影原理和透鏡的成像原理相差無幾,只不過在一些細節上進行了相應的改變,使成像更加清晰,以更好地滿足人們的需求。攝像機視覺投影原理就是利用鏡頭的光學原理進行視覺成像,而其中又有許多理論支持,包含鏡頭與焦距和視角。焦距是指鏡頭的焦點之間的距離,對于攝像機而言,就是指從鏡頭的中心位置到攝像管,也可以說是成像的位置之間的距離就是攝像機鏡頭的焦距,只有調整好了這兩者之間的距離,才能保證攝像機的攝像效果,這也是保證攝像機正常工作的首要任務。視角要受到鏡頭焦距的限制,由鏡頭焦距對攝像的大小情況而決定,攝影師們就是通過對焦距的不斷變換來改變對任務的造型,從而改變人們的視覺效果。對于拍攝相同距離的目標而言,鏡頭焦距越大,攝像的水平視角就會變得越窄,這樣帶來的后果就是拍攝到的目標的范圍就越小,使得拍攝效果大打折扣,從而給攝像機帶來不利的使用效益。因此,必須在兩者達到一個較好的組合效果之時,才能夠充分發揮攝像機的作用,并將攝像藝術發揮到極致。由此可見,計算機視覺中的攝像機定標方法將會給攝像機的拍攝效果帶來巨大的轉變。
2計算機視覺中的攝像機定標方法
2.1三維定標法
在人們的平常思維中,凡是物體的影像必定是三維的,本文的理論研究也同樣基于這樣的想法。在討論單幅圖像的設計標定之時,我們所追求的理論基礎就是需要攝像機的定標物是人們所追求的那種三維的效果,在此基礎上再進行相關的理論研究,以達到相得益彰的效果。在此過程中,首先要準確定位定標物上一些比較重要的點的三維坐標,這樣才能夠為后來的工作提供方便;然后在與定標物相對應的成像上找到相應的點的位置,這是至關重要的一步,這也決定了后面成像的具體設計方法;最后在那些比較重要的點的圖像上標出其具體的三維坐標,達到定標物的實際成像效果圖,這樣就可以完全解決攝像機的成像問題了。這種定標方法的基本原理就是充分分析定標物的三維信息,同時與它的具體成像位置相關聯,在這兩者之間形成一種具體的相對應關系。由此我們可以充分利用計算機的快速運算,實現攝像的功能,并適時進行程序功能改進,優化定標物參數的獲取方法,從而達到增加攝像機清晰度的目標。
2.2平面定標法
與上面的定標方法相對立的一種方法就是多幅圖像的設計標定。在這樣的時代背景下,人們的要求應盡可能得到滿足,因而理論研究者會在這個方面下足功夫,弄懂這里面的個中玄機,利用多幅圖像對平面的定標物來進行物體的標定工作,以達到攝像機定標的目的。這樣的平面定標方法就是充分利用平面物體的運動特性,在它和攝像機之間找到一個平衡點,觀察兩者的相對運動,這樣的定標方法也給拍攝運動中的物體帶來了生機。此方法在實施之余也會帶給人們不一樣的感受,讓人們充分體會到攝像的魅力。當然這種考慮運動的平面定標法會受到特征點的增多的影響,隨著點的不斷增加,定標情況就會越來越好,定標物的精度也會不斷提高,于是在定標物相同的前提下,平面定標法自然就可以從定標物上獲得更多的數據信息,為準確對定標物進行定位測量提供了更多的依據。因此,這種方法的效果要比前面的方法好很多,得到推廣的力度也會大大增加,所得到的經濟效益也會增加,設備的成本在原來的基礎上還有降低的趨勢。所以,理論研究者的研究領域就會逐漸向這一方面進行轉變。
2.3兩步定標法
有了前面的研究成果作支撐,攝像機定標方法的進一步研究就會顯得異常容易,人們的進一步要求也會得到滿足,可謂一舉兩得。理論研究者們在有了豐富的理論和實踐基礎之后,利用直接線性的定標方法進行攝像機參數的進一步優化提高,通過透視原理來修改以前的參數,然后將修正的參數進行初始值的確認,把它們作為現在研究階段的起點,在這樣的起點之上綜合考慮各種外界因素,利用最優化的計算機算法進行攝像機成像程序的改進,把原來的程序進行升級處理,使得定標物的精確度得到進一步的提高,這就是我們所提到的兩步定標法。它的基本原理其實很簡單,只不過是充分利用了原有的理論,并進行了一定的創新而已。但就是這樣的創新步伐的邁出,給計算機視覺中的攝像機定標方法帶來了新的生機,也給攝像機鏡頭的優化帶來了很多指導方法。在圖像中心到圖像點的距離保持不變的前提下,參數的數量會顯著減少,這樣不僅節省了材料的用量,而且還進一步提高了攝像機的攝像清晰度,有效彌補了以前清晰度不高的缺點。這樣一來,攝像機的成像效果大大改進,于是才有了現代攝像機的高清效果,確實讓人們享受到了科技帶來的福音。
3計算機視覺中的攝像機定標方法的應用特點
3.1建立于主動視覺上的自我標定
由于計算機視覺中攝像機定標方法的不斷推廣,一些計算機技術在攝像機的制作過程中得到了較好的應用。但是在這之中必不可少地存在一些制作人員或設計人員的主觀因素,這樣攝像機的標定方法中就會形成形色各異的特點,而且彼此之間可能會出現較大的不同,特別是在主動視覺上的自我標定。在主動視覺中,我們所用到的攝像機可以在一個被控制的平臺上被人們固定,利用計算機的高運算能力,計算機可以把平臺上所出現的參數精確地讀出來,我們只需要利用控制攝像機的運轉順序,讓攝像機作一定的周期運動,就可以在這個過程中得到更多的圖像,然后再利用所成的圖像和固定的攝像機的運動參數來確定攝像機的運動情況。這種自我標定方法比較簡單,但是必須為人們提供精確控制攝像機運動的平臺,這種以主觀意識為主的標定特點強化了個人的主觀能動性,讓人們更加易于接受。
3.2進行有層次劃分的逐步標定
近年來,人們對攝像技術的理論研究已經日趨成熟,并根據自己的意愿進行相關的研究工作,把自己的想法融入到攝像機的設計中,真正做到有層次的逐步標定,把所要的標定物以逐個擊破的方式實現有層次的程序算法,從而讓人們在邏輯上能夠有所認識,并且易于接受,從而達到有層次劃分的逐步標定的目的。分層逐步標定法已為標定研究領域中普遍認同的方法之一,在實際的應用中逐漸取代了直接標定的方法。因為進行有層次劃分的逐步標定是符合人們的想法的,而且這種方法的特點是以射影標定作為基礎,以某一幅圖像作為基準圖像,進行其它圖像的射影對齊工作,從而將攝相機中成像未知參數的數量減少,更易于為人們所接受。可以說,進行有層次劃分的逐步標定是人們在實踐中得出的一套符合大勢所趨的標定方法,為世人所推崇。
4結語
綜上所述,計算機視覺中攝像機定標方法在人們的不斷認識中得以應用和推廣,在時代的不斷進步中逐漸向前發展。同時,攝像機標定方法的應用特點也大相徑庭,各有千秋,從而實現百家爭鳴的態勢,進一步推動計算機視覺中的攝像機研究工作的向前發展。
參考文獻:
國內人工智能產業鏈解構
基礎技術、人工智能技術和人工智能應用構成了人工智能產業鏈的三個核心環節,我們將主要從這三個方面對國內人工智能產業進行梳理,并對其中的人工智能應用進行重點解構。
人工智能的基礎技術主要依賴于大數據管理和云計算技術,經過近幾年的發展,國內大數據管理和云計算技術已從一個嶄新的領域逐步轉變為大眾化服務的基礎平臺。而依據服務性質的不同,這些平臺主要集中于三個服務層面,即基礎設施即服務(IaaS)、平臺即服務(PaaS)和軟件即服務(SaaS)。基礎技術提供平臺為人工智能技術的實現和人工智能應用的落地提供基礎的后臺保障,也是一切人工智能技術和應用實現的前提。
對于許多中小型企業來說,SaaS 是采用先進技術的最好途徑,它消除了企業購買、構建和維護基礎設施和應用程序的需要;而 IaaS通過三種不同形態服務的提供(公有云、私有云和混合云)可以更快地開發應用程序和服務,縮短開發和測試周期;作為 SaaS 和 IaaS 中間服務的 PaaS 則為二者的實現提供了云環境中的應用基礎設施服務。
人工智能技術平臺
與基礎技術提供平臺不同,人工智能技術平臺主要專注于機器學習、模式識別和人機交互三項與人工智能應用密切相關的技術,所涉及的領域包括機器視覺、指紋識別、人臉識別、視網膜識別、虹膜識別、掌紋識別、專家系統、自動規劃、智能搜索、定理證明、博弈、自動程序設計、智能控制、機器人學習、語言和圖像理解和遺傳編程等。
機器學習:通俗的說就是讓機器自己去學習,然后通過學習到的知識來指導進一步的判斷。我們用大量的標簽樣本數據來讓計算機進行運算并設計懲罰函數,通過不斷的迭代,機器就學會了怎樣進行分類,使得懲罰最小。這些學到的分類規則可以進行預測等活動,具體應用覆蓋了從通用人工智能應用到專用人工智能應用的大多數領域,如:計算機視覺、自然語言處理、生物特征識別、證券市場分析和DNA 測序等。
模式識別:模式識別就是通過計算機用數學技術方法來研究模式的自動處理和判讀,它偏重于對信號、圖像、語音、文字、指紋等非直觀數據方面的處理,如語音識別,人臉識別等,通過提取出相關的特征來實現一定的目標。文字識別、語音識別、指紋識別和圖像識別等都屬于模式識別的場景應用。
人機交互:人機交互是一門研究系統與用戶之間交互關系的學問。系統可以是各種各樣的機器,也可以是計算機化的系統和軟件。在應用層面,它既包括人與系統的語音交互,也包含了人與機器人實體的物理交互。
而在國內,人工智能技術平臺在應用層面主要聚焦于計算機視覺、語音識別和語言技術處理領域,其中的代表企業包括科大訊飛、格靈深瞳、捷通華聲(靈云)、地平線、SenseTime、永洪科技、曠視科技、云知聲等。
人工智能應用
人工智能應用涉及到專用應用和通用應用兩個方面,這也是機器學習、模式識別和人機交互這三項人工智能技術的落地實現形式。其中,專用領域的應用涵蓋了目前國內人工智能應用的大多數應用,包括各領域的人臉和語音識別以及服務型機器人等方面;而通用型則側重于金融、醫療、智能家居等領域的通用解決方案,目前國內人工智能應用正處于由專業應用向通用應用過度的發展階段。
(1)計算機視覺在國內計算機視覺領域,動靜態圖像識別和人臉識別是主要研究方向
圖像識別:是計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。識別過程包括圖像預處理、圖像分割、特征提取和判斷匹配。
人臉識別:是基于人的臉部特征信息進行身份識別的一種生物識別技術。用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進而對檢測到的人臉進行臉部的一系列相關技術,通常也叫做人像識別、面部識別。
目前,由于動態檢測與識別的技術門檻限制,靜態圖像識別與人臉識別的研究暫時處于領先位置,其中既有騰訊、螞蟻金服、百度和搜狗這樣基于社交、搜索大數據整合的互聯網公司,也有三星中國技術研究院、微軟亞洲研究院、Intel中國研究院這類的傳統硬件與技術服務商;同時,類似于 Face++ 和FaceID 這類的新興技術公司也在各自專業技術和識別準確率上取得了不錯的突破。
而在難度最大的動態視覺檢測領域,格靈深瞳、東方網力和 Video++ 等企業的著力點主要在企業和家庭安防,在一些常見的應用場景也與人臉識別技術聯動使用。
(2)語音/語義識別
語音識別的關鍵基于大量樣本數據的識別處理,因此,國內大多數語音識別技術商都在平臺化的方向上發力,希望通過不同平臺以及軟硬件方面的數據和技術積累不斷提高識別準確率。
在通用識別率上,各企業的成績基本維持在 95% 左右,真正的差異化在于對垂直領域的定制化開發。類似百度、科大訊飛這樣的上市公司憑借著深厚的技術、數據積累占據在市場前列的位置,并且通過軟硬件服務的開發不斷進化著自身的服務能力;此外,在科大訊飛之后國內第二家語音識別公有云的云知聲在各項通用語音服務技術的提供上也占據著不小的市場空間。值得注意的是,不少機器人和通用硬件制造商在語音、語義的識別上也取得了不錯的進展,例如智臻智能推出的小 i 機器人的語義識別、圖靈機器人的個性化語音助手機器人和服務、被 Google 投資的出門問問的軟硬件服務。
(3)智能機器人
由于工業發展和智能化生活的需要,目前國內智能機器人行業的研發主要集中于家庭機器人、工業企業服務和智能助手三個方面其中,工業及企業服務類的機器人研發企業依托政策背景和市場需要處于較為發達的發展階段,代表性企業包括依托中科院沈陽自動化研究所的新松機器人、聚焦智能醫療領域的博實股份,以及大疆、優愛寶機器人、Slamtec 這類專注工業生產和企業服務的智能機器人公司。在以上三個分類中,從事家庭機器人和智能助手的企業占據著絕大多數比例,涉及到的國內企業近 300 家。
(4)智能家居
與家庭機器人不同,智能家居和物聯企業的主要著力點在于智能設備和智能中控兩個方面。在這其中,以海爾和美的為代表的傳統家電企業依托自身渠道、技術和配套產品優勢建立起了實體化智能家居產品生態. 而以阿里、騰訊、京東、小米和樂視等互聯網企業為代表的公司則通過各自平臺內的數據和終端資源提供不同的軟硬件服務。
值得關注的是,科沃斯、broadlink、感居物聯、風向標科技、歐瑞博、物聯傳感和華為等技術解決方案商在通用硬件和技術、系統級解決方案上已成為諸多智能家居和物聯企業的合作伙伴。綜合來看,智能家居和物聯企業由于市場分類、技術種類和數據積累的不同各自提供著差異化的解決方案。在既定市場中,沒有絕對意義上的排斥競爭,各企業之間的合作融合度較強。
(5)智能醫療
目前國內智能醫療領域的研究主要集中于醫療機器人、醫療解決方案和生命科學領域。由于起步較晚和技術門檻的限制,目前國內醫用機器人的研發水平和普及率相較于國際一線水平仍存在一定的差距,從事企業主要集中與手術機器人和康復機器人兩大領域,以新松機器人、博實股份、妙手機器人、和技創等企業為代表。
在醫療解決方案方面,以騰訊、阿里巴巴、百度和科大訊飛為代表的公司通過和政府、醫療機構的合作,為腦科學、疾病防治與醫療信息數據等領域提供智能解決方案。而在生命科學領域,研究的著眼點在以基因和細胞檢測為代表的前沿研究領域。
綜合來看,國內人工智能產業鏈的基礎技術鏈條已經構建成熟,人工智能技術和應用則集中在人臉和圖像識別、語音助手、智能生活等專用領域的場景化解決方案上。就趨勢來看,未來國內人工智能領域的差異化競爭和突破將主要集中在人工智能相關技術的突破和應用場景升級兩個層面。
未來國內人工智能行業發展的五大趨勢
(1)機器學習與場景應用將迎來下一輪爆發
根據 Venture Scanner 的統計,截至 2015 年 9 月,全球人工智能領域獲得投資的公司中,按照平均融資額度排名的五大業務依次是:機器學習(應用類)、智能機器人、計算機視覺(研發類)、機器學習(研發類)和視頻內容識別等。
自 2009 年以來,人工智能已經吸引了超過 170 億美元的投資。過去四年間,人工智能領域的民間投資以平均每年 62% 的增長速率增加,這一速率預計還會持續下去。而在 2015 年,全球人工智能領域的投資占到了年度總投資的 5%,盡管高于 2013 年的2% ,但相比其他競爭領域仍處于落后位置。
目前中國地區人工智能領域獲得投資最多的五大細分領域是計算機視覺(研發類)、自然語言處理、私人虛擬助理、智能機器人和語音識別。從投資領域和趨勢來看,未來國內人工智能行業的資本將主要涌向機器學習與場景應用兩大方向。
(2)專用領域的智能化仍是發展核心
基于 GPU(圖形處理器)計算速度(每半年性能增加一倍)和基礎技術平臺的飛速發展,企業對于人工智能神經網絡的構建取得了前所未有的突破。但是,由于人工智能各領域技術和算法的復雜性,未來 20 年內人工智能的應用仍將集中于人臉和圖像識別、語音助手和智能家居等專用領域。
通過上述產業鏈環節構成和投資分類可以看出,優勢企業的核心競爭力主要集中于特定領域的專用技術研發;其中,計算機視覺和語音識別領域的研發和應用已處于國際一流水平,專業應用機器人的研發也有望近 10 年內迎來突破性發展。可以預見的是,在由專業領域向通用領域過渡的過程中,自然語言處理與計算機視覺兩個方向將會成為人工智能通用應用最大的兩個突破口。
(3)產業分工日漸明晰,企業合作大于競爭
隨著專用領域應用開發的成熟和差異化技術門檻的存在,國內人工智能產業將逐漸分化為底層基礎構建、通用場景應用和專用應用研發三個方向。
在底層基礎構建方面,騰訊、阿里巴巴、百度、華為等企業依托自身數據、算法、技術和服務器優勢為行業鏈條的各公司提供基礎資源支持的同時,也會將自身優勢轉化為通用和專業應用領域的研究,從而形成自身生態內的人工智能產業鏈閉環。
在通用場景應用方面,以科大訊飛、格靈深瞳和曠視科技為代表的企業將主要以計算機視覺和語音識別為方向,為安防、教育和金融等領域提供通用解決方案。而在專用應用研發方面則集中了大部分硬件和創業企業,這其中既包括以小米和 broadlink 為代表的智能家居解決方案商,也包含了出門問問、linkface 和優必選這類的差異化應用提供商。
總的來說,由通用領域向專業領域的進化離不開產業鏈條各核心環節企業的相互配合,專用領域的競爭盡管存在,但各分工層級間的協作互通已成為多數企業的共識。
(4)系統級開源將成為常態
任何一個人工智能研究分支都涉及到異常龐大的代碼計算,加上漏洞排查與跨領域交叉,任何一家企業都無法做到在封閉環境內取得階段性突破的可能。可以看到的趨勢是,Google、微軟、Facebook 和雅虎等視人工智能為未來核心競爭力的頂級企業都先后開放了自身的人工智能系統。
需要明確的一點是,開源并不代表核心技術和算法的完全出讓,底層系統的開源將會讓更多企業從不同維度參與到人工智能相關領域的研發,這為行業層面新產品的快速迭代和共同試錯提供了一個良性且規范化的共生平臺。于開放企業而言,這也確保了它們與行業最新前沿技術的同步。
(5)算法突破將拉開競爭差距
作為人工智能實現的核心,算法將成為未來國內人工智能行業最大的競爭門檻。以 Google 為例,Google 旗下的搜索算法實驗室每天都要進行超過 200 次的改進,以完成由關鍵字匹配到知識圖譜、語義搜索的算法創新。
在未來競爭的重點機器學習領域,監督學習、非監督學習和增強學習三個方面算法的競爭將進入白熱化階段。而正是算法層面的突破造就了騰訊優圖、科大訊飛和格靈深瞳等企業在圖像識別和計算機視覺領域取得了突破性進展和國際一線的技術水平。
但就目前國內人工智能算法的總體發展而言,工程學算法雖已取得階段性突破,但基于認知層面的算法水平還亟待提高,這也是未來競爭的核心領域。
總的來看,雖然基礎技術的成熟帶來了存儲容量和機器學習等人工智能技術的提升,但由于現階段運算能力以及大規模 CPU 和GPU 并行解決方案的局限,目前國內人工智能的發展主要集中于計算機視覺、語音識別、智能生活等方向上。
雖然專用化領域的場景應用仍是目前研發和投資的核心,但隨著技術、數據的積累演化以及超算平臺的應用,由專用化領域的場景應用向語音、視覺等領域的通用化解決方案應該在未來 20 年內成為發展的主流。
關鍵詞:增強現實;視線追蹤;應用
增強現實(Augmented Reality簡稱AR)技術是近年來的一個研究熱點,有著廣泛的應用前景。它是對現實世界的補充,使得虛擬物體從感官上成為周圍真實環境的組成部分。與傳統的虛擬現實(Virtual Reality簡稱VR)不同,增強現實只是實現對現實環境的增強,加深了對現實環境的感受。在實際的AR體驗中,因為人的觀察視線會不斷地變化,AR系統需要實時的根據用戶的視場重新建立位置坐標系,進行追蹤。而視線追蹤技術就是實時地跟蹤用戶頭部的位置和視線方向,根據這些信息來確定虛擬物體在真實空間坐標中的位置,并將它實時地顯示在顯示器中的正確位置。
一、視線追蹤技術及其特點
(一)視線追蹤技術概述。
視線追蹤也稱為眼動追蹤,它被認為是研究視覺信息加工的有效手段。利用專用設備來記錄學習者的眼球運動(Eve-Movement,簡稱眼動)情況,可以作為分析學習者內部心理活動情況的依據。關于視線追蹤技術的研究己有較長歷史,目前它己在多個領域得到廣泛應用。例如用于圖片廣告研究(網頁評估、設計評估等)、動態分析(航空航天、體育運動、汽車、飛機駕駛等)、產品測試(可用性測試)、場景研究(商場購物、店鋪裝演、家居環境等)和人機交互等多個領域。此外,視線追蹤在智能計算機、智能家電、虛擬現實和數字游戲等領域也有很好的應用前景。
在眼動實驗研究中,當被試對視覺信息進行提取時,其注視時間、注視次數、注視點序列、眼跳距離、回視次數、瞳孔直徑等通常被視為思維和心理加工的重要參數。因此,通過對被試在學習過程中的實時眼動信息進行觀測,可用于分析和引導其學習的依據。眼動模式一般分為三種:注視(fixation)、眼跳(saccade)和追隨運動(pursuit movement)。其中,持續一段時間、相對穩定的眼球運動稱為注視;眼球快速運動時導致視覺區域的聚焦點產生變化,這種行為稱為眼跳;眼睛緩慢、平滑地追蹤某個緩慢運動的目標,則稱為追隨運動。通過分析眼動模式和相關參數,可以獲得很多重要的信息。例如,眼跳速度會隨著疲倦程度的增加而降低,而隨著學習任務難度的增加而增加;眨眼速度和眼睛睜開程度的降低則可能意味著疲倦的加重。因此,可以據此來確定學習者的學習精神狀態,或對其學習過程進行分析,從而采取相應的學習策略或干預措施。
(二)視線追蹤系統的類型及其特點。
人眼的注視點主要由頭的方位和眼睛視線決定。頭的方位決定了人眼可能注視的范圍,眼睛的視線決定了注視點的精確位置。國內外將視覺跟蹤技術按照借助的媒介分為硬件和軟件兩種。以硬件為基礎的視線跟蹤的基本工作原理是利用圖像處理技術,通過攝像機攝入瞳孔反射的紅外線記錄視線變化,達到視線追蹤的目的。視線跟蹤裝置目前有穿戴式與非穿戴式,接觸式與非接觸式,如帶上專用頭盔、眼鏡或者頭部固定支架,置于頭部上的攝像機,這種情形用戶使用較不舒適。通過軟件實現的視線跟蹤方法,對用戶沒有干擾,首先利用攝像機獲取頭部、臉部或眼睛圖像,再經過軟件分析對視線定位與跟蹤。由于不需要佩戴任何裝置,用戶的自由度舒適度較好。
人與計算機交互是研究人與計算機之間溝通的技術,將視線跟蹤、語音識別、手勢輸入、感覺反饋等引入人機交互,提高了交互的自然性和高效性。視線追蹤技術同樣引發了人機交互系統的改革,鼠標、觸控板的消失,及通過追蹤人眼視線,用眼神來操作電腦、輸入文字、玩游戲。
二、視線追蹤技術在AR增強現實研究中的應用
(一)顯示技術。
AR的簡單定義就是將計算機生成的虛擬數字信息疊加到現實的生活場景中。這個“疊加”是需要通過顯示設備作為中介來實現。
增強現實系統中的顯示器可以分為頭盔顯示器(HMD)和非頭盔顯示設備。目前,一般的增強現實系統主要使用透視式頭盔顯示器。透視式頭盔顯示器主要由三個基本環節構成:虛擬信息顯示通道、真實環境顯示通道、圖像融合及顯示通道。其中,虛擬信息的顯示原理與虛擬現實系統所用的浸沒式頭盔顯示器基本相同;圖像融合與顯示通道是與用戶交互的最終接口,根據其中真實環境的表現方式,可分為基于CCD攝像原理的視頻透視式頭盔顯示器和基于光學原理的光學透視式頭盔顯示器兩類。
光W透視技術是通過安裝在設備眼前的光學透鏡來呈現出真實和虛擬世界。首先計算機生成的虛擬信息經過光學系統放大后反射后進入視野,透過透鏡又能直接看到現實場景,兩部分的信息匯聚到人眼的視網膜上實現AR的效果。視頻透視技術是借助安裝在頭顯上的攝像頭來捕捉獲取外部真實環境,計算機將數字模擬信息疊加到攝像機的視頻信號上,再將真實場景和虛擬場景進行融合。相比較光學透視技術,它的視角場更大,而且不受外界的強光干擾。不過一旦攝像機與用戶的視點不能保持完全重合,會產生一些偏差。
(二)跟蹤注冊技術。
基于計算機視覺的注冊技術主要是指利用計算機視覺獲取真實場景的信息后,經過圖像處理方面的知識來識別和跟蹤定位真實場景。細分可以劃為基于傳統標志的注冊算法和基于自然特征點無標志注冊算法。基于計算機視覺的注冊技術的精度較高,但是對計算量非常大,而且算法復雜,對系統的要求非常高。
為了取長補短,得到更加精確的注冊結果,現在有結合兩種技術的混合注冊方法。通常是先由跟蹤傳感器大概估計位置姿態,再通過視覺法進一步精確調整定位。一般采用的復合法有視覺與電磁跟蹤結合、視覺與慣導跟蹤結合、視覺與GPS跟蹤結合等。
三、結論
在國外,增強現實早已在醫學、遙操作、制造與維修、可視化與教育培訓、娛樂、軍事訓練等領域取得了成功應用。在國內,不少單位和個人對增強現實中的關鍵技術和算法進行了研究,并且以牙科醫學、設備維修等許多背景得到了初步應用研究。但國內的研究目前仍多限于實驗階段,與國外的應用水平還有一定距離。
目前,隨著增強現實的快速發展,出現了許多新的研究方向,如新的顯示方式、照片真實感圖形繪制、調節現實、基于網絡的增強現實和針對戶外隨身增強現實系統的技術等等。其中涉及到的技術包括基于圖像的繪制(IBMR)、多通道信息融合、普適計算技術、顯示設備和跟蹤設備的隨身便攜化等。隨著系統性能的提高、操作過程的簡化和設備成本的降低,增強現實會在越來越多的領域得到廣泛應用。
參考文獻:
[1]奚惠寧等.視線追蹤應用技術的專利分析[J].電視技術,2013(S2)。
關鍵詞:車牌圖像;預處理;灰度化;二值化;邊緣增強
DOIDOI:10.11907/rjdk.151249
中圖分類號:TP317.4
文獻標識碼:A 文章編號:16727800(2015)006018902
基金項目基金項目:江蘇省大學生創新創業訓練計劃項目(xcx2014052)
作者簡介作者簡介:劉凱(1992-),男,江蘇揚州人,徐州工程學院信電工程學院學生,研究方向為計算機軟件;羅凱耀(1994-),男,江蘇徐州人,徐州工程學院信電工程學院學生,研究方向為網絡技術;姜代紅(1969-),女,江蘇徐州人,徐州工程學院信電工程學院教授,研究方向為數據庫技術、嵌入式技術。
0 引言
汽車牌照自動識別系統[1]是以汽車牌照為特定目標的專用計算機視覺系統 ,是計算機視覺和模式識別技術在智能交通領域應用的重要研究課題之一。 車輛牌照識別[2]一般由以下環節:圖像獲取、圖像預處理、車牌定位、字符分割、字符識別 ,每一環節對下一環節都有很大的影響。 從采集卡獲得的原始圖像不僅包括車牌照,而且還有汽車本身以及汽車背景圖像,車牌識別的難點在于獲取高質量的車牌圖像。采集車牌圖像時,會受到光照、障礙物、拍攝角度、攝像設備等的影響,圖像中會產生較多與車牌無關的圖像數據,造成噪聲,從而影響車牌識別效果,所以需要對識別的圖像進行預處理,去除噪聲干擾。
本文車牌圖像預處理[3]主要針對智能交通管理系統中的車牌識別,通過獲取車牌對車輛信息進行采集,經過車牌圖像灰度化、圖像增強、邊緣檢測、車牌定位、車牌圖像二值化及圖像傾斜校正等,為車牌圖像后續處理打下基礎。
1 灰度化
一般從攝像頭采集到的圖像或者計算機中存儲的圖像通常是彩色圖,彩色圖像包含著大量的色彩信息,在數字圖像[4]處理中 ,很多算法都是針對灰度圖像 ,處理的灰度級從0~255,共 256個灰度級,這樣不僅減少了存儲圖像所需的內存,而且加快了圖像處理的速度。 因此,首先要將彩色圖像轉換成灰度圖像。彩色圖像中任一像素都有R、G、B三種不同的顏色分量,而當圖像中每一像素值R=G=B時,表示一種灰度顏色。其中,灰度化的方法主要有以下3種。
2 二值化
二值圖像是由黑白兩種顏色構成的圖像。目的是能夠快速將車牌字符和背景分開,通過閾值設定將灰度值小于閾值的像素直接設為0,灰度值大于閾值的像素直接設置為255,而二值化的關鍵就是找到合適的閾值T來區分對象和背景。
4 實驗結果
本文采用手機隨機拍攝的汽車圖像,測試環境為2GHz cpu,2G內存,操作系統為window 7,使用平臺為vs2005,并基于opencv開發車牌預處理功能。
當對一副未進行預處理或噪聲處理不當的圖像分割時,即會出現如圖5的車牌定位區域過大或過小的情況,而進行過預處理后的圖像進行車牌定位時則如圖6所示,可見預處理對降噪起了很大的作用。
5 結語
車牌圖像本身較復雜,冗余信息較多,因此難以識別。本文探討三種預處理方法簡化圖像、消除圖像噪聲。其中灰度化減少了圖像存儲的大小;二值化將圖像轉化為黑白兩種顏色的圖像,使車牌和背景分離;邊緣增生使得車牌定位更加快速、準確。實驗結果表明,三種方法均達到預期效果,提高了圖像的質量,為圖像后續分割和識別打下了基礎。
參考文獻:
[1]劉海波,沈晶 ,郭聳.Visual C++ 數字圖像處理結束詳解[M].北京:機械工業出版社,2010.
[2]馮偉興,唐墨,賀波.Visual C++數字圖像模式識別技術詳解[M].北京:機械工業出版社,2010.
[3]周閱宇.汽車牌照識別系統研究與設計[D].長春:吉林大學論,2013.
[4]李凌.車牌圖像預處理技術研究與實現[J].淮北職業技術學院學報,2007(2):98100.
【關鍵詞】課程 計算機視覺 圖像檢索
1.課程設置、建設與改革自述
1.1 綜合基礎與應用,精選教研內容
從專業學位教育的高層次應用型人才培養目標出發,我以學生專業應用能力的培養作為教研的重點,同時,考慮到“計算機視覺”是一門數學要求較高、理論性較強的專業基礎課程。課程的基礎理論教研十分重要,我在規劃教案時,綜合安排基礎理論與應用實踐的教研內容。
1.2 強調學生應用能力,優化教研方法
將啟發式教研方法融入到整個教研過程中,將課堂講授的重點放在問題由來、概念形成、研究思路與方法上,并通過介紹人工智能與計算機視覺學科交叉中出現的最新研究與應用。把新理念、新思路、新方法和新問題引入課堂,調動學生學習的積極性和主動性,拓寬他們視野和思路。
通過較為熟悉的分析,“計算機視覺”課程中的教研方法較為新穎,使他們從一開始就建立了所學理論與實際工程控制問題的聯系。
按“計算機視覺”的基礎理論和知識內容分環節來實施教研,每個環節以實際工程問題開始,以理論學習為基礎,各教研環節之間既是工程問題的系統化深入,也是理論知識體系的循序推進。
按“計算機視覺”的基礎理論和知識內容分環節來實施教研。每個環節,以理論學習為基礎,以提出和解決實際實驗案例中的識別問題為結束,各教研環節之間既是三維重建問題的系統化深入,也是理論知識體系的循序推進。
他們都十分贊同我以強調學生自主學習和應用能力為目的的啟發式和交互式教研方法。尤其是以論文報告和答辯形式提交作業。強調了理論和應用的結合。每一次的作業貫穿整個教研環節,使他們對問題的發現、理解和解決成為一個逐漸明確、細化和深入的過程,因此。雖然作業要求較高、工作量較大,但做起來并不會感到壓力和困難。同時,他們大多之前沒有撰寫科研論文和報告的經歷,通過作業也可以使他們在這方面的能力得到鍛煉和提高,最后考試結業。
與此同時。研究生們也暢談了他們對課程教研中一些問題的看法.研究生們十分重視專業應用能力和實際動手能力的培養與提高。也非常看重扎實理論基礎的必要性,都認為理論學習與專業應用能力培養應該沒有矛盾,但在有限的2年時間內,如何實現兩者的全面提高,他們大多存在疑慮。同時,他們也認為目前大多數的課程教研具有明顯的理論或實踐的偏向性,缺乏科學合理的平衡。
針對我在教研中所提出的案例和問題,學生們反映,盡管十分熟悉,但對問題的本質和要求仍只是停留在理性認識上。無法建立與實際對象的對應關系。另外,他們提出,案例僅從單一課程角度講授,在有限課時內難以從多學科的角度介紹濾波,三維重建,運動恢復,圖像檢索案例,雖然是實際科研項目,但課堂不可能展示整體實物,學生缺乏工業現場的實際感受。使得學生對案例的整體理解難以跳出課堂的思維界域。
針對此,我計劃在加強現代化教育手段方面進行一些建設與探索,努力向學生提供信息容量大、表現形式豐富的綜合性輔助認識手段。考慮到“計算機視覺”通常需要運用計算機技術解決工程問題,我們將在以后教研中,增加計算機輔助教研的功能。如利用Matlab工具對所學內容及實際視覺問題進行可視化仿真演示。我們也將用虛擬儀器工具搭建案例的虛擬系統,試圖通過這樣的虛擬系統,向學生提供有利于啟發思維的靈活的認識與實踐環境。增強學生的感性認識;同時,盡管采用了多媒體教研。計劃在以后的教案中增加更多的現場視頻材料以及圖形和圖像資料,使學生更容易理解和記憶,增強抽象理論的可接受性。這些工作都需要我們在教研和科研工作之余投入大量的熱情和精力。
2.教研手段(課程建設中積極營造數字化、信息化環境和外語教研環境,網絡教研和網上教研資源的開發與建設情況)
2.1本課程的主要特色
體現機器視覺與機器聽覺融合。①機器視覺:圖像處理、圖像與視頻壓縮、模式識別和機器學習、生物特征識別、三維視覺信息處理。②機器聽覺:聽覺計算模型、語音信號處理、口語信息處理。此外還在同濟大學開設計算機視覺,和圖像處理方面課程,該課程構成本課程基礎, 及對大量應用實例介紹設計方法,系統性能,并對結果進行祥細分析和點評。學生通過聽課可以跟隨教師本人了解和掌握計算機視聽覺。充分領略數字技術用于語音通信這一廣闊的領域神奇魅力。腦、 機接口的研究有廣闊的應用前景, 正成為腦科學、康復工程、神經工程及人機交互( puter interface, HCI) 領域的一個研究熱點。
2.2本課程的建設總目標和成果
以后開展圖像,圖形,語音處理,多媒體的內容的檢索,三維景物物體的重建,自然語言理解的研究方向:視覺與聽覺的生理學和心理學基礎,從生理與心理學的角度探索視覺與聽覺的感覺和知覺機理,為視覺與聽覺信息處理提供基本理論和方法,完成同濟大學研究生精品課程建設。以近幾年為研究生講授“計算機視覺”課程講義的電子教案為基礎,結合開發科研項目,并參考相關文獻資料和最新動態編寫計算機視聽覺電子教案,和教材。
機器視覺:圖像處理、圖像與視頻壓縮、模式識別和機器學習、生物特征識別、三維視覺信息處理。
機器聽覺:聽覺計算模型、語音信號處理、口語信息處理、自然語言處理、智能人機交互。
2.3 本課程的建設分年度目標和步驟
教材內容:針孔攝像機,輻射學術語;局部影調模型,點,線和面光源,光度學體視;顏色;線性濾波器,平滑抑制噪音,邊緣檢測;紋理,用濾波器輸出表示統計量,紋理量,紋理合成,由紋理推斷形狀;基本的多視角幾何,立體視覺;用聚類實現分割;擬合直線與曲線,用最大似然率進行擬合,魯棒性;隱變量與EM;用卡爾曼濾波來跟蹤,數據相關;攝象機標定;使用特征對應和攝像機標定的基于模型的視覺;使用分類器的模版匹配;基于關系的匹配;在數字圖書館中檢索圖像,基于圖像的繪制。
準備離散時間語音信號處理的原理,介紹語音信號處理研究及其應用方面的最新動態,其中包括語音處理,語音時頻分析以及非線性聲學語音產生模型,而這些講授內容在以往任何一本語音信號處理教科書都不曾提及,深入介紹以下內容:語音編碼,語音增強,語音綜合,說話人識別,語音信號恢本復,動態范圍壓縮語音信號處理基礎,語音的時域的分析語音信號頻域分析,語音信號線性預測分析,矢量量化,語音編碼,語音合成,語音增強,說話人識別。
3.構建研究實踐型模式,探究研究生指導
通過研究生指導模式的學習,兩種指導方式之一是對傳統面對面的與基于網絡兩種指導方式的混合。師生之間定期與不定期面對面的交流對于保證研究生指導質量提高有著重要關系。互聯網突破時空限制為高校師生提供一個開放的、共享、個性化、多維交互的教與學的平臺。我提供優秀研究資源,學生也可以通過網絡共享研究資源。師生都可以Web對于優化研究資源的共享、促進師生之間的社會互有著重要作用使得研究生指導模式充分發揮面對面指導。研究生指導主要注重科研素養培養。研究生培養根本目標發展能力。課程學習對于系統提高研究生對專業關心課程學習狀況必要,要為學生提供學習方法指導與建議,要鼓勵學生結合課程學習進行相關討論。
基于自主與協作的探究性學習是研究生學習的主體地位,發揮作用。我在教研中培養研究生發現問題、分析問題、解決問題的能力正是為了支持研究目標在于獲得親身參與研究探究體驗:培養“教研模式中”包括個人理解專業研究領域相關問題的內涵與特征。旨在使學生能夠切實掌握專業與研究領域所涉及基本原理與能夠利用這些原理與方法分析確定方案實施、“know“know 是相互交織相互作用的層面,主要是為了增強指導以便根據不同層包括若干個問題常常需投人較多的精力與時間。應該安排較長時間且要充分利用網絡技術平臺支持。提升研究質量有效地避免傳統指導誤區。在指導時過于強調研究生所獲取學術成果而忽視指導過程體現在兩方面:一目標評價標準單一往往給研究生層面:①面向研究生個體的“個別指導”;②面向小組集中:③自主調控評價,必須與教師、同伴、專家進行交流、協作才有可能真正地提高效率,實現學習目標,培養學團隊意識,其次要幫助研略,在各層面都有明確的目標相應指導內容,并要注意這三個層面整合。使之過程得到全面發展。養成科學態度和科學道德。“科研能力發展、輕綜合素質培養”,研究生導師不但應該是研究生的指導者。指導教師可以按“科研項目一要問題一具體任務”的層次。以教師的、助學促學”盡可使每個研究生都能達到預期培養目標。評價要更關注總結性評價”與“過程性評價”工具以豐富研究生指導過程中教研交互的教育學中社會互。傳統環境下的社會互往往是面對面的交互。網絡平臺可以利用構建社會網絡支持社會交互。強調的研究科研成果而深層次交流方式不同指導目標、不同指導層次整合,指導教師角色轉變,變革評價方式,豐富指導教師來促進“自主一協作”探究學習,對研究生“混、他評”與“自混評關注教研評價的。”教研模式下網絡技術與內涵表現在:①利用技術促進教研資源的整合,優化教研資源管理,教研資源共享,促進師生與教研內容的交互;②利用Web工具,有效地整合現實交互空間虛擬交互空間另外還地加速或加強人際聯系,幫助師生了解探究式應用實踐探索。
研究生是否發表了高水平的科研成果,研究生入學初期,以Web的應用為核心的互聯網絡不但為高校師生的交流提供了新的溝通與互動方式。以獨特高校師生的思維方式生存方式發生了系列改變。也成為高校師生教研與生活中的重要信息工具為研究生指導提供了豐富的資源與多維立體環源。網絡平臺也用于共享、深化面對面交流中所總結形成相關觀點與資料。要求其他每位學生都至少要提一個問題所提出問題進行進一步的討論。了解專業研究領域的基本問題、核心問題與前沿問題研究生自己在調研基礎上提出研究進行獨立自主的探究。所以除了關注在專業領域內研究能力的發展之外還要注意教育科研能力的培養引導學關注“專業發展”。 用于規劃了解學生的已有基礎,以幫助后期制定更為合理個別指導計劃:第二,通過召開定期的討論會、師生個別交流,包括兩種類型:①旨在提高新生適應研究生學習與生活的適應性:②面向科研任務的研究小組。面向任務方式沖擊著高校師思維方式與文化理念,非常重視網絡平臺研究指導中的應用,建立了向團隊公用資源平臺教研主要采用研究式教研方法, 要求研究生自學其基本原理, 然后利用實際數據,由導師提供或從期刊文獻中獲取,完成數據預處理、計算、結果表達、解釋的全過程, 并以論文形式提交給教師, 同時在課堂上向大家介紹自己的研究成果。這樣做一方面提高了學生應用知識的能力以及研究成果的文字組織和語言表述能力。 另一方面, 研究生的每篇習作就是一個很好的實例, 教師可以從中發現學生對知識理解的偏差, 及時予以糾正, 使學生對方法的掌握更加準確和牢固。將網絡共享平臺中上傳所有研討記錄訓練,將研究分個層面:①選擇專業研究內的基本問題或重要問題或熱點問題對之進行深入探究。掌握本專業領域基本研究方法;②以自己課體依托,在課題下設置子課根據研究與研究興趣跨年級構建小組,每個小組負責不同的子課題與任務③鼓勵研究途徑。一年級開始參與課題研究,二年級學期要求開始提出自己一些問題或鼓勵結合確定畢業論文選題使他們在更大程度職業能力發展;推薦專業相關資料;對(共8人)進行指導,效果較明顯。在學習方面,24名本科生通過畢業答辯。研究生八人以學生身份公開發表學術科研論文。 他們在這方面的能力得到鍛煉和提高。
通過"混合型-探究式"研究生指導模式的學習實踐三個維度的"混合":對傳統面對面的與基于網絡的兩種指導方式的整合,對提升研究生課程學習績效、促進研究生科研能力發展、促進研究生職業能力發展三個指導目標的整合,對個別指導、小組集中指導、團隊集中指導三個指導層面的整合;說明了該模式中三個層面的"探究":對專業問題的探究,對專業與研究領域內基本原理的探究,對綜合科研任務的探究;同時介紹了在實踐層面應用"混合型-探究式"研究生指導模式的實際效果。以重點學科為依托,吸取國內外大學研究生培養經驗,對創新型研究生培養模式方法進行探索,在研究生培養模式改革中,提出“四個轉變”的指導思想,即變“單人指導”為“團隊指導”,變“單一培養模式”為“多元培養模式”,變“以教師為中心”為“以學生為中心”,變“面向培養結果”為“面向培養過程”。形成以研究生為中心的培養模式,突出研究生探索精神、科學思維、創新意識的培養。切實 行的措施 引導 究生遵守科學 道德,保持科學沖動,增強創新意識,提高科學能力。
考慮到“計算機視覺教研探究研究生指導”通常需要運用計算機技術解決工程問題,我將在以后教研中,增加計算機輔助教研的功能。如利用Matlab工具對所學內容及實際視覺問題進行可視化仿真演示。我也將用虛擬儀器工具搭建案例的虛擬系統,試圖通過這樣的虛擬系統,向學生提供有利于啟發思維的靈活的認識與實踐環境。增強學生的感性認識;同時,盡管我采用了多媒體教研。我計劃在教案中增加更多的現場視頻材料以及圖形和圖像資料,使學生更容易理解和記憶,增強抽象理論的可接受性。
參考文獻:
[1]David A.Forsyth and Jean Ponce , Computer Vision-A modern Approach
[2]賈云得.機器視覺.電子工業出版社,1999
[3]Thomas F.Quatieri離散時間語音信號-原理與應用,電子工業出版社,2004
[4]Shapiro.L.G and stockmen,G.C,計算機視覺.北京-機檻工業部,2001
[5]Haralick,R.,1992/1993 Computer and Robot vision ,volume I and II
[6]張雄偉,陳亮等.現代語音處理技術及應用.機械工業出版社,2003
[7]Thomas F.Quatieri離散時間語音信號-原理與應用,電子工業出版社,2004
[8]鄭燕林等“混合型-探究式”研究生指導模式的構建與實踐,學位與研究生教育,2010
關鍵詞:嵌入式;GUI;QT;OpenCV
中圖分類號:TP368.1
1 目前主流的嵌入式GUI
GUI技術是嵌入式的關鍵技術之一,其直接關系到產品的界面友好性程度,最終影響到產品的競爭力。
目前主流的嵌入式GUI主要有以下幾種:
Microwindows的體系結構由上至下,分別為API層、圖形引擎層、驅動層、硬件層,用戶可以根據具體的應用需求來實現每一個層。
MiniGUI的實現主要依賴于標準C的庫函數,它可以任意在支持標準C的環境上運行,MiniGUI很小巧但也很高效。MiniGUI主要應用在一些中低端設備中。
2 QT的搭建
由于QT具有跨平臺的特性,所以一般開發可以在windows下開發,再移植到Linux中,本文重點介紹QT在Windows下的使用。
QT的開發環境包括以下幾部分:QT的GUI庫,QT creator,windows版本還包含編譯器,可以是Microsoft visual stdio c++,還可以是MinGW,本文中使用的是MinGW。
搭建QT開發環境包括以下幾部分:(1)下載安裝MinGW編譯器,該編譯器支持Gcc和G++。(2)下載安裝qt-creator-win-opensource。(3)為QT、MinGW、qmake添加環境變量。
3 OpenCV的安裝配置
3.1 OpenCV簡介。QT中本身也支持視頻處理,但功能十分有限,如果需要更強大的視頻處理功能,需要引入OpenCV(open source computer vision library),即開源計算機視覺庫。
3.2 OpenCV的優點:(1)開源。OpenCV完全遵循BSD協議(五大開源許可協議之一),具有極高的開放性。(2)跨平臺。OpenCV支持Windows、Linux,Mac,可以輕松實現平臺之間的移植。(3)效率高,速度快。由于OpenCV采用C++實現,并且算法經過優化,效率有較大程度的提高,執行的速度也比較快。(4)涵蓋面廣、功能強大。OpenCV主要有13個模塊構成,涵蓋了計算機視覺的各個方面,在相關方面基本都應用。
3.3 OpenCV的安裝配置:(1)前提是QT已經安裝配置成功。(2)下載OpenCV。下載OpenCV后,解壓即可,實際上并不需要安裝,注意解壓路徑不能有空格,否則會出錯。(3)下載安裝CMake。OpenCV只是一個庫,并不能直接拿來使用,需要借助CMake將其編譯后才可以使用。(4)配置CMake參數,進行編譯。使用CMake,主要是設定OpenCV的輸入路徑、輸出路徑、MinGW的位置等相關信息。運行CMake之后,需要在命令提示符下進入輸出路徑,然后執行mingw32-make命令,由MinGW對OpenCV進行編譯,其間會耗費一定的時間。此步驟成功后,再執行mingw32-make install命令,會把編譯好的所有文放到這個文件夾下,這個就是將來開發要用到的OpenCV全部文件。(5)將上一步驟得到的install目錄bin文件夾,添加到系統的環境變量中,重新啟動電腦。(6)在QT工程中,打開.pro工程屬性文件,將OpenCV添加到INCLUDEPATH和LIBS中后,就可以在QT開發中使用OpenCV計算機視覺庫了。
4 在QT中通過OpenCV實現視頻處理
4.1 實現的基本原理。在視頻處理中主要用到OpenCV的highgui模塊,該模塊,前面已說過,主要完成視頻捕捉、編碼,圖片處理等相關功能。
highgui模塊中已經封裝了視頻、圖像、窗口的所有操作。
首先,利用OpenCV建立窗口,然后打開攝像頭,獲取攝像頭中的幀,然后申請IplImage類型的指針,將幀放入指針指向的內存空間,此時的只是靜止的圖像而已,為了符合我們人眼的觀看習慣,再通過循環,達到每秒鐘顯示30次左右的效果,與放電影的原理基本一樣,最終顯示到窗口,看到就是動態的視頻效果,使用完之后釋放內存,釋放窗口即可。
5 總結
嵌入式技術在當前的大環境下得到了快速發展,隨著硬件設備性能的不斷提高,高性能的嵌入式程序會越來越廣泛地被使用,而QT恰好與這個大環境相吻合,同時OpenCV的出現對QT也是一個促進,QT+OpenCV模式在未來嵌入式視頻處理中會廣泛地被使用。
參考文獻:
[1]彭均鍵,史步海,劉洋.基于Qt的嵌入式GUI開發平臺的搭建[J].微型電腦應用,2010,2.
[2]郭暉,陳光.基于OpenCV的視頻圖像處理應用研究[J].微型機與應用,2010,21.
[3]秦小文,溫志芳,喬維維.基于OpenCV的圖像處理[J].電子測試,2011-7.
[4]許生模,余敏.嵌入式QT的內核分析與優化[J].微計算機信息,2007-10.
[5]陳峰,郭爽,趙欣.基于QT和嵌入式的視頻監控系統[J].通信技術,2011,10.
關鍵詞:OpenCV;圖像處理;C++
中圖分類號:TP391.41
1 圖像的加載
圖像的加載過程為:調用攝像頭;逐幀加載圖像;圖像的顯示。
調用攝像頭的過程,我們用下面這段程序來實現:
攝像頭啟動后,自動采集圖像,不同類型的圖像內部結構不同,需要根據圖像的結構采用不同的方法將圖像文件中的數據讀入內存。在窗口中顯示出加載的圖像,主要由函數cvNamedWindow()來實現,這個函數也是一個高層調用接口,由HighGUI庫提供,它用于在屏幕上創建一個窗口,將被顯示的圖像包含于該窗口中。我們用下面這段程序來實現加載和顯示圖像的過程:
2 圖像的預處理
2.1 光線補償。在攝像頭的捕捉過程中,可能會存在光線不平衡,這影響了對特征的提取。
考慮到背景模型對光線變化比較敏感。在有室外光照、光潔地板和金屬設備的室內場景中,需要對攝像頭捕捉的圖像序列進行光線補償。
2.2 平滑處理。圖像在采集、傳輸、處理和保存的過程中,必然會受到隨機擾動和各種限制的影響,由此將產生各種噪聲和失真,因此需要對圖像進行平滑處理。
OpenCV中提供了圖像濾波函數:
2.3 灰度化。彩色圖像由于其信息容量比灰度圖像大,因此處理難度大、速度慢,而且在識別一般圖像的過程中,灰度圖像所含的信息量已經足夠,因此先將彩色圖像轉換為灰度圖像。灰度圖像與黑白單色圖像的區別是灰度圖像加上了顏色深度的概念,單純的看,灰度圖也是黑白的,就像黑白電視顯示的圖像一樣,但是點與點之間黑的程度是不一樣的,這就是深度即灰度,一般灰度圖像分為256 級。設彩色圖像某像素點顏色值為,根據
光學原理分解為紅色(r),綠色(g),藍色(b)三個分量,則灰度值為:
將彩色圖像中的所有的點經過上式轉變后,該圖像轉變成灰度圖像,各像素點的灰度值在(0-255)范圍內,其中0為黑色,255 為白色。
這個轉換過程可以用OpenCV中的函數來實現,這個函數的原型為:
2.4 二值化(閾值化)。圖像閾值化分割是一種最常用,同時也是最簡單的圖像分割方法,它特別適用于目標和背景占據不同灰度級范圍的圖像。它不僅可以極大地壓縮數據量, 而且也大大簡化了分析和處理步驟。因此,在很多情況下,它是進行圖像分析、特征提取與模式識別之前的必要的圖像預處理過程。圖像閾值化的目的是按照灰度級,對像素集合進行一個劃分,得到的每個子集形成一個與現實景物相對應的區域,各個區域內部具有一致的屬性,而相鄰區域布局有這種一致屬性。這樣的劃分可以通過從灰度級出發選取一個或多個閾值來實現。
最常見的閾值分割方法是固定閾值分割,OpenCV提供了這方面的函數,如下所示:
3 結束語
本文介紹了基于OpenCV的圖像處理并給出了實例,利用OpenCV中的函數使圖像處理問題變得很簡單,具有很強的實用價值。而且OpenCV免費,源代碼公開,其必將成為圖像視頻處理領域的強有力的工具。
參考文獻:
[1]于仕琪,劉瑞禎.學習OpenCV(中文版)[M].北京:清華大學出版社,2009.
[2]朱虹.數字圖像處理基礎[M].北京:北京科學出版社,2005.
[3]劉潔,馮貴玉,張汗靈.一種圖形處理和計算機視覺的開發工具[J].計算機仿真,2006(11):305-307.
[4]阮秋琦.數字圖像處理學[M].北京:電子工業出版社,2007.
關鍵詞:三維點云;配準;迭代最近點
中圖分類號:TP311 文獻標識碼:A 文章編號:1009-3044(2012)31-7568-03
在計算機應用領域,三維點云數據的配準對解決曲線曲面匹配、圖像拼接、三維重建、計算機輔助文物復原等問題至關重要。以計算機輔助文物碎片拼接為例,在過去十年間有很多研究項目需要獲取文物詳細的三維表示,但是通過三維掃描設備獲取的多個掃描需要采取一定的技術恢復每個掃描的相對視點,然后將多個掃描融合到一個最終的模型。這一過程就是三維點云數據的配準,它是獲取文物準確的三維表示的關鍵步驟。1992年,Besl和Mckay提出了一種基于幾何模型的三維物體配準算法——迭代最近點算法[1]。近年來,伴隨著三維掃描技術的不斷進步,該算法得到了廣泛應用,也吸引了眾多研究者的目光。許多研究者對該算法進行了系統的研究,分析了該算法的特點與不足,提出了各種改進算法。國外學者Michael Wild[2]回顧了2002年到2007年ICP算法的發展;介紹了ICP算法的流程并對幾種改進算法做了詳細的分析和比較;最后介紹了該算法在放射療法中的應用。近幾年,ICP算法的研究改進以及應用仍然是國內外眾多學者熱衷的一個研究方向,這從發表在IEEE上的論文數量即可看出。本文詳細總結了ICP算法的基本原理,然后從數據采樣、特征點選取與點對權重、非重疊區域檢測、兼容性約束四個方面對幾種改進算法進行了系統而詳細的分析與研究。總結了這些算法的基本思想和特點,這些工作對后期的研究將會起到重要的作用。
1 ICP算法的基本原理