前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的對計算機視覺的理解主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:動態場景;自適應預測;多特征融合;計算機視覺;運動目標
接受信息的關鍵手段之一就是視覺系統,隨著科學技術水平的不斷發展,以及計算機和信號處理理論的誕生,讓機器擁有人類視覺功能已經不再是夢。對所采集視頻中的運動目標進行跟蹤、檢測,并對其目標行為進行分析,就是運動目標分析的內容,運動目標分析是計算機視覺領域關鍵內容之一,其屬于圖像理解與圖像分析的范疇。而在運動目標分析系統中,跟蹤與檢測運動目標則為中級和低級處理部分,是分析與理解行為的高等層分析模塊的基礎。檢測與跟蹤運動目標技術主要包括了:機器人視覺導航、軍事領域、運動圖像編碼、交通管制、視覺監視等。
1目標檢測算法
連續圖像序列由視頻中提取出,由前景區域與背景區域共同組成了整個畫面。前景區域包含了如運動的人體、車輛等動態要素,它是指人們較為感興趣的區域。而背景區域主要包含例如樹木、建筑物等靜態要素,它的像素值僅發生微弱變化或者不產生變化。在連續圖像序列中,采用一系列算法分隔開背景區域和前景區域,將運動目標信息有效提取,則為運動目標檢測。以靜態場景為基礎的運動目標檢測算法包括了光流法、背景差分法、幀間查分法等,文章主要針對背景差分法進行介紹。
背景差分法通常適用于靜態場景,其是將背景圖像與當前幀圖像進行差分,運動目標依靠閥值化進行檢測,因為該算法僅能夠在背景變化緩慢或者不發生變化的情況下應用,因此就有著一定的局限性。假設當前幀圖像為fk(x,y),背景圖像B(x,y)可通過一定的方法得出,而這時背景差分圖像則為:
(1)
而假設二值化閥值為Th,二值化圖像B(x,y)則為:
(2)
運動目標檢測結果可通過數學形態學處理獲得。
2 背景模型的實時更新
要更新背景圖像可采用一階KALMAN濾波來實現,為了克服氣候變化、光照變化等外部環境變化對運動檢測產生的影響,采用一階KALMAN濾波更新背景圖像公式如下:
Bk+1(p)=Bk(p)+g(Ik(p)-Bk(p)) (3)
而增益因子則為:g=?琢1(1-Mk(p))+?琢2Mk(p) (4)
公式中?琢1和?琢2是權值系數;M是第k時刻二值化后目標圖像中p像素的值;B為背景圖像;I為當前幀圖像。要想將運動目標從背景序列圖像中有效分割出來,就必須要達到?琢2足夠小的條件,且?琢1應等于或者大于10?琢2,若?琢1值過大,就會將算法自身的去噪特性喪失,在序列背景圖像中也會存儲越來越多的運動變化。
3 更新車輛目標模型
核與活動輪廓算法具有效率高、技術復雜度低等特點,它以非參數核概率密度估計理論為基礎,在視頻運動目標跟蹤中廣泛應用。彩色圖像序列通過攝像機獲取,人臉目標模型可以采用RGB顏色空間來進行描述。在跟蹤車輛的過程中,噪聲、遮擋、光照等干擾或多或少存在,因干擾因素的存在,車輛像素特征也會發生相應的微弱變化。若不對目標模型進行更新,會對跟蹤精度產生影響,所以,采用的矩形模板會包括一定背景。而在實施跟蹤的過程中,要對車輛目標模型進行更換。如果其過程物遮擋,當BHATTACHARYYA系數滿足?籽>Tudm條件時,更新車輛目標模型,更新模型為:
(5)
公式中Tudm是模板更新閥值;qk-1是更新之前的車輛目標模型。通過視頻跟蹤,在近場景和遠場景拍攝到的視頻中,多尺度圖像空間由各個幀圖像構成。例如:將將書本作為跟蹤對象,由遠及近從書本的正上方拍攝六十幀圖像,為了能使矩形框正好能夠包含書本,對每幀圖像張書本手工劃定矩形框,并對框內圖像的信息量進行統計。最后,隨書本尺度的變化,給出圖像信息量變化曲線。
4 計算機視覺原理
計算機視覺是一門研究怎樣使機器進行觀察的科學,更切確地說,就是指利用電腦和攝影機代替人眼對目標進行識別、跟蹤和測量等機器視覺,并進一步做圖形處理,用電腦處理成為傳送給儀器檢測或更適合人眼觀察的圖像。計算機視覺研究相關的理論和技術作為一個科學學科,嘗試創建能夠從圖像或者多維數據中獲取信息的人工智能系統。這里所指的信息指Shannon定義的,可以用來幫助做一個決定的信息。因為感知可以看作是從感官信號中提取信息,所以計算機視覺也可以看作是研究如何使人工系統從圖像或多維數據中感知的科學。
計算機視覺就是由計算機來代替大腦完成處理和解釋,用各種成象系統代替視覺器官作為輸入敏感手段。使計算機能象人那樣通過視覺觀察和理解世界,具有自主適應環境的能力就是計算機視覺的最終研究目標,而需要經過長期的努力才能達到這個目標。所以,在實現最終目標以前,通過努力的中期目標是建立一種視覺系統,這個系統能依靠反饋的某種程度的智能和視覺敏感完成一定的任務。例如:計算機視覺的一個重要應用領域就是自主車輛的視覺導航,但要實現自主導航的系統,卻還沒有條件實現象人那樣能識別和理解任何環境。所以,人們通過不懈的努力,研究在高速公路上具有道路跟蹤能力,有效避免與前方車輛碰撞的視覺輔助駕駛系統。人類視覺系統是有史以來,人們所知道的功能最強大和完善的視覺系統。這里要指出的一點是在計算機視覺系統中計算機起代替人腦的作用。計算機視覺可以而且應該根據計算機系統的特點來進行視覺信息的處理,但并不等于計算機必須按人類視覺的方法完成視覺信息的處理。可以說,對人類視覺處理機制的研究將給計算機視覺的研究提供指導和啟發,所以,用計算機信息處理的方法研究人類視覺的機理,建立人類視覺的計算理論,與此同時也是一個十分重要和讓人感興趣的研究領域。這方面的研究被稱為計算視覺。計算視覺可被認為是計算機視覺中的一個研究領域。計算機視覺領域的不完善性與多樣性為其突出特點。
5 結束語
對視頻中的運動目標進行跟蹤、識別、檢測,并對目標行為進行研究、分析,這就是基于視覺運動目標分析。以計算機視覺為基礎,分析運動目標,包括了目標行為的理解與分析、目標跟蹤、運動目標檢測、預處理圖像等,它是計算機視覺領域重要內容之一。理解與分析運動目標的行為,既是計算機視覺的根本目的之一,也是檢測與跟蹤運動目標的最終目標。從理論層考慮,理解與分析運動目標的行為可以分為人工智能理論研究與模式識別。簡要闡述基于計算機視覺的運動目標分析,而所面臨的是對運動目標行為的理解。
參考文獻
[1]楊可,劉明軍,毛欣,夏維建,劉偉,周旋,吳煒,周凱.基于計算機視覺的電纜終端表面溫升分析系統[J].電視技術,2013(7).
[2]葉闖,沈益青,李豪,曹思汗,王柏祥.基于人類視覺特性(HVS)的離散小波變換(DWT)數字水印算法[J].浙江大學學報:理學版,2013(2).
[3]何青海,馬本學,瞿端陽,李宏偉,王寶.基于機器視覺棉葉螨自動監測與分級方法研究[J].農機化研究,2013(4).
[4]賈挺猛,茍一,鮑官軍,董茂,楊慶華.基于機器視覺的葡萄樹枝骨架提取算法研究[J].機電工程,2013(4).
關鍵詞:計算機視覺;研討式教學;小組探討;課前回顧
作者簡介:陳芳林(1983-),男,湖南株洲人,國防科學技術大學機電工程與自動化學院,講師;周宗潭(1969-),男,河南洛陽人,國防科學技術大學機電工程與自動化學院,教授。(湖南 長沙 410073)
中圖分類號:G643.2 文獻標識碼:A 文章編號:1007-0079(2013)26-0065-02
進入21世紀,創新型人才的培養成為各國政府和高等教育界關注的一個焦點。世界各國研究型大學的共同特點是在研究生教育階段致力于培養富有創新意識和創新能力的高級人才。[1]研討式教學是培養研究生創新精神、科研能力的有效途徑,教師講解與學生探討兩部分相結合是研討式教學采用的主要模式。[2]將課程分成兩部分之后,教師講解的時間就必須壓縮,教師一方面需要思考如何在較短的時間內完成課程的講解,同時還需要考慮課程講解要與學生探討部分緊密結合。因此,如何上好研討式教學教師講解這部分課,越來越受高等院校的重視。本文針對筆者教授工科研究生課程“計算機視覺”的實踐與經驗,闡述了筆者對于如何上好研討式教學教師講解這部分課的個人體會。總結為兩點:第一,首先要充分做好課程準備;第二,上課環節采取回顧—案例—小結的講解方式。下面從課程準備、課前回顧、課程講解、課后小結四個方面分別闡述(如圖1所示)。
一、“計算機視覺”課程準備
要上好一門研討式教學的課程,一定要結合該門課程的特點,量身定制課程內容,進行精心準備。本節先介紹“計算機視覺”課程的特點,然后結合該門課程的特點,介紹筆者對于“計算機視覺”的課程準備。
1.“計算機視覺”課程特點
“計算機視覺”是“數字圖像處理”和“模式識別”等課程的后續課程。該課程重點在于圖像或者圖像序列的分析理解。課程知識在機器人導航、偵查、測繪、測量、精密加工和目標跟蹤等多個領域都有廣泛的應用。[3]近年來基于視覺信息的控制反饋也開始受到廣泛關注。國內高校一般都為研究生開設了此門課程。
計算機視覺技術應用廣泛、算法原理涉及面廣:涉及到概率與數理統計、信號與系統、圖像等基礎知識。“計算機視覺”是一門重要的控制類、電子類及計算機類專業研究生的選修課程,它內容廣泛、綜合性強,研討能力的培養顯得非常關鍵。
2.課程準備
首先,結合“計算機視覺”課程內容廣泛、技術日益更新和豐富的特點,將課程36學時分為12次課,每次課為3小時,每堂課教師講解一個專題。這種設計,一方面可以更廣地涉及計算機視覺的各個領域;另一方面以專題的形式來講解,可以將學生帶入到該專題,介紹基本背景、理論、知識和方法,讓學生有一個初步的了解,方便課后學生對感興趣的專題進一步深入挖掘與研究。
其次,在課程開始之前,教師仔細統籌,安排好每次課的專題,這樣既方便學生一開始對整個課程有一個整體的了解,也方便學生選擇課堂研討的題目與內容。根據12個專題,將各個專題講解的內容與課件在開課之前準備好,這樣有利于把握各個專題之間的前后承接關系。例如,“區域”與“分割”是既有區分又有聯系的兩個專題,在課程開始之前,將課件準備好,就有利于宏觀把握,在“區域”專題提到的分割算法,就不需要在“分割”專題再次重復,而在“分割”專題可以結合前面“區域”專題進行互相補充,以幫助學生融會貫通。
最后,在每個專題上課之前,再對課件進行精雕細琢,主要是對內容分好層次,對方法進行分類,力圖在較短的時間內,讓學生對該專題有較全面的認識。例如,在講解圖像分割時,由于圖像分割方法非常多,可以將分割方法分為若干個大類,每個大類只講1~2個方法。這樣既可以盡可能涉及更廣的領域,又可以提高講解的效率。
二、“計算機視覺”課前回顧
課前回顧是指每堂課的前面一小段時間用來回顧上一堂課的內容。雖然課前回顧時間非常短,一般為3~8分鐘,但是課前回顧是課堂教學中的一個重要環節。課前回顧可以幫助學生加強將要學習的內容與已學過內容之間的聯系。通過課前回顧,學生可以回憶前續課程所講解的概念、理論、算法的步驟等內容,有助于解決新問題或者理解新知識。
課前回顧最重要的是既要復習前續課程的內容,又要注意將前續內容與當前內容聯系起來。由于講解時間有限,要使研討式教學的教師講解部分效率高,教師幫助學生回憶上堂課的概念、模型、算法等內容,就變得非常重要。如果不做課前回顧,那么當講到某處新知識時,往往需要停下來,將前續課程再講一遍,否則學生無法理解新的知識,這樣就降低了教學的效率。
課前回顧的時間,一般以3~8分鐘為宜。課前回顧的形式可以多樣化,如講解課后作業、回顧概念、提問等。筆者認為應根據當天課程與前續課程的關系,采取合適的方式。各種方式結合使用,提高課前回顧的效率。
三、“計算機視覺”課程講解——案例教學
案例教學已經成功地應用于數學、計算機科學等領域的教學。通過案例,學生可以很快地掌握相應的概念、算法的步驟等,從而提高教師講解部分的效率。[4]例如,在講解馬爾科夫隨機場時,筆者通過案例式教學,將馬爾科夫隨機場用一個生活中的例子來向學生解釋。首先,將馬爾科夫隨機場分解成兩個重要的概念,分別是隨機場與馬爾科夫性,然后將它們對應到例子中,幫助學生理解。
隨機場包含兩個要素:位置(site)和相空間(phase space)。當給每一個“位置”中按照某種分布隨機賦予“相空間”的一個值之后,其全體就叫做隨機場(如圖2(a))。[5]這個概念非常抽象,難以理解。筆者應用案例式教學,拿莊稼地來打比方。“位置”好比是一畝畝農田,“相空間”好比是種的各種莊稼。給不同的地種上不同的莊稼,就好比給隨機場的每個“位置”,賦予“相空間”里不同的值。所以,可以形象地理解隨機場就是在哪塊地里種什么莊稼的布局(如圖2(b))。
馬爾科夫性指的是一個隨機變量序列按時間先后順序依次排開時,第N+1時刻的分布特性,與N時刻以前的隨機變量的取值無關。為了更直觀地理解馬爾科夫性,筆者仍然拿莊稼地打比方,如果任何一塊地里種的莊稼的種類僅僅與它鄰近的地里種的莊稼的種類有關,與其他地方的莊稼的種類無關,這種性質就是馬爾科夫性。
符合上述兩個特征,那么這些地里種的莊稼的集合,就是一個馬爾科夫隨機場。通過案例式教學,筆者發現可以加深加快學生對課程內容的理解,提高教師講解環節的效率。
四、課后小結
課后小結指的是一堂課將要結束時,教師對本堂課進行一個簡短的總結。許多成功的教師都會在其教學中堅持課后小結這個環節,給學生一個總體的印象,以幫助學生消化本次課程的內容。
研討式教學教師講解部分的課后小結與普通教學方式應有所區別。筆者認為這主要是因為通過課后小結可以將本次課程所講內容與學生的研討環節結合起來,而不僅僅是對內容進行簡單的總結。
為了達到課后小結使本次課程內容與學生探討環節建立聯系的目的,筆者在教學中常采用如下方式:首先,像普通教學方式一樣,總結本次課程內容;然后,在此基礎上,拋出若干問題,這些問題,不需要學生馬上解答,而是留給學生課后思考,提供他們選擇研討主題的素材;最后,介紹其他在本次課程中沒有涉及到的前沿知識、方法與理論,拓寬學生的視野,從而增加學生選擇探討主題的覆蓋面。
通過應用這種方式,筆者發現學生的思維更開闊,在探討環節,學生往往可以選擇一些比較新穎的主題(例如視頻中不動點的檢測等),而不僅僅局限于教師所講內容,從而提高了研討式教學的效果。
五、結論
在“計算機視覺”課程中引入研討式教學,通過總體設計規劃好整門課程內容,課堂講解注意采用回顧—案例—小結的方式,筆者對如何上好研討式教學教師講解這部分課進行了個人經驗的總結。通過本次教學改革,筆者體會到如果要提高教學效果,一定要注意教師講解與學生探討兩個環節的緊密結合。
參考文獻:
[1]侯婉瑩.我國研究型大學本科生科研研究[D].濟南:山東大學,
2009.
[2]張晴,李騰,韋艷,等.研討式教學模式的理論研究[J].中國科技縱橫,2011,(10).
[3]D.H .巴拉德.計算機視覺[M].北京:科學出版社,1987.
【關鍵詞】Opencv;計算機視覺技術;系統;研究
隨著計算機技術的快速發展,計算機設備逐漸被應用到社會生活的各個方面,尤其是在當前計算機視覺技術和圖像處理技術快速發展的時期,各個科技領域中的計算機視覺技術已經逐漸成熟。計算機視覺技術主要是利用計算機智能化來替代人眼,即對于客觀存在的三維立體化世界的理解和識別,整個實現過程均是以計算機技術作為基礎。隨著計算機視覺技術的不斷發展,現今其已逐漸成為了一門神經生理學、計算機工程、信號學、物理學、應用數學等綜合性學科。計算機視覺技術系統其在高性能計算機基礎之上來實現對大量數據的獲取,并且通過智能算法來對獲取數據進行處理,從而完成對數據集成。
一、視頻中運動物體檢測原理
對于視頻中的運動物體檢測主要分為兩中方法,其一為宏觀檢測法;其二為微觀檢測法。宏觀檢測法是對獲得的整幅圖像進行檢測,而微觀檢測法則是對所需要的區域進行圖像檢測。視覺技術在檢測運動物體的時候,首先對圖像進行采集,并對采集的信息數據進行預處理,將圖像進行分割,然后分別提取運動物體的影象,從而實現參數的更新。圖像采集過程中采用背景差分法,實現對背景圖像的提取,其通過一定算法采用人為手段獲取沒有背景的圖像。另外在進行運動物體檢測的時候還可以采用幀間差分法,其主要是實時獲取幀圖,然后實現一幀一幀圖像比值的比較,從而獲取具有差值的圖像。運動物體進行檢測的時候需連續獲取幀圖,將這些幀圖組合起來,其實就是物體的運動軌跡,然后同分割技術就能勾勒出物體的輪廓。隨著計算機視覺技術的不斷深入研究,發現此兩種方法單獨使用仍然存在的一些缺點,于是研究人員將二種檢測方法進行融合,形成一種綜合檢測方法。綜合檢測法將兩者檢測方法的優勢進行了融合,并將其靈活的應用到了生產和生活之中,取得了十分不錯的效用。
二、基于Opencv的計算機視覺技術探究
(一)基于Opencv的運動物體檢測
運動物體在進行檢測的時候,基于Opencv的檢測原理主要為:根據物體某項特定信息,例如,顏色、輪廓、性狀等,在復雜背景中利用這些特定的信息將物體分離出來。整個圖像的分離過程首先是進行視頻流捕捉,然后是進行視頻的格式轉換,再將圖像進行預處理,從而提取前景物體,減少環境因素對圖像處理的誤差,最后根據物體特征提取,并完成對運動物體的跟蹤。從圖像中提取所需的目標物體,其實質就是對整個屋里輪廓進行檢測和分割,根據每個圖像的幀差異來進行提取。
(二)基于Opencv圖像預處理
視覺技術應用于復雜的環境之中,由于存在著光照的變化,其場景中所出現的環境因素對視頻采集設備性能影響很大。環境因素會使得獲取的圖像信息的質量降低,并且在圖像中無法避免的存在著噪點,這對于運動物體的檢測和圖像采集會造成很大的影響。當獲取視頻幀圖像之后需對其數據進行預處理,通常有平滑度濾波處理、圖像填充、圖像背景更新等。
1.平滑度濾波處理
由于在進行視頻圖像采集的時候存在著噪點,那么我們就需要對其進行噪點處理,以求減小噪聲。濾波平滑度濾波處理,其具有線性和非線性兩種方式,其中線性方式進行處理器運算簡單、運算速度快,但是在進行處理之后的圖像都會呈現不清晰的情況。而非線性方式盡心給處理之后,雖然能夠很好的減小噪點,確保信號的局部特點,但是其運算的速度會較慢。
2.圖像填充
對于幀圖像進行處理,通常采用檢測邊緣填充法或者是腐蝕膨脹法來完成,其中填充法是指當檢測出目標物體之后,利用邊緣檢測方法來對物體進行辨識,然后利用形態學的漫水填充法進行填充。圖像的腐蝕膨脹則主要是由于攝像機的性能等問題造成的。
3.實時背景更新
在進行圖像差分之前,需要對背景圖樣進行確定,并且需要對其進行初始化處理。以方便以后在進行檢測時候能夠對實時背景圖進行差分計算,只有這樣,才能夠獲得極佳的前景效果。在進行圖像差分時,首先需要根據指定法來確定第一幀背景的圖像,并將其指定為第一張背景圖片,然后在檢測過程中根據算法對背景實施更新。整個圖像在進行更新時,其主要的流程為:判斷并讀取圖像是否為第一幀;將Opencv處理的圖像轉化為單通道灰度值;將實時采集的圖像進行高斯平滑度處理,去除噪點;最后使用形態學濾波處理噪點。
(三)提取前景運動物體圖像
檢測運動物體的時候,只有在檢測流程中確保精確度,才能夠獲取滿意的前景跟蹤效果。此過程中主要分為兩個步驟,第一步為二值化圖像之后進行分割;第二步,圖像分析前處理,進行充分填充,確保前景圖的完整性。其中,前景圖的提取主要分為下面幾個步驟:首先對前景圖像和背景圖像進行差分,然后對差分的圖像進行二值化,再對背景中的前景圖像邊緣進行檢測,根據輪廓進行填充圖像。由于攝像頭存在于不同的場景和環境之中,不論是室外或者是室內隨著場景的變化都會對圖像的采集產生影響。那么在前景圖中提取目標就需要在檢測系統中采用有效手段來完成背景實時更新。
閥值二值化分割法可以對檢測的物體進行前景和背景差圖分割,從而使目標物體能夠分離出圖像,且閥值分割先要確定每個像素的點是否處于灰度范圍值之內。將圖像中的像素灰度與確定的閥值進行比較,其結果解釋所有像素點分為2類,一類像素的灰度小于閥值,另外一類就是大于閥值。閥值二值化分割時,確定分割的閥值T,然后分割圖像。選取合適的閥值進行分割,可以有效的減少光照因素影響,常用的動態閥值主要有直方圖來法與最大類方差法這另種分割方法。
三、計算機視覺三維技術
計算機視覺技術的核心為分割問題、運動分析、3D立體場景重構等,立體視覺主要是從多幅圖像的參照中獲取目標物體的三維幾何信息。計算機視覺所模擬出的3D立體畫面只需要攝像機從不同的角度同一時間針進行圖像捕獲,將2D信息進行3D重構,進而將計算機程序重建于真實的三維場景之中,以恢復物體的真實空間信息。
(一)視覺系統
視覺系統捕獲圖像的過程,實則可以看成為對大量信息進行處理過程,整個系統處理可以分為三個層次,其一,理論層次;其二,描述層次;其三,實現層次。在攝像機視覺系統之中,輸入的是2D圖像,但是輸出為3D信息,而這就可以實現對圖像的位置、距離等信息的如實描述。視覺系統分為三個進階層次,第一階段為基礎框架;第二階段為2.5D表達;第三階段為三維階段。在第二階段中實現的2.5D表達,其原理是將不完整的3D圖像信息進行表達,即以一個點為坐標,從此點看去某一些物體的部分被遮擋。第三階段的三維階段,則是人眼觀察之后可以從不同的角度來觀察物體的整體框架,從而實現了將2.5D圖像信息的疊加重合運算,進一步處理之后得到了3D圖像。
(二)雙目視覺
人們從不同角度觀看同一時間內的同一物體的時候,可以利用算法測量物體間的距離。此法被稱為雙目立體感覺,其依據的原理是視覺差原理,利用兩臺攝像機或者一臺攝像機,對兩幅不同的圖像進行不同角度觀察,并且對其觀察的數據進行對比分析。實現雙目立體視覺與平面視覺圖像獲取,其主要的步驟為:
(1)圖像獲取
從兩臺不同的攝像機,捕獲幀圖像,由于環境因素會造成圖像差異困難。為了更好的跟蹤目標、檢測,當捕獲圖像之后,需要對圖像進行預處理。
(2)攝像標定方式
獲得真實坐標系中的場景點中的與平面成像點占比見的對應關系,借用三維立體空間中的三維坐標,標定之后確定攝像機的位置以及屬性參數,并建立起成像的模型。
(3)特征提取方式
所謂的特征提取方式主要是為了提升檢測、跟蹤目標的準確性,需要對目標物體進行特征提取,從而實現對圖像分割提取。
(4)深度計算
深度信息主要是根據幾何光學原理,從三維世界進行客觀分析,因為距離會產生不同的位置,會使得成像位置與兩眼視網膜上有所不同。簡單來說,客觀景物的深度可以反映出雙目的視覺差,而利用視覺差的信息結合三角原理進行計算,可呈現出深度的圖像信息。
(三)攝像機模型
攝像機在標定過程中確定了其建立的基礎為攝像機的模型,攝像機模型在標定過程中關系到三個不同坐標系的轉換,分別為2D圖像平面坐標系、攝像機自身坐標系以及真實的世界坐標系。攝像機在攝像的時候起本質是2D圖像坐標轉換,首先要定義攝像機的自身坐標系,將坐標系的原點設置為光心,X、Y、Z成立三維坐標系。其次則是建立平面的圖像坐標系,用以透視模型表示,其原點也在廣心的位置,稱之為主點。實際應用中,物理的距離光心的位置d≠f焦距,而且會遠遠大于焦距,為了解決如此問題就提出了平面概念。在光軸z上設置一個虛擬的圖像平面,然后在此位置于平面關于光心對稱。接著,在設置的虛擬2D坐標系中,光軸和原點重合,并且攝像機與垂直平面的垂直方向相同,真實圖像上的點影射到攝像機坐標系。
(四)3D重構算法
視頻流的采集,主要是采用Kinect設備、彩色攝像頭、紅外發射攝像頭、紅外接收攝像頭。使用微軟提供API控制Kinect設備,在操作之前需調用NUI初始化函數,將函數的參數設置為用戶信息深度圖數據、彩色圖數據、骨骼追蹤圖數據、深度圖數據。上述的視頻流的打開方式不同,既可以是一種打開方式,也可以是多種打開方式,尤其在進行Kinect傳輸數據處理的時候,需遵循三條步驟的運行管線。此三條管線分別為:第一條為處理彩色和深度數據,第二條為根據用索引添加顏色信息,并將其放入到深度圖之中,第三條為骨骼追蹤數據。
四、總結
隨著計算技術的快速發展,視覺技術逐漸被廣泛的應用于我們日常的研究之中。本文通過對視覺技術的相關問題進行分析,探究了圖像處理、分割、前景提取、運動物體觀測以及重構3D圖等問題,為實現視覺技術更加深入研究做出了相應的貢獻;為廣大參與計算機視覺技術研究同仁提供一個研究的思路,為實現視覺技術的騰飛貢獻薄力。
參考文獻
[1]張海科.基于Opencv的人手識別與跟蹤定位技術研究與實現[D].云南大學,2013.
生活中,每個人都問過別人“這件衣服是從哪買的?”“這雙鞋是什么牌子的?”這一問題很快會被AI技術解決,只需要拿出手機對著物品拍照,就會得到商品的各種信息,并且能一鍵買買買。這就是美國著名圖片社交網站Pinterest(拼趣)即將推出的應用圖片識別購買業務。
Pinterest總裁Tim Kendall表示,“Pinterest可以即刻在存儲750多億張圖片的巨大網絡空間內進行搜索,從而為用戶找到與所拍攝照片相似的配對圖片,以及查找到哪些地方能夠買到他們所需的商品。”
目前,Pinterest的估值已經達到了110億美元,該公司的專注點正在向營收增長和創收方面轉變。相比Facebook、Twiter等社交網站,Pinterest已經率先找到了一條清晰的創收道路。
從興趣到產品
亞里士多德曾經說過,古往今來人們開始探索,都應起源于對自然萬物的驚異。科技的進步也是如此,就像微軟研發主管和項目負責人Mitch Goldberg所說:“我們想通過該應用向人們展示識別技術的無限魅力。”
今年2月,微軟旗下的Garage實驗室了一款名為“Fetch!”的應用,它可通過機器學習系統識別照片中寵物狗的品種并用文字對該品種進行簡單的介紹。
隨著計算機視覺領域開始利用深層神經網絡這種模仿人類大腦生物過程的系統來從事機器學習,識別的精確度實現了巨大飛躍。也就是說通過機器學習技術,Fetch!識別的準確度會越來越高,隨著大量圖片的涌入,Fetch! 可以自我修復錯誤,從而更加精確地識別每一只狗的樣貌、形態、動作。除了測試狗類品種以外,你還可以把朋友的照片上傳至平臺,看看他們能夠對應出哪種寵物。
微軟的這款產品基于目前最為熱門的一種圖像識別技術――“深度神經網絡”,同樣基于這種技術,微軟還有另一款有趣的產品:。去年5月,有超過5.75億圖片被提交到,超過8500萬來自世界各地的使用者訪問了這個網站,只為尋找一個簡單問題的答案――顏齡機器人認為我看起來像幾歲?如果是合照,并且顏齡機器人識別出的自己比周圍人年齡小,則更能引發用戶的興趣,這種“損人利己”的識別應用著實在社交媒體上火了一把。
另一讓計算機視覺研究技術人員特別感興趣的領域是生物識別,當下最為火爆的莫過于人臉識別技術了。早期的人臉識別技術多為安防領域,如海關識別走私犯、商店識別小偷等。近年來,深度學習的研究與應用使得人臉識別和人工智能的核心技術得到了極大的提升,攝像頭等圖像硬件的發展為人臉識別提供了很好的圖像基礎,如今人臉識別技術應用更加廣泛,比如公司可以使用刷臉打卡來杜絕代人打卡簽到現象。
其實早在2012年,谷歌就開發出了安卓系統的“刷臉解鎖”技術,但因安全問題未解決,該技術一直未能得到普及。
而今年3月,電商巨頭亞馬遜提交了一項針購物付費的專利技術,即消費者在亞馬遜網站購物時可以通過自拍或者視頻來進行付費,無須再輸入賬號密碼。在消費時系統會提示用戶表現出特定的行為、情緒或手勢來證明消費者就是本人,而不是拿著照片的冒名頂替者。
亞馬遜表示,這項技術能使消費者更加安全地進行網上購物,因為很多用戶為了省事會把所有賬戶都用同一個密碼,或者把密碼記在手機里,一旦遭遇“撞庫”或者手機被盜,后果不堪設想,而刷臉技術則沒有這個風險。
除了識別人臉,在識別其他生物方面也有了突破性進展,比如識別寄生蟲。瘧疾,是一種由瘧原蟲造成的全球性急性寄生蟲傳染病,據統計,2015年有大約有2.14億人受瘧疾的影響。
一直以來,醫療工作者是通過肉眼觀察采樣玻片來確定采樣對象是否被瘧原蟲感染,這不但是對醫療工作者經驗的考驗,而且工作效率也十分低下,而貧困地區一直都缺乏有經驗的醫療工作者。
今年2月,根據MIT Technology Review報道,Intellectual Ventures Laboratory(智能事業實驗室)開發出了能夠檢測和評估瘧疾感染的便攜式顯微鏡。這種顯微鏡采用的是一個名為“Autoscope”的系統,通過計算機視覺和深度神經網絡技術,采用深度學習算法來鑒別瘧原蟲。這款便攜式顯微鏡今年在泰國實地測試,成功鑒別出了 170塊玻片中的瘧原蟲如果這項技術得到普及之后,只要診所有一臺Autoscope顯微鏡和一些載玻片,就可解決瘧疾的診斷問題,這將使瘧疾診斷不再依賴于有限的專業醫療人員。
技術轉化為產品
新技術的出現,讓計算機不但“看見”這個世界,更能“看懂”這個世界,可以代替人眼甚至超越人眼。
人的視野是有限的,并且會受到周邊條件的影響,駕駛員在開車時會有視野盲區,還會受到光線的影響,并且大霧、暴雨等極端天氣也會嚴重影響駕駛員的視線。而計算機視覺技術就不一樣了,視野會更開闊,受限制更小。根據汽車媒體《Leftlane》報道,福特公司最新的無人駕駛汽車研究計劃是由激光感應(LiDAR)和雷達、攝像頭形成一張周圍環境的高清3D地圖,不但讓無人駕駛汽車看到攝像頭視野范圍之外的物體,而且并不受光線限制。在夜間試駕后,福特工程師Wayne Williams說:“坐在汽車里,我能感到它在走,但是我往車外看,只能看到一片漆黑。結果令人驚喜,車輛準確地沿著蜿蜒的道路行駛。”
識別場景這一領域技術的發展,使得計算機不但能當機器的眼睛,還能變成人類的眼睛。
對于雙目失明的人來說,能親自感知這個世界是夢寐以求的事,而微軟2016 Build開發者大會上Seeing AI項目正是要幫助盲人實現這一愿望。
Seeing AI項目是通過計算機視覺和自然語言去形容一個人的周圍環境、朗讀文本、回答問題以及識別人的面部表情,可以在手機上使用,也可以在Pivothead的智能眼鏡上使用。如果投入使用,將有助于為視障人士營造更公平的環境,是一款能夠真正改變人們生活的產品,就像此項目的高級項目經理Anne Taylor所說的,這是“為真正重要的場景尋求解決方案”。也許不久微軟能開發出一種仿生眼,直接發送視覺信號到大腦,讓盲人真正看到這個世界。
國內人工智能產業鏈解構
基礎技術、人工智能技術和人工智能應用構成了人工智能產業鏈的三個核心環節,我們將主要從這三個方面對國內人工智能產業進行梳理,并對其中的人工智能應用進行重點解構。
人工智能的基礎技術主要依賴于大數據管理和云計算技術,經過近幾年的發展,國內大數據管理和云計算技術已從一個嶄新的領域逐步轉變為大眾化服務的基礎平臺。而依據服務性質的不同,這些平臺主要集中于三個服務層面,即基礎設施即服務(IaaS)、平臺即服務(PaaS)和軟件即服務(SaaS)。基礎技術提供平臺為人工智能技術的實現和人工智能應用的落地提供基礎的后臺保障,也是一切人工智能技術和應用實現的前提。
對于許多中小型企業來說,SaaS 是采用先進技術的最好途徑,它消除了企業購買、構建和維護基礎設施和應用程序的需要;而 IaaS通過三種不同形態服務的提供(公有云、私有云和混合云)可以更快地開發應用程序和服務,縮短開發和測試周期;作為 SaaS 和 IaaS 中間服務的 PaaS 則為二者的實現提供了云環境中的應用基礎設施服務。
人工智能技術平臺
與基礎技術提供平臺不同,人工智能技術平臺主要專注于機器學習、模式識別和人機交互三項與人工智能應用密切相關的技術,所涉及的領域包括機器視覺、指紋識別、人臉識別、視網膜識別、虹膜識別、掌紋識別、專家系統、自動規劃、智能搜索、定理證明、博弈、自動程序設計、智能控制、機器人學習、語言和圖像理解和遺傳編程等。
機器學習:通俗的說就是讓機器自己去學習,然后通過學習到的知識來指導進一步的判斷。我們用大量的標簽樣本數據來讓計算機進行運算并設計懲罰函數,通過不斷的迭代,機器就學會了怎樣進行分類,使得懲罰最小。這些學到的分類規則可以進行預測等活動,具體應用覆蓋了從通用人工智能應用到專用人工智能應用的大多數領域,如:計算機視覺、自然語言處理、生物特征識別、證券市場分析和DNA 測序等。
模式識別:模式識別就是通過計算機用數學技術方法來研究模式的自動處理和判讀,它偏重于對信號、圖像、語音、文字、指紋等非直觀數據方面的處理,如語音識別,人臉識別等,通過提取出相關的特征來實現一定的目標。文字識別、語音識別、指紋識別和圖像識別等都屬于模式識別的場景應用。
人機交互:人機交互是一門研究系統與用戶之間交互關系的學問。系統可以是各種各樣的機器,也可以是計算機化的系統和軟件。在應用層面,它既包括人與系統的語音交互,也包含了人與機器人實體的物理交互。
而在國內,人工智能技術平臺在應用層面主要聚焦于計算機視覺、語音識別和語言技術處理領域,其中的代表企業包括科大訊飛、格靈深瞳、捷通華聲(靈云)、地平線、SenseTime、永洪科技、曠視科技、云知聲等。
人工智能應用
人工智能應用涉及到專用應用和通用應用兩個方面,這也是機器學習、模式識別和人機交互這三項人工智能技術的落地實現形式。其中,專用領域的應用涵蓋了目前國內人工智能應用的大多數應用,包括各領域的人臉和語音識別以及服務型機器人等方面;而通用型則側重于金融、醫療、智能家居等領域的通用解決方案,目前國內人工智能應用正處于由專業應用向通用應用過度的發展階段。
(1)計算機視覺在國內計算機視覺領域,動靜態圖像識別和人臉識別是主要研究方向
圖像識別:是計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術。識別過程包括圖像預處理、圖像分割、特征提取和判斷匹配。
人臉識別:是基于人的臉部特征信息進行身份識別的一種生物識別技術。用攝像機或攝像頭采集含有人臉的圖像或視頻流,并自動在圖像中檢測和跟蹤人臉,進而對檢測到的人臉進行臉部的一系列相關技術,通常也叫做人像識別、面部識別。
目前,由于動態檢測與識別的技術門檻限制,靜態圖像識別與人臉識別的研究暫時處于領先位置,其中既有騰訊、螞蟻金服、百度和搜狗這樣基于社交、搜索大數據整合的互聯網公司,也有三星中國技術研究院、微軟亞洲研究院、Intel中國研究院這類的傳統硬件與技術服務商;同時,類似于 Face++ 和FaceID 這類的新興技術公司也在各自專業技術和識別準確率上取得了不錯的突破。
而在難度最大的動態視覺檢測領域,格靈深瞳、東方網力和 Video++ 等企業的著力點主要在企業和家庭安防,在一些常見的應用場景也與人臉識別技術聯動使用。
(2)語音/語義識別
語音識別的關鍵基于大量樣本數據的識別處理,因此,國內大多數語音識別技術商都在平臺化的方向上發力,希望通過不同平臺以及軟硬件方面的數據和技術積累不斷提高識別準確率。
在通用識別率上,各企業的成績基本維持在 95% 左右,真正的差異化在于對垂直領域的定制化開發。類似百度、科大訊飛這樣的上市公司憑借著深厚的技術、數據積累占據在市場前列的位置,并且通過軟硬件服務的開發不斷進化著自身的服務能力;此外,在科大訊飛之后國內第二家語音識別公有云的云知聲在各項通用語音服務技術的提供上也占據著不小的市場空間。值得注意的是,不少機器人和通用硬件制造商在語音、語義的識別上也取得了不錯的進展,例如智臻智能推出的小 i 機器人的語義識別、圖靈機器人的個性化語音助手機器人和服務、被 Google 投資的出門問問的軟硬件服務。
(3)智能機器人
由于工業發展和智能化生活的需要,目前國內智能機器人行業的研發主要集中于家庭機器人、工業企業服務和智能助手三個方面其中,工業及企業服務類的機器人研發企業依托政策背景和市場需要處于較為發達的發展階段,代表性企業包括依托中科院沈陽自動化研究所的新松機器人、聚焦智能醫療領域的博實股份,以及大疆、優愛寶機器人、Slamtec 這類專注工業生產和企業服務的智能機器人公司。在以上三個分類中,從事家庭機器人和智能助手的企業占據著絕大多數比例,涉及到的國內企業近 300 家。
(4)智能家居
與家庭機器人不同,智能家居和物聯企業的主要著力點在于智能設備和智能中控兩個方面。在這其中,以海爾和美的為代表的傳統家電企業依托自身渠道、技術和配套產品優勢建立起了實體化智能家居產品生態. 而以阿里、騰訊、京東、小米和樂視等互聯網企業為代表的公司則通過各自平臺內的數據和終端資源提供不同的軟硬件服務。
值得關注的是,科沃斯、broadlink、感居物聯、風向標科技、歐瑞博、物聯傳感和華為等技術解決方案商在通用硬件和技術、系統級解決方案上已成為諸多智能家居和物聯企業的合作伙伴。綜合來看,智能家居和物聯企業由于市場分類、技術種類和數據積累的不同各自提供著差異化的解決方案。在既定市場中,沒有絕對意義上的排斥競爭,各企業之間的合作融合度較強。
(5)智能醫療
目前國內智能醫療領域的研究主要集中于醫療機器人、醫療解決方案和生命科學領域。由于起步較晚和技術門檻的限制,目前國內醫用機器人的研發水平和普及率相較于國際一線水平仍存在一定的差距,從事企業主要集中與手術機器人和康復機器人兩大領域,以新松機器人、博實股份、妙手機器人、和技創等企業為代表。
在醫療解決方案方面,以騰訊、阿里巴巴、百度和科大訊飛為代表的公司通過和政府、醫療機構的合作,為腦科學、疾病防治與醫療信息數據等領域提供智能解決方案。而在生命科學領域,研究的著眼點在以基因和細胞檢測為代表的前沿研究領域。
綜合來看,國內人工智能產業鏈的基礎技術鏈條已經構建成熟,人工智能技術和應用則集中在人臉和圖像識別、語音助手、智能生活等專用領域的場景化解決方案上。就趨勢來看,未來國內人工智能領域的差異化競爭和突破將主要集中在人工智能相關技術的突破和應用場景升級兩個層面。
未來國內人工智能行業發展的五大趨勢
(1)機器學習與場景應用將迎來下一輪爆發
根據 Venture Scanner 的統計,截至 2015 年 9 月,全球人工智能領域獲得投資的公司中,按照平均融資額度排名的五大業務依次是:機器學習(應用類)、智能機器人、計算機視覺(研發類)、機器學習(研發類)和視頻內容識別等。
自 2009 年以來,人工智能已經吸引了超過 170 億美元的投資。過去四年間,人工智能領域的民間投資以平均每年 62% 的增長速率增加,這一速率預計還會持續下去。而在 2015 年,全球人工智能領域的投資占到了年度總投資的 5%,盡管高于 2013 年的2% ,但相比其他競爭領域仍處于落后位置。
目前中國地區人工智能領域獲得投資最多的五大細分領域是計算機視覺(研發類)、自然語言處理、私人虛擬助理、智能機器人和語音識別。從投資領域和趨勢來看,未來國內人工智能行業的資本將主要涌向機器學習與場景應用兩大方向。
(2)專用領域的智能化仍是發展核心
基于 GPU(圖形處理器)計算速度(每半年性能增加一倍)和基礎技術平臺的飛速發展,企業對于人工智能神經網絡的構建取得了前所未有的突破。但是,由于人工智能各領域技術和算法的復雜性,未來 20 年內人工智能的應用仍將集中于人臉和圖像識別、語音助手和智能家居等專用領域。
通過上述產業鏈環節構成和投資分類可以看出,優勢企業的核心競爭力主要集中于特定領域的專用技術研發;其中,計算機視覺和語音識別領域的研發和應用已處于國際一流水平,專業應用機器人的研發也有望近 10 年內迎來突破性發展。可以預見的是,在由專業領域向通用領域過渡的過程中,自然語言處理與計算機視覺兩個方向將會成為人工智能通用應用最大的兩個突破口。
(3)產業分工日漸明晰,企業合作大于競爭
隨著專用領域應用開發的成熟和差異化技術門檻的存在,國內人工智能產業將逐漸分化為底層基礎構建、通用場景應用和專用應用研發三個方向。
在底層基礎構建方面,騰訊、阿里巴巴、百度、華為等企業依托自身數據、算法、技術和服務器優勢為行業鏈條的各公司提供基礎資源支持的同時,也會將自身優勢轉化為通用和專業應用領域的研究,從而形成自身生態內的人工智能產業鏈閉環。
在通用場景應用方面,以科大訊飛、格靈深瞳和曠視科技為代表的企業將主要以計算機視覺和語音識別為方向,為安防、教育和金融等領域提供通用解決方案。而在專用應用研發方面則集中了大部分硬件和創業企業,這其中既包括以小米和 broadlink 為代表的智能家居解決方案商,也包含了出門問問、linkface 和優必選這類的差異化應用提供商。
總的來說,由通用領域向專業領域的進化離不開產業鏈條各核心環節企業的相互配合,專用領域的競爭盡管存在,但各分工層級間的協作互通已成為多數企業的共識。
(4)系統級開源將成為常態
任何一個人工智能研究分支都涉及到異常龐大的代碼計算,加上漏洞排查與跨領域交叉,任何一家企業都無法做到在封閉環境內取得階段性突破的可能。可以看到的趨勢是,Google、微軟、Facebook 和雅虎等視人工智能為未來核心競爭力的頂級企業都先后開放了自身的人工智能系統。
需要明確的一點是,開源并不代表核心技術和算法的完全出讓,底層系統的開源將會讓更多企業從不同維度參與到人工智能相關領域的研發,這為行業層面新產品的快速迭代和共同試錯提供了一個良性且規范化的共生平臺。于開放企業而言,這也確保了它們與行業最新前沿技術的同步。
(5)算法突破將拉開競爭差距
作為人工智能實現的核心,算法將成為未來國內人工智能行業最大的競爭門檻。以 Google 為例,Google 旗下的搜索算法實驗室每天都要進行超過 200 次的改進,以完成由關鍵字匹配到知識圖譜、語義搜索的算法創新。
在未來競爭的重點機器學習領域,監督學習、非監督學習和增強學習三個方面算法的競爭將進入白熱化階段。而正是算法層面的突破造就了騰訊優圖、科大訊飛和格靈深瞳等企業在圖像識別和計算機視覺領域取得了突破性進展和國際一線的技術水平。
但就目前國內人工智能算法的總體發展而言,工程學算法雖已取得階段性突破,但基于認知層面的算法水平還亟待提高,這也是未來競爭的核心領域。
總的來看,雖然基礎技術的成熟帶來了存儲容量和機器學習等人工智能技術的提升,但由于現階段運算能力以及大規模 CPU 和GPU 并行解決方案的局限,目前國內人工智能的發展主要集中于計算機視覺、語音識別、智能生活等方向上。
雖然專用化領域的場景應用仍是目前研發和投資的核心,但隨著技術、數據的積累演化以及超算平臺的應用,由專用化領域的場景應用向語音、視覺等領域的通用化解決方案應該在未來 20 年內成為發展的主流。
Abstract: Surface roughness is key indexes to evaluate surface quality. Surface quality has influence on service life and usability. Two basic measuring methods are introduced: contact measuring and non-contact measuring. Non-contact measuring method based on the computer vision technology is discussed in detail.
關鍵詞: 表面粗糙度;非接觸;光學測量
Key words: surface roughness;non-contact;optics measurement
中圖分類號:TH6文獻標識碼:A文章編號:1006-4311(2011)08-0050-02
0引言
隨著科學技術的進步和社會的發展,人們對于機械產品表面質量的要求越來越高。表面粗糙度是評價工件表面質量的一個重要指標,國內外很多學者在表面粗糙度檢測方面做了大量研究工作。目前測量表面粗糙度的主要方法有:接觸式測量和非接觸式測量。
1接觸式測量
接觸式測量就是測量裝置的探測部分直接接觸被測表面,能夠直觀地反映被測表面的信息,接觸式測量方法主要是觸針法,該方法經過幾十年的充分發展,以其穩定、可靠的特點被廣泛應用。但接觸式測量存在很大的缺陷,具體表現在:①對高精度表面及軟質金屬表面有劃傷破壞作用;②受觸針尖端圓弧半徑的限制,其測量精度有限;③因觸針磨損及測量速度的限制,無法實現在線實時測量[1]。
2非接觸式測量
為了克服接觸式測量方法的不足,人們對非接觸式測量方法進行了廣泛研究。研究表明,非接觸式測量方法具有非接觸、無損傷、快速、測量精度高、易于實現在線測量、響應速度快等優點。目前已有的非接觸式測量方法包括各種光學測量方法、超聲法、掃描隧道顯微鏡法、基于計算機視覺技術的表面粗糙度檢測方法等。這里我們只對基于光學散射原理的測量方法、基于光學干涉原理的測量方法和基于計算機視覺技術的測量方法做簡單介紹。
2.1 基于光學散射原理的測量方法當一束光以一定的角度照射到物體表面后,加工表面的粗糙不平將引起發生散射現象。研究表明:表面粗糙度和散射光強度分布有一定的關系。對于表面粗糙度數值較小的表面,散射光能較弱,反射光能較強;反之,表面粗糙度數值較大的表面,散射光能較強,反射光能較弱。
基于光學散射原理測量表面粗糙度的研究方法和理論較多。四川聯合大學和哈爾濱理工大學相繼提出了一種稱之為散射特征值的參數,表征被測物體表面上反射光和散射光的分散度,散射特征值與被測物體表面的粗糙度有很好的對應關系[2]。哈爾濱理工大學利用已知表面粗糙度參數值的標準樣塊測得其散射特征值,建立―關系曲線,從而實現利用散射特征值測量火炮內膛表面粗糙度[3]。
基于光學散射原理的表面粗糙度檢測方法,具有結構簡單、體積小、易于集成產品、動態響應好、適于在線測量等優點。該方法的缺點是測量精度不高,用于超光滑表面粗糙度的測量還有待進一步改進。
2.2 基于光學干涉原理的測量方法當相干光照射到工件表面同一位置時,由于光波的相互位相關系,將產生光波干涉現象。一般的干涉法測量是利用被測面和標準參考面反射的光束進行比較,對干涉條紋做適當變換,通過測量干涉條紋的相對變形來定量檢測表面粗糙度。該方法的測量精度取決于光的波長。但是由于干涉條紋的分辨率是以光波波長的一半為極限的,僅從條紋的狀態無法判斷表面是凸起還是凹陷,因此,作為一種具有較好分辨率、寬測量范圍的表面粗糙度在線檢測技術,這種干涉法測量技術還有待于進一步發展[4]。
基于光學干涉原理,1984年美國洛克西德導彈公司huang采用共模抑制技術研制成功了光學外差輪廓儀,光外差干涉檢測技術是一種具有納米級測量準確度的高精度光學測量方法,適用于精加工、超精加工表面的測量,而且可以進行動態時間的研究;華中理工大學采用光外差干涉方法研制出2D-SROP-1型表面粗糙度輪廓儀[5]。美國的維易科(VEECO)精密儀器有限公司,采用共光路干涉法研制了WYKO激光干涉儀和光學輪廓儀,可用來測量干涉條紋位相[6]。
基于光學干涉原理測量表面粗糙度分辨率高,適于測量超光滑表面粗糙度,但由于該方法的測量精度受光波波長的影響很大,所以其測量范圍受到一定影響。
2.3 基于計算機視覺技術的測量方法基于計算機視覺的粗糙度測量方法是指使用攝像機抓取圖像,然后將該圖像傳送至處理單元,通過數字化處理,根據像素分布和灰度、紋理、形狀、顏色等信息,選用合理的算法計算工件的粗糙度參數值。近年來,隨著計算機技術和工業生產的不斷發展,該方法受到越來越多的關注。
北京理工大學的王仲春等人采用顯微鏡對檢測表面進行放大,并通過對CCD采集加工表面微觀圖像進行處理實現了表面粗糙度的檢測[7]。哈爾濱理工大學吳春亞、劉獻禮等為解決機械加工表面粗糙度的快速、在線檢測,設計了一種表面粗糙度圖像檢測方法,建立了圖像灰度變化信息與表面粗糙度之間的關系模型[8]。英國學者Hossein Ragheb和Edwin R.Hancock通過數碼相機拍攝的表面反射圖來估計表面粗糙度參數,運用Vernold Harvey修正的B K散射理論模型獲得了比Oren Nayar模型更好的粗糙度估計結果[9]。澳大利亞學者Ghassan A.Al-Kindi和Bijan Shirinzadeh對基于顯微視覺的不同機械加工表面粗糙度參數獲取的可行性進行了評估,討論了照射光源與表面輻照度模型對檢測的影響,結果顯示盡管從視覺數據和觸針數據所獲得的粗糙度參數存在一定差異,但是基于視覺的方法仍是一種可靠的粗糙度參數估計方法[10-11]。
可以看出,基于計算機視覺技術的測量方法主要有統計分析、特征映射和神經網絡等黑箱估計法。通過這些方法獲得的表面粗糙度參數的估計值受諸多因素的影響,難以給出其準確的物理解釋。真正要定量地計算出粗糙度參數,需要科學的計算。
但是隨著機械加工自動化水平的提高,基于計算機視覺技術的檢測方法處理內容豐富、處理精度高、處理速度快、易于集成等優點將受到越來越多的重視。
3結束語
接觸式測量測量速度較慢,容易劃傷工件表面,并且不適用于連續生產材料表面的檢測。非接觸式測量具有無損傷、快速、測量精度高、易于實現在線測量等優點,已成為表面粗糙度檢測的重點研究方向。非接觸測量以光學法為主,隨著計算機技術和工業生產的迅猛發展,基于計算機視覺技術的表面粗糙度非接觸式檢測方法受到越來越多的重視。
參考文獻:
[1]劉斌,馮其波,匡萃方.表面粗糙度測量方法綜述[J].光學儀器,2004,26(5):54-55.
[2]苑惠娟等.非接觸式表面粗糙度測量儀[J].哈爾濱科學技術大學學報,1995,19(6):30-34.
[3]強熙富,張詠,許文海.擴展激光散射法測量粗糙度的測量范圍的研究[J].計量學報,1990,11(2):81-85.
[4]王文卓,李大勇,陳捷.表面粗糙度非接觸式測量技術研究概況[J].機械工程師,2004,11:6-9.
[5]王菊香.2D-SROP-1型表面粗糙度輪廓儀[J].工業計量,1994,(4):27-29.
[6]徐德衍等.光學表面粗糙度研究的進展與方向[J].光學儀器,1996,18(1):32-41.
[7]王仲春,高岳,黃粵熙等.顯微成像檢測表面粗糙度[J].光學技術,1998,5:46-48.
[8]吳春亞,劉獻禮,王玉景等.機械加工表面粗糙度的圖像檢測方法[J].哈爾濱理工大學學報,2007,12(3):148-151.
[9]Hossein Ragheb,Edwin R.Hancock.The modified Beckmann Kirchhoff scattering theory for rough surface analysis[J].Pattern Recognition,2007,40:2004-2020.
16歲那年,李飛飛跟隨父母來到美國。在國內,李飛飛的父母都有優越的工作。來到美國,因為語言上的障礙,一下子陷入了困境。懂事的李飛飛明白,想要改變現狀,她現在最需要的是過英語這關。
為了練習口語,李飛飛找到一家餐館打工。一開始老板不肯收她,原因是她不會說英語。她求餐館里的一個中國同胞幫她翻譯,老板給她開一半的工資就行。老板考慮之后答應先讓她干一個星期再看。李飛飛非常珍惜這份工作,干活特別賣力,她不錯過任何一個練習口語的機會。只要有人說話,她就跟著小聲說。
她很聰明,根據表情基本可以判斷出他們說話的內容,不懂的就找機會問。下班回家跟著電視繼續學,她把練習口語調到了瘋狂模式。一個星期之后,她已經會說些簡單的口語了。老板沒有解雇她,因為她的好學精神打動了老板。
李飛飛了解到申請在美國讀大學,如果成績十分優異,可以領取獎學金。她只要有空就復習功課,白天上班很辛苦,晚上很容易犯困。有時候困得眼睛快睜不開時,就用冰塊敷眼睛。每天到凌晨,父母再三催她去睡覺她才肯放下課本。經過一年的努力之后,她申請了多所大學,最終選擇了普林斯頓,因為這所大學給她近乎全額的獎學金。
大學期間,父母雙雙失業,家里的經濟出現危機。李飛飛只要有空就去做兼職,在餐廳洗過盤子,送過快餐。有個朋友知道她的處境,介紹她去給一家主人遛狗。她從小就害怕狗,但是為了不錯過這個賺錢的機會,她還是硬著頭皮答應了。第一次主人把一條身體強壯、氣勢強悍的羅威納犬牽到她面前時,她差點嚇哭了,不過還是強做鎮靜之后接過主人遞過來的狗鏈。
1999年,22歲的李飛飛一路磕磕絆絆以十分優異的成績從普林斯頓大學畢業。多家金融公司遞來了橄欖枝,包括高盛集團的offer。她卻做了一個讓大家意外的決定:到加州理工學院攻讀博士學位。
一天,李w飛看到孩子拿著幾張圖片辨認上面的物品,兩歲的孩子能正確地認出貓和狗,還有冰箱等。她突發奇想,如果電腦也可以跟人一樣自己辨別圖片上顯示的是什么,將會給人帶來很多方便。
2000年,李飛飛開始研究計算機視覺領域。她希望計算機看到一張圖片就像人的頭腦一樣能夠分析。她和同事為來自互聯網的十億張圖片進行分類、打標簽,從而為計算機提供樣本。其中理論基礎是如果機器觀察到足夠多的事物,它們就能夠在現實世界進行識別。在研究過程中,經費出現了問題,她傾其所有,甚至想過邊打工邊維持。讓她感到欣慰的是有三位恩師傾力指導,還有不少學生真心追隨。他們對她的專業素養高度肯定,甚至覺得整個CV領域因她而不同。
通過不懈努力,她在人工智能和計算機視覺方面取得成就。她的研究成果使得計算機能夠更好地理解圖片,而不僅限于展示圖片。這為無人車自動駕駛提供了可能,通過計算機學習人腦然后自動做出決定。
前不久,她的名為《如何教計算機理解圖片》的TED演講引起了許多人的關注。她也收獲了各種獎勵和榮譽。
關鍵詞:數據融合傳感器無損檢測精確林業應用
多傳感器融合系統由于具有較高的可靠性和魯棒性,較寬的時間和空間的觀測范圍,較強的數據可信度和分辨能力,已廣泛應用于軍事、工業、農業、航天、交通管制、機器人、海洋監視和管理、目標跟蹤和慣性導航等領域。筆者在分析數據融合技術概念和內容的基礎上,對該技術在林業工程中的應用及前景進行了綜述。
一、數據融合
1.1概念的提出
1973年,數據融合技術在美國國防部資助開發的聲納信號理解系統中得到了最早的體現。
70年代末,在公開的技術文獻中開始出現基于多系統的信息整合意義的融合技術。1984年美國國防部數據融合小組(DFS)定義數據融合為:“對多源的數據和信息進行多方的關聯、相關和綜合處理,以更好地進行定位與估計,并完全能對態勢及帶來的威脅進行實時評估”。
1998年1月,Buchroithner和Wald重新定義了數據融合:“數據融合是一種規范框架,這個框架里人們闡明如何使用特定的手段和工具來整合來自不同渠道的數據,以獲得實際需要的信息”。
Wald定義的數據融合的概念原理中,強調以質量作為數據融合的明確目標,這正是很多關于數據融合的文獻中忽略但又是非常重要的方面。這里的“質量”指經過數據融合后獲得的信息對用戶而言較融合前具有更高的滿意度,如可改善分類精度,獲得更有效、更相關的信息,甚至可更好地用于開發項目的資金、人力資源等。
1.2基本內容
信息融合是生物系統所具備的一個基本功能,人類本能地將各感官獲得的信息與先驗知識進行綜合,對周圍環境和發生的事件做出估計和判斷。當運用各種現代信息處理方法,通過計算機實現這一功能時,就形成了數據融合技術。
數據融合就是充分利用多傳感器資源,通過對這些多傳感器及觀測信息的合理支配和使用,把多傳感器在空間或時間上的冗余或互補信息依據某些準則進行組合,以獲得被測對象的一致性解釋或描述。數據融合的內容主要包括:
(1)數據關聯。確定來自多傳感器的數據反映的是否是同源目標。
(2)多傳感器ID/軌跡估計。假設多傳感器的報告反映的是同源目標,對這些數據進行綜合,改進對該目標的估計,或對整個當前或未來情況的估計。
(3)采集管理。給定傳感器環境的一種認識狀態,通過分配多個信息捕獲和處理源,最大限度地發揮其性能,從而使其操作成本降到最低。傳感器的數據融合功能主要包括多傳感器的目標探測、數據關聯、跟蹤與識別、情況評估和預測。
根據融合系統所處理的信息層次,目前常將信息融合系統劃分為3個層次:
(l)數據層融合。直接將各傳感器的原始數據進行關聯后,送入融合中心,完成對被測對象的綜合評價。其優點是保持了盡可能多的原始信號信息,但是該種融合處理的信息量大、速度慢、實時性差,通常只用于數據之間配準精度較高的圖像處理。
(2)特征層融合。從原始數據中提取特征,進行數據關聯和歸一化等處理后,送入融合中心進行分析與綜合,完成對被測對象的綜合評價。這種融合既保留了足夠數量的原始信息,又實現了一定的數據壓縮,有利于實時處理,而且由于在特征提取方面有許多成果可以借鑒,所以特征層融合是目前應用較多的一種技術。但是該技術在復雜環境中的穩健性和系統的容錯性與可靠性有待進一步改善。
(3)決策層融合。首先每一傳感器分別獨立地完成特征提取和決策等任務,然后進行關聯,再送入融合中心處理。這種方法的實質是根據一定的準則和每個決策的可信度做出最優的決策。其優點是數據通訊量小、實時性好,可以處理非同步信息,能有效地融合不同類型的信息。而且在一個或幾個傳感器失效時,系統仍能繼續工作,具有良好的容錯性,系統可靠性高,因此是目前信息融合研究的一個熱點。但是這種技術也有不足,如原始信息的損失、被測對象的時變特征、先驗知識的獲取困難,以及知識庫的巨量特性等。
1.3處理模型
美國數據融合工作小組提出的數據融合處理模型,當時僅應用于軍事方面,但該模型對人們理解數據融合的基本概念有重要意義。模型每個模塊的基本功能如下:
數據源。包括傳感器及其相關數據(數據庫和人的先驗知識等)。
源數據預處理。進行數據的預篩選和數據分配,以減輕融合中心的計算負擔,有時需要為融合中心提供最重要的數據。目標評估。融合目標的位置、速度、身份等參數,以達到對這些參數的精確表達。主要包括數據配準、跟蹤和數據關聯、辨識。
態勢評估。根據當前的環境推斷出檢測目標與事件之間的關系,以判斷檢測目標的意圖。威脅評估。結合當前的態勢判斷對方的威脅程度和敵我雙方的攻擊能力等,這一過程應同時考慮當前的政治環境和對敵策略等因素,所以較為困難。
處理過程評估。監視系統的性能,辨識改善性能所需的數據,進行傳感器資源的合理配置。人機接口。提供人與計算機間的交互功能,如人工操作員的指導和評價、多媒體功能等。
二、多傳感器在林業中的應用
2.1在森林防火中的應用
在用MODIS(ModerateResolutionImagingSpectroradiometer)數據測定森林火點時的20、22、23波段的傳感器輻射值已達飽和狀態,用一般圖像增強處理方法探測燃燒區火點的結果不理想。余啟剛運用數據融合技術,在空間分辨率為1000m的熱輻射通道的數據外加入空間分辨率為250m的可見光通道的數據,較好地進行了不同空間分辨率信息的數據融合,大大提高了對火點位置的判斷準確度。為進一步提高衛星光譜圖像數據分析的準確性與可靠性,利用原有森林防火用的林區紅外探測器網,將其與衛星光譜圖像數據融合,可以使計算機獲得GPS接收機輸出的有關信息通過與RS實現高效互補性融合,從而彌補衛星圖譜不理想的缺失區數據信息,大大提高燃燒區火點信息準確度和敏感性。
2.2森林蓄積特征的估計
HampusHolmstrom等在瑞典南部的試驗區將SPOT-4×S衛星數據和CARABAS-IIVHFSAR傳感器的雷達數據進行了融合,采用KNN(knearestneighbor)方法對森林的蓄積特征(林分蓄積、樹種組成與年齡)進行了估計。
KNN方法就是采用目標樣地鄰近k個(k=10)最近樣地的加權來估計目標樣地的森林特征。研究者應用衛星光譜數據、雷達數據融合技術對試驗區的不同林分的蓄積特征進行估計,并對三種不同的數據方法進行誤差分析。試驗表明,融合后的數據作出的估計比單一的衛星數據或雷達數據的精度高且穩定性好。
2.3用非垂直航空攝像數據融合GIS信息更新調查數據
森林資源調查是掌握森林資源現狀與變化的調查方法,一般以地面調查的方法為主,我國5年復查一次。由于森林資源調查的工作量巨大,且要花費大量的人力、物力和資金。國內外許多學者都在探索航空、航天的遙感調查與估計方法。
TrevorJDavis等2002年提出采用非垂直的航空攝影數據融合對應的GIS數據信息實現森林調查數據的快速更新,認為對森林資源整體而言,僅某些特殊地區的資源數據需要更新。在直升飛機側面裝上可視的數字攝像裝置,利用GPS對測點進行定位,對特殊地區的攝像進行拍攝,同時與對應的GIS數據進行融合,做出資源變化的估計或影像的修正。
試驗表明,融合后的數據可以同高分辨率矯正圖像相比,該方法花費少,精度高,能充分利用影像的可視性,應用于偏遠、地形復雜、不易操作、成本高的區域,同時可避免遙感圖像受云層遮蓋。
三、數據融合在林業中的應用展望
3.1在木材檢測中的應用
3.1.1木材缺陷及其影響
木材是天然生長的有機體,生長過程中不可避免地有尖削度、彎曲度、節子等生長缺陷,這些缺陷極大地影響了木材及其制品的優良特性,以及木材的使用率、強度、外觀質量,并限制了其應用領域。在傳統木制品生產過程中,主要依靠人的肉眼來識別木材缺陷,而木材板材表面缺陷在大小、形狀和色澤上都有較大的差異,且受木材紋理的影響,識別起來非常困難,勞動強度大,效率低,同時由于熟練程度、標準掌握等人為因素,可能造成較大的誤差。另外在集成材加工中,板材缺陷的非雙面識別嚴重影響了生產線的生產節拍。因此必須開發一種能夠對板材雙面缺陷進行在線識別和自動剔除技術,以解決集成材加工中節子人工識別誤差大、難以實現雙面識別、剔除機械調整時間長等問題。
3.1.2單一傳感器在木材檢測中的應用
對木材及人造板進行無損檢測的方法很多,如超聲波、微波、射線、機械應力、震動、沖擊應力波、快速傅立葉變換分析等檢測方法。超聲技術在木材工業中的應用研究主要集中在研究聲波與木材種類、木材結構和性能之間的關系、木材結構及缺陷分析、膠的固化過程分析等。
隨著計算機視覺技術的發展,人們也將視覺傳感器應用于木材檢測中。新西蘭科學家用視頻傳感器研究和測量了紙漿中的纖維橫切面的寬度、厚度、壁面積、壁厚度、腔比率、壁比率等,同時準確地測量單個纖維和全部纖維的幾何尺寸及其變化趨勢,能夠區分不同紙漿類型,測定木材纖維材料加固結合力,并動態地觀察木材纖維在材料中的結合機理。
新西蘭的基于視覺傳感器的板材缺陷識別的軟件已經產業化,該軟件利用數碼相機或激光掃描儀采集板材的圖像,自動識別板材節子和缺陷的位置,控制板材的加工。該軟件還具有進行原木三維模型真實再現的計算機視覺識別功能,利用激光掃描儀自動采集原木的三維幾何數據。
美國林產品實驗室利用計算機視覺技術對木材刨花的尺寸大小進行分級,確定各種刨花在板中的比例和刨花的排列方向;日本京都大學基于視覺傳感器進行了定向刨花板內刨花定向程度的檢測,從而可以通過調整定向鋪裝設備優化刨花的排列方向來提高定向刨花板的強度。
在制材加工過程中,利用計算機視覺技術在線實時檢測原木的形狀及尺寸,選擇最佳下鋸方法,提高原木的出材率。同時可對鋸材的質量進行分級,實現木材的優化使用;在膠合板的生產過程中,利用計算機視覺技術在線實時檢測單板上的各種缺陷,實現單板的智能和自動剪切,并可測量在剪切過程中的單板破損率,對單板進行分等分級,實現自動化生產過程。Wengert等在綜合了大量的板材分類經驗的基礎上,建立了板材分級分類的計算機視覺專家系統。在國內這方面的研究較少,王金滿等用計算機視覺技術對刨花板施膠效果進行了定量分析。
X射線對木材及木質復合材料的性能檢測已得到了廣泛的應用,目前該技術主要應用于對木材密度、含水率、纖維素相對結晶度和結晶區大小、纖維的化學結構和性質等進行檢測,并對木材內部的各種缺陷進行檢測。
3.1.3數據融合在木材檢測中的應用展望
單一傳感器在木材工業中已得到了一定程度的應用,但各種單項技術在應用上存在一定的局限性。如視覺傳感器不能檢測到有些與木材具有相同顏色的節子,有時會把木板上的臟物或油脂當成節子,造成誤判,有時也會受到木材的種類或粗糙度和濕度的影響,此外,這種技術只能檢測部分表面缺陷,而無法檢測到內部缺陷;超聲、微波、核磁共振和X射線技術均能測量密度及內部特征,但是它們不能測定木材的顏色和瑕疵,因為這些缺陷的密度往往同木板相同。因此,一個理想的檢測系統應該集成各種傳感技術,才能準確、可靠地檢測到木材的缺陷。
基于多傳感器(機器視覺及X射線等)數據融合技術的木材及木制品表面缺陷檢測,可以集成多個傳統單項技術,更可靠、準確地實時檢測出木材表面的各種缺陷,為實現木材分級自動化、智能化奠定基礎,同時為集裁除鋸、自動調整、自動裁除節子等為一身的新型視頻識別集成材雙面節子數控自動剔除成套設備提供技術支持。
3.2在精確林業中的應用
美國華盛頓大學研究人員開展了樹形自動分析、林業作業規劃等研究工作;Auburn大學的生物系統工程系和USDA南方林業實驗站與有關公司合作開展用GPS和其他傳感器研究林業機器系統的性能和生產效率。
目前單項的GPS、RS、GIS正從“自動化孤島”形式應用于林業生產向集成技術轉變。林業生產系統作為一個多組分的復雜系統,是由能量流動、物質循環、信息流動所推動的具有一定的結構和功能的復合體,各組分間的關系和結合方式影響系統整體的結構和功能。因此應該在計算機集成系統框架下,有效地融合GPS、GIS、RS等數據,解決這些信息在空間和時間上的質的差異及空間數據類型的多樣性,如地理統計數據、柵格數據、點數據等。利用智能DSS(決策支持系統)以及VRT(可變量技術)等,使林業生產成為一個高效、柔性和開放的體系,從而實現林業生產的標準化、規范化、開放性,建立基于信息流融合的精確林業系統。
南京林業大學提出了“精確林業工程系統”。研究包括精確林業工程系統的領域體系結構、隨時空變化的數據采集處理與融合技術、精確控制林業生產的智能決策支持系統、可變量控制技術等,實現基于自然界生物及其所賴以生存的環境資源的時空變異性的客觀現實,以最小資源投入、最小環境危害和最大產出效益為目標,建立關于林業管理系統戰略思想的精確林業微觀管理系統。
[參考文獻]
機器和人類、現實和科幻、邪惡和美好的分界從來沒有像今天這樣如此模糊。眺望未來30年,智能革命的壯闊波瀾,將改寫人類社會對智商的理解和定義。
從AlphaGo說起:Have to win
關于這場圍棋大賽,先引用一段博士老板Alan Yuille教授(美國頂級機器智能科學家,霍金理論物理學博士)的判斷:
Go is a complex game but still it is finite so with enough computer power,and clever algorithm,the computers will have to win(if not this year,then next year)。(圍棋是一套復雜但有內在邏輯和明確計算量的游戲,所以只要計算機遵循圍棋的推演路徑并擁有充裕的運算能力就必然能夠贏得人類、取得勝利,AlphaGo的勝利對于計算機而言只不過是時間問題。)
AlphaGo戰勝人類,美國學術界早有準備
伴隨著摩爾定律的不斷實現和幾十年來人工智能的軟硬件技術積累,人工智能其實已經悄然改變了我們生活中的許多方面,當我們還在感慨電影中各種AI的強大時,未來已經悄然而來,AlphaGo只是這場人工智能大浪潮中的一朵璀璨浪花。
在過去的5年里,人工智能已經在語音識別、計算機視覺、語言理解、醫療健康等領域取得了巨大進展,并在某些領域里超過了人類,比如語音識別、人臉識別等等方面。
以計算機視覺為例,人工智能已經發展出了突破肉眼精度的圖像識別技術并已被廣泛的應用于公安、金融、信息安全等領域,產生了巨大的價值。而這些進展之所以沒有引起社會轟動,是因為社會中大部分非專業人員會通過直覺和自身感受而推論出機器識別“人臉”、識別“蘋果”等圖像信息是一件容易的任務,是一件不同年齡、不同教育背景、不同文化背景的人都能勝任的任務,在這其中體現不出人工智能的“智能”來。
但站在人工智能發展的角度,從圍棋和圖像識別的復雜性和不確定型來說,圖像的變化比棋盤的變化要大得多。
圍棋是有可遵循的邏輯、可衡量的計算量的游戲,對于人類大腦的難度在于龐大的計算量和對棋盤宏觀形勢的敏感度;而圖像識別則會在信息抓取和邏輯分析層面呈現出更廣泛意義上的隨機性和不確定性。
通過機器學習將圖像中的信息進行分類解析、最終提取有價值的結構化數據是極難的科研課題,從學術界到工業界的轉化耗費了幾十年的時光。
然而相比于計算機視覺、語言語音理解等其他的進步,AlphaGo的劃時代意義在于它不僅僅縮短了機器與人的智能距離,還將顛覆人與人智商差異的感知。
未來人與人的智商差距不再會是不可彌補的先天差距,而將成為一種可以通過工具而后天獲取的能力,這帶來的會是人類自我價值評估的一次大顛覆,智商對于人的意義將會在一定程度上有所下降。這就像從前算術不好的,現在用計算器就能補上;未來下棋不好的,可能只是加個AlphaGo就能補上。“智商”這個詞的定義可能會被迫從形容人和動物差異,變成由人和機器的差異所定義。
第一個十年的變化:The rich get richer(富人更富,強者更強)
從短期來看,讓我們暢想一下在這場大浪潮中,誰會成為最大的受益者呢?
當我們回顧推動人工智能發展的關鍵因素時,有三個要素極為重要:數據、算法和計算。
AlphaGo這次在全社會范圍內對人工智能進行了一場大面積的認知普及,會使得擁有成熟商業模式和海量數據優勢的BAT等巨頭重金投入這片市場,彼此間的互相追趕將在市場中形成像google收購deep mind一樣的并購風潮。
同時伴隨著計算能力的不斷提升和算法的持續優化,這將帶來人工智能史上的第一次大規模應用實踐,各巨頭的業務將因為人工智能帶來的效率提升而加速拓展,他們相較其它競爭者的優勢也會因此不斷加大,這就正如今天的google相對于其他公司一樣。
當資本成為這場競逐游戲的驅動力時,獲得先發優勢的公司雪球也必將越滾越大,優勢將在成長中愈發明顯,The rich get richer。
未來的思考:人類將重新理解知識、智慧、人性
從遠期來看,人工智能的進步將改寫人類對自我、知識和教育的理解。
倘若,90%的醫生、律師、教師、程序員能被機器所代替,人們將需要重新開始討論“人”的自我定義和“知識”的新時代價值。
當舊時代下的知識已成為機器人僅需拷貝和執行的簡單命令,而“為什么要學法律、學編程等”的疑問及背后對自我價值的疑惑就必將引發社會教育結構的變革。
過往人與人之間通過知識組合的不同而形成的差異將被人工智能抹平,“高考”等考試測評手段作為廣義上的游戲(game),就像圍棋一樣,將不再能作為準確評價智慧和學識的方式而被修正。
當在體力勞動和腦力勞動里獨立的人類相對于機器都不再具備經濟優勢時,人的存在形態、存在價值和機器的交互融合將成為未來前沿學術研究的重要課題,這會是一次人類社會的集體迷思、也會是人類價值的再次追尋。
人類的希望?
有人曾說,機器和人的差異是藝術的創作和欣賞。但這對于人工智能而言,已經并不是什么特別難的事情,大概在10年前就已有成熟的學術成果來用計算機創作梵高風格的作品,在這背后的藝術風格提煉、學習和再造并不是什么新鮮的技術。
也有人說,機器和人的差異是情感。但我不確定現今的人類社會對情感的定義是否像對智商一樣,有著廣泛的共識而能成為人類獨特性的特征。情感誕生于本能和動物性,只是在人身上閃爍出了更加多彩的光芒,悲歡喜樂、嬉笑怒罵,這本就是人性中最難以捉摸而妙不可言的部分。
所以,機器和人的區別最終會是什么呢?在這個恐怕哲學家也難以回答的終極問題下,我想起了最近讀到的這樣一句話,“如果機器認為這場戰斗必敗,那么機器會選擇投降;如果人認為這場戰斗必敗,那么有人會選擇義無反顧的戰斗,直至戰死為止。”
或許,這句話里已經輕輕道出了我們與機器的區別。