前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的神經網絡情感分析主題范文,僅供參考,歡迎閱讀并收藏。
【關鍵詞】微博數據;神經網絡;電影票房;預測模型
1.引言
據2011年IDC的《Digital Universe Sduty》報告顯示,數據以每年超過50%的速度增長,全球信息總量每過兩年就會增長一倍。在眾多產生大數據的平臺中,Twitter、新浪和騰訊微博等使用簡單便捷、信息豐富、傳播速度快、更新迅速、影響范圍廣,新浪微博是中國微博產業的主導力量。
電影作為一種生存期短的商品,對其票房的預測難度較大,當前關于電影票房的研究較少。Kyung Jae Lee和Woojin Chang(1999)用貝葉斯網絡研究票房的影響因素,給出了預測模型[1]。Sharda R和Delen D(2006)利用影響電影票房的多個屬性,以多層神經網絡算法為基礎,提出一種電影票房分類模型[2]。Marshall P等(2013)提出使用電影歷史數據預測電影上映期間的累計觀眾數量,使用多元線性回歸算法預測第1周的觀眾人數,再用其預測后幾周的觀眾總數[3]。王錚和許敏(2013)基于Logit 模型的研究電影票房的影響因素發現明星和導演存在顯著的票房效應[4]。鄭堅和周尚波(2014)利用神經網絡算法,提出一種基于反饋神經網絡的電影票房預測模[5]。
電影上映前,主創人員會對電影進行微博宣傳,對電影有潛在消費欲望的網友會關注這些并評論和轉發。對粉絲數多的用戶,這是一種便宜、高效、傳播范圍廣且迅速的營銷方式。本文在此研究基礎上,嘗試利用神經網絡方法,基于微博數據對電影票房進行預測性研究。
2.相關數據收集和處理
2.1 確定數據指標
本文采用新浪微博的相關數據來對電影票房預測研究,選取電影主創的粉絲數,相關轉發量和評論量作為票房預測的指標體系(見圖1)。
因此,在對票房進行相關分析時提取以電影名稱為關鍵詞的相關主創的微博,統一選取電影主演1、主演2、導演的粉絲數、相關微博評論量、轉發量作為研究指標并收集數據。粉絲數、轉發量和評論量越大對票房的貢獻率越大。
圖1 電影票房預測的數據指標
2.2 數據收集
電影的微博營銷時間通常集中在上映之前和上映的幾周之內。為了使本文的研究結果得到驗證,本文選擇的2013年上映的45部電影研究,電影名稱見表1。
本文的數據收集流程見圖2:
(1)搜索電影名稱確定其導演和主要演員;
(2)查找主演和導演的個人認證微博中以電影名為關鍵詞對其原創和轉發的所有微博,收集其粉絲數量;
(3)收集有關電影所發微博的轉發數和評論數。
2.3 數據處理
在收集數據時會遇到幾個問題:
(1)有的電影主演沒有個人認證微博,其粉絲數和轉發數、評論數無法收集;
(2)有的電影主演的微博評論對粉絲關閉,只有互粉者可以評論;
(3)由于個人情感等原因,每部電影的相關轉發數和評論數差距較大。
鑒于以上問題,需要對采集到的數據進行預處理。
(1)對于沒開通微博的主演和導演,以和其影響力相同的微博賬戶來代替。
(2)對粉絲評論關閉的主演和導演,采用其的其他的微博轉發數和評論數來近似替代,并采取轉發數和評論數求均值來提高對比性。本文收集的電影的部分微博數據見表2、3。
表1 2013年上映的45部電影
序號 名稱 序號 名稱 序號 名稱 序號 名稱
1 西游降魔篇 13 不二神探 25 毒戰 37 神奇
2 致青春 14 廚子戲子痞子 26 非常幸運 38 控制
3 私人定制 15 無人區 27 逃出生天 39 在一起
4 狄仁杰 16 掃毒 28 天臺愛情 40 白狐
5 中國合伙人 17 盲探 29 激戰 41 我愛的是你愛我
6 警察2013 18 101次求婚 30 我想和你好好的 42 越來越好之村晚
7 北京遇上西雅圖 19 分手合約 31 等風來 43 意外的戀愛時光
8 小時代1 20 全民目擊 32 笑功震武林 44 一場風花雪月的事
9 風暴 21 四大名捕2 33 摩登年代 45 超級經紀人
10 富春山居圖 22 一夜驚喜 34 忠烈楊家將
11 小時代2 23 特殊身份 35 百星酒店
12 一代宗師 24 被偷走的那五年 36 宮鎖沉香
圖2 電影微博數據收集流程
表2 部分電影的微博數據
序號 名稱 主1粉絲(萬) 主1轉發量 主1評論量 主2粉絲(萬) 主2轉發量
1 西游降魔篇 5334 753 1392 2455 1673
2 致青春 515 4379 4539 4208 9436
3 私人定制 412 1226 2055 1809 287
4 狄仁杰 515 819 558 1484 1867
5 中國合伙人 2118 8276 2817 1476 2772
6 警察2013 2216 4461 4574 3759 3519
7 北京遇上西雅圖 516 2740 2833 556 5726
8 小時代1 2994 13201 12724 3335 7790
9 風暴 901 232 246 6687 2772
10 富春山居圖 901 232 246 556 5726
表3 電影的微博數據
序號 名稱 主2評論量 導演粉絲(萬) 導演轉發量 導演評論 票房
1 西游降魔篇 1979 1739 7060 5875 124603
2 致青春 7796 5712 2401 2109 71888
3 私人定制 173 1739 7060 5875 71210
4 狄仁杰 908 1 386 254 60036
5 中伙 1812 4 65 49 53857
6 警察2013 14724 4 324 72 53266
7 北京遇上西雅圖 1979 6 38 22 51967
8 小時代1 5160 3168 22310 8069 48409
9 風暴 1812 1 400 100 31452
10 富春山居圖 1979 1 400 100 30013
3.構建模型
3.1 研究工具
采用Spss Clementine12.0軟件的神經網絡節點構建模型。
3.2 構建神經網絡預測模型
微博收集的相關數據采用神經網絡來構建電影票房的相關預測模型,需要確定其輸入層、隱藏層和輸出層的神經元個數。神經網絡模型結構見圖3。神經網絡模型的輸入輸出變量名和數據類型見表4。
圖3 神經網絡模型結構
表4 神經網絡模型的輸入輸出變量名
圖4 完整的模型圖
4.實證分析
4.1 仿真實驗
利用微博平臺收集的有關45部電影的微博數據進行仿真實驗時,使用45個數據的66%作為訓練數據,34%作為測試數據,測試集和訓練集是采取隨機抽樣的方法得到的,這兩個部分的數據完全分離,沒有重復樣本。在實驗中,將訓練數據作為訓練集對模型進行訓練,使用測試集對模型進行測試。
將主1粉絲數、主1轉發數、主1評論量、主2粉絲數、主2評論量、主2轉發量、導演粉絲數、導演轉發量、導演評論量的方向設置為輸入,將票房設置為輸出。將神經網絡節點加入到模型中,設置神經網絡的隱藏層數和每層的神經元數。在神經網絡節點的專家選項中選擇兩個隱藏層,層1選擇6,層2選(下轉第16頁)(上接第13頁)擇2。基于神經網絡的完整模型見圖4。
4.2 結果分析
利用微博數據進行建模之后,得出變量重要性見表5。基于數據的分析,可知導演粉和主2粉對電影票房預測模型有著很高的貢獻率。如果某部電影導演的粉絲數、轉發量和評論量大大高于其他電影導演,那么導演的指標的貢獻率比主演的指標要高。在現實的電影票房中,小時代的導演郭敬明和致青春導演趙薇粉絲數、轉發量、評論量都遠超其他導演,票房也遠比其他電影高。
表5 變量的重要性
變量名 變量重要性 變量名 變量重要性 變量名 變量重要性
主2粉絲數 0.24 導演評論量 0.124 導演轉發量 0.041
導演粉絲數 0.183 主2轉發量 0.117 主1評論量 0.032
主2評論量 0.181 主1粉絲數 0.058 主1轉發量 0.025
經過神經網絡模型使用訓練集數據建模得到的模型的估計準確性為89.894%,即訓練集數據的擬合優度為90%,從模型預測的精準性來看,數據量的增多會提高模型的預測結果。
4.3 模型評估
使用訓練集數據建立基于神經網絡的電影票房預測模型之后,要使用測試集數據對模型預測性能進行評估。本文使用相同的測試集數據分別對電影票房的線性回歸模型和決策樹模型進行測試,來比對神經網絡的預測準確性。三種模型對測試集數據進行預測的平均相對誤差見表6,平均誤差見圖5。可知運用神經網絡預測模型具有良好的預測精確度。
表6 三種模型的平均相對誤差 %
方法 平均相對誤差
神經網絡 82.42
C&RT 94.07
線性回歸 104.55
圖5 三種模型的誤差對比圖
5.結束語
本文利用Spss Clementine中的神經網絡節點構建了電影票房的預測模型。通過結果分析得出電影票房與主演和導演粉、轉和評和電影票房的關系,并給出了具體的預測模型。其精確度為89.894%,平均誤差相對較小,具有一定的可信度。
但是,本文建模所用的電影數目為45個,進一步加大數據量可以提高模型的精確度,同時微博數據不局限于電影主創們的微博,還可以通過統計一定時間內以某部電影為關鍵詞所發微博總量等數據來預測電影票房,增加輸入神經元個數也能提高模型的準確性。下一步的研究可以將微博作為平臺,將微博中關于某部電影的情感分析加入到電影票房的預測中,也可進一步考慮微博轉發深度、評論活躍程度,以及相關微博數量隨電影上映日期臨近的變化趨勢等數據,這些都可以被有效的提煉為特征并加入到模型中。
參考文獻
[1]Ramya Neelamegham,Pradeep Chintagunta.A Bayesian Model to Forecast New Product Performance in Domestic and International Markets[J].Marketing Science,1999,18(2)115-136.
[2]Sharda R,Delen D.Predicting box-office success of motion pictures with neural networks[J].Expert Systems with Applications,2006,30(2):243-254.
[3]MarshallP,Dockendorff M,Ibanez S.A forecasting system for movie attendance[J].Journal of Business Research,2013,66(13):1800-1806.
【關鍵詞】微表情識別 卷積神經網絡 長短時記憶
1 引言
人們的內心想法通常都會表現在面部表情上,然而在一些極端環境下,人們為了壓抑自己的真實內心情感時,他們的面部變化十分微小,我們通常稱之為微表情。在刑偵、醫學、教育、心理和國防等領域上,微表情的應用前景十分遠大, 不過即便是經過訓練的人也很難用肉眼來準確的檢測和識別微表情。其主要原因就是它的持續時間短,僅為1/5~1/25s,而且動作幅度很小。
人臉表情識別技術早已發展到一定程度了,甚至不少研究團隊提出的方法針對6種基本表情的識別率已經達到90%。然而微表情識別技術的研究在近幾年來才剛剛開始,如Pfister等提出了一種結合時域插值模型和多核學習的方法來識別微表情; Wu等設計了一種使用Gabor特征和支持向量機的微表情識別系統;唐紅梅等在LTP做出改進而提出的MG-LTP算法,然后采用極限學習機對微表情進行訓練和分類;Wang等提出了基于判別式張量子空間分析的特征提取方法,并利用極限學習機訓練和分類微表情。
上述的識別技術都是基于傳統機器學習的方法,而近幾年來,利用深度學習技術來解決圖像識別問題是當前的研究熱點。在ILSVRC-2012圖像識別競賽中,Krizhevsky等利用深度卷積神經網絡的自適應特征提取方法,其性能遠遠超過使用人工提取特征的方法,并且在近幾年內的ImageNet大規模視覺識別挑戰比賽中連續刷新了世界紀錄。
本文決定使用卷積神經網絡(CNN)來提取人臉微表情特征,它能讓機器自主地從樣本數據中學習到表示這些微表情的本質特征,而這些特征更具有一般性。由于微表情的特性,要充分利用微表情的上下文信息才能更為精確的識別微表情,這里我們采用長短時記憶網絡(LSTM),它是遞歸神經網絡(RNN)中的一種變換形式,它能夠充分的利用數據的上下文信息,在對序列的識別任務中表現優異,近幾年來它被充分的利用到自然語言處理、語音識別機器翻譯等領域。綜上所述,本文提出一種CNN和LSTM結合的微表情識別方法。
2 相關工作
2.1 卷積神經網絡模型
卷積神經網絡模型(CNN)最早是由LeCun等在1990年首次提出,現已在圖像識別領域取得巨大成功,它能夠發現隱藏在圖片中的特征,相比人工提取的特征更具有區分度,而且不需要對原始數據做過多的預處理。
卷積神經網絡(CNN)通過三種方式來讓網絡所學習到的特征更具有魯棒性:局部感受野、權值共享和降采樣。局部感受野是指每一個卷積層的神經元只能和上一層的一部分神經元連接,而不是一般神經網絡里所要求的全連接,這樣每一個神經元能夠感受到局部的視覺特征,然后在更高層將局部信息進行整合,進而得到整個圖片的描述信息。權值共享是指每一個神經元和上一層的部分神經元所連接的每一條邊的權值,和當前層其他神經元和上一層連接的每一條邊的權值是一樣的,首先@樣減少了需要訓練的參數個數,其次我們可以把這種模式作為提取整個圖片特征的一種方式。降采樣是指通過將一定范圍內的像素點壓縮為一個像素點,使圖像縮放,減少特征的維度,通常在卷積層之后用來讓各層所得到的特征具有平移、縮放不變形,從而使特征具有更強的泛化性。
2.2 長短時記憶型遞歸神經網絡模型
長短時記憶(LSTM)模型是由Hochreiter提出,它解決了傳統RNN在處理長序列數據時存在的梯度消失問題,這一切都要歸結于LSTM結構的精心設計。一個常規的LSTM結構如圖1所示。
每一個LSTM結構都有一個記憶單元Ct(t表示當前時刻),它保存著這個時刻LSTM結構的內部狀態,同時里面還有三個門來控制整個結構的變化,它們分別是輸入門(xt),忘記門(ft)和輸出門(ht),它們的定義如下所示:
(1)
(2)
(3)
(4)
(5)
(6)
其中σ是一個sigmod函數,而則表示輸入數據的非線性變化,W和b是模型需要訓練得到的參數。等式5展示了當前的記憶單元是由忘記門和上一時刻的內部狀態所控制的,ft決定了上一時刻的內部狀態對當前時刻的內部狀態的影響程度,而it則確定了輸入數據的非線性變換得到的狀態對當前時刻記憶單元的影響程度。等式6展示了輸出門和當前時刻的內部狀態決定了該LSTM的輸出。正因為這個巧妙的設計,LSTM就能處理長序列的數據,并且能夠從輸入序列中獲取時間上的關聯性,這一特性對于微表情的識別尤為重要。
3 網絡結構調優和改進
3.1 卷積神經網絡設計
本文針對輸入大小為96×96的灰度圖,構建了4個卷積層(C1,C2,C3,C4),4個池化層(S1,S2,S3,S4),1個全連接層(FC1)和1個Softmax層組成的卷積神經網絡結構,如圖2所示。卷積核(C1,C2,C3,C4)的大小分別為3×3,3×3,5×5,5×5,分別有32,32,32,64個。池化層的降采樣核大小均為2×2,并且全部采用的是最大采樣,每一個池化層都在對應的卷積層之后,而在所有的卷積層之后,連接了一個包含256個神經元的全連接層,為了盡可能的避免過擬合問題,本文在全連接層后加入一個p=0.75的Dropout層,除了softmax層,其余層的激活函數全部是采用ReLU,CNN的參數訓練都是采用隨機梯度下降算法,每一批次包含100張圖片,并設置沖量為0.9,學習速率為0.001。
3.2 長短時記憶型遞歸神經網絡設計
盡管CNN已經從人臉微表情圖片從學習到了特征,但是單一的CNN模型忽略了微表情在時域上的信息。于是我們提出通過LSTM來學習不同人臉表情在時域上的關聯特征。我們構建了多個LSTM層,以及一個softmax層。
我們首先先訓練好CNN的參數,然后把訓練好的CNN模型,作為一個提取人臉微表情的工具,對于每一幀圖片,我們把最后一個全連接層的256維的向量輸出作為提取的特征。那么給定一個時間點t,我們取之前的W幀圖片([t-W+1,t])。然后將這些圖片傳入到訓練好的CNN模型中,然后提取出W幀圖片的特征,如果某一個序列的特征數目不足,那么用0向量補全,每一個特征的維度為256,接著將這些圖片的特征依次輸入到LSTM的節點中去,只有t時刻,LSTM才會輸出它的特征到softmax層。同樣LSTM網絡的參數訓練還是采用隨機梯度下降算法,每一批次為50個序列,沖量為0.85,學習速率為0.01。
4 實驗
4.1 微表情數據集
該實驗的訓練數據和測試數據均來自于中國科學院心理研究所傅小蘭團隊的第2代改進數據庫CASMEII。該數據庫從26名受試者中捕捉到近3000個面部動作中選取的247個帶有微表情的視頻,并且給出了微表情的起始和結束時間以及表情標簽,由于其中悲傷和害怕表情的數據量并不多,因此本文選取了里面的5類表情(高興,惡心,驚訝,其他,中性),由于數據庫中的圖片尺寸不一樣并且是彩色圖片,因此先將圖片進行灰度處理,并歸一化到 大小作為網絡的輸入。本實驗采用5折交叉驗證的方法,選取245個微表情序列等分成5份,每個序列的圖片有10張到70張不等,每份均包含5類表情。
4.2 CNN+LSTM和CNN的對比實驗
從圖2中可以看出不同策略在五類表情里的識別率。當我們采用單一的CNN模型來對人臉微表情進行分類時,我們采取了dropout策略和數據集擴增策略來防止CNN過擬合。CNN+D表示采取了dropout策略的CNN模型,CNN+A表示采取了數據擴增策略的CNN模型, 即對每一張圖片進行了以下四種變換:旋轉、水平平移、垂直平移、水平翻轉。從而能將數據集擴增至4倍。CNN+AD表示采取了兩種策略的CNN模型。CNN+LSTM表示結合了CNN和LSTM的網絡模型。
從表1中我們可以看出,添加了策略的CNN,在人微表情識別上的表現要好于沒有添加策略的CNN,這可能是因為訓練圖片較少,而CNN網絡層次較深,導致沒有添加策略的CNN在訓練參數的過程中很容易就過擬合了。而對于CNN+LSTM的表現要好于單一的CNN模型,這說明LSTM的確能夠充分利用時域上的特征信息,從而能夠更好識別序列數據,這證明了CNN+LSTM的模型可以用于識別人臉微表情的可行性。從表1中,我們還可以看出高興和驚訝的表情識別率較高,而其他的則相對較低,這可能是因為高興和驚訝的區分度較大,并且樣本較多。
4.3 LSTM的參數調整
下面我們逐一的研究不同參數對CNN+LSTM模型的微表情識別率的影響程度。
圖4顯示輸入的序列個數為100左右能夠擁有相對較高的準確率,這說明只有充分利用每一個微表情序列的時域信息,這樣,訓練出的模型才更加具有一般性。
圖5顯示出當LSTM隱層的神經元個數為128時,此時的微表情平均識別率最高,這說明隱層需要足夠多的神經元才能保留更長的時域信息,對于微表情識別來說,能夠擁有更高的精度。
圖6顯示了LSTM隱層的個數為5時,該模型擁有最好的識別率,這說明較深的LSTM網絡才能充分挖掘特征的時域信息。因此經過以上實驗,我們得到了一個由5層LSTM,每一層包含128個神經元,并能夠處理長度為100的特征序列的模型。
4.4 和非深度學習算法的實驗對比
為了比較傳統機器學習算法和深度學習算法孰優孰劣,我們使用傳統機器學習算法在Casme2進行了一樣的實驗,從表2中可以看出,本文所提出的CNN+LSTM模型相對于這些傳統機器學習模型,有著較為優異的表現。
本文中的實驗均是基于Google的開源機器學習庫TensorFlow上進行的,硬件平臺是dell工作站:Intel(R) Core(TM) i7-5820K CPU、主頻3.3GHZ,內存64GB、Nvida GeForce GTX TITAN X GPU、顯存12GB。
5 結束語
本文針對傳統方法對微表情識別率低,圖片預處理復雜的情況,提出了采用卷積神經網絡和遞歸神經網絡(LSTM)結合的方式,通過前面的卷積網絡層來提取微表情的靜態特征,省去了傳統機器學習方法,需要人工提取特征的過程,簡化了特征提取的工作。然后再通過后面的遞歸神經網路,充分利用表情特征序列的上下文信息,從而在序列數據中發現隱藏在其中的時域信息,從實驗結果中可以看出,利用了時域信息的CNN+LSTM比單純使用CNN的識別率更高,而且相對于傳統機器學習方法也更為優秀。但是當數據量越大時,如果網絡的層次比較深的話,模型的訓練時間就會很長,并且極度依賴硬件設備,這算是深度學習通有的弊病。為了進一步投入到應用中去,接下來還得提高微表情的識別率,以及在實時環境下,如何能夠動態和準確的識別微表情,這些都將會是以后研究的重點。
參考文獻
[1]PORTER S,TEN BRINKE L.Reading between the Lies Identifying Concealed and Falsified Emotions in Universal Facial Expressions[J].Psychological Science,2008,19(05):508-514.
[2]Pfister T,Li X,Zhao G,Pietikainen M (2011) Recognising spontaneous facial micro-expressions.2011 Proc IEEE Int Conf Comput Vis (ICCV): IEEE.pp.1449-1456.
[3]Wu Q,Shen X,Fu X (2011) The Machine Knows What You Are Hiding: An Automatic Micro-expression Recognition System.In: D’Mello S,Graesser A,Schuller B,Martin J-C,editors.Affect Comput Intell Interact.Springer Berlin/ Heidelberg. pp.152-162.
[4]唐紅梅,石京力,郭迎春,韓力英,王霞. 基于MG-LTP與ELM的微表情識別[J].電視技術,2015,39(03):123-126.
[5]WANG S J,CHEN H L,YAN W J,et al. Face Recognition and Micro-Expression Recognition Based on Discriminant Tensor Subspace Analysis Plus Extreme Learning Machine[J].Neural Processing Letters,2014,39(01):25-43.
[6]Krizhevsky A,Sutskever I,Hinton G E.ImageNet classification with deep convolutional neural networks. In:Advances in Neural Information Processing Systems 25.Lake Tahoe, Nevada,USA:Curran Associates,Inc., 2012.1097?1105
[7]DENG J,DONG W,SOCHER R,et al.Imagenet:A large-scale hierarchical image database [C]//IEEE Conference on Computer Vision and Pattern Recognition.Piscataway,NJ:IEEE,2009:248-255.
[8]BENGIO Y,DELALLEAU O.On the expressive power of deep archi-tectures[C]//Proc of the 14th International Conference on Discovery Science.Berlin:Springer-Verlag,2011:18-36.
[9]LeCun Y,Boser B,Denker J S,Howard R E,Hubbard W,Jackel L D,Henderson D.Handwritten digit recogni- tion with a back-propagation network. In: Proceedings of Advances in Neural Information Processing Systems 2. San Francisco,CA,USA:Morgan Kaufmann Publishers Inc.,1990.396-404.
[10]S可.卷積神經網絡在圖像識別上的應用研究[D].杭州:浙江大學[學位論文],2012.
[11]Hochreiter S,Sehmidhuber J.Long Short-Term Memory.Neural Computation,1997,9(08):1735-1780
[12]LUCEY P,COHN J F,KANADE T,et al.The Extended Cohn-Kanade Dataset ( CK + ): A complete dataset for ac- tion unit and emotion-specified expression [C] //IEEE Computer Society Conference on Computer Vision and Pattern Recognition Workshops (CVPRW).New York:IEEE,2010:94-101.
[13]Dayan P,Abott L F.Theoretical Neuroscience.Cambridge:MIT Press, 2001.
[14]YAN W J, LI X, WANG S J, et al. CASME II: An Improved Spontaneous Micro-Expression Database and the Baseline Evaluation [J].Plos One, 2014,9(01):1-8.
[15]Yandan Wang,John See,Raphael C-W Phan,Yee-Hui Oh. Efficient Spatio-Temporal Local Binary Patterns for Spontaneous Facial Micro-Expression Recognition[J].PLOS ONE,2013,10(05): 11-12
[16]張軒閣,田彥濤,郭艷君,王美茜.基于光流與LBP-TOP特征結合的微表情識別[J].吉林大學學報:信息科學版, 2015,33(05):521-522.
[17]Martín Abadi, Paul BarhamJianmin, Chen el.TensorFlow:Large-Scale Machine Learning on Heterogeneous Distributed Systems[EB/OL].https:///abs/1605.08695.
關鍵詞:人機大戰;人工智能;發展前景
中圖分類號:TP391 文獻標識碼:A
0.引言
2016年3月15日,備受矚目的“人機大戰”終于落下帷幕,最終Google公司開發的“AlphaGo”以4∶1戰勝了韓國九段棋手李世h。毫無疑問,這是人工智能歷史上一個具有里程碑式的大事件。大家一致認為,人工智能已經上升到了一個新的高度。
這次勝利與1997年IBM公司的“深藍”戰勝國際象棋世界冠軍卡斯帕羅不同。主要表現在兩個方面:
(1)AlphaGo的勝利并非僅僅依賴強悍的計算能力和龐大的棋譜數據庫取勝,而是AlphaGo已經擁有了深度學習的能力,能夠學習已經對弈過的棋盤,并在練習和實戰中不斷學習和積累經驗。
(2)圍棋比國際象棋更加復雜,圍棋棋盤有361個點,其分支因子無窮無盡,19×19格圍棋的合法棋局數的所有可能性是冪為171的指數,這樣的計算量相當巨大。英國圍棋聯盟裁判托比表示:“圍棋是世界上最為復雜的智力游戲,它簡單的規則加深了棋局的復雜性”。因此,進入圍棋領域一直被認為是目前人工智能的最大挑戰。
簡而言之,AlphaGo取得勝利的一個很重要的方面就是它擁有強大的“學習”能力。深度學習是源于人工神經網絡的研究,得益于大數據和互聯網技術。本文就從人工智能的發展歷程與現狀入手,在此基礎上分析了人工智能的未來發展前景。
1.人工智能的發展歷程
AlphaGo的勝利表明,人工智能發展到今天,已經取得了很多卓越的成果。但是,其發展不是一帆風順的,人工智能是一個不斷進步,并且至今仍在取得不斷突破的學科。回顧人工智能的發展歷程,可大致分為孕育、形成、暗淡、知識應用和集成發展五大時期。
孕育期:1956年以前,數學、邏輯、計算機等理論和技術方面的研究為人工智能的出現奠定了基礎。德國數學家和哲學家萊布尼茨把形式邏輯符號化,奠定了數理邏輯的基礎。英國數學家圖靈在1936年創立了自動機理論(亦稱圖靈機),1950年在其著作《計算機與智能》中首次提出“機器也能思維”,被譽為“人工智能之父”。總之,這些人為人工智能的孕育和產生做出了巨大的貢獻。
形成期:1956年夏季,在美國達特茅斯大學舉辦了長達2個多月的研討會,熱烈地討論用機器模擬人類智能的問題。該次會議首次使用了“人工智能”這一術語。這是人類歷史上第一次人工智能研討會,標志著人工智能學科的誕生。其后的十幾年是人工智能的黃金時期。在接下來的幾年中,在眾多科學家的努力下,人工智能取得了矚目的突破,也在當時形成了廣泛的樂觀思潮。
暗淡期:20世紀70年代初,即使最杰出的AI程序也只能解決問題中最簡單的部分,發展遇到瓶頸也就是說所有的AI程序都只是“玩具”,無法解決更為復雜的問題。隨著AI遭遇批評,對AI提供資助的機構也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。
知識應用期:在80年代,“專家系統”(Expect System)成為了人工智能中一個非常主流的分支。“專家系統”是一種程序,為計算機提供特定領域的專門知識和經驗,計算機就能夠依據一組從專門知識中推演出的邏輯規則在某一特定領域回答或解決問題。不同領域的專家系統基本都是由知識庫、數據庫、推理機、解釋機制、知識獲取等部分組成。
集成發展期:得益于互聯網的蓬勃發展、計算機性能的突飛猛進、分布式系統的廣泛應用以及人工智能多分支的協同發展,人工智能在這一階段飛速發展。尤其是隨著深度學習和人工神經網絡研究的不斷深入,人工智能在近幾十年中取得了長足的進步,取得了令人矚目的成就。
人工智能發展到今天,出現了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個里程碑。當前人工智能的研究熱點主要集中在自然語言處理、機器學習、人工神經網絡等領域。
2.人工智能l展現狀與前景
人工智能當前有很多重要的研究領域和分支。目前,越來越多的AI項目依賴于分布式系統,而當前研究的普遍熱點則集中于自然語言處理、機器學習和人工神經網絡等領域。
自然語言處理:自然語言處理(Natural Language Processing,簡稱NLP),是語言學與人工智能的交叉學科,其主要功能就是實現讓機器明白人類的語言,這需要將人類的自然語言轉化為計算機能夠處理的機器語言。
自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對自然語言中句子的結構、語法進行分析如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個段落的上下文分析,辨別一些字詞在不同的上下文定的語義和情感態度。
當前自然語言的處理主要有兩大方向。一種是基于句法-語義規則的理性主義理論,該理論認為需要為計算機制定一系列的規則,計算機在規則下進行推理與判斷。因此其技術路線是一系列的人為的語料建設與規則制定。第二種是基于統計學習的經驗主義理論,這種理論在最近受到普遍推崇。該理論讓計算機自己通過學習并進行統計推斷的方式不停地從數據中“學習”語言,試圖刻畫真實世界的語言現象,從數據中統計語言的規律。
機器學習:機器學習(Machine Learning)是近20年來興起的人工智能一大重要領域。其主要是指通過讓計算機在數據中自動分析獲得規律,從而獲取“自我學習”的能力,并利用規律對未知數據進行判斷和預測的方法。
機器學致可以分為有監督的學習和無監督的學習。有監督的學習是從給定的訓練數據集中練出一個函數和目標,當有新的數據到來時,可以由訓練得到函數預測目標。有監督的學習要求訓練集同時有輸入和輸出,也就是所謂的特征和目標。而依據預測的結果是離散的還是連續的,將有監督的學習分為兩大問題,即統計分類問題和回歸分析問題。統計分類的預測結果是離散的,如腫瘤是良性還是惡性等;而回歸分析問題目標是連續的,如天氣、股價等的預測。
無監督學習的訓練集則沒有人為標注的結果,這就需要計算機去發現數據間的聯系并用來分類等。一種常見的無監督學習是聚類分析(Cluster Analysis),它是將相似的對象通過靜態分類的方法分成不同的組別或者是特定的子集,讓同一個子集中的數據對象都有一些相似的屬性,比較常用的聚類方法是簡潔并快速的“K-均值”聚類算法。它基于K個中心并對距離這些中心最近的數據對象進行分類。
機器學習還包括如半監督學習和增強學習等類別。總而言之,機器學習是研究如何使用機器來模擬人類學習活動的一門學科,而其應用隨著人工智能研究領域的深入也變得越來越廣泛,如模式識別、計算機視覺、語音識別、推薦算法等領域越來越廣泛地應用到了機器學習中。
人工神經網絡:在腦神經科學領域,人們認為人類的意識及智能行為,都是通過巨大的神經網絡傳遞的,每個神經細胞通過突出與其他神經細胞連接,當通過突觸的信號強度超過某個閾值時,神經細胞便會進入激活狀態,向所連接的神經細胞一層層傳遞信號。于1943年提出的基于生物神經元的M-P模型的主要思想就是將神經元抽象為一個多輸入單輸出的信息處理單元,并通過傳遞函數f對輸入x1,x2…,xn進行處理并模擬神經細胞的激活模式。主要的傳遞函數有階躍型、線性型和S型。
在此基礎上,對神經網絡算法的研究又有諸多進展。日本的福島教授于1983年基于視覺認知模型提出了卷積神經網絡計算模型。通過學習訓練獲取到卷積運算中所使用的卷積系數,并通過不同層次與自由度的變化,可以得到較為優化的計算結果。而AlphaGo也正是采用了這種深度卷積神經網絡(DCNN)模型,提高了AlphaGo的視覺分類能力,也就是所謂的“棋感”,增強了其對全盤決策和把握的能力。
3.人工智能的發展前景
總體來看,人工智能的應用經歷了博弈、感知、決策和反饋這幾個里程碑。在以上4個領域中,既是縱向發展的過程,也是橫向不斷改進的過程。
人工智能在博弈階段,主要是實現邏輯推理等功能,隨著計算機處理能力的進步以及深度學習等算法的改進,機器擁有了越來越強的邏輯與對弈能力。在感知領域,隨著自然語言處理的進步,機器已經基本能對人類的語音與語言進行感知,并且能夠已經對現實世界進行視覺上的感知。基于大數據的處理和機器學習的發展,機器已經能夠對周圍的環境進行認知,例如微軟的Kinect就能夠準確的對人的肢體動作進行判斷。該領域的主要實現還包括蘋果的Siri,谷歌大腦以及無人駕駛汽車中的各種傳感器等。在以上兩個階段的基礎上,機器擁有了一定的決策和反饋的能力。無人駕駛汽車的蓬勃發展就是這兩個里程碑很好的例證。Google的無人駕駛汽車通過各種傳感器對周圍的環境進行感知并處理人類的語言等指令,利用所收集的信息進行最后的決策,比如操作方向盤、剎車等。
人工智能已經滲透到生活中的各個領域。機器已經能識別語音、人臉以及視頻內容等,從而實現各種人際交互的場景。在醫學領域,人工智能可以實現自動讀片和輔助診斷以及個性化t療和基因排序等功能。在教育領域,機器也承擔了越來越多的輔助教育,智能交互的功能。在交通領域,一方面無人車的發展表明無人駕駛是一個可以期待的未來,另一方面人工智能能夠帶來更加通暢和智能的交通。另外人工智能在安防、金融等領域也有非常廣闊的發展前景。總之,人工智能在一些具有重復性的和具備簡單決策的領域已經是一種非常重要的工具,用來幫助人們解決問題,創造價值。
參考文獻
[1]阮曉東.從AlphaGo的勝利看人工智能的未來[J].新經濟導刊,2016 (6):69-74.
關鍵詞:圖像;情感;視覺特征;對應關系;分類
中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2011)21-5231-02
圖像中蘊含著情感信息,如何有效地模擬人觀察圖像后引起的情感感覺,實現基于語義的圖像檢索,是一個熱點且有挑戰性的課題。過去的圖像語義分析中,大都是根據圖像的低層特征簡單的語義分類,很少涉及情感語義范疇;目前的研究中多是提取圖像的低層視覺特征并建立特征與情感的對應以實現圖像情感分類。
圖像情感語義分類的關鍵是如何提取有效表達圖像情感的視覺特征,并根據視覺特征與高階語義的對應關系,選擇合適的分類算法。當前研究中一般選擇某一類圖像,如服裝圖像、天氣圖像等,在提取圖像的視覺特征中大都采用某一個視覺特征或者組合兩個視覺特征,高層語義分類一般是一對相反的形容詞,如服裝圖像為“優雅”的和“俗麗”的,天氣圖像為“喜歡”的和“厭惡”的等,通常采用神經網絡和支持向量機等方法進行分類。
1 圖像的主要視覺特征
1.1 顏色特征
顏色特征是一種全局特征,有多種提取方法,可以分為兩大類:一是提取全局顏色信息的顏色特征;二是提取局部顏色信息的顏色特征。
在提取顏色特征中顏色直方圖是常用的有效方法,它反映了不同色彩在圖像中的比例。數字圖像大部分是基于RGB顏色空間的,但RGB空間結構在顏色相似性上與人們的主觀判斷不一致,所以多選擇基于HSV等空間的顏色直方圖[1]。
1.2 紋理特征
紋理特征也是一種全局特征,常用的特征提取與匹配方法:灰度共生矩陣、Tamura紋理特征、Gabor小波變換等。
灰度共生矩陣主要提取能量、慣量、熵和相關性4個參數;Tamura 紋理特征主要用粗糙度、對比度、方向度、線像度、規整度和粗略度6種屬性表示;Gabor變換用Gabor核函數與樣本卷積,分別提取數據的均值和方差作為特征數據,獲得原圖在不同頻率和相位下的小波系數,使每個樣本得到一個多維特征向量用于分類[2]。
1.3 形狀特征
形狀特征是圖像的一個重要特征,常用兩類方法表示,一是輪廓特征,二是區域特征。輪廓特征針對的是物體的外邊界,區域特征則是整個形狀區域。常用來描述形狀特征的方法有:邊界特征法、傅里葉形狀描述符、幾何參數法、不變矩法等。
邊界特征法用邊界特征的描述得到圖像的形狀參數,經典方法有Hough變換檢測平行直線和邊界方向直方圖;傅里葉形狀描述符采用物體邊界的傅里葉變換描述形狀;幾何參數法是描述區域特征方法;不變矩法利用目標所占區域的矩描述參數。
2 情感空間的建立
圖像情感語義的提取,是將圖像映射到一個情感空間,每個圖像對應著情感空間的一個點,每個點代表某種情感的描述,這樣點之間的距離對應著圖像的情感距離,即把觀察圖像后感受到的情感信息用語義描述,并定量比較。
根據實際情況,常構造一些簡化的情感空間模型。Colombo等建立的是圖像到愉快、緊張、放松、動感這幾個基本情感的映射[3];毛峽等根據1/f波動理論,主要討論了圖像中和諧舒適、雜亂、單調三類情感感覺[4]。
目前獲得人們對圖像主觀情感的方法,多采用調查法,即選擇盡可能多的不同年齡、背景、文化程度等的人對圖像進行情感描述。
3 圖像情感分類識別
目前常用的是基于人工神經網絡分類方法和基于支持向量機的分類方法。
3.1 人工神經網絡
人工神經網絡用計算機模擬生物機制,它不用對事物內部機制很了解,系統的輸出由輸入和輸出之間的連接權決定,連接權是通過對訓練樣本的學習獲得的。比較有代表性的網絡模型有感知器、多層前饋BP網絡、RBF網絡等。
3.2 支持向量機
支持向量機的基礎是統計學習理論,設計原則是結構風險最小化,針對的是有限樣本的一種機器學習算法,它的優勢是在解決模型選擇與過學習問題、非線性與維數災難問題、局部極小值問題等問題上很有效,基本原理是通過非線性變換把輸入空間變換到高維空間,然后在新空間中獲得最優或是廣義最優線性分類面。
4 總結與展望
圖像的情感語義研究是一個較新的研究方向,對這個領域的研究還不多,很多問題研究的還不夠深入。目前的研究存在的局限主要有:一是圖像的選取比較單一,只能分類描述同一事物的圖像,如天氣、衣服圖像;二是反映圖像情感的視覺特征比較少,多是用顏色特征描述情感,用紋理和形狀描述情感還不多,將多種視覺特征融合起來更少;三是對圖像的情感分類比較少,多是二分類,少有多種分類的研究,而一幅圖像蘊含著多種情感,一對或較少的形容詞并不能有效反映圖像的情感。今后圖像情感的分類要在以下幾方面多做研究:一是擴大圖像的選擇范圍;二是有效選擇融合盡可能多的視覺特征;三是豐富對圖像的情感分類。
由于圖像的情感研究涉及到眾多學科領域,研究起來有一定難度,對它的研究還在初步階段,要解決的問題還比較多,所以發展潛力很大。
參考文獻:
[1] 賀靜.基于特征融合的服裝圖像情感語義分類研究[D].太原理工大學,2007.
[2] 趙志艷,楊志曉,李卓瑜,等.一種基于紋理特征的筆跡鑒別方法[J].微計算機信息,2010,26(1-2).
【關鍵詞】情商教育 中職 情商課程 綜合競爭力
一、中職生在校狀態與情商
(一)缺乏自信心。中職生在小學、初中階段,可能因為這樣或那樣的原因,老師和家長的否定性評價或許多了些,使他們的自信心受的了較大的傷害,他們大認為自己不行,在嚴重缺乏自信的情況下,使他們越來越不愿意學習,甚至害怕學習。
(二)缺乏學習主動性。現在的中職生普遍意志力較差,缺乏獨立自主的生活能力,缺乏克服困難的決心和毅力,一遇到困難,就想退縮或放棄。小學、初中階段過多的補習,使孩子失去了應有的,鍛煉自主學習能力的良機,讓他們只會適應被動學習的環境,一旦沒有了老師的督促,家長的逼迫,他們就失去了學習的動力。
(三)公德及規則意識淡薄。相當一部分學生紀律觀念淡薄,曠課、逃學、早戀、打架斗毆、部分學生甚至在課堂上辱罵教師。明知不可以違反學校的規章制度,但由于自控能力較差,時常有違規行為,且屢教不改。
(四)應對挫折的能力差。大多數中職學校的學生都是因為沒能考進高中,退而求其次選擇的來中職學校讀書。很多學生文化基礎課如數學和英語等課程普遍較差,他們對全新的專業基礎課和專業技能課,學起來會比較費力。但并不是說所有的專業基礎課和專業課程都與初中階段的文化基礎課程有直接的關系,只要學生能認真開始學習,學好專業課程還是有可能的,但多數“后進生”內心非常自卑,他們認為自己笨、認為自己不可能學得會、學得好,從而在自己心理上主動放棄了進步的機會。
中職學生的這些讓老師和家長都異常頭痛的外在表現,其根源就是學生在小學、初中階段情商培養嚴重缺失的綜合表現。
二、中職生情商教育的重要性
的話以點帶面地剖析和分析出了“情商”對于人才培養的重要性、對于社會實際工作的重要性。有一句流行語稱:“智商(IQ)決定錄用,情商(EQ)決定提升。”哈佛大學教授丹尼爾?戈爾曼曾說過:“成功=20%的智商+80%的情商。”從這個角度說,情商已經不僅關系一個青年人的成長道路,也關系一個人的事業成敗,乃至在一個社會工作領域的潛力和發展。眾所周知,情商能更多的體現一個人的人格魅力、吸引力和凝聚力,放諸于生產領域、教育領域如此,在政務工作領域同樣如此。
中職學校擔負著為社會培養一線實際操作人才的重任,學生的情商水平決定了他們在工作中是否具備與人建立良好合作關系的團隊精神,是否能夠在團對中發揮更大作用的問題,更關系到學生個人的未來發展前途。所以,中職學校必須重視這一問題,把情商培養納入學生的教學計劃,讓學生在學習專業技能的同時,情商水平能有一定程度的提高。
三、情商培養的時機選擇
現代醫學的研究成果告訴我們,大腦中有一個區域叫做前額皮質,是大腦的執行中心,它的形成主要受童年時代的體驗的影響。這個區域所控制的神經網絡可以抑制破壞性的情感沖動,幫助集中精力、平靜和專注。如果孩子沒辦法減少焦慮,那么就沒有太多的精力去學習、解決問題以及掌握新知識。比如,如果一個孩子因為一次突然襲擊的考試恐慌不已,那么在腦子里留下的印象是當時的反應而不是考試的具體細節。精神緊張能毀滅學習。科學家相信,提高注意力和記憶力,擺脫思想的沖動和痛苦,可以讓孩子的思維處在學習的最佳狀態,社交和情緒學習也是一樣。因此,幫助孩子們管理情緒和改善人際關系可以改善他們的學習狀態。
青少年時期是人的大腦發育最快的階段,大約到25歲左右,大腦才會逐漸地停止發育。有一個被科學家稱作“神經可塑性”的名詞,意思是大腦神經網絡的不斷形成,很大程度上依賴于每天的成長體驗的積累。由此看出,外界環境對大腦發育的影響在“社交和情緒”神經網絡方面尤為明顯。如果孩子被父母及學校養育呵護得很好,并且在沮喪的時候父母和老師能教給他們調節自己情緒的方法,那么這些孩子的大腦神經網絡在管理壓力方面就會發育得比較好。而那些被父母忽視的孩子則更有可能會出現叛逆和反抗的情緒,當他們沮喪時也很難平靜下來。
由此可見,中職教育階段是僅存的,能夠對這部分情商有缺陷的孩子進行情商改善性培養的教育機會了,中職學校應該勇敢的擔負起這個責任,做出自己應有的努力,為社會培養更多的技藝高超、情商優雅的人才。
四、愛與靜思――情商培養的重要途徑
一、深度學習概念的提出
深度學習的概念,源于30多年來計算機科學、人工神經網絡和人工智能的研究。上世紀八九十年代,人們提出了一系列機器學習模型,應用最為廣泛的包括支持向量機(Support Vector Machine,SVM)和邏輯回歸(Logistic Regression,LR),這兩種模型分別可以看作包含1個隱藏層和沒有隱藏層的淺層模型。計算機面對較為復雜的問題解決訓練時,可以利用反向傳播算法計算梯度,再用梯度下降方法在參數空間中尋找最優解。淺層模型往往具有凸代價函數,理論分析相對簡單,訓練方法也容易掌握,應用取得了很多成功。①隨著人工智能的發展,計算機和智能網絡如何基于算法革新,模擬人腦抽象認知和思維,準確且高清晰度地進行聲音處理、圖像傳播甚至更為復雜的數據處理和問題解決等,在21世紀來臨的時候成為擺在人工智能領域的關鍵問題。
30多年來,加拿大多倫多大學計算機系辛頓教授(Hinton,G.)一直從事機器學習模型、神經網絡與人工智能等問題的相關研究,并在機器學習模型特別是突破淺層學習模型,實現計算機抽象認知方面取得了突破性的進展。2006年,他在《Science》上發表了《利用神經網絡刻畫數據維度》(Reducing the Dimensionality of Data with Neural Networks)一文,探討了應用人工神經網絡刻畫數據的學習模型,首先提出了深度學習(Deep Learning)的概念和計算機深度學習模型,掀起了深度學習在人工智能領域的新。這篇文章的兩個主要觀點是:第一,多隱藏層的人工神經網絡具有優異的特征學習能力,學習到的特征對數據有更本質的刻畫,從而有利于可視化或分類;第二,深度神經網絡可以通過“逐層初始化”(Layer-wise Pre-training)來有效克服訓練和優解的難度,無監督的逐層初始化方法有助于突破淺層學習模型。②基于深度置信網絡(DBN)提出非監督逐層訓練算法,為解決深層結構相關的優化難題帶來希望,隨后提出多層自動編碼器深層結構。③2012年,辛頓又帶領學生在目前最大的圖像數據庫ImageNet上,對分類問題取得了驚人的結果,將計算機處理圖像數據問題時排名前五的錯誤率(即Top5錯誤率),由最高26%大幅降低至15%,大大提高了人工智能圖像數據處理的準確性和清晰度,這是早先計算機僅僅依賴數學模型的表層學習和單層學習根本無法實現的水平。
在人工智能領域,深度學習其實是一種算法思維,其核心是對人腦思維深層次學習的模擬,通過模擬人腦的深喲緯橄筧現過程,實現計算機對數據的復雜運算和優化。深度學習采用的模型是深層神經網絡(Deep Neural Networks,DNN)模型,即包含多個隱藏層(Hidden Layer,也稱隱含層)的神經網絡(Neural Networks,NN)。深度學習利用模型中的隱藏層,通過特征組合的方式,逐層將原始輸入轉化為淺層特征、中層特征、高層特征直至最終的任務目標。深度學習可以完成需要高度抽象特征的人工智能任務,如語音識別、圖像識別和檢索、自然語言理解等。深層模型是包含多個隱藏層的人工神經網絡,多層非線性結構使其具備強大的特征表達能力和對復雜任務的建模能力。訓練深層模型是長期以來的難題,近年來以層次化、逐層初始化為代表的一系列方法的提出,為訓練深層模型帶來了希望,并在多個應用領域獲得了成功。
人工智能學者們認為計算機和智能網絡的這一深層的自動編碼與解碼過程,是一個從數據刻畫、抽象認知到優選方案的深度學習的過程。由于人腦具有深度結構,認知過程是一個復雜的腦活動過程,因而計算機和人工智能網絡模擬從符號接受、符號解碼、意義建立再到優化方案的學習過程也是有結構的;同時,認知過程是逐層進行、逐步抽象的,人工智能不是純粹依賴于數學模型的產物,而是對人腦、人腦神經網絡及抽象認知和思維過程進行模擬的產物。應該說,到目前為止,深度學習是計算機和智能網絡最接近人腦的智能學習方法。近幾年來,深度學習進一步嘗試直接解決抽象認知的難題,并取得了突破性的進展,AlphaGo的問世,便是明證。2013年4月,《麻省理工學院技術評論》(MIT Technology Review )雜志將深度學習列為2013年十大突破性技術之首。④深度學習引爆的這場革命,將人工智能帶上了一個新的臺階,不僅學術意義巨大,而且實用性很強,工業界也開始了大規模的投入,一大批產品將從中獲益。二十世紀八九十年代以來,隨著學習科學的不斷發展,深度學習的概念和思想不斷在教育中得到應用。
二、深度學習在教育中的興起與發展
來自腦科學、人工智能和學習科學領域的新成就,必然引起教育領域研究者的深刻反省。計算機、人工智能尚且能夠模擬人腦的深層結構和抽象認知,通過神經網絡的建立開展深度學習,那人對知識的學習過程究竟應該是怎樣的一個腦活動過程和學習過程?學生的學習有表層和深層等層次之分嗎?從作為符號的公共知識到作為個人意義的個人知識究竟是怎樣建立起來的?知識學習過程究竟是一個怎樣的抽象認知過程?信息技術環境支持下深層次的學習如何實現?近十多年來,這些問題引起了許多教育研究者特別是教育技術學研究者的濃厚興趣,深度學習、深度教學的研究日益引起人們的重視。也正是在辛頓的“深度學習”概念明確提出后,教育學領域特別是教育技術學領域的深度學習研究日益活躍起來。
其實,早在1956年布魯姆在《教育目標分類學》里關于“認知領域目標”的探討中,對認識目標的維度劃分就蘊含了深度學習的思想,即“學習有深淺層次之分”,將教學目標分為了解、理解、應用、分析、綜合、評價六個由淺入深的層次。⑤學習者的認知水平停留在知道或領會的層次則為淺層學習,涉及的是簡單提取、機械記憶符號表征或淺層了解邏輯背景等低階思維活動;而認知水平較高的深層理解、應用、分析、綜合和評價則涉及的是理性思辨、創造性思維、問題解決等相對復雜的高階思維活動,屬于深層學習。1976年,美國學者馬頓(Marton,F.)和薩爾約(Saljo,R.)在《論學習的本質區別:結果和過程》(On Qualitative Difference in Learning: Outcome and Process)一文中,明確提出了表層學習和深層學習的概念。⑥這被普遍認為是教育學領域首次明確提出深度學習的概念。他們在一項關于閱讀能力的實驗研究中,明確探討了閱讀學習的層次問題。通過讓學生閱讀文章并進行測驗,發現學生在閱讀的過程中運用了兩種截然不同的學習策略:一種是試圖記住文章的事實表達,揣測接下來的測試并記憶,即表層學習(Surface Learning);另一種是試圖理解文章的中心思想和學術內涵,即深層學習(Deep Learning),也被譯為深度學習。深度學習的學習者追求知識的理解并且使已有的知識與特定教材的內容進行批判性互動,探尋知識的邏輯意義,使現有事實和所得出的結論建立聯系。淺層學習和深層學習在學習動機、投入程度、記憶方式、思維層次和遷移能力上有明顯的差異。深度學習是一種主動的、高投入的、理解記憶的、涉及高階思維并且學習結果遷移性強的學習狀態和學習過程。之后 ,拉姆斯登(Ramsden,1988)、英推施黛(Entwistle,1997)以及比格斯(Biggs,1999)等人發展了淺層學習和深度學習的相關理論。⑦隨著信息技術的發展,近十年來,國外學者對信息技術支持下的深度學習及其在各學科領域、各類教育中的應用研究日漸廣泛。
2002年以來,從技術支持高等教育的深度學習、虛擬環境中的深度學習、形成性評估對深度學習的影響、學習環境對學生進行深度學習的影響、技術支持下的深度學習設計等方面研究成果日益豐富,但絕大部分是基于教育技術學視野的研究成果。2006年,辛頓教授關于深度學習的成果發表,進一步推動了深度學習在教育中的研究與應用。近十年來,在中小學深度學習研究方面最有影響的當屬加拿大西盟菲莎大學(Simon Fraser University)艾根(Egan, K.)教授領銜的“深度學習”(Learning in Depth,簡稱LID)項目組所進行的研究,其成果集中體現在《深度學習:轉變學校教育的一個革新案例》(Learning in Depth: A Simple Innovation That Can Transform Schooling)等著述之中。⑧該研究探討了深度學習的基本原則與方法,分析了深度學習對學生成長、教師發展和學校革新的價值與路徑,并在加拿大部分中小學進行實驗研究。其核心成果聚焦課堂學習和教學問題,即使是關于教師教育中深度學習的研究,也聚焦于教師的學習過程和學習方式。⑨艾根所開展的深度學習研究項目超越了單一教育技術學視野的研究,不僅僅是關于教學設計、學習技術和學習環境開發的研究,而是基于建立新的學習觀和知識觀,對教學活動與學習過程作出了新的闡釋。
總體上看,國內關于深度學習的研究最近十年才剛剛起步。2005年,我國學者黎加厚教授在《促進學生深度學習》一文中,率先介紹了國外關于深度學習的研究成果,同時探討了深度學習的本質。他認為深度學習是指在理解學習的基礎上,學習者能夠批判性地學習新的思想和事實,并將它們融入原有的認知結構中,能夠在眾多思想間進行聯系,能夠將已有的知識遷移到新的情境中,作出決策和解決問題的學習。⑩此文被認為是國內較早介紹并論及深度學習的研究成果,此后,關于深度學習的探討,特別是基于信息技術環境下的深度學習的相關研究論文逐漸增加。2006年10月,筆者在前期研究的基礎上,與臺灣成功大學教育研究所所長李坤崇教授聯合發起“海峽兩岸能力生根計劃”,推進能力導向的深度教學的理論研究與實驗研究,主張以價值觀、知識觀、學習觀、過程觀的重建為基礎,以發展學生的學科能力為宗旨,實施深度教學,克服課堂教學改革過于注重教學程序、教學技術、教學時間的淺層次改革和表層學習的局限性,深化課堂教學改革。2014年后,中國教育科學院院長兼教育部課程教材研究與發展中心主任田慧生研究員基于深化課程改革的需要,帶領一個團隊開始啟動深度學習的項目研究。直至今日,基于核心素養追求背景下的深度學習研究項目,如雨后春筍般涌現,“深度學習”成為教育研究中的一個熱詞。
盡管計算機、人工智能領域與教育學領域都提出了“深度學習”概念,但不難看出二者顯然具有本質差異。計算機與人工智能領域的深度學習是建立在機器模擬人腦深層結構的基礎之上的,是基于人腦結構的一種計算機算法思維和問題解決模型,是對人腦和認知結構的模擬。而教育學領域的“深度學習”概念,無論是布魯姆還是馬頓和薩爾約,都指向了“知識”和“學習”兩個核心,是關于知識學習的目標和過程的問題。布魯姆在教育目標分類學認知領域的目標構設中,認為認知目標是由了解、理解、應用、分析、綜合、評價六個不斷加深的層次構成的。這一目標明顯是關于知識學習和認知過程的目標,在2001年修訂版中,這一目標被精確表述為知識學習和認知過程兩個維度。馬頓和薩爾約在關于閱讀的研究中,基于學生對文本理解的層次和理解的深度提出了“深度學習”的概念,并認為學習的本質區別在于過程而不是學習的結果,是學生對文本知識學習的深刻程度決定了其學習結果的差異性。
艾根的研究實現了從深度學習向深度教學的轉向。艾根的深度學習(Learning in Depth)研究更明確地指向了學生對知識的學習所到達的深度,以及教師通過對知識的處理引導學生逐步到達一定的學習深度。這一深度學習的過程是一個逐步深化的學習過程,要求教師在教學過程中引導學生著眼于知識的深層次理解和深度處理。該項研究表明,深度學習的研究開始從單一的學習技術研究轉向了對教學過程的關注,注重深度學習與深度教學的關聯性和一致性,深度學習的研究呈現出向深度學習與深度教學相結合的轉向。
三、深度學習的核心理念
從深度學習走向深度教學,一方面是教與學的一致性決定的,另一方面是當前中小學課堂教學普遍存在的局限性Q定的。教與學的關系既不是對立關系,也不是對應關系,而是一種具有相融性的一體化關系,離開了教無所謂學,離開了學也無所謂教。學生真正意義上的深度學習需要建立在教師深度教導、引導的基礎之上。從本質上看,教育學視野下的深度學習不同于人工智能視野下的深度學習,不是學生像機器一樣對人腦進行孤獨的模擬活動,而是學生在教師引導下,對知識進行的“層進式學習”和“沉浸式學習”。“層進”是指對知識內在結構的逐層深化的學習,“沉浸”是指對學習過程的深刻參與和學習投入。離開了教師的教學和引導,學生何以“沉浸”?因此,深度學習只有走向深度教學才更具有發展性的意義和價值。同時,我國新一輪基礎教育課程改革以來,課堂教學改革依然存在著諸多表層學習、表面學習和表演學習的局限性,“學習方式的轉變”往往演變成了教學形式的改變,諸如教與學在程序上的簡單翻轉和在時間上的粗暴分配。其所體現出來的知識觀、價值觀、教學觀、過程觀依然陳舊落后,以學科知識、學科能力、學科思想和學科經驗的融合為核心的學科素養依然未能得到實質性的滲透。
深度教學的“深度”是建立在完整而深刻地處理和理解知識的基礎之上的。艾根在深度學習的研究中,首次從知識論的角度,論述了深度學習的“深度”(Depth)的涵義。他認為“學習深度”具有三個基本標準,即知識學習的充分廣度(Sufficient Breadth)、知識學習的充分深度(Sufficient Depth)和知識學習的充分關聯度(Multi-Dimensional Richness and Ties)。這三個標準,也是深度學習的核心理念。
第一,知識學習的充分廣度。充分的廣度與知識產生的背景相關,與知識對人生成的意義相關,與個體經驗相關,也與學習者的學習情境相關。如果教學把知識從其賴以存在的背景、意義和經驗中剝離出來,成為純粹的符號,便成為無意義的符號、無根基的概念知識。知識具有強烈的依存性,無論是自然科學的知識還是社會科學或人文學科的知識,都是特定的社會背景、文化背景、歷史背景及其特定的思維方式的產物。離開了知識的自然背景、社會背景、邏輯背景,前人創造的知識對后人而言幾乎不具有可理解性。隨著深度學習的興起,旨在以廣度促進理解的“無邊界學習”日益引起人們的重視。可見,知識的充分廣度,其實是為理解提供多樣性的支架,為知識的意義達成創造了可能性和廣闊性基礎。
第二,知識學習的充分深度。知識的充分深度與知識所表達的內在思想、認知方式和具體的思維邏輯相關,深度學習把通過知識理解來建立認識方式,提升思維品質,特別是發展批判性思維作為核心目標。所以說,深度學習是一種反思性學習,是注重批判性思維品質培養的學習,同時也是一種沉浸式、層進式的學習。深度學習強調學習過程是從符號理解、符號解碼到意義建構的認知過程,這一過程是逐層深化的。
第三,知R學習的充分關聯度。知識的充分關聯度,是指知識學習指向與多維度地理解知識的豐富內涵及其與文化、想象、經驗的內在聯系。知識學習不是單一的符號學習,而是對知識所承載的文化精神的學習。同時,通過與學生的想象、情感的緊密聯系,達到對知識的意義建構。從廣度,到深度,再到關聯度,學生認知的過程是逐層深化的。所謂意義建構,即從公共知識到個人知識的建立過程,都需要建立在知識學習的深度和關聯度之上。
①Y.LeCun and Y.Bengio.Convolutional networks for images,speech,and time-series.In M.A.Arbib,editor,The Handbook of Brain Theory and Neural Networks.MIT Press,1995.
②Geoffery E.Hinton and Salakhutdinov R.R.,Reducing the dimensionality of data with neural networks. Science.2006 Jul 28;313(5786):504-7.
③Geoffrey E.Hinton,Simon Osindero,Yee-Whye Teh. A Fast Learning Algorithm for Deep Belief Nets. Neural Computation.2006(7).
④余凱等.深度學習的昨天、今天和明天[J].計算機研究與發展,2013,9.
⑤安德森.布盧姆教育目標分類學(修訂版)[M]. 北京:外語教學與研究出版社,2009:78-80.
⑥Marton,F. and Saljo,R.,On Qualitative Difference in Learning:Outcome and Process. British Journal of Educational Psychology,1976,46:4-11.
⑦安富海.促進深度學習的課堂教學策略研究[J].課程?教材?教法,2014,11.
⑧Kieran Egan. Learning in Depth: A Simple Innovation That Can Transform Schooling. London, Ontario: The Althouse Press, 2010.
【關鍵詞】共情;疼痛;親社會行為;共情關注;利他行為
一、社會神經科學下的共情研究:共享神經網絡假說
共情學者提出我們之所以能夠理解他人的行為,感覺,情感,是因為這些情感激活了個體本身對這些情緒的表征,激活了共同的神經網絡。在早期行為解釋模型知覺―動作的啟發下,Preston 和 de Waal (2002)提出了一個神經科學模型來解釋共情,這個模型認為通過觀察或者想象處于某種情緒狀態下的人會自動的激活個體本身對該情緒的表征,并且伴隨著自動的軀體反應。其他學者也認為共同的神經表征對理解他人的精神狀態起到關鍵作用。他們認為同行的表征可以使他們模仿產生類似的感覺,情感體驗和精神狀態。這種觀點認為我們能夠通過想象將自己投射到他人的角度源于我們成熟的心理理解(mind-reading)能力,即激活自己的神經結構來模仿表征他人的情緒情感狀態從而產生同形的表征。甚至這種思維方式已經蔓延到了行為和情感領域:為了明白他人特定行為的含義我們也模仿類似的行為;為了理解他人的感覺,我們激活自己的情感機制產生類似的情感體驗。事實上,這種社會交往和相互主觀性的所謂同形表征已成為近來共情FMRI研究中解釋血液動力激活模式的主要理論。
目前對共情的社會神經科學研究主要是采用觀察他人疼痛來激活個體自身疼痛共情的實驗范式。采用這種實驗范式的一個共同發現是對他人的疼痛共情會部分激活我們自身經歷疼痛的神經網絡。例如Singer(2004)和他的同事招募夫妻來做被試,實驗有兩種條件,一種是對妻子的右手施加電極來產生疼痛反應,激活痛覺感覺網絡區域并用FMRI測量她的血氧水平,這屬于自我疼痛。第二種情況是對坐在MRI檢測器旁的丈夫施加疼痛刺激,但是躺在MRI里面的妻子可以通過一個反光系統觀察到這種疼痛,再次測量其血氧水平,這屬于他人疼痛。不同顏色的光束會指向妻子或者丈夫,暗示誰會接受疼痛刺激。這個實驗程序可以測量不同條件下大腦的神經激活,疼痛刺激施加到被掃描的被試(疼痛的切身體驗)或者她的伴侶身上(對疼痛的共情)。研究發現,不管是個體自己體驗疼痛還是觀察伴侶接受疼痛刺激都會共同激活大腦的疼痛加工網絡即所謂的pain matrix的一部分(Derbyshire2000)。其中雙側前腦島(AI),背側前扣帶回皮層(ACC),腦干和小腦主要涉及對疼痛的情感加工,也就是說,這些區域主要負責編碼被試親身體驗到得或者感覺到的情緒體驗如不愉快,厭惡等。因此,個體親身感受到疼痛和觀察自己所愛的人接受疼痛刺激會激活同樣的情感神經回路―這暗示了我們的神經反應也反映了伴侶的消極情緒反應。
二、自下而上和自上而下的加工
大部分根據腦神經神經科學研究建立起來的共情模型都有一個共同的特點:觀察者共同表征(自身和他人)的激活是沒有意識加工到且自發啟動產生地。舉個例子來說,目前我們采用疼痛,觸覺和厭惡刺激對共情的研究中,通常我們會要求被試觀看一些場景或者電影,這些場景和電動描繪了一個處于某種情緒或者被觸摸的他人,而不會告訴被試本研究的研究目的是觀察共情誘發的神經反應。然而事實上,僅僅呈現這些情景都足以引起被試對這些情感和觸摸的切身體驗的表征。因此,一些研究者提出我們會自發地分享他人的情感,這個假設與早期的知覺―動作模型是一致的,該模型認為,當個體知覺到他人的行為時會自動激活其與該行為有關的個人經驗的表征從而產生共情反應。此外,在這些研究中如果要讓被試產生預想的一系列反應,從情緒感染到最終產生飽滿的共情體驗,一個重要的條件是需要被試將注意指向他人的情感狀態。雖然注意,抑制和其他的一些執行控制加工在產生共情體驗中有著關鍵的作用,但這并不意味著共情只是一種純粹的感覺驅動加工過程,也就是說誘發共情反應只能通過自下而上的加工方式。相反,一些研究提出情景評估,認知加工和自上而下的控制也是人類產生共情的主要組成部分。譬如,在十八世紀,當時的哲學家和經濟學家亞當斯密就提出這樣一種說法,想象可以將我們投射到他人的情景中,從而產生類似他人但一般弱于他人的感知覺。現在有關共情的大部分腦神經科學模型認可這一說法,它們強調自上而下的加工和情景評估在產生共情反應和調節之前提到的由自下而上的加工誘發的共情反應中的重要作用。
最近的研究結果同樣支持這樣一種假設,這個假設認為是對情景的評估而不僅僅是感覺輸入就可以決定共情者的神經和行為反應。在一項FMRI研究中,讓被試觀看一系列疼痛圖片,譬如針扎在手上或者將活檢針(biopsy needle)扎在一個麻醉的手上。因此,需要考慮這兩種基本上一樣的圖片刺激所造成的疼痛感受,這樣就可以產生比較匹配的替代性體驗。支持這一情景評估加工過程的神經結構有背內側和眶額皮層(OFC)以及右顳頂交界(Rtpj)。眶額皮層的涉及主要是重新評估一些刺激的效價,因為圖片看起來是厭惡刺激,實際上是中性的活組織檢查刺激。然而,顳頂葉和背內側前額葉的激活與自我和他人的區分以及自我意識有密切的關系。這些區域的功能使得被試可以將兩種反應區分開來,這兩種反應是厭惡刺激可能誘發的自發的和自我中心的反應,和理論上根據情境信息我們知道對活組織檢測的這種不合適的情感反應。
三、研究展望
關鍵詞:E-learning;單模式情感識別;多模式情感識別
中圖分類號:TP393 文獻標識碼:A 文章編號:1009-3044(2013)15-3599-04
E-learning(數字化學習或電子學習)是利用現代通信技術,將信息技術與課本知識整合,為學習者提供理想的學習環境和學習方式,以達到深化教學改革和創新人才培養的目的。
基于情感計算的E-learning系統,就是在傳統E-learning系統的基礎上增加了情感識別模塊,包括:情感識別模塊、情感分析模塊、情感反饋模塊、情感評價模塊等,實現情感化個性化的教學。主要目的是彌補傳統E-learning系統情感缺失的問題。在這些情感模塊中,情感識別模塊是基礎,這一模塊產生的結果直接影響后面所有模塊的效果,因此對情感識別模塊的研究放在重要的位置上,且進行深入的研究。
由于識別的環境為遠程E-learning教學的學生端,因此可以將多模式識別方法分為三部分[1],分別為:基于視覺的面部表情識別和身體動作識別,還有基于聽覺的會話信息(語音)識別。
1 基于單視覺的情感識別方法
1.1 面部表情識別
對面部圖像的捕捉是通過網絡攝像頭來實現的,采樣的方法是按一定的時間間隔來停幀并存取圖像(與20秒為一個時間間隔),接下來會對存取的圖像進行情感的識別,確定這一時刻的情感狀態,為以后的情感分析和反饋提供依據。
1.1.1 對圖像進行情感的識別
對面部圖像進行情感識別其實是一種人臉識別過程,其中主要包括三個方面的內容:人臉檢測、人臉表征、人臉鑒別。
1)人臉檢測:采用基于膚色的人臉檢測算法;
根據計算機色彩理論,通過對RGB格式、HIS格式、YCbCr格式[3]等主要色彩空間的比較,選用基于YCbCr空間的膚色模型來進行膚色區域分割。YCbCr[4]色彩空間從YUV色彩空間衍生而來。其中Y代表亮度, Cb和Cr分量分別表示藍色和紅色的色度,在不同的光照下這兩種色度是穩定的。該空間的優點是將亮度分量與色度分量分離開來, 這樣受亮度變化的影響就比較小, 降低了兩者的相關性。
2)人臉表征:主要對眼睛、鼻子和嘴巴等的特征檢測與定位。
在對人臉進行表征之前首先要進行人臉區域的分割,把人臉區域用矩形框起來。所采用的分割算法流程圖如圖1:
具體的算法是基于相似度的方法,得到的結果圖如圖2所示(紅線矩形框為結果),把眼睛和嘴巴表示為分段多項式曲線,用變形模版得到準確的輪廓[3],標記的結果圖如下圖2 :
3)人臉鑒別:采用主成分分析(PCA)
主成分分析方法(Principal Component Analysis ,PCA) 也稱為主元法,主分量分析法,是一種常用、簡單有效的方法。PCA方法就是將包含人臉的圖像區域看作是一種隨機向量,用K-L變換獲取其正交K-L基底,對應其中較大特征值的基底具有與人臉相似的形狀,因此又稱之為特征臉(Eigenfaces)[7]。
采用PCA算法進行人臉識別時,其中的測試數據庫選用Yale人臉數據庫(耶魯大學網站上下載),此人臉數據庫由耶魯大學計算視覺與控制中心創建,包含15位志愿者的165張圖片,包含光照,表情和姿態的變化,效果圖如圖3:
1.2 人體動作識別
人體動作過程是一個動態系統,其識別方法也都是基于動態系統的識別方法。人體運動分析中一個重要的內容是運動識別和動作檢索。一般認為,運動識別的任務就是把物體的輪廓從背景中分離出來,根據特征值與目標樣本庫中的運動進行匹配運算,以達到識別目標的目的。而動作檢索則是在已知的運動類型范圍內,對于每個時刻的動作,根據特征值和時間關系,與運動庫中的動作匹配[16]。
2 基于單聽覺(語音)的情感識別方法
基于單聽覺的語音情感識別的實現大致可分成三個模塊:語音數據的讀取、語音數據的特征提取與分析以及語音情感識別。
2.1 語音數據的獲取
語音數據的獲取以話筒為依托,并將輸入的語音信息存儲為數字音頻文件,這里采用了波形音頻文件,即WAVE文件格式,擴展名為“.wav”。它是WINDOWS中缺省的也是最常用的文件格式,這種格式在IBM PC及其兼容的平臺上被廣泛的應用于加工處理數字聲音的程序中,波形音頻文件符合RIFF(Resource Interchange File Format)文件規范[10]。
本系統對語音信息的處理,主要是對WAVE文件中data結構所包含的信息進行分析和提取,以及使用優化的FFT快速傅立葉變換,可以將輸出直接轉化成頻率(Hz)的形式,從而得到輸入信號中包含的頻率(Hz)及其幅度值。對音頻數據的優化FFT變換在Matlab平臺實現。
2.2 語音情感識別
語音情感識別有兩種較為流行的方法: a)基于概率生成模型的方法如高斯混合模型(GMM)和隱馬爾可夫模型(HMM);b)基于判別模型的方法,主要有支持向量機(SVM)和人工神經網絡(ANN)。近來,一種新的解決思路是把上述若干模型融合起來,各自取長補短,形成混合模型[12]。這里采用基于判別模型的PNN (probabilistic neural network)和基于概率生成模型的HMM(hidden markov model)的混合模型[13],算法如下:
3 基于多模式的識別方法
3.1 多模式識別系統的設計
以上基于單模式的各情感識別方法都有自己的缺點,例如,基于單視覺的人臉識別方法,只能對人的正面臉進行情感識別,而捕捉到的人臉圖像大部分卻是非正面的,因為自然狀態下人的頭部是很隨意的;基于單視覺的人體動作識別方法,其中的多數方法只能識別一些簡單的運動,無法應用到復雜動作的識別,且識別出的情感種類比較少,不能識別出教學中應有的一些情感狀態;基于單聽覺(語音)的識別方法,受語音庫的影響比較大,而語音庫的建立很不完善,正確率打折,同時對活動性相近的情感[13]的區分性較差。
針對各單模式情感識別的缺點,采用多模式的情感識別方法,目的是共同來識別人在無意識情況下的情感狀態,為下一步進行情感分析、反饋與評價提供準確的信息,最終利用各種情感信息調用不同的學習策略以達到學習的最佳狀態。
由于識別的環境為遠程E-learning教學的學生端,因此多模式識別系統包括了文章所論述的各單模式情感識別方法,即:基于視覺的面部表情識別和身體動作識別、基于聽覺的會話信息(語音)識別,共同配合來進行情感的識別,系統的構架圖如圖4:
3.2 多模式識別方法
基于多模式的識別方法,目前有三種可以對視聽信息進行融合的策略[1](特征層面、決策層面和模型層面)。其中,特征層面上的融合策略[16]的主要方法為:首先關聯韻律特征和面部特征,以構造共同特征向量,然后用來建立一個情感識別器;決策層面上的融合策略[3]的主要方法為:先獨立的識別視覺、聽覺的情感,最后把單一模式的識別結果進行融合;模型層面上的融合策略[18]的主要方法為:可以利用音頻流和視頻流之間的關聯性,并能同步流。
目前常用的是特征層面與決策層面的融合策略,模型層面上的融合策略要同步音頻視頻流,比較復雜則不常采用。特征層面上的融合策略采用單一的分類器來處理視聽的特征;決策層面上的融合策略視聽的特征有各自的分類器處理,最后把輸出的結果按一定的標準(包括最大、平均、乘積、權值)進行組合[6]。兩種方法的流程圖如圖5:
特征層面上的融合策略對發怒(anger)與平靜(neutral)這兩種情感狀態的識別率最高;而決策層面上的融合策略對快樂(happiness)與悲傷(sadness)這兩種情感狀態的識別率最高;兩種方法對其它情感狀態的識別情況基本相同[8]。因此,在本文的多模式識別系統中,結合以上分析得出的教學系統中常見的情緒:平靜、困惑、無聊、高興、挫敗感、厭惡、驚訝,把這兩種融合策略進行結合。
兩種融合策略結合的方法:以決策層面上的融合策略為主,當所有采樣的數據進入情感識別模塊進行處理時,使用決策層面上的融合策略來輸出結果;最后經過評價模塊反饋回來的信息不理想時,先進入情感分析模塊重新分析,再進入評價;評價還是不理想時,則把原來采樣的數據在情感識別模塊中,換為特征層面上的融合策略進行處理。
4 實驗結果
系統的實現采用VC++開發平臺,利用VC中的網絡應用函數開發出客戶端/服務器的通訊系統[6],多模式情感識別模型的仿真引用MATLAB中的神經網絡來進行。
本系統利用MATLAB來進行訓練使其能很好的為系統服務,然后把訓練好的模型嵌入到學生端,該文中所設計的模型與E-learning系統沒有整合在一塊兒,而是單獨在每個學生端安裝,并且相應的數據庫也是獨立安裝。動畫人物的實現,利用了Microsoft Agent技術來實現,選用的動畫人物為Merlin,并作為ActiveX控件嵌入到學生端程序,運行界面如圖6:
5 結束語
基于多模式的情感識別方法,把基于單模式的識別方法集成到一塊兒來共同識別情感,識別的過程較單模式要復雜,且識別時間相對要長。處理的又是人在無意識情況下的情感狀態,對多模式情感識別提出了更大的挑戰。基于多模式的識別方法已經是目前情感識別方法的主流。
參考文獻:
[1] Zeng Z H, Pantic M, Glenn L. Roisman and Thomas S. Huang. A Survey of Affect Recognition Methods:Audio,Visual and Spontaneous Expressions, Japan:ICMI’07,2007:126-133.
[2] Hsu R L,Abdel-Mottaleb M,Jain A K.Face detection in color images.IEEE Trans.Pattern Analysis and Machine intelligence,2002,24(5):696-706.
[3] Reuderink B,Poel P,Truong P,Ronald Poppe,and Maja Pantic. Decision-Level Fusion for Audio-Visual Laughter Detection,LNCS 5237,2008:137-148.
[4] Alejandro J,Daniel G P,Nicu S,et al.Human-centered computing:toward a human revolution[J].Computer,2007,40(5)30-34.
[5] Jin N,Mokhtarian F.Image-based shape model for view-invariant human motion recognition[A].Proceedings of Conference on Advanced Video and Signal Based Surveillance[C].London:IEEE,2007:336-341.
[6] Ogale A S,Karapurkar A,Aloimonos Y.View-invariant modeling and recognition of human actions using grammars[A].International Conference on Computer Vision,Workshop on Dynamical Vision[C].Beijing,China:Springer Verlag,2005.
[7] Parameswaran V,Chellappa R.Using 2D projective invariance for human action recognition[J].International Journal of Computer Vision,2006,66(1):83-101.
[8] 王金庭,楊敏.基于YCbCr空間的亮度自適應膚色檢測[J].計算機系統應用,2007(6):99-101.
[9] 劉振,吳鵬,陳月輝.基于PCA和神經網絡的人臉識別[J].山東科學,2006,19(4):63-67.
[10] 王茜.一個語音情感識別系統的設計與實現[J].大眾科技,2006,94(8):103-104.
[11] 趙臘生,張強,魏小鵬.語音情感識別研究進展[J].計算機應用研究,2009,26(2):428-432.
[12 蔣丹寧.蔡蓮紅.基于語音聲學特征的情感信息識別[J].清華大學學報:自然科學版,2006,46(1):86-89.
[13] 董靜,王萬森.E-learning系統中情感識別的研究[J].計算機工程與設計,2008,29(17):4525-4534.
[14] 程祥.人體動作識別的研究[J].電腦知識與技術,2006:120-133.
關鍵詞: 人工智能 發展過程 研究熱點 應用領域 未來發展
一、人工智能概述
人工智能(Artificial Intelligence,簡稱AI),也稱機器智能,它是計算機科學、控制論、信息論、神經生理學、心理學、語言學等多種學科互相滲透而發展起來的一門綜合性學科。從計算機應用系統角度來看,人工智能是研究如何制造出智能機器或智能系統,實現模擬人類智能活動的能力,以延伸人們智能的科學。人工智能是一門交叉學科,是一門涉及心理學、認知科學、思維科學、信息科學、系統科學和生物科學等多學科的綜合性技術學科,目前已在知識處理、模式識別、自然語言處理、博弈、自動定理證明、自動程序設計、專家系統、知識庫、智能機器人等多個領域取得舉世矚目的成果,并形成了多元化的發展方向。
二、人工智能的發展過程
人工智能經歷了三次飛躍階段:第一次是實現問題求解,代替人完成部分邏輯推理工作,如機器定理證明和專家系統;第二次是智能系統能夠和環境交互,從運行的環境中獲取信息,代替人完成包括不確定性在內的部分思維工作,通過自身的動作,對環境施加影響,并適應環境的變化,如智能機器人;第三次是智能系統,具有類人的認知和思維能力,能夠發現新的知識,去完成面臨的任務,如基于數據挖掘的系統。
三、人工智能的研究熱點
AI研究出現了新的,這一方面是因為在人工智能理論方面有了新的進展,另一方面是因為計算機硬件突飛猛進地發展。隨著計算機速度的不斷提高、存儲容量的不斷擴大、價格的不斷降低,以及網絡技術的不斷發展,許多原來無法完成的工作現在已經能夠實現。目前人工智能研究的三個熱點是:智能接口、數據挖掘、主體及多主體系統。
1.智能接口技術是研究如何使人們能夠方便自然地與計算機交流。為了實現這一目標,要求計算機能夠看懂文字、聽懂語言、說話表達,甚至能夠進行不同語言之間的翻譯,而這些功能的實現又依賴于知識表示方法的研究。因此,智能接口技術的研究既有巨大的應用價值,又有基礎的理論意義。目前,智能接口技術已經取得了顯著成果,文字識別、語音識別、語音合成、圖像識別、機器翻譯及自然語言理解等技術已經開始實用化。
2.數據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的、但是又潛在有用的信息和知識的過程。數據挖掘和知識發現的研究目前已經形成了三根強大的技術支柱:數據庫、人工智能和數理統計。主要研究內容包括基礎理論、發現算法、數據倉庫、可視化技術、定性定量互換模型、知識表示方法、發現知識的維護和再利用、半結構化和非結構化數據中的知識發現及網上數據挖掘等。
3.主體系統是具有信念、愿望、意圖、能力、選擇、承諾等心智狀態的實體,比對象的粒度更大,智能性更高,而且具有一定的自主性。主體試圖自治、獨立地完成任務,而且可以和環境交互,與其他主體通信,通過規劃達到目標。多主體系統主要研究在邏輯上或物理上分離的多個主體之間進行協調智能行為,最終實現問題求解。多主體系統試圖用主體來模擬人的理,主要應用在對現實世界和社會的模擬、機器人及智能機械等領域。目前對主體和多主體系統的研究主要集中在主體和多主體理論、主體的體系結構和組織、主體語言、主體之間的協作和協調、通信和交互技術、多主體學習及多主體系統應用等方面。
四、人工智能的應用領域
1.專家系統
專家系統是一個具有大量專門知識與經驗的程序系統,專家系統存儲著某個專門領域中經過事先總結、分析并按某種模式表示的專家知識,以及擁有類似于領域專家解決實際問題的推理機制。專家系統的開發和研究是人工智能中最活躍的一個應用研究領域,涉及社會各個方面。
2.知識庫系統
知識庫系統也叫數據庫系統,是儲存某學科大量事實的計算機軟件系統,它可以回答用戶提出的有關該學科的各種問題。知識庫系統的設計是計算機科學的一個活躍的分支。為了有效地表示、儲存和檢索大量事實,已經發展出了許多技術。但是在設計智能信息檢索系統時還是遇到很多問題,包括對自然語言的理解,根據儲存的事實演繹答案的問題、理解詢問和演繹答案所需要的知識都可能超出該學科領域數據庫所表示的知識。
3.物景分析
計算機視覺已從模式識別的一個研究領域發展為一門獨立的學科。視覺是感知問題之一。整個感知問題的要點是形成一個精練的表示,以表示難以處理的、極其龐大的未經加工的輸入數據。最終表示的性質和質量取決于感知系統的目標。機器視覺的前沿研究領域包括實時并行處理、主動式定性視覺、動態和時變視覺、三維景物的建模與識別、實時圖像壓縮傳送和復原、多光譜和彩色圖像的處理與解釋等。機器視覺已在機器人裝配、衛星圖像處理、工業過程監控、飛行器跟蹤和制導及電視實況轉播等領域獲得極為廣泛的應用。
4.模式識別
模式識別就是識別出給定物體所模仿的標本或標識。計算機模式識別系統能夠彌補計算機對外部世界感知能力低下的缺陷,使計算機能夠通過感官接受外界信息,識別和理解周圍環境。模式識別在二維的文字、圖形和圖像的識別方面已取得許多成果,在三維景物、活動目標的識別和分析方面是目前研究的熱點,同時它還是智能計算機和智能機器人研究的十分重要的基礎。此外,人工智能還在機器視覺、組合調度問題、自然語言理解、機器學習、博弈、定理證明等研究應用領域發揮著重要作用。可以說人工智能已深入各行各業,對人類社會作出了巨大的貢獻。
5.機器人
機器人學所研究的問題,從機器人手臂的最佳移動到實現機器人目標的動作序列的規劃方法,無所不包。盡管已經建立了一些比較復雜的機器人系統,但是現在工業上運行的機器人都是一些按預先編好的程序執行某些重復作業的簡單裝置,大多數工業機器人是“盲人”。機器人和機器人學的研究促進了許多人工智能思想的發展。智能機器人的研究和應用體現出廣泛的學科交叉,涉及眾多課題。機器人已在工業、農業、商業、旅游業、空中和海洋及國防等多個領域獲得越來越普遍的應用。
五、人工智能的未來發展
目前絕大多數人工智能系統都是建立在物理符號系統假設之上的。在尚未出現能與物理符號系統假設相抗衡的新的人工智能理論之前,無論從設計原理還是從已取得的實驗結果來看,Soar在探討智能行為的一般特征和人類認知的具體特征的艱難征途上都取得了有特色的進展或成就,處在人工智能研究的前沿。上世紀80年代,以NewellA為代表的研究學者總結了專家系統的成功經驗,吸收了認知科學研究的最新成果,提出了作為通用智能基礎的體系結構Soar。目前的Soar已經顯示出強大的問題求解能力。在Soar中已實現了30多種搜索方法,實現了若干知識密集型任務(專家系統),如RI等。對于人工智能未來的發展方向,專家們通過一些前瞻性研究可以看出未來人工智能可能會向以下幾個方面發展:模糊處理、并行化、神經網絡及其情感。
目前,人工智能的推理功能已獲突破,學習及聯想功能正在研究之中,下一步就是模仿人類右腦的模糊處理功能和整個大腦的并行化處理功能。人工神經網絡是未來人工智能應用的新領域。未來智能計算機的構成,可能就是作為主機的馮?諾依曼型機與作為智能的人工神經網絡的結合。研究表明:情感是智能的一部分,而不是與智能相分離的,因此人工智能領域的下一個突破可能在于賦予計算機情感能力。情感能力對于計算機與人的自然交往至關重要。
根據這些前瞻性研究我們也可以通過想象模擬勾畫出人工智能未來發展的三個階段。
1.融合時期(2010―2020年)
(1)用語言操縱和控制的智能化設備十分普及,像遠程醫療這樣的服務也更為完善。
(2)以計算機和互聯網為基礎的遠程教育十分普及,在家就可以上大學。
(3)在身體里植入許多不同功能的芯片已不新奇。
(4)量子計算機和DNA計算機會有更大發展,新材料不斷問世。
(5)抗病毒程序可以防止各種非自然因素引發災難。
2.自信時期(2020―2030年)
(1)智能化計算機和互聯網既能自我修復,也能自行進行研究、生產產品。
(2)一些新型材料的出現,促使智能化向更高層次發展。
(3)有了高水準智能化技術的協助,人們“定居火星夢”可能性大增。
3.非神秘時期(2030―2040年)
(1)新的全息模式世界將取代原有幾何模式的世界。
(2)人們對一些目前無法解釋的自然現象會有更完善的解釋。
(3)人工智能可以模仿人類的智能,因此會出現有關法律來規范這些行為。