前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的神經(jīng)網(wǎng)絡(luò)文本分類主題范文,僅供參考,歡迎閱讀并收藏。
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);語(yǔ)言模型;分析
1 卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型
CNN語(yǔ)言模型基本結(jié)構(gòu)包括輸入層、卷積層、池化層及后續(xù)的分類層。輸入層是表示語(yǔ)言的矩陣,該矩陣可以是通過Google word2vec或GloVe預(yù)訓(xùn)練得到的詞嵌入表示,也可以是從原始數(shù)據(jù)重新訓(xùn)練的語(yǔ)言的向量表示。輸入層之后是通過線性濾波器對(duì)輸入矩陣進(jìn)行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結(jié)構(gòu),因?yàn)榫仃嚨拿恳恍卸急硎倦x散的符號(hào),例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設(shè)置。在這種設(shè)置下,僅需要考慮濾波器的高度既可以實(shí)現(xiàn)不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時(shí),卷積神經(jīng)網(wǎng)絡(luò)的濾波器尺寸一般都是指濾波器的高度。
然后,將卷積層輸出的特征映射輸入池化層,通過池化函數(shù)為特征映射進(jìn)行降維并且減少了待估計(jì)參數(shù)規(guī)模。一般的,CNN池化操作采用1-max池化函數(shù)。該函數(shù)能夠?qū)⑤斎氲奶卣饔成浣y(tǒng)一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級(jí)特征,所得到的高級(jí)特征尺寸與輸入的句子不再存在直接關(guān)系。
最后,將得到的高級(jí)特征輸入softmax分類層進(jìn)行分類操作。在softmax層,可以選擇應(yīng)用dropout策略作為正則化手段,該方法是隨機(jī)地將向量中的一些值設(shè)置為0。另外還可以選擇增加l2范數(shù)約束,l2范數(shù)約束是指當(dāng)它超過該值時(shí),將向量的l2范數(shù)縮放到指定閾值。在訓(xùn)練期間,要最小化的目標(biāo)是分類的交叉熵?fù)p失,要估計(jì)的參數(shù)包括濾波器的權(quán)重向量,激活函數(shù)中的偏置項(xiàng)以及softmax函數(shù)的權(quán)重向量。
2 卷積神經(jīng)網(wǎng)絡(luò)語(yǔ)言模型應(yīng)用分析
CNN語(yǔ)言模型已經(jīng)廣泛應(yīng)用于諸如文本分類,關(guān)系挖掘以及個(gè)性化推薦等NLP任務(wù),下面將對(duì)這些應(yīng)用進(jìn)行具體的介紹與分析。
2.1 CNN在文本分類中的應(yīng)用分析
kim提出了利用CNN進(jìn)行句子分類的方法。該方法涉及了較小規(guī)模的參數(shù),并采用靜態(tài)通道的CNN實(shí)現(xiàn)了效果很優(yōu)異的句子分類方法。通過對(duì)輸入向量的調(diào)整,進(jìn)一步提高了性能實(shí)現(xiàn)了包括情感極性分析以及話題分類的任務(wù)。在其基礎(chǔ)上為輸入的詞嵌入設(shè)計(jì)了兩種通道,一種是靜態(tài)通道,另一種是動(dòng)態(tài)通道。在卷積層每一個(gè)濾波器都通過靜態(tài)與動(dòng)態(tài)兩種通道進(jìn)行計(jì)算,然后將計(jì)算結(jié)果進(jìn)行拼接。在池化層采用dropout正則化策略,并對(duì)權(quán)值向量進(jìn)行l(wèi)2約束。最后將該算法應(yīng)用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數(shù)據(jù)集。MR數(shù)據(jù)集為電影評(píng)論數(shù)據(jù)集,內(nèi)容為一句話的電影評(píng)論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數(shù)據(jù)集為斯坦福情感樹庫(kù)是MR數(shù)據(jù)集的擴(kuò)展,但該數(shù)據(jù)集已經(jīng)劃分好了訓(xùn)練集、驗(yàn)證集及測(cè)試集并給出了細(xì)粒度的標(biāo)記,標(biāo)記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數(shù)據(jù)集為主觀性數(shù)據(jù)集,其分類任務(wù)是將句子分為主觀句與客觀句兩類。TREC數(shù)據(jù)集為問題數(shù)據(jù)集,其分類任務(wù)是將所有問題分為六類,例如關(guān)于數(shù)字、人物或位置等信息的問題。CR數(shù)據(jù)集為評(píng)論數(shù)據(jù)集,包括客戶對(duì)MP3、照相機(jī)等數(shù)碼產(chǎn)品的評(píng)論,其分類任務(wù)是將其分為積極評(píng)價(jià)與消極評(píng)價(jià)兩類。MPQA數(shù)據(jù)集是意見極性檢測(cè)任務(wù)數(shù)據(jù)集。通過實(shí)驗(yàn)證明,該方法在這幾個(gè)典型數(shù)據(jù)集上都能取得非常優(yōu)異的效果。
2.2 CNN在關(guān)系挖掘中的應(yīng)用分析
Shen等人提出了一種新的潛在語(yǔ)義模型,以詞序列作為輸入,利用卷積-池化結(jié)構(gòu)為搜索查詢和Web文檔學(xué)習(xí)低維語(yǔ)義向量表示。為了在網(wǎng)絡(luò)查詢或網(wǎng)絡(luò)文本中捕捉上下文結(jié)構(gòu),通過輸入單詞序列上下文時(shí)間窗口中的每個(gè)單詞來(lái)獲取詞匯級(jí)的n-gram語(yǔ)法特征,將這些特征聚合成句子級(jí)特征向量。最后,應(yīng)用非線性變換來(lái)提取高級(jí)語(yǔ)義信息以生成用于全文字符串的連續(xù)向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠?qū)⑤斎氲脑~序列轉(zhuǎn)變?yōu)閘etter-trigram表示向量。在卷積層通過上下文特征窗口發(fā)現(xiàn)相鄰單詞的位置特征,并變現(xiàn)為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級(jí)的高級(jí)特征。在池化層之后增加了語(yǔ)義層來(lái)提取更高級(jí)的語(yǔ)義表示向量。
2.3 CNN在個(gè)性化推薦中的應(yīng)用分析
Weston等人提出了一種能夠利用標(biāo)簽(hashtag)有監(jiān)督的學(xué)習(xí)網(wǎng)絡(luò)帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數(shù)據(jù)文本上通過預(yù)標(biāo)注的100,000標(biāo)簽進(jìn)行訓(xùn)練。該方法除了標(biāo)簽預(yù)測(cè)任務(wù)本身能取得好的效果外,學(xué)習(xí)到的特征對(duì)于其它的文本表示任務(wù)也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時(shí)將標(biāo)簽也使用查找表來(lái)表示。對(duì)于給定的文檔利用10萬(wàn)條最頻繁出現(xiàn)的標(biāo)簽通過評(píng)分函數(shù)對(duì)任何給定的主題標(biāo)簽進(jìn)行排序。
其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標(biāo)簽t的詞嵌入表示。因此,通過對(duì)分?jǐn)?shù)f(w,t)進(jìn)行排序可以獲取所有候選主題標(biāo)簽中排序第一的話題進(jìn)行推薦。實(shí)驗(yàn)數(shù)據(jù)集采用了兩個(gè)大規(guī)模語(yǔ)料集,均來(lái)自流行的社交網(wǎng)絡(luò)文本并帶有標(biāo)簽。第一個(gè)數(shù)據(jù)集稱作people數(shù)據(jù)集,包括搜集自社交網(wǎng)絡(luò)的2億1000萬(wàn)條文本,共含有55億單詞。第二個(gè)數(shù)據(jù)集被稱作pages,包括3530萬(wàn)條社交網(wǎng)絡(luò)文本,共含有16億單詞,內(nèi)容包括企業(yè)、名人、品牌或產(chǎn)品。
3 結(jié)束語(yǔ)
卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于語(yǔ)言模型已經(jīng)取得了非常大的發(fā)展,對(duì)于自然語(yǔ)言處理中的各項(xiàng)任務(wù)均取得了優(yōu)異的結(jié)果。本文通過對(duì)幾項(xiàng)典型工作的分析,探討了不同卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)在不同任務(wù)中的表現(xiàn)。通過綜合分析可以得出以下結(jié)論。首先,CNN的輸入采用原始數(shù)據(jù)訓(xùn)練的向量表示一般效果會(huì)優(yōu)于預(yù)訓(xùn)練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設(shè)置;最后,為了優(yōu)化結(jié)果可以采用dropout正則化處理。
關(guān)鍵詞:主題模型;特征表達(dá);多示例多標(biāo)記學(xué)習(xí);場(chǎng)景分類;文本分類
中圖分類號(hào): TP181
文獻(xiàn)標(biāo)志碼:A
Multiinstance multilabel learning method based on topic model
YAN Kaobi1, LI Zhixin1,2*, ZHANG Canlong1,2
1.Guangxi Key Laboratory of MultiSource Information Mining and Security, Guangxi Normal University, Guilin Guangxi 541004, China
2.Guangxi Experiment Center of Information Science, Guilin Guangxi 541004, China
Abstract: Concerning that most of the current methods for MultiInstance MultiLabel (MIML) problem do not consider how to represent features of objects in an even better way, a new MIML approach combined with Probabilistic Latent Semantic Analysis (PLSA) model and Neural Network (NN) was proposed based on topic model. The proposed algorithm learned the latent topic allocation of all the training examples by using the PLSA model. The above process was equivalent to the feature learning for getting a better feature expression. Then it utilized the latent topic allocation of each training example to train the neural network. When a test example was given, the proposed algorithm learned its latent topic distribution, then regarded the learned latent topic allocation of the test example as an input of the trained neural network to get the multiple labels of the test example. The experimental results on comparison with two classical algorithms based on decomposition strategy show that the proposed method has superior performance on two realworld MIML tasks.
英文關(guān)鍵詞Key words:
topic model; feature expression; multiinstance multilabel learning; scene classification; text categorization
0引言
傳統(tǒng)的監(jiān)督學(xué)習(xí)問題通常定義為單示例單標(biāo)記學(xué)習(xí)問題,一個(gè)對(duì)象用一個(gè)示例來(lái)表示,同時(shí)關(guān)聯(lián)一個(gè)標(biāo)記。定義X為示例空間,Y為標(biāo)記集合。單示例單標(biāo)記學(xué)習(xí)的目的是從一個(gè)給定的數(shù)據(jù)集{(xi,yi)|1≤i≤N}中學(xué)習(xí)一個(gè)函數(shù)f:xy,其中:xi∈X是一個(gè)示例,yi∈Y是示例xi的一個(gè)標(biāo)記。在機(jī)器學(xué)習(xí)技術(shù)[1]日益成熟的條件下,傳統(tǒng)的單示例單標(biāo)記學(xué)習(xí)方法已經(jīng)取得了很大的成功。
然而,在現(xiàn)實(shí)世界中,一個(gè)對(duì)象通常是多義性的復(fù)雜對(duì)象,如果仍用傳統(tǒng)的單示例單標(biāo)記學(xué)習(xí)方法,不但不能很好地表達(dá)出對(duì)象豐富的內(nèi)容信息,而且不能得到對(duì)象準(zhǔn)確的語(yǔ)義標(biāo)記集合,因此對(duì)于這種多義性對(duì)象,可以采用多標(biāo)記學(xué)習(xí)方法來(lái)處理。在多標(biāo)記學(xué)習(xí)[2]方法下,一個(gè)對(duì)象用一個(gè)示例來(lái)表示,但是關(guān)聯(lián)多個(gè)標(biāo)記。多標(biāo)記學(xué)習(xí)的目的是從一個(gè)給定的數(shù)據(jù)集{(xi,yi)|1≤i≤N}中學(xué)習(xí)一個(gè)函數(shù)f:x2y,其中:xi∈X是一個(gè)示例,yiY是示例xi的一個(gè)標(biāo)記集合{(yi1,yi2,…,yili)},li是標(biāo)記集合yi中標(biāo)記的個(gè)數(shù)。雖然多標(biāo)記學(xué)習(xí)已經(jīng)取得了很大的成就,但是只用一個(gè)示例來(lái)表示多義性對(duì)象不能有效地表達(dá)出多義性對(duì)象的復(fù)雜內(nèi)容。
事實(shí)上,在多標(biāo)記學(xué)習(xí)中,一個(gè)標(biāo)記對(duì)應(yīng)著對(duì)象不同的區(qū)域,如果能夠?qū)σ粋€(gè)確定的區(qū)域(不是一個(gè)整體的對(duì)象)和一個(gè)特定的標(biāo)記直接建立對(duì)應(yīng)的模型,將會(huì)有效地減少噪聲對(duì)分類準(zhǔn)確性的影響,因此可以采用多示例學(xué)習(xí)的方法來(lái)表示多義性對(duì)象的復(fù)雜內(nèi)容。多示例學(xué)習(xí)[3]的任務(wù)是從一個(gè)給定的數(shù)據(jù)集{(xi,yi)|1≤i≤N}中學(xué)習(xí)一個(gè)函數(shù)f:2xy,其中:xiX是一個(gè)包的示例集合{(xi1,xi2,…,xini)},ni是包xi中示例的個(gè)數(shù),yi∈Y是包xi上的一個(gè)標(biāo)記。然而,多示例學(xué)習(xí)主要用于單標(biāo)記問題,對(duì)于多標(biāo)記問題需要分解為多個(gè)單標(biāo)記問題進(jìn)行處理。
為了克服多標(biāo)記學(xué)習(xí)和多示例學(xué)習(xí)方法的缺點(diǎn),將二者結(jié)合起來(lái)形成一種多示例多標(biāo)記學(xué)習(xí)方法[4],來(lái)處理帶有復(fù)雜內(nèi)容的多義性對(duì)象將會(huì)更加合理和有效。多示例多標(biāo)記學(xué)習(xí)的目的是從一個(gè)給定的數(shù)據(jù)集{(xi,yi)|1≤i≤N}中學(xué)習(xí)一個(gè)函數(shù)f:2x2y,其中,xiX是一個(gè)包的示例集合{(xi1,xi2,…,xini)},ni是示例集合xi中示例的個(gè)數(shù),yiY是包xi的一個(gè)標(biāo)記集合{(yi1,yi2,…,yili)},li是標(biāo)記集合Yi中標(biāo)記的個(gè)數(shù)。
近年來(lái),多示例多標(biāo)記學(xué)習(xí)已經(jīng)取得了很大的進(jìn)展,同時(shí)也面臨著三個(gè)主要的難題。首先,由于圖像分割技術(shù)[5]的限制,很難劃分出具有完整語(yǔ)義標(biāo)記的示例;其次,在劃分示例后,傳統(tǒng)的做法是提取示例的底層特征,然后建立特征向量和語(yǔ)義標(biāo)記之間的映射模型,由于特征提取[5]和機(jī)器學(xué)習(xí)技術(shù)[1]的限制,如何自動(dòng)提取示例的高層特征及建立映射模型也是一個(gè)難點(diǎn);最后,由于標(biāo)記之間復(fù)雜的相關(guān)性[6],如何建立能夠捕獲標(biāo)記之間相關(guān)性的模型[7]也是一個(gè)難點(diǎn),同時(shí)文獻(xiàn)[8]指出了大數(shù)據(jù)問題也是多示例多標(biāo)記學(xué)習(xí)面臨的一個(gè)新問題。如果能夠克服這些主要難題,可以建立一個(gè)完美的多示例多標(biāo)記模型,該模型可以直接學(xué)習(xí)示例和標(biāo)記之間的映射關(guān)系,同時(shí)可以捕獲到標(biāo)記之間的相關(guān)性。
1相關(guān)研究
1.1多示例學(xué)習(xí)
多示例學(xué)習(xí)中,一個(gè)樣本被看成是一個(gè)包含多個(gè)示例的包,當(dāng)需要對(duì)一個(gè)包進(jìn)行標(biāo)記的時(shí)候,如果包中至少有一個(gè)示例具有對(duì)應(yīng)的標(biāo)記含義,則將這個(gè)包標(biāo)記為正包,否則標(biāo)記為負(fù)包。雖然多示例學(xué)習(xí)框架被限制在單標(biāo)記問題上,但是多示例學(xué)習(xí)方法已經(jīng)取得了很多研究成果,針對(duì)不同的問題提出了不同的多示例學(xué)習(xí)方法,此外多示例學(xué)習(xí)還可以用于圖像檢索。
1.2多標(biāo)記學(xué)習(xí)
對(duì)于多義性對(duì)象,可以采用多標(biāo)記學(xué)習(xí)的方法來(lái)處理。文獻(xiàn)[6]對(duì)多標(biāo)記學(xué)習(xí)作了一個(gè)全面的綜述報(bào)告;文獻(xiàn)[9]提出了一種基于神經(jīng)網(wǎng)絡(luò)的多標(biāo)記學(xué)習(xí)方法。從現(xiàn)有的多標(biāo)記算法可以看出,可以采用兩個(gè)策略來(lái)處理多標(biāo)記學(xué)習(xí)問題:一是將多標(biāo)記問題分解為多個(gè)單標(biāo)記問題。但是在很多情況下標(biāo)記之間是有相關(guān)性的,例如天空和海洋可能會(huì)同時(shí)出現(xiàn)在同一個(gè)場(chǎng)景中,如果仍然用這個(gè)策略來(lái)處理多標(biāo)記學(xué)習(xí)問題,將會(huì)丟失這種對(duì)提升多分類性能很有幫助的信息。二是直接對(duì)示例和標(biāo)記集合之間建立模型。在一些復(fù)雜的模型中,不但可以直接建立示例和標(biāo)記集合的對(duì)應(yīng)關(guān)系,同時(shí)也可以得到標(biāo)記之間的一些相關(guān)性。
1.3多示例多標(biāo)記學(xué)習(xí)
對(duì)于多示例多標(biāo)記學(xué)習(xí),文獻(xiàn)[4]中對(duì)多示例多標(biāo)記學(xué)習(xí)作了一個(gè)全面的介紹,并且提出了MIMLBOOST和MIMLSVM算法。MIMLBOOST算法首先將多示例多標(biāo)記問題轉(zhuǎn)化為多示例問題,然后再采用MIBOOST[10]來(lái)處理多示例問題;MIMLSVM算法首先將多示例多標(biāo)記學(xué)習(xí)問題轉(zhuǎn)化為多標(biāo)記問題,然后采用MLSVM[11]算法來(lái)處理多標(biāo)記問題。傳統(tǒng)的監(jiān)督學(xué)習(xí)方法、多示例學(xué)習(xí)方法和多標(biāo)記學(xué)習(xí)方法都可以通過分解策略從多示例多標(biāo)記學(xué)習(xí)中得到,但是采用這種分解策略會(huì)丟失很多蘊(yùn)藏在訓(xùn)練樣本中的信息,同時(shí)也不能考慮到標(biāo)記之間存在關(guān)聯(lián)性的問題。后來(lái),文獻(xiàn)[12]提出了一種直接學(xué)習(xí)示例和標(biāo)記之間映射關(guān)系的MIMLRBF算法;文獻(xiàn)[7]提出了一種聯(lián)合多示例和多標(biāo)記的新穎算法,該算法不但可以直接對(duì)示例集合和標(biāo)記集合之間進(jìn)行建模,同時(shí)還可以捕獲到標(biāo)記之間的關(guān)聯(lián)性;文獻(xiàn)[8]則提出了一種針對(duì)大數(shù)據(jù)問題的快速多示例多標(biāo)記算法。然而,上述文獻(xiàn)中提到的方法都沒有考慮如何來(lái)更好地表示對(duì)象的特征這一因素。針對(duì)這一問題,本文考慮將特征學(xué)習(xí)模型融入多示例多標(biāo)記學(xué)習(xí)中,以學(xué)習(xí)到一個(gè)更好的特征表達(dá)方式,從根源上提升分類算法的準(zhǔn)確性。概率潛在語(yǔ)義分析模型可以學(xué)習(xí)到樣本中潛在的主題這一高層特征,本文結(jié)合這一特性提出一種新的多示例多標(biāo)記學(xué)習(xí)方法PLSANNMIML,以解決多示多標(biāo)記學(xué)習(xí)中如何更好地表示對(duì)象特征這一問題。
2PLSANNMIML方法
2.1概率潛在語(yǔ)義分析
Hofmann[13]首次提出用概率潛在語(yǔ)義模型對(duì)文本進(jìn)行建模的方法。當(dāng)用概率潛在語(yǔ)義分析模型處理圖像數(shù)據(jù)時(shí),可以把圖像看成是文檔,用概率潛在語(yǔ)義分析模型對(duì)圖像進(jìn)行建模來(lái)發(fā)現(xiàn)圖像潛在的主題分布。
假設(shè)D={d1,d2,…,di}代表一個(gè)圖像數(shù)據(jù)集,W={w1,w2,…,wj}代表一個(gè)視覺詞匯表,這種用概率潛在語(yǔ)義分析模型對(duì)圖像進(jìn)行建模的模型是一個(gè)發(fā)現(xiàn)共現(xiàn)矩陣隱變量的模型,而該共現(xiàn)矩陣的值由nij=(wj,di)組成,其中nij=(wj,di)是一個(gè)視覺詞wj出現(xiàn)在圖像di中的數(shù)量。設(shè)Z={z1,z2,…,zk}代表沒有觀測(cè)到的潛在主題變量, P(di)代表觀測(cè)到一張具體圖像的概率, P(zk|di)代表一張?zhí)囟▓D像在潛在主題空間下的概率分布, P(wj|zk)代表一個(gè)視覺詞出現(xiàn)在一個(gè)確定主題變量下的條件概率。這種生成模型可以用如下步驟表示:
1)以一定的概率P(di)選擇一張圖像di;
2)以一定的概率P(zk|di)選擇一個(gè)主題zk;
3)以一定的概率P(wj|zk)生成一個(gè)詞wj。
經(jīng)過上面的過程,當(dāng)?shù)玫揭粋€(gè)觀測(cè)點(diǎn)(wj,di)時(shí),潛在的主題變量zk被忽略,產(chǎn)生下面的聯(lián)合概率模型:
L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)
(1)
在遵循似然原則的條件下,采用期望最大化算法[12]最大化似然函數(shù)的對(duì)數(shù),從而得到P(wj|zk)和P(zk|di),似然函數(shù)的對(duì)數(shù)表現(xiàn)形式如式(2)所示:
L=logP(wj,di)=∑d∈D∑w∈Wn(wj,di)logP(wj,di)
(2)
2.2神經(jīng)網(wǎng)絡(luò)
神經(jīng)網(wǎng)絡(luò)[14]由于其在信息處理中具有非線性的自適應(yīng)能力,已經(jīng)在人工智能領(lǐng)域中取得了廣泛的應(yīng)用。算法通過具有三層結(jié)構(gòu)的前向神經(jīng)網(wǎng)絡(luò)模型[15]來(lái)得到樣本的標(biāo)記集合,每層由不同的神經(jīng)元組成,第一層叫輸入層,中間層叫隱藏層,最后一層叫輸出層。在每一層中的每個(gè)神經(jīng)元都連接著下一層的所有神經(jīng)元,但在同一層中的神經(jīng)之間是沒有連接的,當(dāng)信息從一層傳到下一層時(shí),前層中的每個(gè)神經(jīng)元都會(huì)有一個(gè)激活函數(shù)對(duì)信息進(jìn)行變換,該函數(shù)選擇的是S型的激活函數(shù),其定義是:f(x)=1-ex1+ex。在訓(xùn)練神經(jīng)網(wǎng)絡(luò)時(shí),采用的是反向傳播學(xué)習(xí)算法[15]來(lái)學(xué)習(xí)神經(jīng)網(wǎng)絡(luò)中神經(jīng)元的權(quán)值。
2.3PLSANNMIML方法
算法主要包括訓(xùn)練和測(cè)試兩個(gè)階段,流程如圖1所示。
2.3.1訓(xùn)練階段
訓(xùn)練過程包括兩個(gè)步驟:首先通過概率潛在語(yǔ)義分析模型從所有的訓(xùn)練樣本中學(xué)習(xí)到每個(gè)樣本的特定主題分布P(zk|di)和每個(gè)主題的特定詞分布P(wj|zk),每個(gè)樣本就可以用P(zk|di)來(lái)表示;其次再用每個(gè)樣本的特定主題分布來(lái)訓(xùn)練神經(jīng)網(wǎng)絡(luò),具體細(xì)節(jié)如下所示:
式(3)描述的是神經(jīng)網(wǎng)絡(luò)在樣本xi上的誤差函數(shù)。訓(xùn)練過程中算法采用概率潛在語(yǔ)義分析模型將xi轉(zhuǎn)化為主題向量zk。假定標(biāo)記空間Y有Q個(gè)標(biāo)記,神經(jīng)網(wǎng)絡(luò)具有與主題向量zk維數(shù)相同的輸入和Q個(gè)輸出,其中Q個(gè)輸出對(duì)應(yīng)著Q個(gè)標(biāo)記,向量w是在神經(jīng)網(wǎng)絡(luò)中需要學(xué)習(xí)的權(quán)值向量。
Ei(w)=∑Qq(ciq-diq)2
(3)
其中:ciq是訓(xùn)練時(shí)樣本xi在第q個(gè)類上的實(shí)際輸出;而diq是樣本xi在第q個(gè)類上的目標(biāo)輸出,如果q∈yi則diq的值為1,否則其值為-1。通過結(jié)合誤差反向傳播策略[14],采用隨機(jī)梯度下降法來(lái)最小化式(3)中的誤差函數(shù),其過程如下:
假定xji是單元j的第i個(gè)輸入, wji是關(guān)聯(lián)輸入xji的權(quán)值大小,netj=∑iwjixji是單元j的網(wǎng)絡(luò)輸出,oj=f(netj)是單元j的實(shí)際輸出,tj是單元j的目標(biāo)輸出,根據(jù)隨機(jī)梯度下降算法可以得到每個(gè)權(quán)值的更新公式如下:
wji=wji-ηEiwji
(4)
其中η是學(xué)習(xí)速率的大小。計(jì)算式Eiwji的值時(shí),分兩種情況討論:
當(dāng)j是輸出層的單元時(shí),推導(dǎo)出式(5):
Eiwji=-(tj-oj)oj(1-oj)
(5)
當(dāng)j是隱藏層的單元時(shí),推導(dǎo)出式(6):
Eiwji=-oj(1-oj)xji∑k∈S[(tj-oj)oj(1-oj)]wkj
(6)
其中S是單元j的輸出所能連接到的單元的集合。
2.3.2測(cè)試階段
給定一個(gè)測(cè)試樣本pX,算法首先利用在訓(xùn)練階段得到的每個(gè)主題的特定詞分布P(wj|zk)來(lái)學(xué)習(xí)到測(cè)試樣本的特定主題分布P(zk|dt),然后將學(xué)習(xí)到的主題分布輸入到已經(jīng)訓(xùn)練好的神經(jīng)網(wǎng)絡(luò),神經(jīng)網(wǎng)絡(luò)將會(huì)有Q個(gè)輸出,采用文獻(xiàn)[9]介紹的方法選擇閾值,通過選擇合適的閾值,得到標(biāo)記的相關(guān)集合。
3實(shí)驗(yàn)結(jié)果與分析
3.1實(shí)驗(yàn)步驟
根據(jù)選擇的模型,算法涉及到三個(gè)需要確定的參數(shù)變量,分別是詞的數(shù)量、主題的數(shù)量和神經(jīng)網(wǎng)絡(luò)中隱層神經(jīng)元的數(shù)量,分別用Words、Topics、Neurons來(lái)表示。由于這三個(gè)參數(shù)對(duì)算法的性能有很重要的作用,因此首先需要確定這三個(gè)參數(shù)的最優(yōu)值。在確定參數(shù)的最優(yōu)值時(shí),采用漢明損失(Hamming loss)和1錯(cuò)誤率(oneerror)這兩個(gè)評(píng)價(jià)指標(biāo)來(lái)評(píng)估參數(shù)對(duì)算法性能的影響。確定算法的最優(yōu)參數(shù)后,算法對(duì)現(xiàn)實(shí)世界中的兩種多示例多標(biāo)記學(xué)習(xí)任務(wù)進(jìn)行實(shí)驗(yàn),并與現(xiàn)有的多示例多標(biāo)記算法MIMLBOOST和MIMLSVM進(jìn)行比較。
實(shí)驗(yàn)涉及到兩個(gè)數(shù)據(jù)集,每個(gè)數(shù)據(jù)集都有2000個(gè)樣本。實(shí)驗(yàn)時(shí)先把每個(gè)數(shù)據(jù)集劃分為三部分:1000個(gè)樣本的訓(xùn)練集合、500個(gè)樣本的驗(yàn)證集和500個(gè)樣本的測(cè)試集。
其中500個(gè)樣本的驗(yàn)證集用于確定算法的最優(yōu)參數(shù)。當(dāng)確定算法的最優(yōu)參數(shù)后,再將1000個(gè)樣本的訓(xùn)練集和500個(gè)樣本的驗(yàn)證集合并形成一個(gè)1500個(gè)樣本的訓(xùn)練集,最終每個(gè)數(shù)據(jù)集對(duì)應(yīng)著一個(gè)1500個(gè)樣本的訓(xùn)練集和一個(gè)500個(gè)樣本的測(cè)試集。表1是對(duì)實(shí)驗(yàn)中所用數(shù)據(jù)集的具體描述。
【答:文本數(shù)據(jù)集每個(gè)包劃分出的示例都不相同,一個(gè)平均值表示的是一次實(shí)驗(yàn)時(shí)每個(gè)包的示例的平均數(shù),表格中平均數(shù)有個(gè)范圍是對(duì)數(shù)據(jù)集進(jìn)行不同的劃分,進(jìn)行多次實(shí)驗(yàn)時(shí)的一個(gè)平均值范圍,所以是3.56±2.71,也與后面表中的實(shí)驗(yàn)數(shù)據(jù)一致。上面場(chǎng)景數(shù)據(jù)集,每幅圖片都劃分成9個(gè)示例,所以平均數(shù)不變,也可以寫成9.00±0.00;
3.1.1場(chǎng)景數(shù)據(jù)集
實(shí)驗(yàn)使用的場(chǎng)景數(shù)據(jù)集包含2000幅自然場(chǎng)景圖像,整個(gè)數(shù)據(jù)集包含的類標(biāo)記有沙漠、山、海洋、日落、樹。數(shù)據(jù)集中每幅圖像的標(biāo)記都是人工標(biāo)記的,數(shù)據(jù)集中超過22%的圖像具有多個(gè)標(biāo)記,平均每幅圖像的標(biāo)記數(shù)量是1.24±0.44。對(duì)圖像劃分示例后,通過提取每個(gè)示例的顏色和紋理特征將其中的每個(gè)示例表示為一個(gè)18維的向量,并用這個(gè)特征向量代表這個(gè)示例。
3.1.2文本數(shù)據(jù)集
實(shí)驗(yàn)使用的文本數(shù)據(jù)集又名為Reuters21578數(shù)據(jù)集。實(shí)驗(yàn)時(shí)先對(duì)這個(gè)數(shù)據(jù)集進(jìn)行預(yù)處理,形成一個(gè)具有2000個(gè)文檔的數(shù)據(jù)集。整個(gè)文檔數(shù)據(jù)集包含7個(gè)類標(biāo)記,大約15%的文檔具有多個(gè)標(biāo)記,平均每個(gè)文檔的標(biāo)記數(shù)量是1.15±044。當(dāng)進(jìn)行示例劃分時(shí),采用滑動(dòng)窗口的技術(shù)[16]來(lái)形成文檔的示例,每個(gè)示例對(duì)應(yīng)著一個(gè)被大小為50的滑動(dòng)窗口所覆蓋的文本段,最后采用基于詞頻[17]的詞袋模型表示方法來(lái)表示生成的示例。
3.2實(shí)驗(yàn)結(jié)果
圖2是采用部分場(chǎng)景數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù),觀測(cè)不同參數(shù)值配置對(duì)算法性能的影響。圖2(a)~(f)中參數(shù)變量的取值范圍為[3,21],并且參數(shù)變量取整數(shù)值;
算法中,學(xué)習(xí)速率η的值設(shè)置為0.1。通過改變參數(shù)的配置,采用漢明損失和1錯(cuò)誤率來(lái)評(píng)估參數(shù)對(duì)算法性能影響,進(jìn)行了多組實(shí)驗(yàn)來(lái)確定算法的最優(yōu)參數(shù)值。
實(shí)驗(yàn)開始時(shí),如圖2(a)和(b)中顯示,先確定Neurons和Topics這兩個(gè)參數(shù)的值,其值設(shè)置為Neurons=3,Topics=3,Words的變化范圍為[3,21]。從圖2(a)和(b)中可以看到,當(dāng)Words取值為7時(shí),漢明損失和1錯(cuò)誤率指標(biāo)取得最小值,算法的分類性能最好。
在圖2(c)和(d)中,參數(shù)Neurons的值與圖2(a)和(b)中的值相同,但是Words的值設(shè)置為7,Topics的變化范圍為[3,21]。從圖2(c)和(d)中可以看出,當(dāng)Topics取值為9時(shí),漢明損失和1錯(cuò)誤率指標(biāo)取得最小值,算法的分類性能最好。
在圖2(e)和(f)中,根據(jù)前面的實(shí)驗(yàn)結(jié)果,參數(shù)Words的值設(shè)置為7,Topics的值設(shè)置為9,Neurons變化范圍為[3,21]。從圖2(e)和(f)中可以看出,當(dāng)Neurons取值為9時(shí),漢明損失和1錯(cuò)誤率指標(biāo)取得最小值,算法的分類性能最好。確定算法的最優(yōu)參數(shù)值后,算法對(duì)現(xiàn)實(shí)世界中的兩種多示例多標(biāo)記學(xué)習(xí)任務(wù)進(jìn)行實(shí)驗(yàn),并和MIMLBOOST和MIMLSVM進(jìn)行比較,采用文獻(xiàn)[12]中提到的五種多標(biāo)記學(xué)習(xí)評(píng)價(jià)指標(biāo)來(lái)評(píng)估算法的性能。表2和表3分別是各個(gè)算法在場(chǎng)景數(shù)據(jù)集和文本數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)的結(jié)果,同時(shí)表4還給出了各個(gè)算法在這兩個(gè)數(shù)據(jù)集進(jìn)行實(shí)驗(yàn)時(shí)所需要的時(shí)間。在表2和表3中,表示數(shù)值越小算法性能越好,而表示數(shù)值越大算法性能越好。
從表2、3中的數(shù)據(jù)可以看出,對(duì)于表中的所有評(píng)價(jià)指標(biāo),PLSANNMIML算法在場(chǎng)景數(shù)據(jù)集和文本數(shù)據(jù)集上具有更好的性能。
從表4中可以看出,PLSANNMIML方法在時(shí)間上也具有更好的性能,在訓(xùn)練和測(cè)試階段,算法需要的時(shí)間都比MIMLSVM算法稍微少些,而且遠(yuǎn)遠(yuǎn)要少于MIMLBOOST算法所需要的時(shí)間。從所有的實(shí)驗(yàn)結(jié)果可以看出,PLSANNMIML方法在現(xiàn)實(shí)世界中的兩種多示例多標(biāo)記學(xué)習(xí)任務(wù)中具有更優(yōu)越的性能。
4結(jié)語(yǔ)
現(xiàn)有的大部分多示例多標(biāo)記學(xué)習(xí)算法都沒有考慮怎么樣更好地表示對(duì)象的特征這一因素,因此提出了一種結(jié)合概率潛在語(yǔ)義分析和神經(jīng)網(wǎng)絡(luò)的多示例多標(biāo)記學(xué)習(xí)方法。概率潛在語(yǔ)義分析模型可以學(xué)習(xí)到樣本中的潛在語(yǔ)義這一高層特征,而神經(jīng)網(wǎng)絡(luò)在多標(biāo)記問題中具有良好的分類性能。對(duì)現(xiàn)實(shí)世界中的兩種多示例多標(biāo)記學(xué)習(xí)任務(wù)進(jìn)行實(shí)驗(yàn)表明,PLSANNMIML算法對(duì)其他的多示例多標(biāo)記學(xué)習(xí)算法而言具有很強(qiáng)的競(jìng)爭(zhēng)力,解決了在多示例多標(biāo)記學(xué)習(xí)算法中怎么更好地表示對(duì)象的特征這一問題;同時(shí)也存在著不足之處,算法依然采用的是分解策略來(lái)處理多示例多標(biāo)記學(xué)習(xí)問題,同時(shí)還忽略了標(biāo)記之間的相關(guān)性。下一步將在融入特性學(xué)習(xí)模型的基礎(chǔ)上尋找其他策略來(lái)處理多示例多標(biāo)記問題,同時(shí)也要考慮標(biāo)記之間的相關(guān)性。
參考文獻(xiàn):
[1]
BISHOP C M. Pattern recognition and machine learning: information science and statistics [M]. New York: Springer, 2006: 67-459.
[2]
ZHOU Z, ZHANG M,ZHANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.
[3]
ZHOU Z. Multiinstance learning: a survey [R/OL]. Nanjing: Nanjing University, National Laboratory for Novel Software Technology, 2004 [20150206]. http:///zhouzh/zhouzh.files/publication/techrep04.pdf.Nanjing, China, Mar. 2004.
[4]
ZHOU Z, ZHANG M, HUANG S, et al. Multiinstance multilabel learning [J]. Artificial Intelligence, 2012, 176(1): 2291-2320.
[5]
PRATT W K. Digital image processing [M]. DENG L, ZHANG Y, translated. Beijing: China Machine Press, 2005:345-398. (PRATT W K. 數(shù)字圖像處理[M].鄧魯華,張延恒,譯. 北京:機(jī)械工業(yè)出版社,2005:345-398.)
[6]
LI Z, ZHUO Y, ZHANG C, et al. Survey on multilabel learning [J]. Application Research of Computers, 2014, 31(6): 1601-1605. (李志欣,卓亞琦,張燦龍,等.多標(biāo)記學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,2014,31(6):1601-1605.)
[7]
ZHA Z, HUA X, MEI T, et al. Joint multilabel multiinstance learning for image classification [C]// CVPR 2008: Proceedings of the 2008 IEEE Conference on Computer Vision and Pattern Recognition. Washington, DC: IEEE Computer Society, 2008: 1-8.
[8]
HUANG S, ZHOU Z. Fast multiinstance multilabel learning [C]// AAAI 2014: Proceedings of the 28th AAAI Conference on Artificial Intelligence. Menlo Park: AAAI Press, 2014: 1868-1874.
[9]
ZHANG M, ZHOU Z. Multilabel neural networks with applications to functional genomics and text categorization [J]. IEEE Transactions on Knowledge and Data Engineering, 2006, 18(10): 1338-1351.
[10]
XU X, FRANK E. Logistic regression and boosting for labeled bags of instances [C]// PAKDD 2004: Proceedings of the 8th PacificAsia Conference on Knowledge Discovery and Data Mining, LNCS 3056. Berlin: Springer, 2004: 272-281.
[11]
BOUTELL M R, LUO J, SHEN X, et al. Learning multilabel scene classification [J]. Pattern Recognition, 2004, 37(9): 1757-1771.
[12]
ZHANG M, WANG Z. MIMLRBF: RBF neural networks for multiinstance multilabel learning [J]. Neurocomputing, 2009, 72(16/17/18):3951-3956.
[13]
HOFMANN T. Unsupervised learning by probabilistic latent semanticanalysis [J]. Machine Learning, 2001, 42(1/2): 177-196.
[14]
SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural Networks, 2015, 61: 85-117.
[15]
HAYKIN S. Neural networks [M]. YE S, SHI Z, translated. 2nd ed. Beijing: China Machine Press, 2004: 109-176. (HAYKIN S. 神經(jīng)網(wǎng)絡(luò)原理[M].葉世偉,史忠植,譯.2版.北京:機(jī)械工業(yè)出版社,2004:109-176.)
[16]
SEBASTIANI F. Machine learning in automated text categorization [J]. ACM Computing Surveys, 2001, 34(1): 1-47.
整澆樓蓋主梁的不動(dòng)鉸支分析
錨桿靜壓樁在地基加固中的應(yīng)用
多層砌體結(jié)構(gòu)內(nèi)廊圈梁設(shè)計(jì)
淺談地震區(qū)框架柱軸壓比限值
洛陽(yáng)某主干道石灰土穩(wěn)定層裂縫分析與對(duì)策
淺談市政施工用電的保護(hù)系統(tǒng)
輥壓機(jī)粉磨技術(shù)在水泥廠的應(yīng)用
居住區(qū)水暖管網(wǎng)管理系統(tǒng)的一種實(shí)現(xiàn)方法
DSS的系統(tǒng)分析和設(shè)計(jì)方法初探
模糊控制分區(qū)方法研究
核子秤的一種特殊使用方法
HDL技術(shù)簡(jiǎn)介與應(yīng)用
無(wú)窮小的階在計(jì)算中的應(yīng)用
傅立葉級(jí)數(shù)展開CAI課件的設(shè)計(jì)與實(shí)現(xiàn)
高校選修課成績(jī)管理系統(tǒng)的研制
海螺模式的啟示
談直觀教學(xué)在《機(jī)械設(shè)計(jì)基礎(chǔ)》課中的運(yùn)用
城市特色文化研究
淺談多媒體CAI課件制作工具
自蔓延高溫合成機(jī)理研究方法的分析
商品混凝土澆筑杯口基礎(chǔ)方案的探討
粗糙集和神經(jīng)網(wǎng)絡(luò)在文本分類中的應(yīng)用研究
數(shù)據(jù)通信模擬實(shí)驗(yàn)系統(tǒng)的設(shè)計(jì)與實(shí)現(xiàn)
逆向工程技術(shù)在模型制作中的應(yīng)用
雙轉(zhuǎn)子軸系五主軸軸承試驗(yàn)機(jī)主體結(jié)構(gòu)設(shè)計(jì)與計(jì)算
關(guān)于水泥機(jī)立窯除塵技術(shù)的探討
基于P2P構(gòu)架的大型異構(gòu)網(wǎng)絡(luò)管理模型研究
沖擊電流計(jì)特性研究實(shí)驗(yàn)中對(duì)偏轉(zhuǎn)線圈運(yùn)動(dòng)狀態(tài)的數(shù)學(xué)分析
一種新的拉曼散射——表面增強(qiáng)拉曼散射
基于WinCe的PLC通訊系統(tǒng)的設(shè)計(jì)
洛陽(yáng)市技術(shù)創(chuàng)新能力問題分析及戰(zhàn)略研究
企業(yè)內(nèi)部審計(jì)的現(xiàn)狀和對(duì)策
高分子材料應(yīng)用技術(shù)專業(yè)教改的思路與實(shí)踐
我校電子商務(wù)專業(yè)教學(xué)研究初探
對(duì)“測(cè)試技術(shù)基礎(chǔ)”教學(xué)的探討
新建本科院校體育教學(xué)模式初探
淺析網(wǎng)絡(luò)會(huì)計(jì)軟件的隱患
元認(rèn)知型學(xué)習(xí)策略在外語(yǔ)寫作教學(xué)中的應(yīng)用
論大學(xué)英語(yǔ)分級(jí)教學(xué)模式對(duì)學(xué)生自主學(xué)習(xí)習(xí)慣的影響
連續(xù)梁抗剪性能與裂縫分析
中天山特長(zhǎng)隧道施工GPS控制網(wǎng)的建立及橫向貫通誤差預(yù)計(jì)分析
微分求積法求解功能梯度材料梁的彎曲問題
一種裝置點(diǎn)火單元可靠性評(píng)估方法研究
基于S7-200的AS-i網(wǎng)絡(luò)設(shè)計(jì)與數(shù)據(jù)傳輸
基于GA-BP算法的水電機(jī)組故障診斷模型
基于MSP430單片機(jī)的小功率鋰電池組保護(hù)器設(shè)計(jì)
GIS管理系統(tǒng)中圖形對(duì)象實(shí)體點(diǎn)選的處理方法
一種簡(jiǎn)單有效的碰撞檢測(cè)算法的實(shí)現(xiàn)
基于CLucene的WORD文檔全文檢索系統(tǒng)研究與開發(fā)
關(guān)鍵詞: 云計(jì)算;數(shù)據(jù)挖掘;分布式
中圖分類號(hào):TP393.08 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1671-7597(2012)0220104-01
0 引言
信息技術(shù)的出現(xiàn)導(dǎo)致各種格式(如記錄、文檔、圖像、聲音、航空數(shù)據(jù)等)的海量數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中,如何從海量的數(shù)據(jù)中找到有價(jià)值的信息是當(dāng)前的一個(gè)熱點(diǎn),對(duì)人類社會(huì)具有非常重要的社會(huì)價(jià)值和經(jīng)濟(jì)利益,數(shù)據(jù)挖掘就是實(shí)現(xiàn)這一功能的技術(shù)。數(shù)據(jù)挖掘從早期的單獨(dú)算法對(duì)單系統(tǒng)、單機(jī)器進(jìn)行對(duì)向量數(shù)據(jù)的挖掘,到與數(shù)據(jù)庫(kù)相結(jié)合,支持多個(gè)算法的挖掘,以及和預(yù)測(cè)模型相集成,支持Web數(shù)據(jù)、半結(jié)構(gòu)化的數(shù)據(jù)的網(wǎng)絡(luò)化計(jì)算,發(fā)展到了分布式數(shù)據(jù)挖掘。分布式數(shù)據(jù)挖掘(Distributed Data Mining,DDM)作為一種成熟的挖掘技術(shù)已被廣泛應(yīng)用到各個(gè)領(lǐng)域,是數(shù)據(jù)挖掘領(lǐng)域的熱點(diǎn)之一?!胺植肌钡暮x包括數(shù)據(jù)的分布和計(jì)算的分布兩層含義。在分布式計(jì)算環(huán)境中,用戶、數(shù)據(jù)、計(jì)算硬件、數(shù)據(jù)挖掘軟件均可能在地域上分散。分布式數(shù)據(jù)挖掘旨在解決分散的同構(gòu)和異構(gòu)數(shù)據(jù)庫(kù)的挖掘問題;同時(shí),數(shù)據(jù)的分布性帶來(lái)處理的并行性,則可能解決海量數(shù)據(jù)挖掘的可伸縮性(Scalability)瓶頸[1]。
隨著科學(xué)技術(shù)的飛速發(fā)展,人類社會(huì)信息正以每18個(gè)月產(chǎn)生的數(shù)量等于過去幾千年的總和的速度不斷增加[1]。尤其是隨著物聯(lián)網(wǎng)產(chǎn)業(yè)的迅猛發(fā)展,越來(lái)越多的應(yīng)用終端被接入網(wǎng)絡(luò),隨之帶來(lái)的龐大的數(shù)據(jù)量極大的增加了人們從海量數(shù)據(jù)中發(fā)現(xiàn)有用知識(shí)的難度。物聯(lián)網(wǎng)產(chǎn)生的數(shù)據(jù)具有數(shù)量大,高度分散的特點(diǎn),傳統(tǒng)的分布式數(shù)據(jù)挖掘已經(jīng)無(wú)法解決現(xiàn)有數(shù)據(jù)處理瓶頸問題[2]。作為新興商業(yè)計(jì)算模型的云計(jì)算,為分布式數(shù)據(jù)挖掘提供了許多新的解決思路和方案。云計(jì)算是數(shù)據(jù)管理技術(shù)發(fā)展的必然趨勢(shì),能對(duì)分布在大量計(jì)算機(jī)上存儲(chǔ)的資源池上進(jìn)行操作,使基于云計(jì)算平臺(tái)的應(yīng)用能根據(jù)需要獲取所需的存儲(chǔ)空間,軟件服務(wù)和計(jì)算能力。目前,IT巨頭正在相繼開發(fā)云計(jì)算平臺(tái)、云計(jì)算終端和服務(wù)器。
1 數(shù)據(jù)挖掘算法分類
數(shù)據(jù)挖掘算法有很多,從不同的視角,數(shù)據(jù)挖掘技算法可以有根據(jù)發(fā)現(xiàn)知識(shí)的種類分類、根據(jù)挖掘的數(shù)據(jù)庫(kù)的種類分類和根據(jù)采用的技術(shù)分類的幾種常見分類標(biāo)準(zhǔn)[3]。
1)根據(jù)發(fā)現(xiàn)的知識(shí)種類,數(shù)據(jù)挖掘算法有:關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、分類或預(yù)測(cè)模型知識(shí)發(fā)現(xiàn)、數(shù)據(jù)總結(jié)、數(shù)據(jù)聚類、序列模式發(fā)現(xiàn)、依賴關(guān)系或依賴模型發(fā)現(xiàn)、異常和趨勢(shì)發(fā)現(xiàn)等多種算法。
2)根據(jù)挖掘的數(shù)據(jù)庫(kù)的種類,數(shù)據(jù)挖掘有基于各種數(shù)據(jù)庫(kù)的挖掘算法:關(guān)系型、面向?qū)ο髷?shù)據(jù)庫(kù)、空間數(shù)據(jù)庫(kù)、時(shí)態(tài)數(shù)據(jù)庫(kù)、文本數(shù)據(jù)源、交易型、多媒體數(shù)據(jù)庫(kù)、異質(zhì)數(shù)據(jù)庫(kù)、遺留數(shù)據(jù)庫(kù)等,已經(jīng)基于數(shù)據(jù)倉(cāng)庫(kù)、基于Web的挖掘算法等。
3)根據(jù)挖掘方法采用的技術(shù),可分為:統(tǒng)計(jì)分析、機(jī)器學(xué)習(xí)方法、模式識(shí)別、面向數(shù)據(jù)庫(kù)或數(shù)據(jù)倉(cāng)庫(kù)的技術(shù)、可視化技術(shù)和神經(jīng)網(wǎng)絡(luò)等挖掘算法。其中,常用的統(tǒng)計(jì)方法可細(xì)分為回歸分析、判別分析、聚類分析(系統(tǒng)聚類、動(dòng)態(tài)聚類等)、探索性分析等。機(jī)器學(xué)習(xí)方法可細(xì)分為:歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法等。數(shù)據(jù)庫(kù)方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。
基于云計(jì)算分布式數(shù)據(jù)挖掘算法是在這些數(shù)據(jù)挖掘算法的基礎(chǔ)上,采用云計(jì)算平臺(tái)實(shí)現(xiàn)的數(shù)據(jù)挖掘算法,也可以采用這樣的分類標(biāo)準(zhǔn)進(jìn)行分類。然而,由于有各式各樣的數(shù)據(jù)存在,每一種挖掘算法都應(yīng)用到具體的數(shù)據(jù)類型上,對(duì)數(shù)據(jù)類型的要求是有限制的,一種算法不可能會(huì)適應(yīng)所有數(shù)據(jù)類型的挖掘應(yīng)用。因此,在考慮不同數(shù)據(jù)類型的挖掘和具體的應(yīng)用時(shí),如何選擇合適的挖掘算法是非常重要的。當(dāng)然,在實(shí)際應(yīng)用中,往往結(jié)合多方面的因素,考慮算法的優(yōu)缺點(diǎn),采用多種算法實(shí)現(xiàn)有效的挖掘。
2 不同數(shù)據(jù)類型對(duì)應(yīng)的挖掘算法
隨著信息量的劇增,數(shù)據(jù)的種類也不斷增多。從粗粒度來(lái)看,數(shù)據(jù)挖掘常應(yīng)用到如下幾種數(shù)據(jù)形式:文本型(Textual)、關(guān)系型(Relational)、
事務(wù)型(Transactional)、面向?qū)ο笮停∣bjected-Oriented)、主動(dòng)型(Active)、空間型(Spatial)、時(shí)間型(Temporal)、多媒體(Multi-Media)、異質(zhì)(Heterogeneous)數(shù)據(jù)庫(kù)和遺留(Legacy)系統(tǒng)等。從挖掘的數(shù)據(jù)特性出發(fā),專家和相關(guān)研究人員將數(shù)據(jù)挖掘歸為如下幾種技術(shù):[4,5]
1)分類。分類算法適用于以元組構(gòu)成的關(guān)系型數(shù)據(jù)形式,關(guān)系型中的一個(gè)數(shù)據(jù)屬性可以看作分類輸出的目標(biāo)屬性,其他屬性作為分類算法數(shù)據(jù)模式(輸入)。這類算法的主要目的是對(duì)訓(xùn)練的數(shù)據(jù)集進(jìn)行挖掘,以發(fā)現(xiàn)另外的數(shù)據(jù)為目標(biāo)得出數(shù)據(jù)分類的原理,這個(gè)原理可以用于后加入數(shù)據(jù)的分類。如果預(yù)測(cè)的變量是離散的,這類問題成為分類;如果預(yù)測(cè)的變量是連續(xù)的,這類問題成為回歸?;谠朴?jì)算常用的分布式挖掘算法實(shí)現(xiàn)關(guān)系型數(shù)據(jù)的挖掘主要有基于K-最鄰近方法的分類算法、云計(jì)算環(huán)境下樸素貝葉斯文本分類算法、基于神經(jīng)網(wǎng)絡(luò)、基于范例的推理、決策樹和徑向基函數(shù)等分類算法。
2)聚類分析。聚類分析和分類算法相似適用于關(guān)系型數(shù)據(jù)的挖掘。聚類是在事先不規(guī)定分組規(guī)則的情況下,將數(shù)據(jù)按照其自身特征劃分成不同的群組進(jìn)行挖掘,以期從潛在的數(shù)據(jù)中發(fā)現(xiàn)新的、有意義的數(shù)據(jù)分布模式。聚類方法主要有劃分聚類、層次聚類、基于密度的聚類、基于網(wǎng)格的聚類和基于模型的聚類。云計(jì)算聚類算法常用的有基于云計(jì)算的并行k均值聚類算法等。
3)關(guān)聯(lián)規(guī)則。關(guān)聯(lián)規(guī)則適用于事務(wù)型、交易型和關(guān)系型數(shù)據(jù),但對(duì)關(guān)系型數(shù)據(jù)要求按事務(wù)分組。最適合處理的變量類型是布爾型和數(shù)值型。布爾型關(guān)聯(lián)規(guī)則處理的值都是離散的、種類化的,而數(shù)值型關(guān)聯(lián)規(guī)則可以和多維關(guān)聯(lián)或多層關(guān)聯(lián)規(guī)則結(jié)合起來(lái)。關(guān)聯(lián)規(guī)則挖掘主要是發(fā)現(xiàn)大量數(shù)據(jù)中項(xiàng)集之間有趣的關(guān)聯(lián)或相關(guān)聯(lián)系,關(guān)聯(lián)規(guī)則研究有助于發(fā)現(xiàn)交易數(shù)據(jù)庫(kù)中不同商品(項(xiàng))之間的聯(lián)系以應(yīng)用于商品貨架布局、貨存安排以及根據(jù)購(gòu)買模式對(duì)用戶進(jìn)行分類。云計(jì)算環(huán)境下的常用關(guān)聯(lián)規(guī)則分布式挖掘算法有:Apriori算法,已經(jīng)出現(xiàn)了多種對(duì)Apriori算法改進(jìn)的版本。
4)基于模式的相似性查找。該算法適用于于文本型和時(shí)間型數(shù)據(jù),進(jìn)行文本相似性搜索和時(shí)間相似性。時(shí)間序列數(shù)據(jù)是一類重要的復(fù)雜數(shù)據(jù)對(duì)象,對(duì)時(shí)間序列數(shù)據(jù)庫(kù)進(jìn)行挖掘能發(fā)現(xiàn)時(shí)間序列中所蘊(yùn)涵的知識(shí),數(shù)據(jù)挖掘技術(shù)在時(shí)間序列中的主要應(yīng)用有規(guī)則發(fā)現(xiàn)、周期模式挖掘、相似性搜索和序列模式發(fā)現(xiàn)等方面。文本數(shù)據(jù)是最常見的一種數(shù)據(jù),基于文本相似型的挖掘可以實(shí)現(xiàn)文本雷同度與相似性的研究。常用的算法有基于云模型的時(shí)間序列分段聚合近似方法、基于模糊聚類的文本挖掘算法、基于云計(jì)算的ARMA算法和基于離散傅立葉變換的時(shí)間序列相似性查找算法等。
5)時(shí)間序列或趨勢(shì)發(fā)現(xiàn)和分析。該技術(shù)主要用于時(shí)間型數(shù)據(jù),通過對(duì)不同時(shí)間點(diǎn)以前時(shí)間數(shù)據(jù)值的變化,發(fā)現(xiàn)或預(yù)測(cè)未來(lái)可能的變化和趨勢(shì),如股票的預(yù)測(cè)就是這種一個(gè)好的時(shí)間序列趨勢(shì)析例子。常用的算法有神經(jīng)網(wǎng)絡(luò)算法、支持向量機(jī)算法等。
此外,除了上面提到的常用數(shù)據(jù)類型的挖掘,對(duì)空間數(shù)據(jù)的挖掘多采用空間聚類分析和空間OLAP等方法;對(duì)多媒體數(shù)據(jù)的挖掘多采用基于規(guī)則的決策樹分類算法;對(duì)于應(yīng)用在智能終端上的普適數(shù)據(jù)多采用機(jī)器學(xué)習(xí)和統(tǒng)計(jì)的挖掘算法。
3 結(jié)束語(yǔ)
本文首先介紹了云計(jì)算和分布式數(shù)據(jù)挖掘的相關(guān)知識(shí),隨著Internet的普及和數(shù)據(jù)的海量增加,二者相結(jié)合能解決分布式數(shù)據(jù)挖掘的瓶頸問題,是今后的一個(gè)發(fā)展方向。本文重點(diǎn)針對(duì)不同的數(shù)據(jù)類型采用的基于云計(jì)算的分布式挖掘算法進(jìn)行了對(duì)比,為基于云平臺(tái)的分布式數(shù)據(jù)挖掘系統(tǒng)的開發(fā)提供了支持。云計(jì)算為海量和復(fù)雜數(shù)據(jù)對(duì)象的數(shù)據(jù)挖掘提供了基礎(chǔ)設(shè)施,為網(wǎng)絡(luò)環(huán)境下面向大眾的數(shù)據(jù)挖掘服務(wù)帶來(lái)了機(jī)遇。
參考文獻(xiàn):
[1]張誠(chéng)、郭毅,專訪中國(guó)科學(xué)院計(jì)算技術(shù)研究所-何清博士,數(shù)字通信,2011,3:5-7.
[2]陳磊、王鵬、董靜宜、任超,基于云計(jì)算架構(gòu)的分布式數(shù)據(jù)挖掘研究,成都信息工程學(xué)院學(xué)報(bào),2010,12:777-579.
[3]邵峰晶、于忠清著,數(shù)據(jù)挖掘原理與算法,北京:水利水電出版社,2003.08.
關(guān)鍵詞:文本自動(dòng)分類技術(shù),分詞,特征提取,向量映射,機(jī)器學(xué)習(xí)
1. 引言
文本自動(dòng)分類最初是應(yīng)信息檢索(Information Retrieval)系統(tǒng)的要求出現(xiàn)的。文本自動(dòng)分類系統(tǒng)的目的就是對(duì)文本集進(jìn)行有序組織,把相似的、相關(guān)的文本組織在一起。它作為知識(shí)的組織工具,為信息檢索提供了更高效的搜索策略和更準(zhǔn)確的查詢結(jié)果。現(xiàn)有文本自動(dòng)分類技術(shù)主要有基于知識(shí)庫(kù)(專家系統(tǒng))方法和歸納學(xué)習(xí)方法(基于詞典的方法)。目前比較常用的是基于詞典的方法,即通過已知類別的訓(xùn)練集構(gòu)造出一個(gè)分類函數(shù)或分類模型(分類器),并利用此分類模型將未知的文檔映射到給定的類別空間。本文根據(jù)中文文本分類所要用到的算法和技術(shù),給出了一個(gè)可行的中文文本分類系統(tǒng)的基本構(gòu)架,并給出了詳細(xì)的系統(tǒng)設(shè)計(jì)方案。其中文本分類的關(guān)鍵是如何構(gòu)造分類函數(shù)(也稱為分類器),將未知文本與給定的類別模板進(jìn)行匹配。目前有許多種分類器的構(gòu)造方法,如統(tǒng)計(jì)方法、機(jī)器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法等。其中基于關(guān)鍵詞匹配的機(jī)器學(xué)習(xí)算法是網(wǎng)頁(yè)文本自動(dòng)分類的主流。機(jī)器學(xué)習(xí)算法主要有Naive Bayes算法、KNN(k-近鄰算法)、SVM(支持向量機(jī))等。本系統(tǒng)在文本處理的過程中,將采用SVM分類算法,將文本映射到向量空間進(jìn)行表示。
2. 系統(tǒng)設(shè)計(jì)目標(biāo)
(1)本系統(tǒng)的主要目的是實(shí)現(xiàn)一個(gè)面向中文的文本分類系統(tǒng)。主要處理兩類事務(wù):
對(duì)樣本數(shù)據(jù)進(jìn)行學(xué)習(xí),生成分類器的內(nèi)部表示。在這個(gè)事務(wù)的處理過程中,系統(tǒng)要協(xié)調(diào)分詞模塊對(duì)訓(xùn)練樣本進(jìn)行預(yù)處理,生成規(guī)范的文本表示。接著要協(xié)調(diào)特征提取模塊提取適當(dāng)數(shù)量的特征生成基礎(chǔ)詞典。然后調(diào)用向量映射模塊將文本表示為向量,最后提供給支持向量機(jī)進(jìn)行學(xué)習(xí)。
利用生成好的分類器對(duì)未知測(cè)試文本進(jìn)行分類。在這個(gè)事務(wù)的處理過程中,系統(tǒng)要打開上一個(gè)事物生成的中間數(shù)據(jù)——基礎(chǔ)詞典,協(xié)調(diào)向量映射模塊利用詞典把文本表示成向量,然后用分類器對(duì)文本進(jìn)行分類。
(2)對(duì)應(yīng)系統(tǒng)的兩類事物,系統(tǒng)的輸入也分為兩類:
訓(xùn)練文本集:已經(jīng)由人工分好類的一系列中文文本的集合,每類文本賦予一個(gè)分類標(biāo)簽。這些文本可以是原始文本數(shù)據(jù),也可以是經(jīng)過預(yù)處理后,只剩下詞干的預(yù)處理格式。
測(cè)試文本集:待分類的一系列中文文本的集合,這類文本可以沒有分類標(biāo)簽,也可以有分類標(biāo)簽。如果沒有分類標(biāo)簽則用系統(tǒng)進(jìn)行分類。如果有分類標(biāo)簽則可用來(lái)驗(yàn)證系統(tǒng)分類的準(zhǔn)確度。
(3)系統(tǒng)的中間數(shù)據(jù)。通過前面對(duì)系統(tǒng)兩類事務(wù)流程的描述,可以看到有如下數(shù)據(jù)輸出:
基礎(chǔ)詞典。這個(gè)數(shù)據(jù)集是向量空間模型中基礎(chǔ)維的表示。它包含了系統(tǒng)用來(lái)將文本表示為向量時(shí)選取的特征詞根。同時(shí)它也存儲(chǔ)了特征詞根在訓(xùn)練文本中的基本統(tǒng)計(jì)數(shù)據(jù):詞根出現(xiàn)的文檔數(shù)目;詞根在每類中出現(xiàn)的文檔數(shù)目。
訓(xùn)練文本的向量表示。這個(gè)數(shù)據(jù)集是訓(xùn)練文本用基礎(chǔ)詞典在向量空間模型下映射的向量表示。它可以被支持向量機(jī)讀取并學(xué)習(xí)。
分類器模型。這個(gè)數(shù)據(jù)集是支持向量機(jī)學(xué)習(xí)后生成的分類器。它包含了能將文本進(jìn)行分類的源數(shù)據(jù)。
分類標(biāo)簽。這個(gè)數(shù)據(jù)集是系統(tǒng)對(duì)測(cè)試文本集分類后的分類標(biāo)簽。
3.系統(tǒng)設(shè)計(jì)思想
在一個(gè)中文文本分類系統(tǒng)的實(shí)現(xiàn)過程中,有分詞、特征提取、向量表示和機(jī)器學(xué)習(xí)四個(gè)主要步驟。在每個(gè)步驟中多存在著許多不同的策略和實(shí)現(xiàn)方案。在本系統(tǒng)的實(shí)現(xiàn)過程中,希望能夠兼容不同的策略,并提供一定的方案由用戶進(jìn)行擴(kuò)展。
出于對(duì)上面要求的考慮,主要采用Bridge(橋梁模式)和Listenner(監(jiān)聽器模式)。
在流程耦合度低處,使用Bridge模式(如圖1),為每個(gè)步驟提供一個(gè)抽象化(Abstraction)角色,同時(shí)提供不同實(shí)現(xiàn)和不同策略實(shí)現(xiàn)化(Implementor)角色。通過這個(gè)模式的應(yīng)用做到了對(duì)不同策略的兼容和提供可擴(kuò)展性的接口。
圖1:Bridge模式
在流程耦合度較高處,使用監(jiān)聽器模式,將特定步驟抽象成監(jiān)聽器,進(jìn)而將步驟獨(dú)立出來(lái)。再通過監(jiān)聽器的不同實(shí)現(xiàn)完成不同策略的異構(gòu)。
4.總體設(shè)計(jì)
本系統(tǒng)由分詞模塊、特征提取、向量映射模塊,SVM學(xué)習(xí)模塊和SVM分類模塊五部分組成。總體框架設(shè)計(jì)如圖2:
圖2:系統(tǒng)總體設(shè)計(jì)圖
本系統(tǒng)主要流程就是對(duì)數(shù)據(jù)的加工處理,每個(gè)模塊都有自己的輸入和輸出,各模塊間相互獨(dú)立,以各自的輸入、輸出數(shù)據(jù)進(jìn)行鏈接。流程1為分類系統(tǒng)的訓(xùn)練過程,流程2為分類系統(tǒng)的分類過程。詞條字典、訓(xùn)練文檔向量表示、測(cè)試向量文檔表示是流程中間數(shù)據(jù),SVM分類器和分類標(biāo)簽是最終數(shù)據(jù)輸出結(jié)果。
5.各模塊功能描述
分詞模塊:對(duì)中文文本進(jìn)行分詞
輸入輸出:模塊輸入為中文文本,輸出為文本分詞表。
特征提取模塊:對(duì)給出文本建立向量空間模型,并進(jìn)行特征提取和維度壓縮,生成字典
輸入輸出:模塊輸入為分詞表,輸出為詞條字典。
向量映射模塊:按照詞條字典把中文文本映射為向量表示形式。
輸入輸出:模塊輸入為文本分詞列表和詞條字典,輸出為文檔向量表示。
SVM學(xué)習(xí)模塊:用SVM對(duì)向量和字典進(jìn)行學(xué)習(xí),生成學(xué)習(xí)模型。
輸入輸出:模塊輸入向量表示的文本訓(xùn)練集,輸出為訓(xùn)練SVM分類器。
SVM分類模塊:用SVM學(xué)習(xí)模塊的訓(xùn)練得分類器對(duì)測(cè)試文本進(jìn)行分類。
輸入輸出:模塊輸入為SVM分類器和測(cè)試文本的向量表示,輸出為分類標(biāo)簽。
6.結(jié)束語(yǔ)
中文文本的自動(dòng)分類是中文信息處理領(lǐng)域中的重要研究課題。本文對(duì)中文文本分類技術(shù)做了初步的探討,給出一個(gè)基于中文文本自動(dòng)分類系統(tǒng)分析。首先,分析系統(tǒng)的輸入、輸出以及中間過程,從而明確系統(tǒng)的設(shè)計(jì)目標(biāo)。接著進(jìn)一步解析系統(tǒng)內(nèi)部的組織結(jié)構(gòu),形成統(tǒng)一的設(shè)計(jì)思想。最后,結(jié)合這些分析給出一個(gè)系統(tǒng)的框架的設(shè)計(jì)。按照該系統(tǒng)的設(shè)計(jì)思想和進(jìn)一步的詳細(xì)設(shè)計(jì)可以搭建一個(gè)相對(duì)系統(tǒng)化、功能較為全面、具有較高效率的中文文本自動(dòng)分類系統(tǒng)平臺(tái)。由于整個(gè)系統(tǒng)涵蓋的范圍較大,設(shè)計(jì)到的技術(shù)細(xì)節(jié)多,在很多實(shí)現(xiàn)細(xì)節(jié)上采用了比較簡(jiǎn)單的方法,以便于整個(gè)系統(tǒng)的順利實(shí)現(xiàn)。今后在很多方面還需要繼續(xù)進(jìn)行深入的研究,以提高整個(gè)文本自動(dòng)分類過程的識(shí)別準(zhǔn)確率。
本文作者創(chuàng)新點(diǎn):對(duì)中文文本自動(dòng)分類系統(tǒng)進(jìn)行分析給出一個(gè)系統(tǒng)框架設(shè)計(jì),按系統(tǒng)設(shè)計(jì)思想和進(jìn)一步的詳細(xì)設(shè)計(jì)可搭建相對(duì)較高效率的中文文本自動(dòng)分類系統(tǒng)平臺(tái)。
作者對(duì)本文版權(quán)全權(quán)負(fù)責(zé),無(wú)抄襲
關(guān)鍵詞:圖書館;亂架檢測(cè);圖像分割;字符識(shí)別;深度學(xué)習(xí)
中圖分類號(hào):TB
文獻(xiàn)標(biāo)識(shí)碼:A
doi:10.19311/ki.16723198.2016.25.087
1概述
利用現(xiàn)代智能處理技術(shù)特別是用計(jì)算機(jī)代替人們自動(dòng)的去處理大量的圖像信息,能夠解決人類器官的分辨能力容易受到環(huán)境、情緒、疲勞等因素的影響,從而部分代替人工勞動(dòng),大大提高生產(chǎn)效率。近年來(lái),將傳統(tǒng)的工作進(jìn)行數(shù)字化和自動(dòng)化加工逐漸成為圖書館行業(yè)越來(lái)越重視的工作內(nèi)容之一。但是目前的圖書館數(shù)字化工作仍存在眾多沒有解決的問題。
圖書亂架的整理工作是圖書館日常維護(hù)工作的一個(gè)重要組成部分。由于書籍眾多,當(dāng)出現(xiàn)不同種類的圖書放置在一起時(shí),工作人員很難人工將錯(cuò)誤放置的圖書進(jìn)行正確地歸類,即使能夠做到,也會(huì)花費(fèi)很長(zhǎng)的時(shí)間和大量的精力,導(dǎo)致人力資源的浪費(fèi)。
2006年,深度學(xué)習(xí)(Deep Learning)開始在學(xué)術(shù)界和工業(yè)界引領(lǐng)發(fā)展前沿,其中深度學(xué)習(xí)認(rèn)為:1)多隱層的人工神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)得到的特征對(duì)數(shù)據(jù)有更本質(zhì)的刻畫,有利于分類和檢測(cè);2)深度神經(jīng)網(wǎng)絡(luò)在訓(xùn)練上的難度,可以通過“逐層預(yù)訓(xùn)練”來(lái)有效克服?;谏疃葘W(xué)習(xí)的圖像視覺識(shí)別技術(shù)已經(jīng)在許多行業(yè)中得到了應(yīng)用,如檢驗(yàn)零件的質(zhì)量;識(shí)別工件及物體的形狀和排列形態(tài)等。
本文結(jié)合圖書館日常管理中遇到的圖書亂架這一實(shí)際問題,以書脊視覺圖像為切入點(diǎn),引入深度學(xué)習(xí)中的SoftMax回歸,設(shè)計(jì)出一種包括單冊(cè)圖像分割、字符識(shí)別、語(yǔ)義特征提取以及歸類判別等環(huán)節(jié)的圖書亂架檢測(cè)算法,其有效性已在實(shí)驗(yàn)中得到較好的驗(yàn)證。
2書脊圖像的定位分割
由于獲取的圖像有可能會(huì)出現(xiàn)模糊,因此需要對(duì)圖像進(jìn)行預(yù)處理。將拍攝的書脊圖像近似看成平穩(wěn)過程,使用Wiener濾波器進(jìn)行幅度相位去模糊。Wiener濾波器的基本原理是將原始圖像f和對(duì)原始圖像的估計(jì)f^看作隨機(jī)變量,按照使f和對(duì)估計(jì)值f^之間的均方誤差達(dá)到最小的準(zhǔn)則進(jìn)行圖像復(fù)原。
然后使用Canny算子進(jìn)行邊緣檢測(cè),并進(jìn)行縱向和橫向的直線跟蹤,對(duì)兩條直線之間的區(qū)域進(jìn)行判斷,如果是書脊區(qū)域,就進(jìn)行分割,然后定位第二本書,直到處理完整幅圖像。
圖1(a)為利用Canny算子進(jìn)行邊緣檢測(cè)出來(lái)的結(jié)果,得到了所有書籍的邊緣;圖1(b)是對(duì)書籍進(jìn)行分割定位的結(jié)果,把定位到的目標(biāo)用直線標(biāo)出,以供后續(xù)處理。
3書脊圖像的字符識(shí)別
由于漢字的類別較大、結(jié)構(gòu)復(fù)雜和類似字多,造成漢字的識(shí)別難度比較大。傳統(tǒng)的僅用一種特征來(lái)識(shí)別漢字的方法已不能滿足漢字識(shí)別的要求。因此,本文采用了二次識(shí)別的方法對(duì)漢字字符進(jìn)行識(shí)別,第一次分類利用漢字的筆畫穿過數(shù)目特征,第二次是對(duì)那些首次仍不能區(qū)別開的漢字利用漢字四角的能量值密度特征進(jìn)行區(qū)分。
本文的漢字特征選擇了筆畫穿過數(shù)目和能量值密度這兩個(gè)特征。筆畫穿過數(shù)目是指對(duì)漢字圖像的水平、垂直兩個(gè)方向進(jìn)行掃描,然后統(tǒng)計(jì)這兩個(gè)方向上掃描線出國(guó)漢字筆畫的次數(shù)即得到漢字的筆畫直方圖,得到筆畫穿過次數(shù)的特征向量。
在進(jìn)行漢字特征匹配時(shí),首先對(duì)待識(shí)別的漢字筆畫穿過數(shù)目特征進(jìn)行提取,記該特征為C。識(shí)別時(shí),首先計(jì)算待識(shí)別漢字與標(biāo)準(zhǔn)庫(kù)中漢字的距離d,d定義為待識(shí)別漢字的筆畫穿過數(shù)目矩陣C與標(biāo)準(zhǔn)庫(kù)中漢字的筆畫穿過數(shù)目矩陣B的對(duì)應(yīng)值差值的絕對(duì)值之和,其表達(dá)式為
d=∑ni=1∑mj=1cij-bij
式中cij為矩陣C中的元素,bij表示矩陣B中的元素。
給定一個(gè)閾值σ,若距離dσ,則該字不能被識(shí)別,否則把該字放入二級(jí)識(shí)別隊(duì)列中,如果二級(jí)隊(duì)列中只有一個(gè)字,就判別這個(gè)字為要識(shí)別的字,若二級(jí)隊(duì)列中不只一個(gè)漢字,則要對(duì)二級(jí)識(shí)別隊(duì)列中的漢字進(jìn)行二級(jí)識(shí)別。
在二級(jí)識(shí)別里用能量值密度作為特征,提取這些漢字的能量值密度。設(shè)一閾值為ε,計(jì)算待識(shí)別漢字的能量值密度矩陣和標(biāo)準(zhǔn)庫(kù)漢字的能量值密度矩陣中對(duì)應(yīng)值的絕對(duì)值之和,差值最小的漢字判別為要識(shí)別的漢字。
4語(yǔ)義特征提取
利用識(shí)別出來(lái)的字符,對(duì)其進(jìn)行語(yǔ)義特征的提取,以判斷書籍屬于哪一類。首先通過在原始文本語(yǔ)義空間提取文本的局部分布信息,構(gòu)造拉普拉斯矩陣和局部密度矩陣,然后通過奇異值分解SVD和廣義特征值分解GEVD求解特征變換矩陣,最后實(shí)現(xiàn)文本數(shù)據(jù)的降維空間聚類。
給定m個(gè)文本數(shù)據(jù)的原始特征語(yǔ)義空間描述X=(x1,x2,…,xm)T,這里xi為文本i的特征向量描述,包含文本類別信息相關(guān)的關(guān)鍵詞、主題詞以及文本中出現(xiàn)的高頻詞等描述信息,并且xi中的每一個(gè)特征元素記錄了這些詞條的重要程度和出現(xiàn)的頻度。
對(duì)X按列進(jìn)行基于歐幾里得距離的kNN近鄰算法獲取點(diǎn)向量xi的k個(gè)鄰近點(diǎn)N(xi),并采用高斯核將鄰接點(diǎn)向量的歐幾里得距離轉(zhuǎn)化為相似度:
sij=exp(-xi-xj2),xj∈N(xi)
得到文本集X的相似矩陣S,該矩陣為對(duì)稱矩陣。通過矩陣S構(gòu)造對(duì)角矩陣D,其中dii=∑jsij,令L=D-S,為譜圖數(shù)據(jù)的拉普拉斯矩陣,為對(duì)稱矩陣。利用局部密度矩陣D求取文本向量均值=∑ixidii∑idii,并將文本歸一化i=xi-,對(duì)歸一化的進(jìn)行奇異值分解,降低文本的語(yǔ)義維度,簡(jiǎn)化數(shù)據(jù)描述。并通過非監(jiān)督判別分析得到降維文本語(yǔ)義空間,即判別語(yǔ)義特征提取,獲取分類判別能力最強(qiáng)的前l(fā)個(gè)語(yǔ)義特征。
在特征提取后的降維空間采用k-means聚類,進(jìn)行文本分類,即語(yǔ)義特征的提取。
5書籍亂架放置的判別
進(jìn)行了語(yǔ)義特征提取之后,為了檢測(cè)書籍的亂架放置。因此,需要將提取到的語(yǔ)義特征進(jìn)行分類。為了盡可能準(zhǔn)確地進(jìn)行分類,采用深度學(xué)習(xí)的方法進(jìn)行模型的訓(xùn)練。其中訓(xùn)練過程分為兩個(gè)階段:貪心的逐層預(yù)訓(xùn)練和整個(gè)模型的全局微調(diào)。
在逐層訓(xùn)練預(yù)階段,每次只訓(xùn)練模型的一層,然后將當(dāng)前層的輸出作為下一層的輸入,進(jìn)行下一層的訓(xùn)練,直到預(yù)訓(xùn)練完所有的層。
在模型的全局微調(diào)階段,由于亂架放置的書籍的種類可能是多個(gè),所以采用softmax回歸多類分類器。Softmax回歸多分類器是logistic回歸模型在多分類問題上的推廣,在多分類問題中,類標(biāo)簽y可以取兩個(gè)以上的值。假設(shè)共有k個(gè)類別,則softmax regression的系統(tǒng)方程為
hθ(x(i))=p(y(i)=1|x(i);θ)p(y(i)=2|x(i);θ)p(y(i)=k|x(i);θ)=1∑kj=1eθTjx(i)eθT1x(i)eθT2x(i)eθTkx(i)
其中,x(i)為第i個(gè)輸入樣本,θ為系統(tǒng)參數(shù),p為樣本取特定類別時(shí)的概率。
此時(shí),系統(tǒng)的損失函數(shù)方程為:
J(θ)=-1m∑mi=1∑kj=11y(i)=jlogeθTjx(i)∑kl=1eθTlx(i)
其中,1?是一個(gè)指示性函數(shù),即當(dāng)大括號(hào)中的值為真時(shí),該函數(shù)的結(jié)果就為1,否則其結(jié)果為0。θ為代價(jià)最小化時(shí)所需要滿足的系統(tǒng)參數(shù)。實(shí)際實(shí)現(xiàn)時(shí),首先使用具有先驗(yàn)歸屬標(biāo)記的書籍信息樣本按照以上方式對(duì)書籍歸屬學(xué)習(xí)器進(jìn)行訓(xùn)練,得到訓(xùn)練好的歸屬規(guī)則學(xué)習(xí)器。將提取的書籍信息輸入到歸屬規(guī)則學(xué)習(xí)器,學(xué)習(xí)器輸出到歸屬規(guī)則庫(kù)進(jìn)行書籍類別的判別,將判別出來(lái)的結(jié)果輸入到亂架判決器,進(jìn)行亂架檢測(cè),如果檢測(cè)出來(lái)有書籍分錯(cuò)類,則會(huì)輸出亂架警報(bào)。
6實(shí)驗(yàn)結(jié)果與分析
利用書脊檢測(cè)出來(lái)的結(jié)果,進(jìn)行字符檢測(cè)并對(duì)檢測(cè)出來(lái)的字符進(jìn)行語(yǔ)義識(shí)別,判斷某一本書是不是放錯(cuò)了類別,如果放錯(cuò),則框出放錯(cuò)的書籍并發(fā)出警報(bào)。
圖2(a)中都是科技類的書籍,并沒有其他類的書籍,所以輸入的這張圖片并不會(huì)輸出亂架報(bào)警;圖2(b)中除了科技類的書籍之外,還有一本建筑類的書籍混雜其中,所以系統(tǒng)會(huì)把這本書檢測(cè)出來(lái)并用交叉直線醒目地標(biāo)示出來(lái)。
中除了科技類的書籍之外,還有一本美術(shù)類的書籍混雜其中,所以系統(tǒng)會(huì)把這本書檢測(cè)出來(lái)并用直線標(biāo)示出來(lái)。
圖2和圖3只是筆者為了演示系統(tǒng)的運(yùn)行效果而給出的個(gè)例圖示,限于篇幅所限不能窮盡所有曾經(jīng)檢測(cè)處理過的案例。筆者曾經(jīng)對(duì)科技類、哲學(xué)類和藝術(shù)類為主體的大容量樣本集的亂架圖像進(jìn)行了分析,每個(gè)樣本集的分析耗約為300~320秒,大大高于人工檢測(cè)的速度。亂架檢測(cè)實(shí)驗(yàn)的樣本集實(shí)驗(yàn)結(jié)果列于表1之中。
7結(jié)論
在圖書館系統(tǒng)中利用機(jī)器視覺的方法進(jìn)行書籍定位和檢測(cè)是視覺研究的一個(gè)重要方向。本文給出了一種綜合運(yùn)用相關(guān)視覺圖像技術(shù)對(duì)亂架圖書進(jìn)行自動(dòng)檢測(cè)的系統(tǒng)設(shè)計(jì)。實(shí)驗(yàn)表明,該方法可通過程序設(shè)計(jì)完全有計(jì)算機(jī)自動(dòng)實(shí)現(xiàn),平均檢出率超過90%,速度快穩(wěn)定性好,處理時(shí)間大大小于人工檢測(cè)時(shí)間,并且能夠在很大程度上降低圖書管理員的勞動(dòng)強(qiáng)度,有助于提高大型圖書館的架上書籍整理效率。
參考文獻(xiàn)
[1]李因易.圖像處理技術(shù)在圖書館藏書清點(diǎn)中的應(yīng)用研究[D].貴陽(yáng):貴州大學(xué),2006.
[2]方建軍,杜明芳,龐睿.基于小波分析和概率Hough變換的書脊視覺識(shí)別[J].計(jì)算機(jī)工程與科學(xué),2014,(36):126131.
[3]何耘嫻.印刷體文檔圖像的中文字符識(shí)別[D].秦皇島:燕山大學(xué),2011.
[4]D.-J. Lee,Y.Chang,J. K.Archibald,C.Pitzak.Matching book-spine images for library shelf-reading process automation[C].in Automation Science and Engineering,2008.CASE 2008. IEEE International Conference on, 2008:738743.
[5]戴臻.內(nèi)容文本分類中的語(yǔ)義特征提取算法研究[D].長(zhǎng)沙:中南大學(xué),2010.
[6]Y.Bengio, Learning deep architectures for AI[J].Foundations and trends in Machine Learning, 2009,(9):1127.
[7]Y. Bengio.Deep Learning of Representations for Unsupervised and Transfer Learning[J].in ICML Unsupervised and Transfer Learning,2012:1736.
[8]P.Baldi. Autoencoders, Unsupervised Learning,and Deep Architectures[J].in ICML Unsupervised and Transfer Learning,2012:3750.
關(guān)鍵詞:短文本挖掘;新聞事件挖掘
中圖分類號(hào):TP274+.2文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2010) 06-0000-01
Text Mining of News
Zhang Jing
(Tangshan Normal University,Studies Affairs Office,Tangshan063000,China)
Abstract: With the massive popularity of the Internet,causing a large amount of text data accumulated,much of it is a short text data.How to find information from the mass of information flow theme of unexpected events,and track information about emergencies,text mining technology is especially important.This article describes the text mining text mining in the application of information,analysis the research of mining news events.
Keywords:Short text mining;News mining
一、引言
近年來(lái),隨著互連網(wǎng)的飛速發(fā)展和信息傳播手段的不斷進(jìn)步,造成了大量的文本數(shù)據(jù)累積,其中很大一部分是短文本數(shù)據(jù)。這些數(shù)據(jù)中有很大一部分是只包含50―100個(gè)詞的短文本數(shù)據(jù),如文章摘要、電子郵件、圖片標(biāo)題、產(chǎn)品描述等。網(wǎng)頁(yè)上的大部分信息都是短文本信息。文本挖掘技術(shù)對(duì)于從這些海量短文中自動(dòng)獲取知識(shí)具有重要意義。本文介紹了文本挖掘在新聞文本挖掘中的應(yīng)用,分析了新聞事件挖掘的研究現(xiàn)狀。
二、文本挖掘概念
文本挖掘是采用計(jì)算語(yǔ)言學(xué)的原理對(duì)文本信息進(jìn)行抽取的研究和實(shí)踐文本挖掘可以對(duì)文檔集合的內(nèi)容進(jìn)行總結(jié)、分類、聚類、關(guān)聯(lián)分析以及趨勢(shì)預(yù)測(cè)等。Web文本挖掘和通常的平面文本挖掘有類似之處,但是文檔中的標(biāo)記給文檔提供了額外的信息,可以借此提高文本挖掘的性能。
三、文本挖掘在新聞文本挖掘中的應(yīng)用
“新聞的處理,是一種對(duì)事實(shí)的選擇、安排、解釋等意義化過程”,作為文字傳播的一種特殊形態(tài),新聞在語(yǔ)言表達(dá)上有著較為明顯的個(gè)性特征,如篇章短小精干、表達(dá)客觀公正、語(yǔ)言準(zhǔn)確簡(jiǎn)潔等。新聞專題是指圍繞某一個(gè)突發(fā)的新聞事件或某一個(gè)廣泛受關(guān)注的問題提供詳細(xì)、深入的資料。這樣的專題信息目的明確、信息豐富,讓人一目了然地清楚整個(gè)新聞事件的前因后果和來(lái)龍去脈,能夠較好地滿足讀者的需要。但通常情況下,這些新聞專題都是經(jīng)過專業(yè)人員加工處理的,即人工歸納到一起。新聞事件挖掘的目的是,是借鑒文本挖掘技術(shù)、文本分類和聚類技術(shù),實(shí)現(xiàn)對(duì)新聞資料的自動(dòng)組織、生成專題,以滿足網(wǎng)絡(luò)用戶檢索新聞信息的需要。專題的生成涉及到新聞事件的探測(cè)以及對(duì)新聞事件的跟蹤。
四、新聞事件挖掘的研究現(xiàn)狀
目前對(duì)于新聞事件的挖掘主要包括以下幾類問題:
(一)主題發(fā)現(xiàn)與跟蹤(Topic Detection and Tracking,TDT)
主題發(fā)現(xiàn)與跟蹤旨在開發(fā)一系列基于事件的信息組織技術(shù),以實(shí)現(xiàn)對(duì)新聞媒體信息流中新話題的自動(dòng)識(shí)別以及對(duì)已知話題的動(dòng)態(tài)跟蹤。該研究作為一項(xiàng)1997年開始的公開測(cè)評(píng)而成為自然語(yǔ)言處理的一項(xiàng)研究熱點(diǎn)。TDT包括五項(xiàng)子任務(wù),即:主題分割、話題跟蹤、新事件發(fā)現(xiàn)和報(bào)道關(guān)聯(lián)發(fā)現(xiàn)。
主題分割主要采用相同詞語(yǔ)數(shù)目和詞語(yǔ)密度的方法,其優(yōu)點(diǎn)在于簡(jiǎn)潔性和高效性,不受領(lǐng)域的限制。目前已有TextTiling算法等方法用于主題的分割。采用遺傳算法對(duì)TextTiling算法中的參數(shù)進(jìn)行優(yōu)化,使得同一主題內(nèi)的段落之間的總差異應(yīng)盡可能地小,而不同主題間的總差異應(yīng)盡可能地大。也有研究采用遺傳算法來(lái)直接尋找主題的最優(yōu)劃分。駱衛(wèi)華提出了基于分治多層聚類的話題發(fā)現(xiàn)算法,其核心思想是把全部數(shù)據(jù)分割成具有一定相關(guān)性的分組,對(duì)各個(gè)分組分別進(jìn)行聚類,得到各個(gè)分組內(nèi)部的話題(微類),然后對(duì)所有的微類在進(jìn)行聚類,得到最終的話題。
(二)熱點(diǎn)趨勢(shì)檢測(cè)(Emerging Trend Detection,ETD)
熱點(diǎn)趨勢(shì)檢測(cè)用來(lái)自動(dòng)識(shí)別熱點(diǎn)主題,從而識(shí)別主題趨勢(shì)的變化。熱點(diǎn)趨勢(shì)檢測(cè)主要包括三個(gè)部分:主題結(jié)構(gòu)的識(shí)別,主題出現(xiàn)的檢測(cè)和主題特征分析。總結(jié)了目前研究的ETD系統(tǒng)和商業(yè)的ETD系統(tǒng),其使用方法大多數(shù)以關(guān)鍵詞的詞頻分析為基礎(chǔ),形成相關(guān)主題的發(fā)展趨勢(shì)。例如,采用關(guān)鍵詞項(xiàng)詞頻分析的方法,尋找芯片封裝領(lǐng)域內(nèi)的技術(shù)發(fā)展規(guī)律。對(duì)于這類問題需要優(yōu)化關(guān)鍵詞的選擇,看哪一個(gè)或者哪一些關(guān)鍵詞與該主題上的關(guān)系最為密切。也有的研究使用序列模式挖掘來(lái)識(shí)別短語(yǔ),生成短語(yǔ)的歷史圖,使用形狀查詢來(lái)識(shí)別指定趨勢(shì)的短語(yǔ)。
(三)事件預(yù)測(cè)規(guī)則的發(fā)現(xiàn)
該問題主要采用文本挖掘技術(shù),同傳統(tǒng)的人工智能方法相結(jié)合,對(duì)于時(shí)序文檔集的關(guān)聯(lián)規(guī)則的進(jìn)行挖掘,提供相應(yīng)事件發(fā)生的預(yù)測(cè)規(guī)則。
很多研究根據(jù)互聯(lián)網(wǎng)上的新聞稿來(lái)生成股票價(jià)格指數(shù)的規(guī)則。Wuthrich使用專家的先驗(yàn)知識(shí),通過對(duì)過去的新聞中出現(xiàn)的關(guān)鍵詞組的權(quán)重和對(duì)應(yīng)的值產(chǎn)生可能性的規(guī)則,再利用這些規(guī)則對(duì)當(dāng)天的新聞進(jìn)行股票指數(shù)的預(yù)測(cè)。將關(guān)鍵詞組轉(zhuǎn)換成權(quán)重,采用基于規(guī)則、最近鄰和神經(jīng)網(wǎng)絡(luò)的方法。Feldman等人使用多種分布模型對(duì)路透社的2萬(wàn)多篇新聞進(jìn)行了挖掘,得到主題、國(guó)家、組織、人、股票交易之間的相對(duì)分布,揭示了一些有趣的趨勢(shì)。而Mittermayer則自動(dòng)對(duì)新聞稿進(jìn)行預(yù)處理,將它們分成不同的新聞?lì)愋?其每一類都對(duì)股票價(jià)格升降有特定的影響,從而得到對(duì)應(yīng)的交易指導(dǎo)規(guī)則。
五、結(jié)論
文本挖掘是挖掘的核心技術(shù),將其文本聚類與分類等技術(shù)應(yīng)用到新聞主題的檢測(cè)與跟蹤中,能自動(dòng)在線檢測(cè)內(nèi)容不斷更新的網(wǎng)絡(luò)新聞主題,提高了處理的速度,能及時(shí)提取更多有價(jià)值的信息給用戶,這是一個(gè)具有十分重要意義的課題,這項(xiàng)研究還需要進(jìn)一步的深入。短文本挖掘技術(shù)是文本挖掘中的一個(gè)新興的方向,針對(duì)于短文本特點(diǎn)的方法有待于人們的進(jìn)一步研究。
參考文獻(xiàn):
[1]鐘彬彬,劉遠(yuǎn)超,徐志明.基于GA的文本子主題切分中的參數(shù)優(yōu)化研究[J].計(jì)算機(jī)工程與應(yīng)用,2005,21:97-99
關(guān)鍵詞:數(shù)據(jù)挖掘原理與算法;實(shí)例;教學(xué)探索
0.引言
隨著經(jīng)濟(jì)、科技和信息技術(shù)的飛速發(fā)展,特別是網(wǎng)絡(luò)技術(shù)的發(fā)展,數(shù)據(jù)的產(chǎn)生和存儲(chǔ)能力有了很大程度的提高。數(shù)據(jù)挖掘的出現(xiàn),為人們提供了一條解決“數(shù)據(jù)豐富而知識(shí)貧乏”困境的有效途徑Ⅲ。所以很多高校,包括世界上一些著名高校都開設(shè)了數(shù)據(jù)挖掘課程。課程的基礎(chǔ)理論部分一般包括數(shù)據(jù)預(yù)處理、關(guān)聯(lián)規(guī)則、分類、聚類、時(shí)間序列挖掘、Web挖掘等內(nèi)容。該課程使學(xué)生學(xué)會(huì)分析研究數(shù)據(jù)挖掘中數(shù)據(jù)預(yù)處理、常用算法、結(jié)果的可視化等技術(shù),并培養(yǎng)學(xué)生的數(shù)據(jù)抽象能力,幫助學(xué)生形成科學(xué)思維和專業(yè)素養(yǎng),使他們畢業(yè)后在就業(yè)上有更多的選擇。
筆者將探討基于實(shí)例教學(xué)的數(shù)據(jù)挖掘課程的教學(xué)內(nèi)容安排,強(qiáng)調(diào)淡化學(xué)科背景,加強(qiáng)算法的應(yīng)用性訓(xùn)練,將實(shí)際的例子貫穿于教學(xué)中,并重新組織授課內(nèi)容、安排實(shí)踐環(huán)節(jié),教會(huì)學(xué)生學(xué)以致用。
1.教學(xué)現(xiàn)狀分析
1.1課程本質(zhì)
數(shù)據(jù)挖掘原理與算法涉及的學(xué)科領(lǐng)域很寬泛。其最終目的是在數(shù)據(jù)中挖掘出可供人們利用的知識(shí)和信息,因此數(shù)據(jù)挖掘技術(shù)要從數(shù)據(jù)庫(kù)技術(shù)、統(tǒng)計(jì)學(xué)、機(jī)器學(xué)習(xí)、神經(jīng)網(wǎng)絡(luò)、知識(shí)系統(tǒng)、信息檢索、高性能計(jì)算和可視化等領(lǐng)域汲取營(yíng)養(yǎng)。另外,每個(gè)學(xué)科都在進(jìn)行著日新月異的發(fā)展變化,數(shù)據(jù)挖掘技術(shù)遇到的挑戰(zhàn)也為相關(guān)學(xué)科領(lǐng)域的深入研究提供了新的契機(jī)。由于課程難度較大,很多高校把這門課程作為研究生的專業(yè)課程,也有院校將此課作為本科生高年級(jí)選修課開設(shè)腳。但是本科生開設(shè)這門課程的普通院校較少,我們能借鑒的教學(xué)經(jīng)驗(yàn)有限。
1.2數(shù)據(jù)挖掘課程教學(xué)環(huán)節(jié)的弊端
①某些學(xué)校對(duì)本科生開設(shè)的數(shù)據(jù)挖掘課程,其教學(xué)過程對(duì)理論的探討過多,與應(yīng)用存在距離,沒有體現(xiàn)出這門課程面向應(yīng)用的特質(zhì),缺少對(duì)學(xué)生工程能力的訓(xùn)練,存在學(xué)生在學(xué)了這門課程后不知道能干什么的現(xiàn)象。
②教學(xué)形式呆板單一。傳統(tǒng)的教師講、學(xué)生聽的教學(xué)模式,很難引起學(xué)生的探究興趣,不利于發(fā)揮他們自身的能動(dòng)性和創(chuàng)新動(dòng)機(jī)。
2.選擇恰當(dāng)實(shí)例貫穿數(shù)據(jù)挖掘課程的教學(xué)過程
煙臺(tái)大學(xué)計(jì)算機(jī)學(xué)院所開設(shè)的數(shù)據(jù)挖掘課程在教學(xué)上安排了6章內(nèi)容,涉及3個(gè)實(shí)例(其中兩個(gè)是實(shí)際生活中的項(xiàng)目課題):第1個(gè)是用于房產(chǎn)信息調(diào)查的房產(chǎn)客戶關(guān)系管理系統(tǒng);第2個(gè)是用于煙臺(tái)大學(xué)督評(píng)中心評(píng)教文本分類的中文文本數(shù)據(jù)挖掘系統(tǒng);第3個(gè)是用于國(guó)家葡萄酒檢測(cè)中心的數(shù)據(jù)分析的葡萄酒成分?jǐn)?shù)據(jù)挖掘系統(tǒng)。
2.1房產(chǎn)客戶關(guān)系管理系統(tǒng)
在講述房產(chǎn)客戶關(guān)系管理系統(tǒng)時(shí)內(nèi)容涵蓋緒論、知識(shí)發(fā)現(xiàn)過程和關(guān)聯(lián)規(guī)則3章,重點(diǎn)講授內(nèi)容包括:
(1)數(shù)據(jù)倉(cāng)庫(kù)。住房管理數(shù)據(jù)倉(cāng)庫(kù)中的數(shù)據(jù)是按主題組織的,可從歷史觀點(diǎn)提供信息。數(shù)據(jù)挖掘技術(shù)能按知識(shí)工程的方法完成高層次需求,可以發(fā)現(xiàn)蘊(yùn)藏在數(shù)據(jù)內(nèi)部的知識(shí)模式。挖掘后形成的知識(shí)表示模式可為企業(yè)決策提供支持。
(2)通過對(duì)客戶信息進(jìn)行分析,闡述關(guān)聯(lián)規(guī)則的參數(shù):support、confidence、expected confidence,并簡(jiǎn)單介紹關(guān)聯(lián)規(guī)則中的多維、多層次等拓展知識(shí)。
(3)關(guān)聯(lián)規(guī)則挖掘。①講授關(guān)聯(lián)規(guī)則挖掘的Apriori算法;②講述布爾關(guān)聯(lián)規(guī)則的概念,對(duì)處理后形成的交易數(shù)據(jù)庫(kù)進(jìn)行布爾關(guān)聯(lián)規(guī)則挖掘,將問題轉(zhuǎn)化為尋找以決策屬性為結(jié)果的規(guī)則;③將關(guān)聯(lián)規(guī)則挖掘應(yīng)用于客戶關(guān)系管理的最終目的是努力將潛在客戶轉(zhuǎn)變?yōu)楝F(xiàn)實(shí)客戶,將滿意客戶轉(zhuǎn)變?yōu)橹艺\(chéng)的終生客戶,提高客戶滿意程度,降低市場(chǎng)銷售及宣傳成本,增加利潤(rùn)率。
(4)設(shè)minsup=10%,minconf=70%。在統(tǒng)計(jì)的各類人群中獵取咨詢的渠道主要是雜志、報(bào)紙、互聯(lián)網(wǎng)和電視。經(jīng)試驗(yàn)統(tǒng)計(jì)后得到以下有關(guān)知識(shí):①滿足age>50 AND職業(yè)=“工人”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的9.7%;其中滿足age>50 AND職業(yè)=“工人”AND渠道=“TV”的客戶占92%。②符合學(xué)歷=“大?!盇ND職業(yè)=“工人”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的24.8%,其中滿足學(xué)歷=“大?!盇ND職業(yè)=“工人”AND渠道=“newspaper”的客戶占82%。③被統(tǒng)計(jì)人群中滿足income=“5000-9000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的32.7%;其中滿足income=“4000-6000”AND職業(yè)=“教師、醫(yī)生、公務(wù)員”AND渠道=“雜志”的客戶占83%。④被統(tǒng)計(jì)人群中滿足學(xué)歷=“本科”AND income≥“10000”的客戶占所統(tǒng)計(jì)總?cè)藬?shù)的占11.6%;其中符合學(xué)歷=“本科”ANDincome≥“8000”AND職業(yè)=“公司經(jīng)理”AND渠道=“雜志”的客戶占86.5%。
(5)教師要分析Apriori算法的瓶頸和改進(jìn),介紹Close算法和FP-樹算法,并且要求學(xué)生們掌握這3種經(jīng)典算法。
2.2中文文本數(shù)據(jù)挖掘系統(tǒng)
中文文本數(shù)據(jù)挖掘系統(tǒng)圍繞評(píng)教分類模型的建立講述特征選擇和主要分類算法。根據(jù)煙臺(tái)大學(xué)教學(xué)督評(píng)中心提供的學(xué)生對(duì)教師的中文評(píng)教文本,利用分類的方法找出其評(píng)價(jià)的傾向性,結(jié)合教材,重點(diǎn)講授了以下內(nèi)容:
1)特征選擇。
①介紹有監(jiān)督、無(wú)監(jiān)督和半監(jiān)督的特征選擇方法。②介紹使用分詞軟件后,統(tǒng)計(jì)詞頻,去掉小于閾值的低頻詞。③對(duì)比詞頻率、IG值(信息增益)、期望值差異對(duì)分類結(jié)果的影響留取特征詞。
部分?jǐn)?shù)據(jù)示例如下:用特征選擇的方法對(duì)重要的屬性進(jìn)行抽取,略去對(duì)分類影響不大的屬性,達(dá)到降維的目的,把特征選擇作為預(yù)處理。我們選用517條主觀評(píng)價(jià)作為訓(xùn)練樣本,其中233條留言是一般評(píng)價(jià),采用以下3種方式進(jìn)行特征選擇:詞頻率、IG值(信息增益)、期望值差異。不同方式特征選擇對(duì)分類準(zhǔn)確性的影響如表1所示。
2)分類。
在介紹常用的分類基礎(chǔ)知識(shí)和決策樹、ID3、樸素貝葉斯分類、最近鄰分類算法之后,又介紹了基于潛在語(yǔ)義分析的降維技術(shù),講授了支持向量機(jī)(SVM)適用于文本分類的原因。布置給學(xué)生的任務(wù)是用爬蟲獲取網(wǎng)評(píng),作傾向性分析。
評(píng)教文本分類統(tǒng)計(jì)后的結(jié)論是:將降維技術(shù)和支持向量機(jī)算法結(jié)合在評(píng)教模型的建立過程中,研究討論的主要內(nèi)容有:①各個(gè)指標(biāo)取不同值對(duì)分類的影響,這些指標(biāo)主要集中在特征抽取和選擇、保留詞性和降維維數(shù)等幾方面;②對(duì)分詞后的文本進(jìn)行特征選擇,篩去了詞頻數(shù)小于4的文本;③降維至30維,并適當(dāng)設(shè)置SVM中的可變參數(shù),找到合適的訓(xùn)練一測(cè)試樣本的比例,最后綜合出一個(gè)現(xiàn)有條件下的最佳分類模型。
2.3葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)
葡萄酒成份數(shù)據(jù)挖掘系統(tǒng)介紹數(shù)值數(shù)據(jù)的預(yù)處理和聚類2章內(nèi)容。對(duì)葡萄酒成份的分析是根據(jù)所提供的酒中各成份的含量數(shù)據(jù),采用聚類或分類的方法確定某種葡萄酒的種類,比如是紅葡萄酒、白葡萄酒還是甜葡萄酒。圍繞這個(gè)問題我們介紹了如下內(nèi)容:
1)數(shù)值數(shù)據(jù)的預(yù)處理。
①介紹葡萄酒中各個(gè)屬性的含義和取值范圍;②講授數(shù)據(jù)的離散化技術(shù),如等深、等寬、聚類技術(shù);③講授本例中使用的m一估值計(jì)算對(duì)數(shù)值屬,1生的離散化技術(shù);④講述本例中如何避免0值出現(xiàn)及去噪聲技術(shù)。
葡萄酒中各成份的含量數(shù)據(jù)如表2所示。
2)聚類。
在介紹聚類的基本知識(shí)和常用算法(如k均值、k中心點(diǎn)、DBSCAN技術(shù))之后,講解了:①本課題使用的層次聚類算法。在測(cè)試結(jié)果時(shí)通過測(cè)試樣本和分類樣本的不同比例,對(duì)結(jié)果進(jìn)行了對(duì)比。②講述了用樸素貝葉斯分類計(jì)數(shù)對(duì)這一問題的分類處理,同時(shí)對(duì)比了聚類和分類算法在同一問題上的結(jié)論差異。利用樸素的貝葉斯分類器可以完成預(yù)測(cè)目標(biāo),根據(jù)訓(xùn)練樣本建立分類器,對(duì)待測(cè)樣本進(jìn)行預(yù)測(cè),準(zhǔn)確率可達(dá)到90%以上。③引導(dǎo)學(xué)生思考對(duì)問題的處理可以聯(lián)合使用各種算法,并分析各種算法對(duì)結(jié)果的影響,從而找出解決問題的最佳方案。
2.4利用已知算法和實(shí)例講授Web挖掘技術(shù)
因特網(wǎng)規(guī)模龐大、結(jié)構(gòu)復(fù)雜、動(dòng)態(tài)變化性大,蘊(yùn)含大量的信息。將Web上豐富的信息轉(zhuǎn)變成有用的知識(shí)正是Web挖掘的意義所在。用之前中文文本分類的方法引導(dǎo)學(xué)生在一些購(gòu)物網(wǎng)站中下載對(duì)商品評(píng)論的中文文本,抽取特征詞,進(jìn)行傾向性分析,使學(xué)生熟悉支持向量機(jī)的分類方法,分詞軟件的使用及文本挖掘的整個(gè)過程。
3.結(jié)語(yǔ)
文章在前期制定應(yīng)用型本科生數(shù)據(jù)挖掘課程教學(xué)大綱的基礎(chǔ)上,針對(duì)數(shù)據(jù)挖掘課程內(nèi)容多學(xué)科交叉的特點(diǎn),在教學(xué)中提出淡化學(xué)科背景,注重算法應(yīng)用與實(shí)踐,以客戶關(guān)系管理、葡萄酒數(shù)據(jù)分析、中文評(píng)教文本分類等實(shí)例作為授課內(nèi)容主線,讓實(shí)例教學(xué)始終圍繞著典型的算法和前沿知識(shí)展開的教學(xué)方式。在今后的教學(xué)工作中,我們還應(yīng)該不斷站在學(xué)科發(fā)展的前列,經(jīng)常更新實(shí)例,使其更好地融入教學(xué),將教與學(xué)有機(jī)統(tǒng)一,取得更好的教學(xué)效果。因此我們還有大量的工作需要探索研究。
參考文獻(xiàn):
[1]宋成,李晉宏,項(xiàng)目驅(qū)動(dòng)的數(shù)據(jù)挖掘教學(xué)模式探討[J],中國(guó)電力教育,2011(27):116-177.
[2]劉云霞,統(tǒng)計(jì)學(xué)專業(yè)本科生開設(shè)“數(shù)據(jù)挖掘”課程的探討[J],吉林工程技術(shù)師范學(xué)院學(xué)報(bào),2010(6),20-22.
[3]徐金寶,對(duì)應(yīng)用型本科生開設(shè)數(shù)據(jù)挖掘課程的嘗試[J],計(jì)算機(jī)教育,2007(7):27-29.
[4]高園園,呂慶文,數(shù)據(jù)挖掘課程的教學(xué)思考[J],醫(yī)學(xué)信息,2009,22(11):23-24.
關(guān)鍵詞:數(shù)據(jù)挖掘;無(wú)監(jiān)督學(xué)習(xí);有監(jiān)督學(xué)習(xí);半監(jiān)督學(xué)習(xí);遷移學(xué)習(xí)
中圖分類號(hào):TP274文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1007-9599 (2010) 06-0000-07
Summarization of Data Mining Learning Method
Xu Rui
(Guizhou Mobile Corp. Guiyang550004,China)
Abstract: As a new domain of information technology,data mining takes full advantages of database,statistical analysis and artificial intelligence,etc.It is quit important to be familiar with data mining for decision-makers,since it is a new direction of enterprise informationization.In this article,the author summarized some common learning method of data mining,especially the new domain:transfer learning.Finally,the article briefly described difference among these learning methods.
Keywords:Data mining;Unsupervised learning;Supervised learning;Semi-supervised learning;Transfer learning
企業(yè)信息化建設(shè)經(jīng)歷了辦公自動(dòng)化,信息管理系統(tǒng),企業(yè)資源計(jì)劃三個(gè)階段,隨著企業(yè)數(shù)據(jù)的快速增長(zhǎng),科學(xué)決策的廣泛應(yīng)用,數(shù)據(jù)挖掘和商業(yè)智能成為企業(yè)信息化建設(shè)的新的突破點(diǎn)。數(shù)據(jù)挖掘綜合統(tǒng)計(jì)學(xué)、人工智能、數(shù)據(jù)庫(kù)技術(shù)等多學(xué)科知識(shí),從海量的數(shù)據(jù)中迅速發(fā)掘有價(jià)值的信息。作為一個(gè)新興領(lǐng)域,數(shù)據(jù)挖掘的研究與應(yīng)用發(fā)展迅速,但數(shù)據(jù)挖掘并不為企業(yè)決策者充分認(rèn)識(shí)。本文將從學(xué)習(xí)的角度,重點(diǎn)介紹數(shù)據(jù)挖掘領(lǐng)域常見的算法。
一、引言
數(shù)據(jù)挖掘算法依據(jù)其任務(wù)特點(diǎn),常被分為四類:預(yù)測(cè)建模、聚類分析、關(guān)聯(lián)分析以及異常檢測(cè)。另一方面,依據(jù)算法所適應(yīng)的問題類型來(lái)分,又可以分為無(wú)監(jiān)督學(xué)習(xí)(Unsupervised Learning)、有監(jiān)督學(xué)習(xí)(Supervised Learning)、半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)以及遷移學(xué)習(xí)(Transfer Learning)。比如針對(duì)網(wǎng)頁(yè)的挖掘,普通用戶關(guān)注返回結(jié)果與自己需求的相關(guān)性以及結(jié)果展現(xiàn)的可理解性,會(huì)更加希望網(wǎng)絡(luò)搜索引擎進(jìn)一步將相關(guān)的結(jié)果根據(jù)不同的類別分成不同的組(無(wú)監(jiān)督學(xué)習(xí));搜索引擎工程師期望借助由專家進(jìn)行類別標(biāo)記的網(wǎng)頁(yè),建立準(zhǔn)確的引擎,對(duì)網(wǎng)頁(yè)進(jìn)行分類(有監(jiān)督學(xué)習(xí));為有效提高搜索結(jié)果的準(zhǔn)確性,搜索引擎通常還會(huì)根據(jù)用戶的搜索習(xí)慣或者交互式的反饋,對(duì)結(jié)果進(jìn)行篩選(半監(jiān)督學(xué)習(xí));而篩選的結(jié)果有時(shí)還會(huì)用來(lái)提供給其他具有類似習(xí)慣的用戶(遷移學(xué)習(xí))。
二、無(wú)監(jiān)督學(xué)習(xí)
聚類分析通常又被叫做無(wú)監(jiān)督學(xué)習(xí)。無(wú)監(jiān)督學(xué)習(xí)可以理解為學(xué)習(xí)過程中只使用到了訓(xùn)練樣本的原始屬性,而未涉及到訓(xùn)練樣本的類別屬性。比如電信行業(yè)根據(jù)客戶消費(fèi)信息的相似性,將客戶歸為不同的類別組,并對(duì)不同的類別組設(shè)計(jì)有區(qū)別的營(yíng)銷策略和增值服務(wù),在公司內(nèi)部編制不同的財(cái)務(wù)成本計(jì)算方法。在這一過程中使用的數(shù)據(jù)都是各營(yíng)業(yè)廳收集的原始數(shù)據(jù),得出的結(jié)論主要基于對(duì)原始數(shù)據(jù)的相似性歸類的結(jié)果,在這一歸類過程中不輔以任何人為的諸如添加類別標(biāo)簽等指導(dǎo)。
無(wú)監(jiān)督學(xué)習(xí)方法,或者說聚類算法,通過研究描述數(shù)據(jù)的屬性在不同數(shù)據(jù)間的相似性,將數(shù)據(jù)劃分為若干有意義的組或者是簇。無(wú)監(jiān)督學(xué)習(xí)通常要達(dá)到兩個(gè)目標(biāo):1.簇內(nèi)數(shù)據(jù)盡可能相似;2.簇間數(shù)據(jù)盡可能相異。為此,無(wú)監(jiān)督學(xué)習(xí)方法的設(shè)計(jì)要關(guān)注兩個(gè)關(guān)鍵點(diǎn):(1)如何評(píng)價(jià)數(shù)據(jù)之間的相似性或者相異性;(2)以及如何同時(shí)滿足所要達(dá)到的兩個(gè)目標(biāo)。
(一)相似性度量標(biāo)準(zhǔn)
假設(shè)用于無(wú)監(jiān)督學(xué)習(xí)的數(shù)據(jù)表示形式為X={X1,X2,…},其中X表示用于學(xué)習(xí)的樣本集。對(duì)于每個(gè)樣本Xi,又可以表示為一組屬性的集合Xi={xi1,xi2,…,xik},其中k表示描述每個(gè)樣本的屬性數(shù)量(或者說維度)。相似度(或相異度)的評(píng)價(jià)即是設(shè)計(jì)一個(gè)樣本之間的距離評(píng)價(jià)函數(shù)d(Xi,Xj)。
對(duì)于區(qū)間標(biāo)度類數(shù)據(jù),通??梢杂妹魇暇嚯x(式2-1)、歐式距離(式2-1中p為2)、曼哈頓距離(式2-1中p為1)。
(2-1)
對(duì)于只有0和1兩種狀態(tài)的二元變量,可以根據(jù)兩個(gè)變量Xi,Xj共同出現(xiàn)時(shí)0、1取值的異同,建立距離函數(shù)。若令q表示Xi,Xj都取值為1的次數(shù);t表示兩者都取值為0的次數(shù);r表示Xi取值為1,Xj取值為0的次數(shù);s表示Xi取值為0,Xj取值為1的次數(shù)。則兩者的距離函數(shù)可以設(shè)計(jì)為如式2-2,計(jì)算兩個(gè)函數(shù)的不匹配率。
(2-2)
但是二元變量常常是非對(duì)稱的,意思是人們常常關(guān)注與取值為1的情況,而其他情況表示為0。比如疾病診斷中,常常把患者疾病檢測(cè)呈陽(yáng)性標(biāo)記為1,而結(jié)果呈陰性標(biāo)記為0。這是Xi,Xj都取值為0的情況(負(fù)匹配)被認(rèn)為不重要的,而只關(guān)注兩者同時(shí)為1的情況(正匹配)。這種情況下通常用Jaccard系數(shù)來(lái)表示兩者的距離函數(shù),如式2-3。
(2-3)
多元變量是二元變量的推廣,區(qū)別在于可以取得多個(gè)狀態(tài)值。因此,相似地,多元變量的距離函數(shù)也通常采用兩個(gè)對(duì)象之間的不匹配率來(lái)計(jì)算,即Xi、Xj屬性取值不相同狀態(tài)占全部屬性的數(shù)目。如果多個(gè)狀態(tài)值之間有序,比如說比賽的排名次序,狀態(tài)的先后次序也是在設(shè)計(jì)距離函數(shù)是非常重要的。這種情況下通常,先將各個(gè)取值映射到[0.0,1.0]的區(qū)間內(nèi),一種簡(jiǎn)單的方法就是將[0.0,1.0]劃分為M-1個(gè)區(qū)間,M為取值的總數(shù)目;然后根據(jù)每一個(gè)排序后的屬性到0.0的區(qū)間大小來(lái)度量。映射到[0.0,1.0]區(qū)間后,可以采用先前介紹的距離函數(shù)來(lái)進(jìn)行評(píng)價(jià)。
由于一個(gè)樣本的屬性常常會(huì)包含多種變量類型,可能是區(qū)間標(biāo)度的或者二元、多元的,甚至是非對(duì)稱的。一種常見的處理方法是將各個(gè)屬性首先進(jìn)行歸一化處理,將每個(gè)屬性的取值映射到[0.0,1.0]的區(qū)間。比如,區(qū)間標(biāo)量變量,距離函數(shù)通過除以最大區(qū)間差(屬性最大取值減去屬性最小取值)來(lái)實(shí)現(xiàn)映射。對(duì)于全部歸一化的屬性集合,樣本利用式2-4的方法進(jìn)行計(jì)算。其中,Iij(k)是指示函數(shù),若xik或xjk缺失,或者非對(duì)稱二元變量情況下取值同為0,則Iij(k)取值為0;否則取值為1。
(2-4)
文本挖掘中,由于文檔對(duì)象較為復(fù)雜,切以向量形式表示,依靠傳統(tǒng)的距離度量計(jì)算方式不能獲得較好的效果。一種常見的方法是利用描述相似性的余弦度量來(lái)建立距離函數(shù),如式2-5。其中XiT表示Xi的轉(zhuǎn)置,||X||表示X的歐幾里德范數(shù)。
(2-5)
(二)學(xué)習(xí)策略
常見的聚類算法可以劃分為如下幾類:
1.劃分方法(partitioning methods):劃分方法將給定的N個(gè)對(duì)象構(gòu)建出數(shù)據(jù)的k(k≤N)個(gè)劃分,要求(1)每個(gè)劃分至少包含一個(gè)對(duì)象且(2)每個(gè)對(duì)象屬于且只屬于某一組。但是在模糊劃分技術(shù),第二點(diǎn)唯一性要求可以放寬。
常見的劃分方法為K均值(k-means)算法。算法的基本方法是首先初始化K個(gè)點(diǎn)作為初始的質(zhì)心,然后迭代式地將每個(gè)點(diǎn)指派到距其最近的質(zhì)心,形成K個(gè)簇,并計(jì)算出新的簇的質(zhì)心;迭代過程持續(xù)到質(zhì)心不再發(fā)生變化。
2.層次方法(hierarchical methods):層次方法創(chuàng)建給定數(shù)據(jù)對(duì)象集的層次分解,利用自頂向下或者自底向上的策略不斷的建立簇之間的樹狀關(guān)系。
以自底向上策略為例,首先將全部個(gè)體點(diǎn)作為獨(dú)立的簇,然后迭代式的合并最接近的兩個(gè)簇,并更新簇之間的關(guān)系矩陣;迭代過程持續(xù)到數(shù)據(jù)最終合并為一個(gè)簇。
3.基于密度的方法(density-based methods):基于密度方法設(shè)計(jì)的核心思想是鄰域中密度較大的點(diǎn)聚集在一起。這種方法可以有效的發(fā)現(xiàn)任意形狀的簇,而不僅僅是球狀的簇。
DBSCAN是一種常見的基于密度的方法。算法核心思想是通過檢查每個(gè)樣本點(diǎn)半徑不超過ε的鄰域來(lái)搜索簇,并利用密度可達(dá)關(guān)系將密度較大的臨近的簇合并起來(lái)。如果一個(gè)點(diǎn)的ε的鄰域中包含大于某個(gè)閾值的樣本數(shù),則將此樣本作為這個(gè)簇的核心對(duì)象,而鄰域內(nèi)的所有點(diǎn)對(duì)核心對(duì)象來(lái)說都是“直接密度可達(dá)”的;將直接密度可達(dá)的樣本鏈接起來(lái),則說這些點(diǎn)都是密度可達(dá);通過合并密度可達(dá)的核心對(duì)象所代表的簇,算法最終可以尋找出任意形狀的簇,并剔除噪聲點(diǎn)。
三、有監(jiān)督學(xué)習(xí)
有監(jiān)督學(xué)習(xí)常被認(rèn)為是分類的另外一種說法(也有學(xué)者認(rèn)為只是分類過程的第一步),這是因?yàn)榻⒎诸惸P蜁r(shí),總是要求用來(lái)學(xué)習(xí)的樣本具有完整的類別標(biāo)簽,來(lái)指導(dǎo)(或者說監(jiān)督)整個(gè)學(xué)習(xí)過程。通常來(lái)說,完整的分類過程由兩步組成:(1)對(duì)于有類別標(biāo)簽數(shù)據(jù)的學(xué)習(xí),以及(2)對(duì)未知類別標(biāo)簽數(shù)據(jù)的預(yù)測(cè)。根據(jù)對(duì)訓(xùn)練集的使用方式,有監(jiān)督學(xué)習(xí)一般分為兩大類:模板匹配法和判別函數(shù)法。判別函數(shù)法依據(jù)判別函數(shù)的不同,又可以進(jìn)一步分為概率統(tǒng)計(jì)分類法、線性分類法和非線性分類法。
(一)模版匹配法
將待分類的樣本和標(biāo)準(zhǔn)模板進(jìn)行比較,看與哪個(gè)模版匹配程度更相似,從而確定待分類樣本的類別,這就是模版匹配的主要思想。比如K近鄰算法,算法的思想為:對(duì)于一個(gè)待分類的樣本,首先計(jì)算它與訓(xùn)練集中所有樣本的距離,并以距離從小到大的順序選出從空間上最靠近待分類樣本的K個(gè)訓(xùn)練樣本,最后依據(jù)這K個(gè)樣本中出現(xiàn)頻率最高的類別作為該待分類樣本的類別。再比如,在模式識(shí)別應(yīng)用中,經(jīng)常會(huì)在后臺(tái)數(shù)據(jù)庫(kù)中保存一定量的模版,通過尋找與待分類樣本差異最小的模版,來(lái)確定待分類樣本的類別。模版匹配法思想較為簡(jiǎn)單,實(shí)現(xiàn)起來(lái)非常容易,特別是K近鄰算法,經(jīng)常應(yīng)用于在線算法(要求算法效率非常高)的分類算法部分。但是模版匹配算法有一個(gè)明顯的缺點(diǎn)就是當(dāng)存儲(chǔ)的訓(xùn)練模版非常大時(shí),算法的存儲(chǔ)和計(jì)算將成為算法提高效率的瓶頸。
(二)概率統(tǒng)計(jì)分類法
基于概率統(tǒng)計(jì)的方法主要指基于Bayes決策理論的分類算法。算法的核心思想就是依據(jù)Bayes后驗(yàn)概率公式,計(jì)算出待分類樣本屬于每一種類別的可能性,并找出最有可能的類別判為待分類樣本的預(yù)測(cè)類別。
任何決策都有誤判的情況,Bayes決策也不例外,如何做出最合理的判決,常常與具體問題結(jié)合。其中最具有代表性的是基于最小錯(cuò)誤率的Bayes決策以及基于最小風(fēng)險(xiǎn)的Bayes決策。本節(jié)將首先介紹Bayes決策理論。
1.Bayes決策理論。
Bayes理論基于樣本中每個(gè)類別的先驗(yàn)概率P(Ci)以及每個(gè)類的條件概率密度P(X|Ci)的統(tǒng)計(jì),利用Bayes公式(式2-6)計(jì)算待分類樣本分屬各類別的概率(后驗(yàn)概率),依據(jù)X屬于哪個(gè)類別具有最高的概率,就把X劃分到哪個(gè)類。
(2-6)
公式中,先驗(yàn)概率P(X)針對(duì)某個(gè)類別出現(xiàn)的概率而言,可以通過統(tǒng)計(jì)訓(xùn)練集中每個(gè)類別所占比例計(jì)算;類條件概率密度P(X|Ci)是指在某類別空間中,出現(xiàn)特征向量X的概率,具體應(yīng)用中一般假設(shè)P(X|Ci)服從正態(tài)分布,亦即滿足式2-7,其中u為均值向量; 的協(xié)方差矩陣。
(2-7)
2.最小錯(cuò)誤率的Bayes決策。
由Bayes公式可以看出,后驗(yàn)概率的大小只于先驗(yàn)概率和類條件概率密度的乘積P(X|Ci)P(Ci)有關(guān)。對(duì)于每次分類,總錯(cuò)誤率為當(dāng)X劃分為某一類時(shí),出錯(cuò)的可能性的總和。
對(duì)于兩類問題,若P(X|+)P(+)>P(X|-)P(-),亦即P(+|X)>P(-|X),可以知道,將X分為“+”類的總錯(cuò)誤率(1-P(X|+)P(+))將小于將X分為“-”類的總出錯(cuò)率(1-P(X|-)P(-))。對(duì)于多類的問題,依據(jù)同樣的道理,可以證明將X分為使P(Ci|X)最高的類別,可以保證決策具有最小的錯(cuò)誤率。
3.最小風(fēng)險(xiǎn)的Bayes決策。
現(xiàn)實(shí)生活中,不一定總錯(cuò)誤率越小就代表決策越好,比如藥廠判別藥品質(zhì)量,若將正常藥品判別為劣質(zhì)藥品,造成的損失遠(yuǎn)小過將劣質(zhì)藥品判為正常藥品的代價(jià)。此時(shí)需要對(duì)每種錯(cuò)誤賦予一個(gè)風(fēng)險(xiǎn)權(quán)值,用以評(píng)價(jià)做出某種決策風(fēng)險(xiǎn)的大小。
對(duì)于某一觀測(cè)值X,當(dāng)將其分為Ci類時(shí),總風(fēng)險(xiǎn)可以表示為:
(2-8)
式中,λij表示待分類樣本X實(shí)際屬于Cj但將其錯(cuò)誤分為Ci所帶來(lái)的損失。對(duì)于X,當(dāng)計(jì)算出每個(gè)類別的風(fēng)險(xiǎn)函數(shù)后,選擇具有最小風(fēng)險(xiǎn)的類別作為X的分類類別。
相對(duì)于最小錯(cuò)誤率的Bayes決策,最小風(fēng)險(xiǎn)的Bayes決策具有更廣泛的適應(yīng)面,但是風(fēng)險(xiǎn)權(quán)值λij的制定相對(duì)較為復(fù)雜,需要根據(jù)具體問題,權(quán)衡各種損失的大小。
4.基于概率統(tǒng)計(jì)分類法的其他問題。
在實(shí)際應(yīng)用中,類條件概率密度P(X|Ci)并不一定確切知道,潛在的值必須從可用的數(shù)據(jù)中估計(jì)。有時(shí)可能知道概率密度的類型(如高斯分布,t分布等),但不知道具體參數(shù),此時(shí)一般采取最大似然估計(jì)或者最大后驗(yàn)概率來(lái)估計(jì);另一方面有時(shí)可能知道一些估計(jì)的參數(shù),比如均值和方差,但是卻不知道具體的分布類型,此時(shí)可以采取最大熵估計(jì)或者采用著名的EM算法(期望最大算法)來(lái)估計(jì)類條件概率密度。
(三)線性分類法
Bayes決策分類有其不足的地方,其分類過程依賴于統(tǒng)計(jì),因此更多適應(yīng)于有統(tǒng)計(jì)知識(shí)的場(chǎng)合,也就是說服從一定分布的分類問題,但是現(xiàn)實(shí)中還有很多問題并不能滿足這個(gè)要求,分類問題的研究進(jìn)而轉(zhuǎn)向如何采用非統(tǒng)計(jì)的方法來(lái)進(jìn)行分類。
任何一個(gè)樣本點(diǎn)都可以表示成特征空間的一個(gè)點(diǎn),任何不相同的兩個(gè)點(diǎn)之間都有一定距離,如果能夠找到一個(gè)面(線性或者非線性)將屬于不同類別的樣本隔開,則表示這個(gè)面的函數(shù)就可以作為分類的依據(jù)。這就是幾何分類法的思想,可以簡(jiǎn)單理解為利用幾何方法把特征空間分解為不同類別的子空間。有時(shí)為了更好的找劃分空間的函數(shù),常常會(huì)利用映射、投影等方法對(duì)特征空間進(jìn)行轉(zhuǎn)化。
依據(jù)劃分子空間的面是否為平面,即決策函數(shù)是否為線性,可以將幾何分類方法分為兩類:線性分類法以及非線性分類法。
線性分類就是通過一個(gè)或者多個(gè)超平面,將特征空間按類別劃分為獨(dú)立子空間。用來(lái)表示超平面的決策函數(shù)可以表示為g(X)=WTX+W0,其中W表示權(quán)值向量,W0被稱為偏置(bias)。從圖像上來(lái)理解,g(X)表示圖2-1中的斜線。對(duì)于g(X)>0的點(diǎn),即圖中斜線右邊的點(diǎn),被劃分為正類;相反地,途中斜線左邊的點(diǎn),被劃分為負(fù)類。
從系統(tǒng)實(shí)現(xiàn)角度來(lái)看,一個(gè)線性分類器可以表示成一個(gè)具有d個(gè)輸入單元,每個(gè)單元與結(jié)果具有連接權(quán)值的一個(gè)模型(圖2-2)。每個(gè)輸入特征向量乘以相應(yīng)的權(quán)值,并輸出這些乘積的累加和。利用一個(gè)Sigmoid函數(shù)(圖中的output unit函數(shù)),將結(jié)果映射到{0,1}或者{-1,1}。
1.線性判別函數(shù)的形式。
對(duì)于二類問題,直接用g(X)=WTX+w0形成劃分平面,平面兩側(cè)各屬于一類,如圖2-1中的例子。
對(duì)于多類別問題,情況比較復(fù)雜,通常有以下兩種策略。
假設(shè)擁有d個(gè)類別的問題:
(1)如果對(duì)于任何一個(gè)類別Ci,利用g(X)=WTX+w0能夠區(qū)分屬于Ci以及不屬于Ci的樣本,此時(shí)分類的函數(shù)就是由每個(gè)類別的判別函數(shù)組成。此時(shí)分類函數(shù)總共有d個(gè)。若待分類樣本滿足gi(X)>0,則將其分到Ci類。若同時(shí)有多個(gè)類別使得X滿足gi(X)>0,則選取具有最大函數(shù)值的類別作為X的類別。
(2)如果任兩個(gè)類別Ci、Cj,可以通過gij(X)=WijTX+wij0區(qū)分開,則此時(shí)分類函數(shù)總共有d(d-1)/2個(gè)。對(duì)于任意的Cj,若待分類樣本滿足gij(X)>0恒成立,則將其劃分為Ci類。
2.線性判別函數(shù)系數(shù)的確定。
線性判別函數(shù)設(shè)計(jì)的關(guān)鍵問題是權(quán)值的確定,也即使判別函數(shù)系數(shù)的確定。依據(jù)一定的評(píng)價(jià)準(zhǔn)則,線性判別函數(shù)不斷修正權(quán)值的大小,從而達(dá)到滿足評(píng)價(jià)準(zhǔn)則的系數(shù)值。
最常見的確定線性判別函數(shù)的算法包括感知器算法、最小二乘法(LSM)以及支持向量機(jī)。
(1)感知器算法:感知器算法的原理是每次依據(jù)分錯(cuò)的樣本(用Y(W)表示),依據(jù)式2-8,不斷的調(diào)整權(quán)值。感知器算法實(shí)際上就是單層神經(jīng)網(wǎng)絡(luò),通過訓(xùn)練樣本的不斷指導(dǎo),不斷的修正自己的權(quán)值。實(shí)際上分錯(cuò)的樣本越少,則g(X)距離真實(shí)的判別邊界越近。
(2-9)
(2)最小二乘法:在某些情況下,盡管線性分類器不是最優(yōu)的,但其效率和簡(jiǎn)單常常可以彌補(bǔ)這些問題。因此需要利用最優(yōu)化的數(shù)學(xué)方法,計(jì)算較優(yōu)的性能。最小二乘法正是最優(yōu)化算法在線性分類器中的應(yīng)用。利用最小二乘的結(jié)論公式:W=(XTX)-1XTy,利用矩陣計(jì)算的方法解出相應(yīng)的權(quán)值,并使得訓(xùn)練集樣本距離超平面的均方和最小。
(3)支持向量機(jī):感知器算法可能會(huì)收斂到不同的解,但對(duì)于要求嚴(yán)格的問題中,一個(gè)給兩測(cè)類別留了更多可自由活動(dòng)的空間的決策函數(shù)顯然產(chǎn)生錯(cuò)誤的危險(xiǎn)更小。支持向量機(jī)理論提供了求出這樣平面的方法,通過解決優(yōu)化問題:
(2-10)
使得超平面兩側(cè)擁有最大的間隔。其中滿足|WTX+w0|=1的向量叫做支持向量。
(四)非線性分類法
線性分類器具有簡(jiǎn)單、直觀的特點(diǎn),但是在現(xiàn)實(shí)生活中會(huì)經(jīng)常遇到線性不可分的情況,比如最著名的異或(XOR)布爾函數(shù),就無(wú)法用一個(gè)平面將兩各類別分開。最常見的非線性分類的方法有神經(jīng)網(wǎng)絡(luò)、多項(xiàng)式分類器以及決策樹分類器。
1.神經(jīng)網(wǎng)絡(luò)。
一個(gè)簡(jiǎn)單的神經(jīng)網(wǎng)絡(luò)由三部分組成:輸入層(input)、隱含層(hidden)以及輸出層(output),如圖2-3。
作為一個(gè)可以適應(yīng)復(fù)雜問題的啟發(fā)式的統(tǒng)計(jì)模式識(shí)別技術(shù),神經(jīng)網(wǎng)絡(luò)具有強(qiáng)大的功能,戈?duì)柲炅_夫證明只要給出足夠數(shù)量的隱含層的神經(jīng)單元、適當(dāng)?shù)姆蔷€性函數(shù)以及權(quán)值,任何判決都可以利用三層神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)。一個(gè)常見的神經(jīng)網(wǎng)絡(luò)的算法就是利用反向傳播算法。限于篇幅,這里只介紹算法的核心思想。
反向傳播算法的基本思想主要分為三步:
第一步,初始化所有權(quán)值。
第二步,前向計(jì)算:從輸入層開始,從前往后地依次計(jì)算每個(gè)神經(jīng)元的輸出,計(jì)算方式為帶限界的加權(quán)和。
第三步,后向計(jì)算與權(quán)值修正:依據(jù)輸出的結(jié)果,從輸出曾開始從后往前地依次計(jì)算出來(lái)權(quán)值修正的大小,并對(duì)全部權(quán)值進(jìn)行修正。
反向傳播算法可以對(duì)空間進(jìn)行較為復(fù)雜的劃分,并且可以充分利用并行的高性能計(jì)算來(lái)完成分類的工作。但是人工神經(jīng)網(wǎng)絡(luò)需要較大的訓(xùn)練集來(lái)保證結(jié)果的正確性。
2.多項(xiàng)式分類器。
對(duì)于一個(gè)多項(xiàng)式分類器,其核心思想就是進(jìn)行樣本空間的轉(zhuǎn)化,將其轉(zhuǎn)化為線性分類器問題。比如針對(duì)XOR問題,原特征空間可以表示為X=[x1,x2],若引入新的特征空間,令X’=[x1,x2,x1x2]=[y1,y2,y3],則完成了從二維空間到三維空間的轉(zhuǎn)化。而對(duì)于新的空間,可以建立超平面g(x)=y1+y2-2y3-1/4正確區(qū)分兩個(gè)類別。
然而多項(xiàng)式分類器適用于低維空間的非線性分類問題,對(duì)于維度較大的問題,由于產(chǎn)生的新特征空間將過于龐大,增加了計(jì)算的復(fù)雜性。
3.決策樹。
決策樹算法的核心思想就是利用一系列的查詢來(lái)逐步地確定類別,圖2-4展現(xiàn)了一個(gè)判斷水果類型的決策樹。
建立一棵決策樹的過程可以看作是從不同的屬性空間,層次性的分開各個(gè)類別的數(shù)據(jù)。建立的過程如下:
(1)首先,選擇一個(gè)屬性,對(duì)訓(xùn)練集進(jìn)行劃分。
(2)其次,對(duì)劃分的每一個(gè)子訓(xùn)練集,判斷是否滿足停止準(zhǔn)則,比如限制樹的高度,確定根結(jié)點(diǎn)的純度等。
(3)最后,如果有子訓(xùn)練集不滿足停止條件,算法將對(duì)該子訓(xùn)練集重復(fù)這三個(gè)步驟,直到所有的訓(xùn)練子集都滿足。
決策樹使用比較簡(jiǎn)單,進(jìn)行規(guī)則的匹配和查詢就可以了,而且結(jié)果非常直觀。但是對(duì)于算法實(shí)現(xiàn)的細(xì)節(jié),比如停止準(zhǔn)則的確定,進(jìn)行劃分的特征的選擇等會(huì)影響分類的結(jié)果。限于篇幅,這里就不一一介紹。
四、半監(jiān)督學(xué)習(xí)
區(qū)別于有監(jiān)督學(xué)習(xí)要求訓(xùn)練集具有完整的類別標(biāo)簽,半監(jiān)督學(xué)習(xí)只需要小部分訓(xùn)練樣本具有類別標(biāo)簽,甚至可以通過向外部的指示器(Oracle)交互式地獲得部分樣本的標(biāo)簽。
同時(shí)區(qū)別于無(wú)監(jiān)督學(xué)習(xí),不要求訓(xùn)練集具有類別標(biāo)簽,只是通過研究樣本屬性之間的相似度進(jìn)行學(xué)習(xí),半監(jiān)督學(xué)習(xí)通常依靠部分有標(biāo)簽的樣本進(jìn)行指導(dǎo),還可以有效地提高聚類的效果。
通常半監(jiān)督學(xué)習(xí)被認(rèn)為是分類問題的特殊形式,因?yàn)榘氡O(jiān)督學(xué)習(xí)多關(guān)注與如何有效地利用無(wú)類別標(biāo)簽數(shù)據(jù)來(lái)提高分類器的性能。但是半監(jiān)督學(xué)習(xí)的研究仍然涉及到聚類、回歸等方面。
最常見的半監(jiān)督學(xué)習(xí)方法是產(chǎn)生式模型方法(Generative Models),通常來(lái)說數(shù)據(jù)的分布可以描述為P(X,y)=P(X|y)P(y),該方法假設(shè)P(X|y)服從特定的混合分布模型(比如高斯混合分布模型)。通過大量的無(wú)標(biāo)簽樣本,確定組成該混合模型的各個(gè)組成部分的參數(shù),利用有標(biāo)簽樣本的信息,來(lái)進(jìn)一步確定樣本的分布。針對(duì)產(chǎn)生式模型的研究,在理論方面集中在以下兩個(gè)方面:
1.混合模型可識(shí)別性研究:給定某一參數(shù)向量,能否可以確定唯一的多分布混合的方式??梢灾赖氖歉咚狗植嫉幕旌夏P褪强勺R(shí)別的;與此同時(shí),文獻(xiàn)[11]證明Bernoulli混合模型是不可識(shí)別的;文獻(xiàn)[12]在混合模型可識(shí)別性方面做了進(jìn)一步的研究。
2.模型正確性研究:如果對(duì)于模型的假設(shè)是正確的,可以證明,通過充分學(xué)習(xí)無(wú)標(biāo)簽的樣本有助于提升分類的精度;但是如果模型估計(jì)錯(cuò)誤,無(wú)標(biāo)簽樣本不會(huì)對(duì)模型精度帶來(lái)提升,甚至導(dǎo)致精度下降。通常會(huì)利用組合算法或者樣本降權(quán)的策略來(lái)減少模型選擇錯(cuò)誤帶來(lái)的風(fēng)險(xiǎn)。在應(yīng)用方面,常見的方法包括利用EM算法辨別混合組件、利用聚類算法劃分樣本空間并利用有標(biāo)簽的數(shù)據(jù)標(biāo)記各子空間的標(biāo)簽;應(yīng)用領(lǐng)域主要包括文本分類、文字對(duì)齊、人臉識(shí)別等。
自主訓(xùn)練方法(Self-training)是半監(jiān)督學(xué)習(xí)最早的研究方向之一。該方法使用一個(gè)有監(jiān)督學(xué)習(xí)算法從一小批有標(biāo)簽樣本開始學(xué)習(xí),迭代地給無(wú)標(biāo)簽樣本賦予標(biāo)簽,并加入到訓(xùn)練樣本中來(lái)。這種思想最早可以追溯到1965年。由于是一種包裹式算法,算法的性能更多依賴于所選擇的有監(jiān)督學(xué)習(xí)算法的性能。自主學(xué)習(xí)方法被用于多種自然語(yǔ)言處理任務(wù)中,比如語(yǔ)義歧義的識(shí)別甚至是情感識(shí)別;同時(shí)Rosenberg等人還將自主學(xué)習(xí)應(yīng)用到圖像對(duì)象識(shí)別系統(tǒng)中。
協(xié)同訓(xùn)練(Co-training)最初是Blum和Mitchel針對(duì)諸如網(wǎng)頁(yè)分類等具有兩個(gè)充分冗余的視圖的半監(jiān)督學(xué)習(xí)問題提出來(lái)的半監(jiān)督學(xué)習(xí)算法。最初假設(shè)樣本包含兩個(gè)充分冗余的視圖,由于這一要求在實(shí)際應(yīng)用中往往無(wú)法滿足,Nigam和Ghani在文獻(xiàn)[24]中通過實(shí)驗(yàn)證明,在屬性集充分大時(shí),可以隨機(jī)把屬性集劃分為兩個(gè)視圖,同樣可以取得不錯(cuò)的效果。由于充分大屬性集要求過于嚴(yán)格,隨機(jī)劃分屬性集的效果不是非常穩(wěn)定,因此,許多研究者試圖尋找不需要充分冗余視圖的協(xié)同算法。Goldman和Zhou在文獻(xiàn)[25]的研究建立在噪聲學(xué)習(xí)理論和統(tǒng)計(jì)技術(shù)之上,利用不同決策樹分類器劃分樣本空間為若干等價(jià)類。每個(gè)分類器不斷從樣例空間的等價(jià)類內(nèi)找出最置信的一批樣本給予標(biāo)簽,提交給另一個(gè)分類器作為訓(xùn)練樣本。他們?cè)谖墨I(xiàn)[3]中進(jìn)行了擴(kuò)展,使該算法可以使用多個(gè)不同類型分類器。為了進(jìn)一步放松約束條件,周志華等人提出了Tri-training算法。該算法首先使用重復(fù)取樣的方法訓(xùn)練三個(gè)分類器,然后不斷的利用其中兩個(gè)分類器,共同選出高置信的無(wú)標(biāo)簽的樣本進(jìn)行標(biāo)記,來(lái)更新第三個(gè)模型。對(duì)比Goldman的方法,Tri-training算法顯著減少了大量耗時(shí)的統(tǒng)計(jì)測(cè)試技術(shù)。為進(jìn)一步減少噪聲的影響,李明等人又在Tri-training的基礎(chǔ)上提出了Co-forest方法,可以更好地發(fā)揮協(xié)同學(xué)習(xí)的作用。
直推式支持向量機(jī)(Transductive Support Vector Machines,TSVM)又被叫做半監(jiān)督支持向量機(jī)(Semi-Supervised Support Vector Machines,S3VM)目的是利用支持向量機(jī)技術(shù),將決策邊界建立在遠(yuǎn)離高密度區(qū)的空間區(qū)域,來(lái)建立P(X)與決策邊界的聯(lián)系。由于尋找準(zhǔn)確的直推式支持向量機(jī)的解是NP難問題,許多算法都主要用于發(fā)掘近似解。其他類似的避免高密度區(qū)域進(jìn)行判別的算法還包括基于高斯過程的方法(如文獻(xiàn)[18]),以及基于信息論的方法(如文獻(xiàn)[19])。
基于圖的半監(jiān)督方法(Graph-based semi-supervised methods)通常將數(shù)據(jù)集描述為一張圖,圖中的結(jié)點(diǎn)為數(shù)據(jù)集中的樣本(有標(biāo)簽或者無(wú)標(biāo)簽的),結(jié)點(diǎn)之間的連線通常定義為樣本之間的相似度。圖方法通常利用矩陣?yán)碚摶蛘邎D算法,來(lái)尋找平滑的函數(shù)能夠最大程度上匹配有標(biāo)簽樣本的分布。圖的半監(jiān)督學(xué)習(xí)算法的關(guān)鍵在于建圖、以及損失函數(shù)的確定。
除了半監(jiān)督分類算法,其他半監(jiān)督算法還包括譜聚類(Spectral Clustering),半監(jiān)督聚類(Semi-supervised Clustering),半監(jiān)督回歸(Semi-supervised Regression),主動(dòng)學(xué)習(xí)(Active Learning),多示例學(xué)習(xí)(Multi-Instance Learning)等。
五、遷移學(xué)習(xí)
與半監(jiān)督學(xué)習(xí)類似的,遷移學(xué)習(xí)的提出也是針對(duì)訓(xùn)練樣本不足的分類情況。但是半監(jiān)督學(xué)習(xí)依靠具有獨(dú)立同分布的訓(xùn)練樣本和待分類樣本,而遷移學(xué)習(xí)則通過借助其他領(lǐng)域的訓(xùn)練樣本來(lái)建立分類器,為本領(lǐng)域的待分類樣本進(jìn)行類別標(biāo)簽預(yù)測(cè)。
傳統(tǒng)的學(xué)習(xí)方法通常依賴各自領(lǐng)域的訓(xùn)練樣本,建立本領(lǐng)域的知識(shí)模型來(lái)進(jìn)行領(lǐng)域內(nèi)的學(xué)習(xí)任務(wù),如圖2-5(a)。但是遷移學(xué)習(xí)的訓(xùn)練樣本來(lái)自其他領(lǐng)域(比如有類別標(biāo)簽樣本較為豐富的領(lǐng)域),通過該領(lǐng)域樣本的學(xué)習(xí),抽取出來(lái)相關(guān)的知識(shí)用于本領(lǐng)域的分類任務(wù),如圖2-5(b)。但是與傳統(tǒng)學(xué)習(xí)方式相同的是,遷移學(xué)習(xí)的目標(biāo)也是分類的經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化,只是優(yōu)化經(jīng)驗(yàn)風(fēng)險(xiǎn)時(shí)會(huì)利用到源領(lǐng)域的知識(shí)。
遷移學(xué)習(xí)依賴于源領(lǐng)域的知識(shí)和目標(biāo)領(lǐng)域知識(shí)分布相似,如果兩者的分布不一致,往往會(huì)引起分類性能的下降,這種現(xiàn)象叫做負(fù)遷移。負(fù)遷移成為使用遷移學(xué)習(xí)的最大風(fēng)險(xiǎn),為了保證遷移學(xué)習(xí)的效果,如何降低負(fù)遷移成為遷移學(xué)習(xí)關(guān)注的一個(gè)領(lǐng)域。
依據(jù)有類別標(biāo)簽的樣本存在的學(xué)習(xí)領(lǐng)域,文獻(xiàn)[8]將遷移學(xué)習(xí)領(lǐng)域分為兩類:歸納式遷移學(xué)習(xí)(Inductive Transfer Learning)和直推式遷移學(xué)習(xí)(Transductive Transfer Learning)。
(一)歸納式遷移學(xué)習(xí)
歸納式遷移學(xué)習(xí)的假設(shè)為目標(biāo)領(lǐng)域包含有部分的帶有類別標(biāo)簽的樣本。因此該領(lǐng)域的研究重點(diǎn)在于如何遷移其他領(lǐng)域的知識(shí),以更好的利用目標(biāo)領(lǐng)域中帶有類別標(biāo)簽的樣本。依據(jù)遷移的手段可以分為:
1.樣本遷移:歸納式遷移學(xué)習(xí)的樣本遷移方法假設(shè)目標(biāo)領(lǐng)域和源領(lǐng)域使用相同的特征空間和標(biāo)簽集合,通過調(diào)整權(quán)值和重采樣技術(shù),實(shí)現(xiàn)源領(lǐng)域部分樣本的重用。因此,此方式的核心思想是利用目標(biāo)領(lǐng)域內(nèi)的帶有類別標(biāo)簽的樣本指導(dǎo)從源領(lǐng)域進(jìn)行采樣,使得訓(xùn)練樣本在分布上與目標(biāo)領(lǐng)域近似。
以Tradaboost[9]為例,訓(xùn)練的數(shù)據(jù)來(lái)自于源領(lǐng)域和目標(biāo)領(lǐng)域,每次訓(xùn)練結(jié)束對(duì)訓(xùn)練結(jié)果進(jìn)行評(píng)價(jià)。對(duì)于目標(biāo)領(lǐng)域,類似于Adaboost方法提升被分錯(cuò)的樣本的權(quán)值;而對(duì)源領(lǐng)域,則降低被分錯(cuò)樣本的權(quán)值。下一輪訓(xùn)練則利用調(diào)整后的樣本權(quán)值進(jìn)行重采樣。最后依據(jù)分類的置信度輸出判定的類別標(biāo)簽。
2.代表特征遷移:歸納式遷移學(xué)習(xí)的代表特征遷移方式假設(shè)源領(lǐng)域和目標(biāo)領(lǐng)域由于任務(wù)的相關(guān)性,會(huì)共享某些特征。該方法的核心思想為通過空間映射方法(比如特征選擇,特征變換,核空間等)提升目標(biāo)領(lǐng)域和源領(lǐng)域在特征領(lǐng)域的相似性,同時(shí)增強(qiáng)樣本的類別可區(qū)分性。利用優(yōu)化技術(shù),使得目標(biāo)領(lǐng)域映射、源領(lǐng)域映射、參數(shù)矩陣三個(gè)角度都達(dá)到優(yōu)化。
3.模型遷移:歸納式遷移學(xué)習(xí)的模型遷移方式假設(shè)由于各個(gè)領(lǐng)域之間的任務(wù)具有一定相關(guān)性,在一定程度上可以共享相互之間模型的參數(shù)。學(xué)習(xí)算法通過改變各個(gè)領(lǐng)域?qū)W習(xí)目標(biāo)函數(shù),使得各目標(biāo)函數(shù)在形式上類似,甚至具有相同的重要參數(shù),這時(shí)通過共享相同模型參數(shù),實(shí)現(xiàn)目標(biāo)領(lǐng)域的學(xué)習(xí)的優(yōu)化。
4.關(guān)系知識(shí)遷移:歸納式遷移學(xué)習(xí)的關(guān)系知識(shí)遷移方法假設(shè)目標(biāo)領(lǐng)域和源領(lǐng)域在樣本關(guān)系方面具有相似性。該方法首先學(xué)習(xí)源領(lǐng)域的關(guān)系知識(shí),比如學(xué)生和導(dǎo)師以及文章三者關(guān)系;其次,建立源領(lǐng)域相關(guān)對(duì)象與目標(biāo)領(lǐng)域相關(guān)對(duì)象之間映射關(guān)系,比如源領(lǐng)域的學(xué)生、導(dǎo)師和文章分別對(duì)應(yīng)目標(biāo)領(lǐng)域的演員、導(dǎo)演和電影;最后,將從源領(lǐng)域的關(guān)系知識(shí)直接或者經(jīng)過變換遷移到目標(biāo)領(lǐng)域。
該種方法具有一定的針對(duì)性,一般用于具有樣本相關(guān)性的模型中,通過遷移關(guān)系知識(shí),提升目標(biāo)領(lǐng)域的關(guān)系模型建立的效率和性能。
(二)直推式遷移學(xué)習(xí)
直推式遷移學(xué)習(xí)的假設(shè)為目標(biāo)領(lǐng)域中不包含任何具有類別標(biāo)簽的樣本。類似與歸納式遷移學(xué)習(xí),直推式遷移學(xué)習(xí)也包含樣本空間和特征空間兩個(gè)研究的角度。
1.樣本遷移:由于目標(biāo)領(lǐng)域不包含帶有類別標(biāo)簽的樣本,因此樣本遷移方法是依據(jù)源領(lǐng)域和目標(biāo)領(lǐng)域在分布上的差異,給源領(lǐng)域的樣本賦予不同的權(quán)值,盡可能接近目標(biāo)領(lǐng)域的分布。特別地,一些基于采樣的直推式遷移學(xué)習(xí)方法假設(shè)目標(biāo)領(lǐng)域和源領(lǐng)域具有相同的后驗(yàn)概率,通過重采樣方法生成新的訓(xùn)練集。
2.代表特征遷移:直推式遷移學(xué)習(xí)中的代表特征遷移方法依然假設(shè)目標(biāo)領(lǐng)域和源領(lǐng)域具有相同的后驗(yàn)概率。該方法的核心思想是通過找到一組特征能夠減少目標(biāo)領(lǐng)域和源領(lǐng)域之間的距離。
直推式的代表特征遷移往往只是針對(duì)特定的問題。比如具有相同詞典的文本挖掘,文本的屬性向量相同或者類似,并以詞典分布作為依據(jù),通過協(xié)同聚類方式遷移類別標(biāo)簽。
(三)遷移學(xué)習(xí)相關(guān)問題
依據(jù)文獻(xiàn)[8],依據(jù)目標(biāo)領(lǐng)域是否具有帶有類別標(biāo)簽的樣本,遷移學(xué)習(xí)可以分為歸納式遷移學(xué)習(xí)(Inductive Transfer Learning)和直推式遷移學(xué)習(xí)(Transductive Transfer Learning)兩個(gè)方向。而根據(jù)源領(lǐng)域是否具有類別標(biāo)簽樣本,以及目標(biāo)領(lǐng)域和源領(lǐng)域?qū)W習(xí)任務(wù)的相似性,遷移學(xué)習(xí)還涉及到以下幾類學(xué)習(xí)問題:
自助學(xué)習(xí)(Self-taught Learning):該問題假設(shè)目標(biāo)領(lǐng)域和源屬于不同的分布,而且類別標(biāo)簽集也不相同;特別地,源領(lǐng)域有類別標(biāo)簽的樣本較少。該方法通過找出共同的屬性集合,來(lái)實(shí)現(xiàn)目標(biāo)領(lǐng)域的學(xué)習(xí)。比如圖像識(shí)別里面,各個(gè)識(shí)別任務(wù)可能不一樣,例如識(shí)別動(dòng)物和識(shí)別風(fēng)景。但通過聚類發(fā)現(xiàn)識(shí)別動(dòng)物時(shí)依據(jù)對(duì)象邊緣的特征,可以有效地區(qū)分不同的動(dòng)物;將該特征可以遷移到對(duì)不同風(fēng)景的識(shí)別中。因此自助學(xué)習(xí)常常使用協(xié)同聚類方法找出可以遷移的特征基。
其他相關(guān)的研究方向還有:多任務(wù)學(xué)習(xí)(Multi-task Learning)、無(wú)監(jiān)督遷移學(xué)習(xí)(Unsupervised Transfer Learning)、領(lǐng)域自適應(yīng)學(xué)習(xí)(Domain Adaptation)以及樣本選擇偏差/方差遷移(Sample Selection Bias/Covariance Shift)等。在此不一一介紹。相關(guān)領(lǐng)域關(guān)系如圖2-6所示。
六、總結(jié)
本章從學(xué)習(xí)角度介紹了數(shù)據(jù)挖掘領(lǐng)域常見的四類算法。有監(jiān)督學(xué)習(xí)和無(wú)監(jiān)督學(xué)習(xí)是數(shù)據(jù)挖掘傳統(tǒng)的學(xué)習(xí)方法,依據(jù)樣本是否使用了外在的類別標(biāo)簽作為指導(dǎo),分別應(yīng)用于不同的任務(wù)場(chǎng)景。由于現(xiàn)實(shí)生活中有類別標(biāo)簽的數(shù)據(jù)往往較少或者獲取難度較大,近年來(lái)提出了包括半監(jiān)督學(xué)習(xí)以及遷移學(xué)習(xí)等方法,利用無(wú)類別標(biāo)簽樣本或者類似學(xué)習(xí)任務(wù)來(lái)提升有監(jiān)督學(xué)習(xí)的效果和性能。
有監(jiān)督學(xué)習(xí)、半監(jiān)督學(xué)習(xí)、遷移學(xué)習(xí)主要的目的是為了提高分類任務(wù)的性能,圖2-7通過犀牛和大象的圖片分類任務(wù)來(lái)形象的區(qū)分了三者的核心思想。有監(jiān)督學(xué)習(xí),如圖2-7(a),通過學(xué)習(xí)具有類別標(biāo)簽的大象和犀牛的圖片建立學(xué)習(xí)模型;半監(jiān)督學(xué)習(xí),如圖2-7(b),利用具有類別標(biāo)簽的兩中動(dòng)物的圖片以及不具備類別標(biāo)簽的兩種動(dòng)物的圖片建立學(xué)習(xí)模型;遷移學(xué)習(xí),如圖2-7(c),通過學(xué)習(xí)羊與馬的圖片,建立源領(lǐng)域模型,并遷移到目標(biāo)領(lǐng)域大象和犀牛的學(xué)習(xí)問題中。
參考文獻(xiàn):
[1]Chapelle O,SchÄolkopf B,Zien A. Semi-Supervised Learning.MIT Press,Cambridge.MA,2006
[2]Rosenberg C,Hebert M,Schneiderman H.Semi-supervised self-training of object detection models.in Seventh IEEE Workshop on Applications of Computer Vision,2005
[3]Zhou Y,Goldman S.Democratic co-learning.in Proceedings of the 16th IEEE International Conference on Tools with Artificial Intelligence(ICTAI 2004),2004
[4]Bennett K,Demiriz A. Semi-supervised support vector machines.Advances in Neural Information Processing Systems,1999
[5]Zhu X.Semi-supervised learning with graphs.Ph.D.thesis.Carnegie Mellon University,2005
[6]Zhou Z,Xu J.On the relation between multi-instance learning and semi-supervised learning.in Proceedings of the 24th International Conference on Machine Learning,2007
[7]Duda R,Hart P,Stock D.模式分類(原書第二版).李宏?yáng)|,姚天翔
[8]Pan J and Yang Q. A Survey on Transfer puter Sciences Technical Report HKUST-CS08-08,2008
[9]Dai W,Yang Q,Xue G,and Yu Y.Boosting for transfer learning.In Proceedings of the 24th International Conference on Machine Learning,2007
[10]Raina R,Battle A,Lee H,etc.Self-taught Learning:Transfer Learning from Unlabeled Data.Proceedings of the 24th International Conference on Machine Learning,2007
[11]McCallum A,Nigam K.A comparison of event models for naive bayes text classification.in AAAI-98 Workshop on Learning for Text Categorization,1998
[12]Corduneanu A,Jaakkola T. Using unlabeled data to improve text classification.Tech.Report AIM-2001-030.MIT AI Memo,2001
[13]Castelli V,Cover T.The relative value of labeled and unlabeled samples in pattern recognition with an unknown mixing parameter.in IEEE Transactions on Information Theory,1996
[14]Nigam K,McCallum A,Thrun S,Mitchell T.Text classification from labeled and unlabeled documents using em.in Machine Learning,2000
[15]Dara R,Kremer S,Stacey D.Clustering unlabeled data with soms improves classification of labeled real-world data. in World Congress on Computational Intelligence(WCCI),2002
[16]Culp M.An iterative algorithm for extending learners to a semi-supervised setting.in The 2007 Joint Statistical Meetings(JSM),2007
[17]Zhou Z,Li M.Tri-training:exploiting unlabeled data using three classifiers. in IEEE Transactions on Knowledge and Data Engineering,2005
[18]Zhu X,Lafferty J,Ghahramani Z.Semi-supervised learning: From gaussian fields to gaussian processes.Tech.Rep.CMU-CS-03-175,Carnegie Mellon University,2003
[19]Szummer M,Jaakkola T.Information regularization with partially labeled data.in Advances in Neural Information Processing Systems,2002
[20]Grira N,Crucianu M,Boujemaa N. Unsupervised and semi-supervised clustering:a brief survey.Tech.Rep.FP6.A Review of Machine Learning Techniques for Processing Multimedia Content,2004
[21]Zhou Z,Li M.Semi-supervised regression with co-training.in International Joint Conference on Artificial Intelligence(IJCAI),2005
[22]McCallum A,Nigam K.Employing em in pool-based active learning for text classification.in Proceedings of the 15th International Conference on Machine Learning,1998
[23]Blum A,Mitchell bining labeled and unlabeled data with co-training.In Proceedings of the Workshop on Computational Learning Theory (COLT),1998
[24]Nigam K,Ghani R.Analyzing the effectiveness and applicability of co-training.in Proceedings of the 9th ACM International Conference on Information and Knowledge Management(CIKM'00),2000
[25]Goldman S,Zhou Y. Enhancing supervised learning with unlabeled data.in Proceeding of the 17th International Conference on Machine Learning(ICML'00),2000
[26]Zhou Z,Li M.Tri-training: exploiting unlabeled data using three classifiers. in IEEE Transactions on Knowledge and Data Engineering,2005
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:北大期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:北大期刊
榮譽(yù):百種重點(diǎn)期刊
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)