前言:想要寫出一篇引人入勝的文章?我們特意為您整理了機(jī)器學(xué)習(xí)下的入侵檢測(cè)技術(shù)研究實(shí)現(xiàn)范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。
摘要:目前大多數(shù)入侵檢測(cè)系統(tǒng)都是基于一個(gè)特定的預(yù)定義模式(特征值)來匹配已知的攻擊功能。基于特征值的方法的主要局限性在于它不識(shí)別新的攻擊,甚至不識(shí)別已知漏洞中的微小變化。該文基于機(jī)器學(xué)習(xí)技術(shù),采用k-means聚類算法和支持向量機(jī)分類算法,能夠自動(dòng)構(gòu)造正常分組有效載荷的分布并檢測(cè)其偏差。實(shí)驗(yàn)表明,機(jī)器學(xué)習(xí)算法比大多數(shù)使用的開源snort系統(tǒng)有更高的檢測(cè)精度。
關(guān)鍵詞:入侵檢測(cè);機(jī)器學(xué)習(xí);分類算法;k-means聚類
1入侵檢測(cè)系統(tǒng)
入侵檢測(cè)系統(tǒng)(ids)用于檢測(cè)網(wǎng)絡(luò)攻擊者。圖1所示的入侵檢測(cè)系統(tǒng)(ids)結(jié)構(gòu)用于檢測(cè)主要通過網(wǎng)絡(luò)試圖闖入計(jì)算機(jī)系統(tǒng)的攻擊者。即使防火墻可以檢測(cè)到未經(jīng)授權(quán)的用戶訪問網(wǎng)絡(luò),但當(dāng)計(jì)算機(jī)用戶或網(wǎng)絡(luò)管理允許對(duì)系統(tǒng)(如web服務(wù)器)進(jìn)行開放式訪問時(shí),它也無法防止入侵企圖。攻擊或黑客的企圖可能導(dǎo)致探測(cè)和拒絕服務(wù)(DoS)攻擊。在入侵檢測(cè)系統(tǒng)(ids)中,目標(biāo)是檢測(cè)網(wǎng)絡(luò)上某個(gè)特定的行為是否是異常行為。異常檢測(cè)需要標(biāo)記特征。在整個(gè)網(wǎng)絡(luò)入侵檢測(cè)工作領(lǐng)域中,異常檢測(cè)的不同階段所使用的術(shù)語存在著一定的差異。對(duì)網(wǎng)絡(luò)檢測(cè)系統(tǒng)的各個(gè)階段以及在各個(gè)階段中使用的術(shù)語的定義進(jìn)行了一些定義。觀察:?jiǎn)蝹€(gè)數(shù)據(jù)單元。在網(wǎng)絡(luò)系統(tǒng)的入侵中,數(shù)據(jù)單元可以是網(wǎng)絡(luò)包、特定狀態(tài)服務(wù)器或特定時(shí)間的計(jì)算機(jī)。特征:特定類型的信息。觀測(cè)通常有許多特點(diǎn)。在網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)中,特征可以包括目標(biāo)IP地址、包長(zhǎng)度和網(wǎng)絡(luò)的時(shí)間戳。數(shù)據(jù)集:觀察的集合,每個(gè)觀察都包含每個(gè)特征的值。通常,數(shù)據(jù)集用矩陣表示,其中行表示觀測(cè)值,列表示要素。預(yù)處理:異常檢測(cè)工具對(duì)數(shù)據(jù)集進(jìn)行的操作,假定預(yù)處理對(duì)實(shí)驗(yàn)結(jié)果沒有影響。監(jiān)督方法:利用已標(biāo)識(shí)的數(shù)據(jù)訓(xùn)練系統(tǒng),使其能夠識(shí)別新數(shù)據(jù)的方法。標(biāo)記的訓(xùn)練示例可以是以前系統(tǒng)過程的系統(tǒng)輸出,也可以是手動(dòng)添加標(biāo)記。無監(jiān)督方法:不需要使用已經(jīng)識(shí)別的數(shù)據(jù)來訓(xùn)練系統(tǒng),它可以識(shí)別新的數(shù)據(jù)。聚類:基于相似性的群體觀察。通常,無監(jiān)督群集:在生成組后選擇組標(biāo)簽。根據(jù)相似性將觀察結(jié)果分組。大多數(shù)入侵檢測(cè)系統(tǒng)的研究論文都提出了不同的入侵檢測(cè)算法,如自適應(yīng)共振理論、神經(jīng)網(wǎng)絡(luò)、統(tǒng)計(jì)概率分布和盲分類等。大多數(shù)算法使用kdd99作為數(shù)據(jù)集來驗(yàn)證其入侵檢測(cè)性能。kdd99數(shù)據(jù)集是一個(gè)已有20年歷史的數(shù)據(jù)集,具有41個(gè)復(fù)雜的特征。本文研究的是當(dāng)前在真實(shí)環(huán)境中獲取的在線數(shù)據(jù)集。對(duì)收集到的網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行預(yù)處理,得到只有13個(gè)特征(bit19數(shù)據(jù)集)。bit19數(shù)據(jù)集的特征數(shù)小于kdd99數(shù)據(jù)集。將正常的網(wǎng)絡(luò)數(shù)據(jù)和網(wǎng)絡(luò)攻擊分為dos和probe兩類,以減少計(jì)算處理時(shí)間,分析網(wǎng)絡(luò)數(shù)據(jù),保護(hù)網(wǎng)絡(luò)安全。此外,在實(shí)驗(yàn)中,使用已知攻擊和未知攻擊來測(cè)試我們的ids。
2機(jī)器學(xué)習(xí)算法
2.1k-均值聚類算法
k-means聚類的目的是利用最小二乘法對(duì)數(shù)據(jù)進(jìn)行分類。目的是將n個(gè)觀測(cè)值分成k個(gè)簇,每個(gè)簇都屬于類別最近的群。即,k-means聚類是一種基于屬性/特征將對(duì)象分類或分組為k個(gè)組的算法。k是正整數(shù)。聚類主要是計(jì)算每個(gè)數(shù)據(jù)到每個(gè)組中心距離的平方值,找出最小距離是最近的組。
2.2支持向量機(jī)分類算法
支持向量機(jī)(SVM)分類算法是一套相關(guān)的有監(jiān)督學(xué)習(xí)方法,主要用于數(shù)據(jù)分析和模式識(shí)別等常用的分類和回歸分析方法。該方法根據(jù)分類器的結(jié)構(gòu)和特性而變化。最常見的支持向量機(jī)是使用線性分類器來預(yù)測(cè)兩個(gè)可能類別之間每個(gè)輸入的成員類。更準(zhǔn)確的定義是支持向量機(jī)構(gòu)造一個(gè)超平面或超平面集,將所有輸入分類到高空間甚至無限空間。最接近分類邊界的值稱為支持向量。支持向量機(jī)的目標(biāo)是最大化超平面與支持向量之間的邊界。
2.3評(píng)價(jià)標(biāo)準(zhǔn)
在本文中,ids的檢測(cè)性能基于以下值:ids的總檢測(cè)率(drt):指ids能夠正確檢測(cè)dos攻擊、prob攻擊和正常網(wǎng)絡(luò)數(shù)據(jù)的百分比。ids的正常網(wǎng)絡(luò)數(shù)據(jù)檢測(cè)率(drn):ids能夠正確檢測(cè)正常網(wǎng)絡(luò)數(shù)據(jù)的百分比。ids的dos攻擊檢測(cè)率(drd):ids能夠正確檢測(cè)dos攻擊數(shù)據(jù)的百分比。入侵檢測(cè)系統(tǒng)的prob攻擊檢測(cè)率(drp):指入侵檢測(cè)系統(tǒng)能夠正確檢測(cè)prob攻擊網(wǎng)絡(luò)數(shù)據(jù)的百分比。
3實(shí)驗(yàn)結(jié)果
在實(shí)驗(yàn)中,將bit19數(shù)據(jù)集分成三組,即訓(xùn)練數(shù)據(jù)集和兩個(gè)測(cè)試數(shù)據(jù)集。在已知攻擊類型的第一次實(shí)驗(yàn)中,訓(xùn)練數(shù)據(jù)有7100條記錄,包括2700條dos記錄、2700條探測(cè)記錄和2700條正常記錄。另一方面,測(cè)試數(shù)據(jù)器有5100條記錄,包括1700條DOS記錄、1700條探針記錄和1700條正常記錄。在第二個(gè)未知攻擊類型的實(shí)驗(yàn)中,使用與第一個(gè)實(shí)驗(yàn)相同的訓(xùn)練數(shù)據(jù)集,但是測(cè)試數(shù)據(jù)集不同。它有三種未知攻擊類型,每種攻擊類型有1500個(gè)攻擊記錄,共有4500個(gè)記錄。3.1已知攻擊的實(shí)驗(yàn)結(jié)果利用BIT19訓(xùn)練集進(jìn)行訓(xùn)練后,第一次實(shí)驗(yàn)結(jié)果見表1。k-mean聚類算法和支持向量機(jī)分類算法也提供了類似的非常好的結(jié)果。示圖尺寸一般為(寬*高):75mm*50mm.黑白繪圖,請(qǐng)確保圖表中文字清晰。
4結(jié)論
本文在bit19數(shù)據(jù)集的基礎(chǔ)上,研究了兩種不同的機(jī)器學(xué)習(xí)技術(shù):k均值聚類算法和支持向量機(jī)分類算法。從第一次對(duì)已知攻擊類型的實(shí)驗(yàn)來看,兩種技術(shù)的檢測(cè)率都高于98%。在對(duì)未知攻擊類型進(jìn)行實(shí)驗(yàn)時(shí),支持向量機(jī)技術(shù)的檢測(cè)率與第一次實(shí)驗(yàn)相同,總檢測(cè)率為97%,而k均值聚類的檢測(cè)率平均下降到80%左右。該框架的主要優(yōu)點(diǎn)是利用無監(jiān)督機(jī)器學(xué)習(xí)技術(shù)檢測(cè)網(wǎng)絡(luò)流量中的未知攻擊。我們提出的框架是基于(a)將來自網(wǎng)絡(luò)包的字節(jié)流嵌入到由一些預(yù)定義語言引起的高維向量空間中,(b)使用字節(jié)序列之間的相似性度量來構(gòu)造一個(gè)正常活動(dòng)的模型。使用該建議框架的主要優(yōu)點(diǎn)是能夠可靠地檢測(cè)以前不可見的漏洞,而無須對(duì)系統(tǒng)進(jìn)行培訓(xùn)——這是由于當(dāng)前漏洞相對(duì)于傳統(tǒng)的基于簽名的網(wǎng)絡(luò)入侵檢測(cè)系統(tǒng)的可變性造成的。由于近年來變異性的增加,框架變得非常重要。
作者:張海燕 李根源 辜建銳 林開榮 單位:北京理工大學(xué)珠海學(xué)院
級(jí)別:北大期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:省級(jí)期刊
榮譽(yù):--
級(jí)別:CSCD期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫