前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數據挖掘中概率論與數理統計的應用范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:數據挖掘是在海量的數據中歸納、總結、分析數據的內在規律,概率論與數理統計在數據挖掘中的應用,提高了數據挖掘的精度與效率,通過對概率論、數理統計與數據挖掘的關系,分析了統計學在數據挖掘中的具體應用,并結合具體的算法探究了統計學在數據挖掘中的具體運用。
關鍵詞:數據挖掘;概率論;數理統計;統計學
0引言
概率論與數理統計是數據統計中采用的技術,但其在數據挖掘中也具有十分重要的作用。數據挖掘作為一門新興科學,它是從大量、不完全、離散等特征的數據中,對其進行整理,提取隱含在這些數據中有意義、新穎、具有統一特征、有用的數據,為人們的決策提供數據支持服務,是分析解決各類實際問題的可靠手段。數據挖掘主要是采用計算機技術、高級算法來實現對復雜數據、非線性結構的數據進行處理,來探究數據之間的內在聯系,進而發現數據內部存在的規律,為用戶提供信息決策服務。
1統計學與數據挖掘的關系
統計學主要是研究數據統計原理與方法的科學,包括數理統計與概率論等主要內容,主要是研究數據的搜集、整理與分析,并結合數據整理的資源,對事物進行整體的推斷,主要利用數據統計與概率論的原理對數據中的各個屬性進行統計與分析,進而找出數據自己的規律,在統計學的分析方法中主要有方差分析、相關分析、主成分分析與回歸分析等方法。數據挖掘主要是對大量的數據進行分析、總結、深度挖掘,進而找出數據之間的規律,并將這些新規律運用到現實中,例如對學生的學習成績進行挖掘分析,進而找出學生在學習過程中存在的問題,進而能夠形成學生的學習軌跡。1)統計學與數據挖掘的手段與目標相同,都是在龐雜的數據中提取數據的結構特征,分析數據之間存在的內在聯系與特征。2)數據挖掘是統計學發展的一個重要方向,它也為統計學的發展提供了一個全新的研究方法與數據處理的方法,而且數據挖掘比統計學傳統的數據分析方法更具有代表性。3)數據挖掘并不僅是統計學分析的重要內容,而在統計學的思想與數據處理的方法中也得到了廣泛的應用,例如運用到數據庫技術、智能處理技術、機器學習等技術。4)統計學與概率論作為數據挖掘的一種成熟的、應用廣泛的技術,將會促進數據挖掘向更深層次的范圍發展,提高數據挖掘的效率。
2統計學在數據挖掘中的應用
2.1概率分析網(PLN)
人工神經網絡(ArtificialNeuralNetwork,ANN)是數據挖掘算法中常用的方法之一,它是由一系列稱為數據節點組成的網狀結構,形成一個復雜的數據組成形式,通過調整各個網絡節點,采用輸入、輸出的權-值的非線性數據處理方式,達到對數據進行分析的目的。在數據挖掘時,往往會出現一些定量數據與定性數據、質的數據與量的數據等混合在一起,以及一些數據缺失的情況,這就需要采用統計學中的相關數據處理技術與數據挖掘技術結合在一起,共同探究大量數據中存在的規律。概率分析網(PLN)在數據挖掘中的應用,主要體現在解決數據的模式識別、非線性回歸的數據優化處理等數據運用與處理等方面,可以對一些復雜的數據進行處理,對分析定性數據與定量數據具有十分重要的作用。PLN網絡主要基于概率邏輯的神經網絡基礎上,并采用復雜數據計算的方式,同時它也是在傳統權-閾值神經網絡(BP學習算法)的基礎上而提出的算法,在數據處理的過程中,它的學習速度比相同問題的BP算法的學習速度快百倍,而且準確率也比較高,充分說明概率分析網絡(PLN)在一些性能上總是比權-閾值網絡的計算性能要快。在具體應用中,由于神經網絡節點構造的特殊性,也具有很強的隨機性,在具體的運用中具有多種可變性,需要采用多種數據分析工具進行處理,例如馬爾科夫鏈(Markov)等工具對PLN網絡中的數據進行定量分析,對大量的非線性數據進行統一分析與綜合,然后通過研究神經網絡各個狀態之間的數據轉移概率與數據收斂的情況來分析數據之間的內在聯系,進而確定數據變化的規律,還可以在不確定數據網絡轉移矩陣變化的狀態下,采用統計模擬工具對數據進行分析,求出數據的平均收斂補長的變異結果,進而分析出數據的變化規律。
2.2貝葉斯網絡在數據挖掘中的運用
一個完整的數據挖掘過程,需要對數據進行清理、轉換、可視化處理等一系列的過程,然后通過檢驗分析數據挖掘的結果是否正確,在這個過程中,就需要用到決策樹、人工神經網絡、貝葉斯算法等算法,來分析這些數據之間存在的內在聯系與邏輯關系,然后通過數據挖掘技術,將其結果可視化的展示出來。在早期,貝葉斯網絡就成功地應用于專家系統與機器學習中,解決不同結構中數據之間的連接問題,成為表示不確定性專家知識與數據推理的一種數據變化方法,特別是隨著貝葉斯網絡在機器學習中的運用與研究,而概率論、數理統計與數據挖掘之間緊密的聯系,是貝葉斯網絡成為人們研究機器學習的重要數據處理方法,而且貝葉斯網絡是一個帶有概率注釋的有向無環圖,能夠快速地對大數據進行分析,總結出大量數據之間的邏輯關系,采用貝葉斯網絡的數據無序圖,可以將數據的概率圖模型與變量之間的關系結合在一起,便于運用聯合概率分布(物理的或貝葉斯的)的方式處理這些復雜數據之間的邏輯關系,并采用多種邏輯算法,進而能夠應用貝葉斯定理的學習與統計判斷功能,達到對無序數據的預測、分析與聚類處理等數據挖掘任務。當樣本數據不安全或者不確定時,或者數據中存在著質的數據與量的數據等不確定性數據,除了少數特例外,在采用貝葉斯法處理數據時,一般要借助于近似方法,探究不同數據內在的聯系,來完成數據處理的過程。
2.3概率進化算法(PMEA)在數據挖掘中的應用
遺傳算法(GeneticAnalysis,GA)是數據挖掘算法中常用的一種方法,也是在一些數據處理中經常用到的一種算法,它對數據的處理主要是基于人工選擇和交叉、變異、重組等數據處理優化的方法,來完成數據挖掘的過程,GA通過對大量的非線性的數據構造塊中的數據進行清洗、處理,然后進行選擇和重組操作,形成新的數據塊結構,然后通過遺傳、再生和混合來形成更好的數據塊,直到完成數據結構的優化,進而得出數據的最優解,但是在實際操作的過程中,由于數據的重組常常導致數據塊被破壞,采用傳統的算法就不能有效地對數據進行處理,導致遺傳算法達到了局部優化或者早熟,不能有效地完成數據處理,這種數據塊的破壞稱為連鎖(Linkage)問題。為了解決這個問題,就需要從優選的數據集合中提取有效的信息來代替數據重組,并提出數據的概率分布來確定新的解法,進而實現了算法的連鎖學習,如果將這種解決方法運用到數據挖掘中,就能夠解決一系列復雜的問題,這就是概率進化算法(PMEA)的形成思想與理論依據,還可以采用壓縮遺傳算法運用到概率進化算法中,擴展數據的解析模型,以降低算法的復雜性,提高數據處理的效率。但是,如何有效地將數據處理中存在問題的預先知識引入到PMEA算法中,解決數據連鎖學習過程中存在的問題,使得數據挖掘的結果更加快速與精確,是概率進化算法的關鍵問題。同時,在概率進化算法中如何有效地選擇數據群體的參數,如群體的規模、數據的選擇機制與比例等,都是概率進化算法需要處理的熱點問題之一。
3數據挖掘為數理統計與概率論提供了新的研究方向
數理統計與概率論的發展往往都是來自于實際數據處理的需要,也是結合人們的需求,來探究大量數據之間的規律。隨著當前社會海量數據的發展,數據挖掘成為處理當前海量數據的重要手段,也是復雜數據有效處理的方式之一,當待處理的數據單位已經以GB或TB為單位進行計算時,而且數據也會變得更加復雜,如果采用現有的數據集統計分析的方法來處理數據,處理的效率就會比較低下,不僅現有的數據統計方法不能滿足數據處理的要求,不能提高數據處理的效率,在統計理論的研究方面,也不能滿足要求。主要原因數據處理過程中的基礎“總體”和“樣本”的選擇在發生變化,是否能滿足數據處理的要求為前提,重要原因是在海量的數據面前很難對數據的樣本與總體進行準確的定義,而且數據的變化也是多樣性的,大樣本的數據漸近性質是否與提前的預測相同,如果數據量選擇太大,傳統的統計方法就很難真實地反映出數據的特征,而且統計假設檢驗使用的小概率原理不能適合大數據樣本的應用。由于假定的小概率事件在具體的數據測試中是夠能夠滿足要求,主要原因是處理數據的樣本較小,但是如果數據量增加到一定的范圍后,數據在處理中出現的多變性就比較多。因此,采用數據挖掘技術就能夠很好地解決這一問題。在統計學中加入數據挖掘的研究,將會有效促進統計學的發展,對數據挖掘與統計方法的結合進行研究,可以有效提高數據挖掘的準確型,使統計方法適應數據量的變化,也能夠提高數據處理的效果。
4結語
在信息化、數字化、網絡化、智能化高速發展的今天,傳統數理統計分析單獨應用的范圍會變得狹窄,大數據、人工智能等技術需要的是對海量大數據的綜合處理和挖掘能力。數理統計與概率論在數據挖掘中的應用,對數據挖掘的發展具有十分重要的作用,它對處理數據、分析數據的效果也十分明顯。將數據統計與概率論的思想融入到數據挖掘中,有利于指導實際數據挖掘工作,提升數據挖掘的精確度,也能夠提高數據挖掘質量,為未來的數據挖掘提供了新的思路。
參考文獻:
[1]林琳.淺議在數據挖掘中應用抽樣技術[1].江蘇統計,2014(6).
[2]牛力.數據挖掘中的統計分析技術應用研究[J].廣西師范大學學報,2015(12).
[3]何清華,肖人彬,師漢民.螞蟻算法在機構同構判定中的實現[J].模式識別與人工智能,2016(4).
[4]魏瑜,陸靜.數據挖掘與統計學的關系淺析[1].沿海企業與科技,2015(9).
作者:龐建平 單位:中國人民大學