• <input id="zdukh"></input>
  • <b id="zdukh"><bdo id="zdukh"></bdo></b>
      <b id="zdukh"><bdo id="zdukh"></bdo></b>
    1. <i id="zdukh"><bdo id="zdukh"></bdo></i>

      <wbr id="zdukh"><table id="zdukh"></table></wbr>

      1. <input id="zdukh"></input>
        <wbr id="zdukh"><ins id="zdukh"></ins></wbr>
        <sub id="zdukh"></sub>
        公務員期刊網(wǎng) 論文中心 正文

        數(shù)據(jù)挖掘中概率論與數(shù)理統(tǒng)計的應用

        前言:想要寫出一篇引人入勝的文章?我們特意為您整理了數(shù)據(jù)挖掘中概率論與數(shù)理統(tǒng)計的應用范文,希望能給你帶來靈感和參考,敬請閱讀。

        數(shù)據(jù)挖掘中概率論與數(shù)理統(tǒng)計的應用

        摘要:數(shù)據(jù)挖掘是在海量的數(shù)據(jù)中歸納、總結、分析數(shù)據(jù)的內在規(guī)律,概率論數(shù)理統(tǒng)計在數(shù)據(jù)挖掘中的應用,提高了數(shù)據(jù)挖掘的精度與效率,通過對概率論、數(shù)理統(tǒng)計與數(shù)據(jù)挖掘的關系,分析了統(tǒng)計學在數(shù)據(jù)挖掘中的具體應用,并結合具體的算法探究了統(tǒng)計學在數(shù)據(jù)挖掘中的具體運用。

        關鍵詞:數(shù)據(jù)挖掘;概率論;數(shù)理統(tǒng)計;統(tǒng)計學

        0引言

        概率論與數(shù)理統(tǒng)計是數(shù)據(jù)統(tǒng)計中采用的技術,但其在數(shù)據(jù)挖掘中也具有十分重要的作用。數(shù)據(jù)挖掘作為一門新興科學,它是從大量、不完全、離散等特征的數(shù)據(jù)中,對其進行整理,提取隱含在這些數(shù)據(jù)中有意義、新穎、具有統(tǒng)一特征、有用的數(shù)據(jù),為人們的決策提供數(shù)據(jù)支持服務,是分析解決各類實際問題的可靠手段。數(shù)據(jù)挖掘主要是采用計算機技術、高級算法來實現(xiàn)對復雜數(shù)據(jù)、非線性結構的數(shù)據(jù)進行處理,來探究數(shù)據(jù)之間的內在聯(lián)系,進而發(fā)現(xiàn)數(shù)據(jù)內部存在的規(guī)律,為用戶提供信息決策服務。

        1統(tǒng)計學與數(shù)據(jù)挖掘的關系

        統(tǒng)計學主要是研究數(shù)據(jù)統(tǒng)計原理與方法的科學,包括數(shù)理統(tǒng)計與概率論等主要內容,主要是研究數(shù)據(jù)的搜集、整理與分析,并結合數(shù)據(jù)整理的資源,對事物進行整體的推斷,主要利用數(shù)據(jù)統(tǒng)計與概率論的原理對數(shù)據(jù)中的各個屬性進行統(tǒng)計與分析,進而找出數(shù)據(jù)自己的規(guī)律,在統(tǒng)計學的分析方法中主要有方差分析、相關分析、主成分分析與回歸分析等方法。數(shù)據(jù)挖掘主要是對大量的數(shù)據(jù)進行分析、總結、深度挖掘,進而找出數(shù)據(jù)之間的規(guī)律,并將這些新規(guī)律運用到現(xiàn)實中,例如對學生的學習成績進行挖掘分析,進而找出學生在學習過程中存在的問題,進而能夠形成學生的學習軌跡。1)統(tǒng)計學與數(shù)據(jù)挖掘的手段與目標相同,都是在龐雜的數(shù)據(jù)中提取數(shù)據(jù)的結構特征,分析數(shù)據(jù)之間存在的內在聯(lián)系與特征。2)數(shù)據(jù)挖掘是統(tǒng)計學發(fā)展的一個重要方向,它也為統(tǒng)計學的發(fā)展提供了一個全新的研究方法與數(shù)據(jù)處理的方法,而且數(shù)據(jù)挖掘比統(tǒng)計學傳統(tǒng)的數(shù)據(jù)分析方法更具有代表性。3)數(shù)據(jù)挖掘并不僅是統(tǒng)計學分析的重要內容,而在統(tǒng)計學的思想與數(shù)據(jù)處理的方法中也得到了廣泛的應用,例如運用到數(shù)據(jù)庫技術、智能處理技術、機器學習等技術。4)統(tǒng)計學與概率論作為數(shù)據(jù)挖掘的一種成熟的、應用廣泛的技術,將會促進數(shù)據(jù)挖掘向更深層次的范圍發(fā)展,提高數(shù)據(jù)挖掘的效率。

        2統(tǒng)計學在數(shù)據(jù)挖掘中的應用

        2.1概率分析網(wǎng)(PLN)

        人工神經(jīng)網(wǎng)絡(ArtificialNeuralNetwork,ANN)是數(shù)據(jù)挖掘算法中常用的方法之一,它是由一系列稱為數(shù)據(jù)節(jié)點組成的網(wǎng)狀結構,形成一個復雜的數(shù)據(jù)組成形式,通過調整各個網(wǎng)絡節(jié)點,采用輸入、輸出的權-值的非線性數(shù)據(jù)處理方式,達到對數(shù)據(jù)進行分析的目的。在數(shù)據(jù)挖掘時,往往會出現(xiàn)一些定量數(shù)據(jù)與定性數(shù)據(jù)、質的數(shù)據(jù)與量的數(shù)據(jù)等混合在一起,以及一些數(shù)據(jù)缺失的情況,這就需要采用統(tǒng)計學中的相關數(shù)據(jù)處理技術與數(shù)據(jù)挖掘技術結合在一起,共同探究大量數(shù)據(jù)中存在的規(guī)律。概率分析網(wǎng)(PLN)在數(shù)據(jù)挖掘中的應用,主要體現(xiàn)在解決數(shù)據(jù)的模式識別、非線性回歸的數(shù)據(jù)優(yōu)化處理等數(shù)據(jù)運用與處理等方面,可以對一些復雜的數(shù)據(jù)進行處理,對分析定性數(shù)據(jù)與定量數(shù)據(jù)具有十分重要的作用。PLN網(wǎng)絡主要基于概率邏輯的神經(jīng)網(wǎng)絡基礎上,并采用復雜數(shù)據(jù)計算的方式,同時它也是在傳統(tǒng)權-閾值神經(jīng)網(wǎng)絡(BP學習算法)的基礎上而提出的算法,在數(shù)據(jù)處理的過程中,它的學習速度比相同問題的BP算法的學習速度快百倍,而且準確率也比較高,充分說明概率分析網(wǎng)絡(PLN)在一些性能上總是比權-閾值網(wǎng)絡的計算性能要快。在具體應用中,由于神經(jīng)網(wǎng)絡節(jié)點構造的特殊性,也具有很強的隨機性,在具體的運用中具有多種可變性,需要采用多種數(shù)據(jù)分析工具進行處理,例如馬爾科夫鏈(Markov)等工具對PLN網(wǎng)絡中的數(shù)據(jù)進行定量分析,對大量的非線性數(shù)據(jù)進行統(tǒng)一分析與綜合,然后通過研究神經(jīng)網(wǎng)絡各個狀態(tài)之間的數(shù)據(jù)轉移概率與數(shù)據(jù)收斂的情況來分析數(shù)據(jù)之間的內在聯(lián)系,進而確定數(shù)據(jù)變化的規(guī)律,還可以在不確定數(shù)據(jù)網(wǎng)絡轉移矩陣變化的狀態(tài)下,采用統(tǒng)計模擬工具對數(shù)據(jù)進行分析,求出數(shù)據(jù)的平均收斂補長的變異結果,進而分析出數(shù)據(jù)的變化規(guī)律。

        2.2貝葉斯網(wǎng)絡在數(shù)據(jù)挖掘中的運用

        一個完整的數(shù)據(jù)挖掘過程,需要對數(shù)據(jù)進行清理、轉換、可視化處理等一系列的過程,然后通過檢驗分析數(shù)據(jù)挖掘的結果是否正確,在這個過程中,就需要用到?jīng)Q策樹、人工神經(jīng)網(wǎng)絡、貝葉斯算法等算法,來分析這些數(shù)據(jù)之間存在的內在聯(lián)系與邏輯關系,然后通過數(shù)據(jù)挖掘技術,將其結果可視化的展示出來。在早期,貝葉斯網(wǎng)絡就成功地應用于專家系統(tǒng)與機器學習中,解決不同結構中數(shù)據(jù)之間的連接問題,成為表示不確定性專家知識與數(shù)據(jù)推理的一種數(shù)據(jù)變化方法,特別是隨著貝葉斯網(wǎng)絡在機器學習中的運用與研究,而概率論、數(shù)理統(tǒng)計與數(shù)據(jù)挖掘之間緊密的聯(lián)系,是貝葉斯網(wǎng)絡成為人們研究機器學習的重要數(shù)據(jù)處理方法,而且貝葉斯網(wǎng)絡是一個帶有概率注釋的有向無環(huán)圖,能夠快速地對大數(shù)據(jù)進行分析,總結出大量數(shù)據(jù)之間的邏輯關系,采用貝葉斯網(wǎng)絡的數(shù)據(jù)無序圖,可以將數(shù)據(jù)的概率圖模型與變量之間的關系結合在一起,便于運用聯(lián)合概率分布(物理的或貝葉斯的)的方式處理這些復雜數(shù)據(jù)之間的邏輯關系,并采用多種邏輯算法,進而能夠應用貝葉斯定理的學習與統(tǒng)計判斷功能,達到對無序數(shù)據(jù)的預測、分析與聚類處理等數(shù)據(jù)挖掘任務。當樣本數(shù)據(jù)不安全或者不確定時,或者數(shù)據(jù)中存在著質的數(shù)據(jù)與量的數(shù)據(jù)等不確定性數(shù)據(jù),除了少數(shù)特例外,在采用貝葉斯法處理數(shù)據(jù)時,一般要借助于近似方法,探究不同數(shù)據(jù)內在的聯(lián)系,來完成數(shù)據(jù)處理的過程。

        2.3概率進化算法(PMEA)在數(shù)據(jù)挖掘中的應用

        遺傳算法(GeneticAnalysis,GA)是數(shù)據(jù)挖掘算法中常用的一種方法,也是在一些數(shù)據(jù)處理中經(jīng)常用到的一種算法,它對數(shù)據(jù)的處理主要是基于人工選擇和交叉、變異、重組等數(shù)據(jù)處理優(yōu)化的方法,來完成數(shù)據(jù)挖掘的過程,GA通過對大量的非線性的數(shù)據(jù)構造塊中的數(shù)據(jù)進行清洗、處理,然后進行選擇和重組操作,形成新的數(shù)據(jù)塊結構,然后通過遺傳、再生和混合來形成更好的數(shù)據(jù)塊,直到完成數(shù)據(jù)結構的優(yōu)化,進而得出數(shù)據(jù)的最優(yōu)解,但是在實際操作的過程中,由于數(shù)據(jù)的重組常常導致數(shù)據(jù)塊被破壞,采用傳統(tǒng)的算法就不能有效地對數(shù)據(jù)進行處理,導致遺傳算法達到了局部優(yōu)化或者早熟,不能有效地完成數(shù)據(jù)處理,這種數(shù)據(jù)塊的破壞稱為連鎖(Linkage)問題。為了解決這個問題,就需要從優(yōu)選的數(shù)據(jù)集合中提取有效的信息來代替數(shù)據(jù)重組,并提出數(shù)據(jù)的概率分布來確定新的解法,進而實現(xiàn)了算法的連鎖學習,如果將這種解決方法運用到數(shù)據(jù)挖掘中,就能夠解決一系列復雜的問題,這就是概率進化算法(PMEA)的形成思想與理論依據(jù),還可以采用壓縮遺傳算法運用到概率進化算法中,擴展數(shù)據(jù)的解析模型,以降低算法的復雜性,提高數(shù)據(jù)處理的效率。但是,如何有效地將數(shù)據(jù)處理中存在問題的預先知識引入到PMEA算法中,解決數(shù)據(jù)連鎖學習過程中存在的問題,使得數(shù)據(jù)挖掘的結果更加快速與精確,是概率進化算法的關鍵問題。同時,在概率進化算法中如何有效地選擇數(shù)據(jù)群體的參數(shù),如群體的規(guī)模、數(shù)據(jù)的選擇機制與比例等,都是概率進化算法需要處理的熱點問題之一。

        3數(shù)據(jù)挖掘為數(shù)理統(tǒng)計與概率論提供了新的研究方向

        數(shù)理統(tǒng)計與概率論的發(fā)展往往都是來自于實際數(shù)據(jù)處理的需要,也是結合人們的需求,來探究大量數(shù)據(jù)之間的規(guī)律。隨著當前社會海量數(shù)據(jù)的發(fā)展,數(shù)據(jù)挖掘成為處理當前海量數(shù)據(jù)的重要手段,也是復雜數(shù)據(jù)有效處理的方式之一,當待處理的數(shù)據(jù)單位已經(jīng)以GB或TB為單位進行計算時,而且數(shù)據(jù)也會變得更加復雜,如果采用現(xiàn)有的數(shù)據(jù)集統(tǒng)計分析的方法來處理數(shù)據(jù),處理的效率就會比較低下,不僅現(xiàn)有的數(shù)據(jù)統(tǒng)計方法不能滿足數(shù)據(jù)處理的要求,不能提高數(shù)據(jù)處理的效率,在統(tǒng)計理論的研究方面,也不能滿足要求。主要原因數(shù)據(jù)處理過程中的基礎“總體”和“樣本”的選擇在發(fā)生變化,是否能滿足數(shù)據(jù)處理的要求為前提,重要原因是在海量的數(shù)據(jù)面前很難對數(shù)據(jù)的樣本與總體進行準確的定義,而且數(shù)據(jù)的變化也是多樣性的,大樣本的數(shù)據(jù)漸近性質是否與提前的預測相同,如果數(shù)據(jù)量選擇太大,傳統(tǒng)的統(tǒng)計方法就很難真實地反映出數(shù)據(jù)的特征,而且統(tǒng)計假設檢驗使用的小概率原理不能適合大數(shù)據(jù)樣本的應用。由于假定的小概率事件在具體的數(shù)據(jù)測試中是夠能夠滿足要求,主要原因是處理數(shù)據(jù)的樣本較小,但是如果數(shù)據(jù)量增加到一定的范圍后,數(shù)據(jù)在處理中出現(xiàn)的多變性就比較多。因此,采用數(shù)據(jù)挖掘技術就能夠很好地解決這一問題。在統(tǒng)計學中加入數(shù)據(jù)挖掘的研究,將會有效促進統(tǒng)計學的發(fā)展,對數(shù)據(jù)挖掘與統(tǒng)計方法的結合進行研究,可以有效提高數(shù)據(jù)挖掘的準確型,使統(tǒng)計方法適應數(shù)據(jù)量的變化,也能夠提高數(shù)據(jù)處理的效果。

        4結語

        在信息化、數(shù)字化、網(wǎng)絡化、智能化高速發(fā)展的今天,傳統(tǒng)數(shù)理統(tǒng)計分析單獨應用的范圍會變得狹窄,大數(shù)據(jù)、人工智能等技術需要的是對海量大數(shù)據(jù)的綜合處理和挖掘能力。數(shù)理統(tǒng)計與概率論在數(shù)據(jù)挖掘中的應用,對數(shù)據(jù)挖掘的發(fā)展具有十分重要的作用,它對處理數(shù)據(jù)、分析數(shù)據(jù)的效果也十分明顯。將數(shù)據(jù)統(tǒng)計與概率論的思想融入到數(shù)據(jù)挖掘中,有利于指導實際數(shù)據(jù)挖掘工作,提升數(shù)據(jù)挖掘的精確度,也能夠提高數(shù)據(jù)挖掘質量,為未來的數(shù)據(jù)挖掘提供了新的思路。

        參考文獻:

        [1]林琳.淺議在數(shù)據(jù)挖掘中應用抽樣技術[1].江蘇統(tǒng)計,2014(6).

        [2]牛力.數(shù)據(jù)挖掘中的統(tǒng)計分析技術應用研究[J].廣西師范大學學報,2015(12).

        [3]何清華,肖人彬,師漢民.螞蟻算法在機構同構判定中的實現(xiàn)[J].模式識別與人工智能,2016(4).

        [4]魏瑜,陸靜.數(shù)據(jù)挖掘與統(tǒng)計學的關系淺析[1].沿海企業(yè)與科技,2015(9).

        作者:龐建平 單位:中國人民大學

        无码人妻一二三区久久免费_亚洲一区二区国产?变态?另类_国产精品一区免视频播放_日韩乱码人妻无码中文视频
      2. <input id="zdukh"></input>
      3. <b id="zdukh"><bdo id="zdukh"></bdo></b>
          <b id="zdukh"><bdo id="zdukh"></bdo></b>
        1. <i id="zdukh"><bdo id="zdukh"></bdo></i>

          <wbr id="zdukh"><table id="zdukh"></table></wbr>

          1. <input id="zdukh"></input>
            <wbr id="zdukh"><ins id="zdukh"></ins></wbr>
            <sub id="zdukh"></sub>
            曲麻莱县| 曲阜市| 年辖:市辖区| 望奎县| 留坝县| 嘉兴市| 奇台县| 安庆市| 时尚| 和平县| 满城县| 昌江| 鄂伦春自治旗| 吉隆县| 吉木萨尔县| 霍山县| 乌苏市| 新泰市| 秦皇岛市| 石门县| 廉江市| 宁陕县| 济南市| 保康县| 顺昌县| 咸丰县| 平乡县| 齐河县| 重庆市| 扶余县| 嘉祥县| 通山县| 珲春市| 高碑店市| 高平市| 石嘴山市| 密云县| 通榆县| 汉阴县| 浦江县| 福建省| http://444 http://444 http://444