前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數據挖掘技術論文主題范文,僅供參考,歡迎閱讀并收藏。
1.較高的有效性新興起來的數據挖掘技術的應用時間并不是很長,但是其在經濟統計領域的應用受到了良好的效果,其穩定的工作性能,不僅能夠對經濟統計數據進行分析整理,更能深層次地開發出更多的有用信息,在實際的應用中展現出較高的有效性。
2.綜合應用性強數據挖掘技術已經被廣泛地應用在統計工作中的多個領域,并且發揮著重要的作用。數據挖掘技術不僅是一種綜合應用性強的技術手段,同時又能滿足統計數據使用者的特定數據需要。因此,數據挖掘技術能夠對經濟統計數據進行定向的整理和開發,為數據使用者提供更好的服務。
3.宏觀型的數據庫有利于數據挖掘技術的應用當前,我國的經濟統計大多還是采用傳統的經濟統計方法,統計收集的數據信息不能形成有機整體,在對數據進行管理過程中,出現了很多問題。因此。經濟統計工作需要能夠提供數據整理開發的新技術。宏觀經濟統計數據庫,為數據挖掘技術的開展提供了平臺。數據管理系統的經濟統計信息要正確無誤,然后經過數據挖掘技術的整合,就能得到更豐富的數據資源。
二、數據挖掘技術的運用
數據挖掘技術的特性決定了其對經濟統計數據整理的重要性,經濟統計所得到的數據信息要求必須有實用性和真實性,數據挖掘技術的特性正好滿足了經濟統計工作的需要。數據挖掘的過程主要包括以下四種方法:
1.預處理方法首先,要對統計數據進行預處理。由于經濟統計信息在收集過程中存在一些問題,導致收集到的數據存在缺失和模糊現象,這種有缺憾的數據信息不能作為數據挖掘的基礎,因此一定要對數據挖掘對象進行事先的處理。其中包括對基礎數據中不正確、不真實、不準確和偏差較大的數據進行甄別。
2.集成化處理方法其次,要對統計數據進行集成化處理。經濟統計過程中,會出現對多個數據源進行重疊統計的現象,這就要求對數據進行挖掘之前,要有一個統一整理的過程,即數據的集成化處理。數據集成在統計中被廣泛的使用。經過數據集成處理的統計信息更加全面,更加真實,可以作為數據挖掘基礎信息。
3.轉換方法再有,要對統計數據根據需要進行轉換。經濟統計數據的描述形式比較單一,為了滿足數據信息使用者的需要,就要對數據進行轉換,使其的表現形式具有泛化或是更加規范。這里所說的泛化指的是利用更深層次和更加抽象的定義來代替原有的低層數據。
4.決策樹方法除卻上述四種處理方法外,還有決策樹方法,指的是對龐雜的經濟數據進行分類,把有利用價值的統計數據提煉出來,這種數據挖掘形式能夠對分析對象進行體現,并能快速的對信息進行分類處理,能夠解決在經濟統計過程中出現的各種問題。
三、結語
1.1較高的有效性數據挖掘技術作為一種數據的深加工技術,其本身是帶有鮮明的目的性的,在實際應用活動中能夠對長時間積累下來的經濟統計數據進行基于數據使用者要求的深入加工。在實踐應用活動中主要有兩種重要的應用形式,一種是對積累經濟統計數據的管理高效化處理,一種是對現有經濟數據的目的性分析。其中第一種分析方式是從經濟數據管理的角度出發的,在應用中主要是以固有數據信息的統計、分類為基礎,將原本混亂的數據庫信息進行科學、系統的歸類,保證統計數據管理的高效性和使用的便利性。另一種工作方式是一種經濟數據的再加工過程,以鮮明的數據統計、分析目標為指引對原有數據的呈現形式、組成內容和關聯形式進行重新加工,以保證經濟統計數據能夠最大限度地服務于管理者的需求。
1.2綜合應用性強如前文所述,數據挖掘技術是一個工具系統而不是單一的工具,能夠實現使用主體的各種信息需求,隨著現代社會經濟的快速發展,當前我國經濟管理的各個部門都需要大量的經濟統計信息來作為經濟管理決策的基礎。但是因為各個管理部門經濟管理的領域不同、經濟管理的方式不同、經濟的管理權限不同,所以相應的經濟統計數據呈現形式的需求就不同。這就為經濟數據統計系統提出了更高的要求,其不僅要對符合各個經濟管理部門需求的數據內容進行統計,同時要將統計完成的數據換算成各種不同的呈現形式,并根據統計信息的來源和統計信息的計算方式對其可靠性進行評估[2]。最終這些數據信息的輸出格式還應該符合所服務的經濟管理部門管理系統的格式要求,保證統計數據能夠在管理部門的管理系統中正常錄入、應用,數據挖掘技術很好地滿足了上述的復雜經濟數據管理要求,其功能的綜合性促進了其應用深度的提高和范圍的擴大。
1.3宏觀數據庫有利于數據挖掘技術的應用當前因為經濟管理部門的職權較為分散,各個經濟管理部門的經濟統計數據需求不盡相同。所以我國的經濟統計活動絕大多數還采用傳統的經濟統計方法,統計收集的經濟信息存在一定的局限性,不能夠服務于經濟管理活動的整體,或者造成一些數據統計工作的重復,對經濟數據統計工作造成了一系列的質量和效率上的影響。經濟數據統計活動急需一個能夠整合各個統計系統,實現統計數據信息融合的新技術。宏觀經濟統計數據庫為數據挖掘技術的開展提供了平臺,數據管理系統的經濟統計信息要正確無誤,然后經過數據挖掘技術的整合,就能得到更加豐富的數據資源[3]。
2數據挖掘技術的應用
在社會經濟管理活動中,管理主體對經濟統計數據的要求主要有兩個。一個是統計數據的真實性、一個是數據統計信息的實用性。單就這兩個經濟統計數據要求而言,數據挖掘技術能夠很好地滿足經濟統計工作的需求,是適用性極強的一種經濟數據統計技術,其在具體的經濟數據統計活動中主要有以下三種應用方法。
2.1預處理方法在經濟數據統計活動中,最為基礎的一種處理方式就是經濟數據的預處理方法,因為數據挖掘本身是一種基于提供基礎信息的智能分析技術。其本身是受基礎經濟信息限制的,不可能無中生有代替經濟數據收集系統的功能。所以所有作為數據挖掘系統數據基礎的經濟統計數據信息都應該進行預處理,處理的內容主要包括對這些數據中不正確、不真實、不準確,以及不同經濟統計數據信息之間差距較大的現象。對這些基礎數據存在的問題進行處理的過程被稱為數據清理,當前數據清理主要采用的方法有均值法、平滑法和預測法。其中均值法是現代分析技術中模糊理念的一種應用形式,當基礎數據中的一個數據點是空值或者噪聲數據的時候,可以采用均值法進行處理,即用數據庫中所有該屬性已知的屬性均值來填補空缺。保證數據挖掘系統對基礎數據的分析和整理能夠正常進行,得出相對而言準確度較高的統計分析數據。其中Ci表示當前數據點的取值,Cj表示當前數據點前后不為空的數據點,K表示當前數據點進行計算所取的參考數據點數量[4]。平滑法依然是對基礎數據中空值和噪聲數據的計算方法,其與均值法的區別是用加權平均數代替了平均數,考慮了計算過程中提取的每一個數據對數據結果的影響權重,所以計算出的結果往往更加接近真實的數值。其中Ci表示當前數據點的取值,Cj表示當前數據點前后不為空的數據點,K表示為對當前數據點進行計算所取的數據點數量。WJ表示Cj數據點的權值。
2.2集成化處理方法在數據挖掘技術的應用活動中,因為相同地區的數據統計主體不同,或者在不同地區對相同經濟數據的統計標準不統一,會產生一系列的數據集成問題,如何對這些調查方向不同或者是呈現方式不同的數據進行有效集成而不影響經濟數據統計的準確性,是數據挖掘技術的重要任務。在具體的數據集成過程中主要考慮以下幾個方面的問題[5]。
2.2.1模式集成當前因為社會經濟活動中經濟數據的統計內容過于廣泛,很多經濟數據統計并不是來自于官方的統計局而是來自一些民間統計組織,或者是由一線社會經濟主體直接提供的經濟數據,在數據挖掘過程中將這些來自多個數據源存在多種數據呈現模式的經濟數據信息進行集成就涉及實體識別的問題。例如在數據挖掘過程中如何確定一個數據庫中“std-id”與另一個數據庫中的“std-no”是否表示同一實體,當前一般使用數據庫與數據庫之間的含元數據對比來保證實體識別高效率和高質量[6]。
2.2.2冗余問題數據挖掘本身是對經濟統計數據的一種深加工技術,經過其加工的經濟統計技術應該在本質上達到最簡狀態。在數據挖掘過程中要將與其他數據呈現某種正相關關系的數據項目進行精簡,以保證數據庫中數據量維持在一個較低的水平,為數據管理和應用提供便利。在經濟數據挖掘活動中人均國民生產總值就是典型的冗余屬性,因為其數值是可以通過國內生產總值和總人口屬性計算出來的,所以類似人均國民生產總值這種冗余屬性在數據挖掘過程中就應該精簡,應用的時候在利用國民生產總值和人口屬性計算得出[7]。對冗余屬性的判斷主要通過相關度對比來實現。其中n表示元組的個數,分別是屬性A和屬性B的平均值,分別是屬性A和屬性B的標準方差,在這一公式中如果則表示A、B兩個屬性是正相關,也就是說A越大B就越大,值越高二者的正相關關系就越密切;如果則表示屬性A、B之間沒有直接關系,是相互獨立的;如果則表示A、B兩個屬性呈負相關,屬性B會隨著屬性A的減小而增大,的絕對值越大,二者的負相關關聯關系就越密切。
2.3決策樹方法在數據挖掘技術應用過程中,經過系統的分析和總結以后,分析數據的輸出是一個關鍵的環節,其輸出的數據形式會對使用者的經濟管理決策產生直接的影響。決策樹是一種較為常見的、直觀的快速分類方法。其應用的關鍵是決策樹的構建,具體而言主要分為兩步:第一步是利用訓練集建立并精簡一棵決策樹,建立輸出分析的模型;第二步是利用構建完畢的決策樹進行輸入數據的分類,這一分類是一個遞歸的過程,從決策樹的根部開始進入到樹干、枝丫,直到輸入數據的分類滿足了某種條件而停止。在具體的應用中停止分割的條件有兩個:一個是當一個節點上的所有數據都屬于同一個類別的時候;另一個是沒有分類屬性可以對輸入數據進行再分割[8]。在決策樹構建完成后,還要根據使用者的具體要求對決策樹進行“剪枝”,剪枝的主要目的是要降低因為使用訓練集而對決策樹本身數據輸出產生的起伏影響。
3結語
在熔煉機組優化運行的過程中,機組的運行性能指標與人員的操作水平、負荷及運行參數之間有著復雜的相互關系,這種關系在大量的生產歷史數據中與機組各數據項之間關聯,因此可以通過數據挖掘的方式把其中的關聯關系定量的反映出來,最終反饋到實際運行中。本文結合工廠的實際情況,分析由工廠的DCS系統采集的實時運行數據,來得到用戶期望的相關參數間定量的關聯規則。
2交互式關聯規則挖掘算法
關聯規則挖掘算法在數據庫的記錄或對象中抽取關聯性,展示了數據間位置依賴關系,其目的是尋找在大量的數據項中隱藏著的聯系或相關性。其優越性在于能將用戶的定制信息整合到挖掘過程中,以一種友好的方式引入約束,使挖掘出更加符合用戶需要的信息,并且提高了挖掘的效率和有效性。
2.1目標數據庫的確定
數據挖掘應熟悉對象的背景知識,明確挖掘的目標,根據目標確定相關數據,以此作為目標數據庫,來完成對數據的預處理、挖掘和規則評價。
2.2交互式關聯規則挖掘算法
表示A成立則B成立,其中給出了可信度C和支持度S。可信度C是對關聯規則準確度的衡量,即在出現A的情況下出現B的概率;支持度S是對關聯規則重要性的衡量,即A和B同時出現的概率。
3熔煉機組數據挖掘的實現
本文采用的是冀某工廠于2013年5月運行的數據,采樣頻率為2~3秒/次,采樣模式為實時監測值,得到7595組數據。在分析階段,對影響機組的主要可控參數進行了提取及預處理,參數主要包括:轉速、有功功率、主蒸汽壓力、調節級壓力、中壓缸排汽壓力。以機組轉速設計值為3600r/min為例來分析。對各個可控參數數據進行曲線化處理,作為分析它們之間的關聯規則的數據表。上述關聯規則表示,在三種負荷工況下,工廠熔煉機組有功功率與主蒸汽壓力、調節級壓力、中壓缸排汽壓力三者之間最優變化區間的關聯。經分析,在機組中應用關聯規則的數據挖掘技術與傳統方法相比,優點是其可以對不同的可測參數進行挖掘,方法簡單有效、可操作性強;運用關聯規則進行挖掘,對過程能夠較靈活控制,處理后的目標值直觀,便于操作指導和提高運行效率。
4結論
[參考文獻]
[1]董西明.客戶關系管理及其應用[J].學術交流,2004(8)
[2]王光玲.CRM—企業管理理念新發展[J].經濟論壇,2003(9)
[3]崔京波,陳穎.論CRM及應用[J].科學與管理,2005(6)
[4]田丹.淺析供應鏈環境下的客戶關系管理(CRM)[J].商情(教育經濟研究),2008(3)
[5]左臻.淺談客戶關系管理[J].科技情報開發與經濟,2005(5)
[6]徐輝.淺析客戶關系管理[J].商業經濟,2008(10)
[7]姚德全,于冬梅.客戶關系管理在企業發展中的重要性[J].科技創新與應用,2013(8)
參考文獻
[1]郭愈強,樊瑋.數據挖掘技術在民航CRM中的應用[J],計算機工程,2005(31):169-171.
[2]劉彬,白萬民.淺析數據挖掘技術在CRM中的應用[J].電子世界,2014,01(17):16-17.
[3]楊虎猛,朱汝岳.金融業分型CRM系統探索與應用[J].計算機應用與軟件,2013,07(30):259-261.
[4]徐國慶,段春梅.數據挖掘技術在CRM中的應用研究[J].網絡安全技術與應用,2012,02(12):38-40.
[5]王一鴻.體檢中心CRM構建及數據挖掘的應用研究[D].華東理工大學,2011.
[6]潘光強.基于數據挖掘的CRM設計與應用研究[D].安徽工業大學,2011.
參考文獻:
[1]廖雯.基于客戶生命周期的CRM策略研究[J].商,2015(17):15-15.
[2]陳杭.電子商務的營銷資源在CRM策略中有效分配探討[J].現代商業,2015(11):42-43.
[3]金子琦.紛享銷客中國式CRM商業邏輯大復盤[J].創業邦,2015(10):90-91.
[關鍵詞]數據挖掘 風險評估 集裝箱
一、引言
隨著我國對外貿易的快速發展,進境箱量顯著增長。“十一五”期間,檢出攜帶疫情及有毒有害物質箱數呈持續增長趨勢。僅2010年度,共受理進境集裝箱申報3699.06萬箱,同比增長14.04%,檢出攜帶疫情或有毒有害物質的43.66萬箱,比去年同期提高了28.20%。進境檢出疫情箱數占查驗箱數的比例(即查驗檢出率)為3.26%,同比提高0.43個百分點。這反映出進境集裝箱攜帶疫情及有毒有害物質情況十分普遍,進境集裝箱檢疫面臨形勢十分嚴峻。
目前,在進境集裝箱檢疫工作中主要采用以人工判斷為主的經驗式方法,效率比較低,工作量繁重,經驗知識傳承性差。但是在多年來的實踐過程中,我們已經積累了大量的經驗和數據。通過數據挖掘技術在已有的數據中發現未知的模式和知識可以為入境集裝箱風險進行評估,并為檢疫業務決策提供輔助支持。
二、數據挖掘技術
數據挖掘(Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。簡而言之,數據挖掘其實是一類深層次的數據分析方法。數據挖掘已廣泛應用于生物醫學、金融、零售業、電信業、海關監管等領域,并產生了巨大的效益。數據挖掘技術同樣能夠將大量的檢疫數據提煉、轉化為可以理解和應用的模式和知識來指導檢疫業務。
數據分類(DataClassification)是數據挖掘技術的一個重要分支。從根本上說,數據分類就是通過對源數據的特點進行歸納和描述。要進行數據分類,必須使用特定的分類工具,方法主要包括:ID3算法、C4.5算法、SPRINT算法、SLIQ算法、EM算法、AQ算法、CN2算法等。數據分類是數據挖掘的基本功能、重要功能,目前在商業、工業、軍事、生活、海關監管上應用最多,具有非常高的使用價值。
三、數據概念模型
根據從進境集裝箱中檢出疫情及有毒有害物質情況的不同,將檢出問題分為7類,分別是:①人類傳染病和動物傳染病病原體;②植物危性病、蟲、雜草以及其它有害生物;③嚙齒動物、蚊、蠅、蟑螂等病媒生物;④土壤、動物尸體等禁止進境物;⑤動植物殘留物;⑥生活垃圾及其他有毒有害物質;⑦其他問題——7類問題,對應每一類問題需要建立一個可用于數據挖掘的數據概念模型,其主要包括:
(1)7大類問題集裝箱同諸如:①來源地;②箱主公司;③承運人;④貨運方式等特征數據存在哪些未知的、潛在有用的模式和知識,明確對每類問題集裝箱產生影響的特征數據,建立一套對應各類問題集裝箱的風險數據字典;
(2)CIQ數據庫中并不包含所有的特征數據,一些重要的特征數據需要通過與場站、貨運公司的比對才能獲得。同時,要對數據進行采集、清洗、轉換等步驟,建立可以用于數據挖掘的數據概念模型。
四、風險評估模型
對進境集裝箱進行風險評估主要用到數據挖掘中的重要分支——分類技術,建立和完善風險評估模型關系到風險評估系統研究的成敗,主要研究內容如下:
(1)分類技術有ID3算法、C4.5算法、SPRINT算法、SLIQ算法等,結合檢疫工作實際選擇合適的算法進行數據挖掘,并在實踐中對模型進行修正和完善;
(2)選擇和使用SAS公司提供的SAS/BASE、SAS/STAT、SAS/LAB等模塊化分析工具對7類問題集裝箱進行逐類數據挖掘、建模。
五、典型系統應用開發
基于上述的研究成果,設計實現一個基于數據挖掘技術的進境集裝箱風險評估管理系統,重點關注下面系統,如圖1所示:
(1)面向檢疫查驗人員設計并實現一個基于Web技術的軟件系統,通過此軟件,檢疫管理人員可以將已有風險評估模型軟件化,系統接收進境集裝箱特征數據,自動對風險進行預評估。同時,將用于風險評估的數據獨立于CIQ數據庫存在,為以后進一步完善風險評估模型提供數據庫支持。
(2)面向檢疫查驗人員設計并實現一個軟件終端,考慮到檢疫查驗一線人員工作環境分散、移動的特點,重點面向主流嵌入式系統(Apple、Angel、Symban、Windows-Mobile等)和移動終端(如手機、PDA、iPOD等)展開研發。
圖 基于數據挖掘技術的風險評估系統
六、結論
針對出入境檢驗檢疫部門在對進境集裝箱檢疫查驗中盲目性大、工作效率低等客觀實際,研究一個基于數據挖掘技術的進境集裝箱風險評估模型,并將其軟件化、實用化,通過軟件自動對進境集裝箱進行風險等級評估,指導日常檢疫查驗工作,降低檢驗查驗的盲目性,提升檢疫查驗人員的工作效率,提高把關成效。
參考文獻:
[1]舒軍生.數據挖掘技術在企業信用分類管理系統中的應用.安徽:安徽大學碩士論文.2010
[2]高燕. 基于數據挖掘技術的海關執法評估系統的研究與開發.武漢:武漢理工大學碩士論文.2002
論文摘要:隨著數據庫技術和人工智能技術的不斷進步,數據挖掘技術逐步發展起來,作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數理統計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數據中來發現和挖掘一些隱含的有價值的知識,從大型的數據庫數據中挖掘一些人們比較感興趣的知識,本文主要講了數據挖掘技術的概念、數據挖掘技術在保護設備故障信息中的實現方法以及數據挖掘技術保護設備故障信息管理的基本功能等問題。
數據挖掘技術作為當前計算機信息技術中的一項較為新興的技術,綜合運用了數理統計、模式識別、計算智能、人工智能等多項先進技術,主要是從大量的數據中來發現和挖掘一些隱含的有價值的知識,也就是從大型的數據庫數據中挖掘一些人們比較感興趣的知識,這些被提取的知識通常會表現為模式、規律、規則和概念,將數據挖掘的所有對象定義成數據庫或者是文件系統以及其他的一些組織在一起的數據集合,數據挖掘技術也是現在智能理論系統的重要研究內容,已經開始被應用于行政管理、醫學、金融、商業、工業等不同的領域當中,在保護設備故障信息管理方面發揮出了積極的作用。
一、數據挖掘技術的概念
隨著數據庫技術和人工智能技術的不斷進步,數據挖掘技術逐步發展起來,主要是指從大量的數據中發現和挖掘一些隱含的有價值的有用信息和知識,這些被提取的知識通常會表現為模式、規律、規則和概念,將數據挖掘的所有對象定義成數據庫或者是文件系統以及其他的一些組織在一起的數據集合,當前數據挖掘技術已經逐漸被應用于了醫藥業、保險業、制造業、電信業、銀行業、市場營銷等不同的領域,隨著計算技術、網絡技術以及信息技術的不斷進步,在故障診斷過程中所采集到的數據可以被廣泛地存儲在不同的數據庫當中,如果依然采用傳統的數據處理方法來對這些海量的信息數據進行分析處理,不僅會浪費大量的實踐而且也很難挖掘到有效的信息數據,同時,盡管智能診斷以及專家系統等方式在故障的診斷過程中已經被得到了廣泛的應用,但是這些方法卻仍然存在著很多推理困難、知識瓶頸等一些尚未完全被解決的問題,采用數據挖掘技術就可以比較有效地來解決這些難題,在故障診斷的過程中發揮其獨特的優勢。從不同的角度進行分析,數據挖掘技術可以分為不同的方法,就目前的發展現狀來看,常用的數據挖掘技術方法主要有遺傳算法、粗集方法、神經網絡方法以及決策樹方法等。
二、數據挖掘技術在保護設備故障信息中的實現方法
1.基本原理。在設備出現故障時采用數據挖掘技術對設備進行一系列的故障診斷,也就是說根據這一設備的運行記錄,對其運行的趨勢進行預測,并對其可能存在的運行狀態進行分類,故障診斷的實質就是一種模式識別方式,對機器設備的故障進行診斷的過程也就是該模式匹配和獲取的過程。
2.對故障診斷的數據挖掘方法建模。針對機械故障的診斷來說,首先就應當獲取一些關于本機組的一些運行參數,既要包括機器在正常運行以及平穩工作時的信息數據,也應當包括機器在出現故障時的一些信息數據,在現場的監控系統中往往就會存在著相應的正常工作狀態下以及出現故障時的不同運行參數,而數據挖掘的任務就是從這些雜亂無章的信息樣本庫中找出其中所隱藏著的內在規律,并且從中提取各自故障的不同特征,在對故障的模式進行劃分時,我們通常可以借助概率統計的方式,在對故障模式進行識別時可以采用較為成熟的關聯規則理論,實現變量之間的關聯關系,并最終得到分類所需要用到的一些規則,從而最終達到分類的目的,依據這些規則,就可以對一些新來的數據進行判斷,而且可以準確地對故障進行分類,找出故障所產生的原因和解決故障的正確方法。
三、數據挖掘技術保護設備故障信息管理的基本功能
1.數據傳輸功能。數據挖掘技術保護設備故障信息管理與分析系統的主要數據來源就是故障信息的分站系統,而分站系統中的數據是各個子站的一個數據匯總,而保護設備故障信息管理與分析系統所采用的獲取數據的主要方式就是一些專門的通信程序構建起系統與分站之間的聯系,將分站上的一些匯總數據傳輸到故障信息系統的數據庫中,分析系統所具有的數據傳輸功能,在進行數據的處理時又能做到不影響原先分站數據庫的正常運行,并且具備抗干擾能力強、計算效率高的優點。
2.數據的分析功能。系統在正常運行時,會從故障信息子站或者是分站采集相關的數據并且對這些采集到的數據進行分析整理,最終得到有用的數據信息,利用數據挖掘技術對龐大的故障數據進行分析、分類以及整理,能夠有效地找出有用的信息,歸并一些冗余的信息,對信息進行有效地存儲和分類。另外,數據挖掘技術還具有信息查詢的功能,可以進行不同條件下的查詢,例如按時間段、報告類型、設備型號以及單位等進行查詢,實現查詢后的備份轉存等,根據故障信息系統所提供高的數據信息以及本系統庫中所保存的一些整定阻抗值,可以通過邏輯判斷生產繼電保護動作的分析報告,主要包括對故障過程的簡述、故障切除情況以及保護動作情況等,可以便于繼電保護人員直觀的對保護裝置的動作情況進行分析。
四、結語
隨著企業自動化程度的不斷提高以及數據庫技術的迅速發展,很多企業在一些重要的設備方面都安裝了監測系統,對設備運行過程中的一些重要參數和數據進行采集,采用數據挖掘技術可以有效地解決設備故障診斷中的一些知識獲取瓶頸,將數據挖掘系統充分應用到監控系統中,有效解決故障診斷中的一些困難,事實證明,將數據挖掘技術應用到故障診斷中是非常有效的,也是值得研究和學習的新型技術手段。
參考文獻:
[1]李勛,龔慶武,楊群瑛,羅思需,李社勇.基于數據挖掘技術的保護設備故障信息管理與分析系統[j].電力自動化設備,2011,9
[2]李建業,劉志遠,蔡乾,趙洪波.基于web的故障信息系統[j].電力信息化,2007,s1
>> 基于網絡數據挖掘的個性化電子商務推薦系統研究 基于大數據的社團個性化推薦系統 基于swarm平臺和社交網絡的電子商務個性化推薦系統仿真模型的理論構建 網絡數據挖掘在圖書館個性化推薦中的應用研究 基于個性化推薦的網絡營銷 基于數據挖掘的電子政務個性化推薦服務框架研究 基于數據挖掘的個性化智能推薦系統應用研究 基于社交網絡的個性化知識服務模型研究 基于免疫進化的網絡教學資源個性化推薦系統研究 移動社會網絡中基于位置的個性化餐館推薦建模研究 基于IPTV的個性化推薦技術的研究 個性化好友推薦系統在社交網站上的應用研究 基于社交網絡的社會化推薦算法研究 基于個性化混合推薦算法的網絡推薦系統 基于數據挖掘的個性化推薦在SNS中的應用 基于Web使用數據挖掘的個性化推薦系統設計 基于小數據的高校圖書館個性化推薦 基于個性化推薦學習的網絡培訓教學課程平臺的設計與實現 基于網絡學習行為的個性化評價研究 社會化標簽系統中基于本體的個性化推薦方法研究 常見問題解答 當前所在位置:l
[2]張婷婷. 社會化網絡中人際關系與人際傳播研究[D].長沙:湖南大學,碩士學位論文,2012
[3]王萍. 社會化網絡的信息擴散研究[J]. 情報雜志,2009,28(10):39-42
南京大學的周志華教授曾專門撰文論述了數據挖掘和機器學習以及數據庫之間的關系,他提出:數據挖掘可以視為機器學習和數據庫的交叉,主要利用機器學習界提供的技術來分析海量數據,利用數據庫界提供的技術來管理海量數據。
組成數據挖掘的三大支柱包括統計學、機器學習和數據庫領域內的研究成果,其他還包含了可視化、信息科學等內容。不同的教材從不同的方面結合其基礎學科知識講述數據挖掘技術,不同專業和技術背景的學生或數據挖掘研究人員和應用人員可以根據自身的專業方向選擇不同的數據挖掘切入點。下面簡單歸納目前比較主流的數據挖掘和機器學習方面的教材。
數據挖掘:概念與技術
原書名:Data Mining:Concepts and techniques
作者:Jiawei Han
本書主要從數據庫的角度(數據管理和數據計算的角度)講解數據挖掘,作者Jiawei Han現任UIUC CS Dept.教授。本書第2版在豐富和全面的第1版基礎上進行了更新和改進,并增添了新的重要課題,例如挖掘流數據、挖掘社會網絡和挖掘空間、多媒體和其他復雜數據。本書對數據挖掘基本概念、算法及其相關技術有比較全面的闡述,是國內大多數高校指定教材,它不要求太高的數學基礎,非常適合數學功底一般的學生使用。
數據挖掘:實用機器學習技術(原書第2版)
原書名:Data Mining: Practical Machine Learning Tools and Techniques
作者:Ian H. Witten, Eibe Frank
本書主要從機器學習的角度,也有稱從數據挖掘的應用實現角度來講解數據挖掘,描述了各種算法、模型及其Java實現,重點是以應用的觀點利用案例來說明數據挖掘的算法模型,對于具體算法的原理介紹不是非常詳細。它對數據挖掘的Java軟件包Weka有比較深的介紹。該書作者都是Weka項目組主要成員。圖靈獎獲得者Jim Gray如此評價:假如你需要對數據進行分析和應用,本書以及相關的Weka工具包是一個絕佳的起步。
數據挖掘原理
原書名:Principles of Data Mining
作者:David J. Hand
很多學科都面臨著一個普遍問題,即如何存儲、訪問異常龐大的數據集,并用模型來描述和理解它們。這些問題使得人們對數據挖掘技術的興趣不斷增強。長期以來,很多相互獨立的不同學科分別致力于數據挖掘的各個方面。本書把信息科學、計算科學和統計學在數據挖掘方面的應用融合在一起,是第一本真正跨學科的教材。主要從統計學的角度來解析數據挖掘以及其與統計的關系。其中如建模、測量、評分函數、模型等術語都是從統計者的角度出發。書中并沒有具體說明KDD與DM之間的關系,比較適于統計系和數學系的學生采用。
機器學習
原書名:Machine Learning
作者:Tom Mitchell
本書是CMU等許多國際知名大學機器學習課程的教材。目前發表的各種機器學習專著或論文基本都會引用這本書的內容。作者Tom Mitchell是CMU的教授,美國人工智能協會的主席,《機器學習》雜志和“國際機器學習”年度會議的創始人,他在ML領域久負盛名。本書也是最經典和采用率最高的機器學習教材。本書需要的數學基礎也很少,但對必要的背景介紹相當豐富,非常適合初學者。
模式分類(原書第2版)
原書名:Pattern classification
關鍵詞:數據挖掘;圖書采購;策略;SPSS
Data mining technology in book purchase application
Xu Yi
Dalian vocational & technical college, Dalian, 116037, China
Abstract: Data mining technology is a kind of technology which can be hidden in the multitudinous data information of which the useful information to rules, concepts, rules and models and other forms were extracted. The application of data mining technology to the book procurement strategy development work in mining, computer management system of library potential while well improve the management level and the level of reader service.
Key words: data mining; book purchases; tactic; SPSS
在信息高速傳播、知識飛速更新的今天,圖書館只有正確合理地進行圖書采購,才能夠更好地實現其“在最恰當的時機,將最合適的圖書,提供給最需要的讀者”的目標。采用目前流行的數據挖掘技術,可以很好地對圖書館讀者實際借閱情況進行分析,從而得出能夠正確指導圖書采購策略制定的信息,以保證圖書館能夠更好地為讀者服務。
1 數據挖掘簡介
數據挖掘是一門涉及人工智能、數理統計、數據庫、可視化、并行計算等多領域的交叉性新興學科。數據挖掘就是將隱藏在大量數據信息中的那些對用戶有用的信息提取出來的過程,這些信息通常會以:規則、概念、規律以及模式等形式展現出來,而提取的過程往往要采用一些特殊手段的非平凡過程,即數據挖掘技術。提取出來的信息可以幫助決策者分析歷史的和當前的數據,發現隱藏在其中的聯系和規律,從而對未來可能發生的情況進行合理地判斷和預測[1]。
2 基于數據挖掘的圖書采購策略
描述式數據挖掘和預測式數據挖掘是數據挖掘技術的兩種形式。描述式數據挖掘又稱概念描述,是數據挖掘的最基本形式,以簡明扼要的形式來描述給定的數據集,體現了數據的特征。我們使用特征化描述方式的數據挖掘方法,根據讀者借書的歷史記錄,發現并描述讀者的真正需求。實現特征化描述主要有準備數據、相關分析、歸納特征屬性、表示和使用挖掘結果幾個基本階段[2]。
圖1 流程圖
2.1 準備數據
獲得有關數據、對數據進行初步處理和準備。具體步驟如下:
(1)獲取主要字段:讀者類型、專業、書名、主題、編著者、出版社、出版時間、價格、索書號、條碼等。
(2)整合數據歸納成庫,保證相同字段的數據在類型格式上一致。
(3)拆分“主題”字段,限制1本書最多包含3個主題詞,即3個主題字段,其他忽略。
(4)拆分合并后的數據庫,按學科不同分成各學科的子庫(這在數據挖掘過程中稱為數據分組),對各個子庫分別進行處理。
2.2 相關分析
對待挖掘數據庫中的字段進行分析,剔除掉那些相關性不足的字段。具體步驟如下:
(1)選用恰當的方法對屬性字段進行分析;
(2)將待挖掘數據庫中的相關性不足字段剔除掉;
(3)整理保留的字段,主要有:讀者類型、主題1、主題2、主題3、編著者、出版社。
2.3 歸納特征屬性
根據實際情況,只進行單因素分析,即只計算比較單一屬性值域讀者需求的關聯程度。
2.4 表示和使用結果
使用條形圖、曲線圖以及餅分圖等圖表形式將分析結果表現出來。用圖書借閱次數來表示圖書的人氣系數,人氣系數越高表明該類型的圖書越受讀者歡迎,計算公式為:
式中P為任一主題總的人氣系數,m為主題在挖掘數據庫中出現的次數,rj為主題的權系數,rj∈{3,2,1},Ki為借閱頻率系數[3]。
3 數據挖掘在圖書采購中的應用
這里筆者以所在學院的圖書館為研究對象進行研究。
3.1 統計數據
為了能夠較真實地反應學院師生對圖書借閱的情況,筆者設計了一份調查問卷,對學院電氣系和汽車系的圖書借閱者進行訪問。該調查問卷包括單選題和多選題,內容涵蓋了職業、系別、圖書種類等(見表1)。
表1 借閱者借閱圖書類別調查問卷
3.2 定義變量
對數據的定義筆者采用多項選擇的二分法(Multiple dichotomy method),即將所有因素都設成一個變量,每個變量只有“1”和“0”兩個水平值,代表“是”和“否”。例如用1來代表教師,0代表學生;專業方面用1表示電氣系,0表示汽車系;圖書類別中用1表示“經常借閱”,0表示“不經常借閱”。
3.3 分析數據
在這里選用SPSS統計分析軟件對數據進行分析。
3.3.1 多重反應頻數分析(見表2和表3)
3.3.2 多重反應列聯表分析(見表4~7)
根據這些分析結果,圖書采購人員就能夠很好地制定出恰當適用的圖書采購計劃[4]。
4 結束語
以數據挖掘技術為基礎,對實際圖書館中讀者的借閱情況進行問卷調查,再利用SPSS軟件對所調查問卷進行系統分析,雖然問卷數目較少,但對圖書館分析讀者借閱需求指導圖書采購提高服務能力有一定的幫助。
參考文獻
[1] JiaweiHan, MichelineKamber.數據挖掘:概念與技術[M].北京:機械工業出版社,2007.
[2] 吳奕寬.淺論信息在教材圖書采購中的應用[J].情報科學,2002,20(1):28-30.