前言:想要寫出一篇引人入勝的文章?我們特意為您整理了主數據驅動下多源數據數字化挖掘探析范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:多源數據挖掘過程中,由于缺少參數分析,導致數據挖掘不完整且精準度較低,為了解決這類問題,提出主數據管理驅動下多源數據數字化挖掘方法。分析主數據管理驅動挖掘原理,通過適配器驅動模塊傳遞數據,借助接口器支配與處理數據。使用克里格數據挖掘算法調整參數并處理“臟數據”后,設計數據挖掘流程。實驗結果顯示,主數據管理驅動挖掘方法挖掘數量與實際值相差最小為40個,數據挖掘完整度較高。在檢測數據為8000個時,挖掘精準度達到95%,能夠為多源數據歸一化提供技術支持。
關鍵詞:主數據管理驅動;多源數據;數字化挖掘方法;歸一化技術
信息技術革命以來,數據迎來了爆炸式的增長,企業檔案屬于企業生產經營管理活動中的符號,如何順應時代潮流,更好地挖掘企業檔案數據,對企業檔案工作人員來說是一個重要挑戰[1]。更好地挖掘企業檔案數據,實現資源共享與流通,為企業未來制定多源信息資源規劃提供必要的理論支撐。如今,企業數據等多源數據的數字化挖掘逐漸受到重視,其已經為許多領域的科學生產、管理、經營和決策給出了依據和幫助[2]。利用統計方法挖掘出有用的統計規律等信息和知識,即統計方法挖掘知識。挖掘網絡訪問量的計算知識統計方法在網絡訪問中的應用性很強,魯棒性卻很低,容易出現挖掘數據遺漏、不全面、準確率低等問題,在此基礎上,提出了主數據管理驅動下多源數據數字化挖掘方法,通過在傳統數據數字化挖掘的基礎上,結合主數據管理驅動,使得多源數據信息獲取、儲存、分配等過程的準確率以及運行效率都得到顯著提高,具有很大的研究價值與實際應用意義。
1主數據管理驅動挖掘原理
利用主數據驅動實現了多源數據的建模,并通過服務的方式向外部提供數據。作為該驅動的核心,具有實現異構數據轉換、業務編排、業務路由、安全控制、業務監控等功能[3-5]。傳統數據挖掘系統中的多源數據受驅動方向雙向同步,而基于主數據驅動管理的業務系統通過ESB使用或發布服務,由此適應不同協議、標準化和成品使用。主數據管理驅動結構如圖1所示。主數據驅動服務接口允許采用SOAP協議制,以此完成數據信息傳遞與分批處理。主數據管理驅動中樞基于業務流程管理平臺,可實現對主數據操作、治理、可視化展示[6-7]。
1.1基于適配器驅動數據傳遞
主數據管理驅動中的適配器,能夠改善現有數據的保存與管理問題,使數據分配處理,達到所有資源能夠全部被使用的目的[8-10]。主數據驅動中主單片機是整個適配器的核心,在主單片機上主要使用嵌入式操作系統的軟件業務程序,處理總線上下行數據挖掘。適配器驅動模塊結構如圖2所示。信息處理平臺通過對收集到的原始信息進行組織加工、分類整理,然后將原始信息劃分為相應多源系統的各種資源列表,然后分別分配給多源數據驅動相應數據庫[11-13]。信息發布模塊的任務主要是發布和查詢各種信息,在信息發布過程中,信息傳遞能力主要表現為服務方式的多樣化、服務功能的完備性、服務平臺的易用性和技術的維護能力[14]。這是適配器驅動模塊運行的關鍵環節,由此為多源數據提供數字化挖掘技術。
1.2基于接口器支配與處理數據
接口連接功能模塊是支撐核心功能模塊和管理功能模塊的基礎。其能夠保證在多源數據數字化挖掘過程中,主數據的管理驅動對于多源數據的支配與處理的有效性,即保證了數據數字化挖掘的來源合理性。其工作原理是終止UN1,支撐A/D轉換和信號轉換,處理UN1承載路徑,完成UNI的測試和用戶界面的維護、管理和控制。接口器連接硬件介于使用者和硬件之間,設計彼此交互溝通的相關構件,目的是使用戶能方便、高效地進行硬件操作以達到雙向交互,完成相關工作任務。
2多源數據數字化挖掘
2.1基于克里格數據挖掘參數優化
克里格方法是一種基于變異函數理論和結構分析的空間局部估計方法[15-16],是一種在有限區域內對區域化變量的聚類,對集合無偏最優估計。此方法首先定義線性估計量:式(1)中,Z(xi)代表樣本數據;Z#0(x)代表待估計值;λi代表各個樣點的權重,也叫做克里格系數;∑i=1n+1λi=1;針對任意一個估計值,實際值與估計值之間均存在一定的誤差,Z#0(x)本質上是Z0(x)的一種線性無偏最優估計;借助克里格算法進行數據挖掘時,關鍵是克里格系數的確定,具體表示形式如下:式(2)矩陣K中,cij代表原尺度s中樣本i與樣本j間的協方差。通過克里格數據挖掘算法能夠得到數據挖掘的基本參數最優化估計值,使得數據挖掘的信息準確性得到保證,將數據最優化后,選取、分析數據的繁瑣性降低,是多源數據數字化挖掘的基礎。
2.2數據挖掘流程設計
在保證挖掘參數優化條件下,結合挖掘對象問題空間和數據的獨立性,通過數據預處理、數據選擇、數據分析,判斷數據挖掘任務,確定相關大數據估計研究方向。利用數據挖掘技術,可以從大型數據庫或數據倉庫中的相關數據集中提取知識信息,從而使大型數據庫具有豐富、可靠的知識歸納功能。數據挖掘流程如圖3所示。由圖3可知,先要有一個選擇過程,然后從這個挖掘任務需要挖掘的源數據庫中,根據服務用戶的需要和要求,提取出一組數據來進行挖掘操作,這組數據是該挖掘任務中需要進行的一系列挖掘操作的對象,如圖表中顯示的目標數據;但在第一個步驟中,選擇出的目標數據并不一定就非常適合進行挖掘操作,可能其中包含了一些噪聲,數據應用的值有缺失或某些記錄有重復出現等,這時就需要對這些“臟數據”進行一系列的預處理,如圖4所示。由圖4可知,處理“臟數據”后,將這些數據作為安全數據進行挖掘操作,最后對前一個步驟中得到的安全數據按照挖掘任務所需格式轉換,將數據原類型轉換為方便操作處理的所需類型,由此完成多源數據數字化挖掘。
3實驗
為每一個測試用戶配置客戶端PC,安裝測試瀏覽器軟件,采用IE內核瀏覽器進行系統訪問。在測試過程中,兼容性采用其他相關瀏覽器軟件進行測試。將統計多源數據挖掘方法與主數據管理驅動下多源數據數字化挖掘方法的挖掘精準度對比分析。在測試數據選擇方面,同時采用真實業務數據和模擬數據的方式進行測試,保證所測試的數據能夠滿足各種情況下的業務處理要求,從而保證數據管理工作的相關功能能夠適應各種業務處理。
3.1實驗參數
利用開放源代碼的性能測試平臺soapUI進行測試分析,設置相關運行參數,通過soapUI對系統HTTP訪問成功率、響應時間進行分析,并對測試參數進行如下配置:1)設置200個并發數;2)測試時間設為8小時。安裝soapUITools,在服務器端設備上運行并執行測試。
3.2實驗結果
在測試數據選擇方面,同時采用真實業務數據和模擬數據的方式進行測試,保證所測試的數據能夠滿足各種情況下業務處理的要求。選擇8000個實際多源數據,分別用統計挖掘方法與文中挖掘方法進行實驗分析。1)挖掘完整度將文獻[5]方法、文獻[6]方法與文中挖掘方法的數據挖掘完整度進行對比分析,結果如表1所示。由表1可知,使用文中方法在檢測數據為4000個時,與實際值相差最大為326個。在檢測數據為2000個時,與實際值相差最小為40個,而其他方法與實際值差距較大,由此可知,主數據管理驅動挖掘方法數據挖掘完整度較高。2)挖掘精準度將文獻[5]方法、文獻[6]方法與文中挖掘方法的數據挖掘精準度進行對比分析,結果如圖5所示。由圖5可知,在檢測數據為8000個時,使用主數據管理驅動挖掘方法達到最高挖掘精準度95%,而其他方法的挖掘精度一直低于文中方法,由此可知,主數據管理驅動挖掘方法數據挖掘精準度較高。
4結束語
針對挖掘全面性不強、數據挖掘精準度低的問題,提出了主數據管理驅動下多源數據數字化挖掘方法,利用主數據管理驅動、克里格數據挖掘算法實現多源數據數字化挖掘。利用主數據驅動管理,使企業檔案信息的獲取、存儲、分配等過程中的連接程度、準確性和操作效率顯著提高,具有很大的研究價值和實際應用價值。資源信息化建設一直是科學研究發展關注的重點,但單獨針對多源數據數字化挖掘問題的研究卻是在當今大數據背景下一次全新的挑戰。在資源獲取、信息集成整合以及數據應用創新方面制定的可行性措施也并不一定適用于所有的數據處理模式,因此,在今后研究進程中,多源數據的數字化挖掘研究過程需更加注重實用性、通用性的研究發展,以便適應當今社會的需求與發展。
作者:廖嘉煒 嚴俊斌 宋強 趙小凡 徐炫東 單位:廣東電網有限責任公司廣州供電局