前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)挖掘體系架構(gòu)研究范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:為了解決現(xiàn)代數(shù)據(jù)挖掘過程中面臨的數(shù)據(jù)復(fù)雜程度較高及數(shù)據(jù)訪問量較大的問題,文章設(shè)計了基于云計算環(huán)境下的大數(shù)據(jù)挖掘體系架構(gòu)。與傳統(tǒng)數(shù)據(jù)挖掘系統(tǒng)結(jié)構(gòu)相比,具有較高的可擴展性、面向服務(wù)、大量數(shù)據(jù)處理能力及成本較低的優(yōu)點,還能夠支持大范圍的分布式數(shù)據(jù)挖掘,降低企業(yè)和運營商在數(shù)據(jù)挖掘技術(shù)中的投入,減短研發(fā)周期,有效提高產(chǎn)品的效率。此架構(gòu)能夠幫助企業(yè)實現(xiàn)數(shù)據(jù)分析和動態(tài)資源池的配置,有效滿足企業(yè)的需求。
關(guān)鍵詞:云計算;挖掘服務(wù);大數(shù)據(jù);挖掘體系架構(gòu)
在互聯(lián)網(wǎng)及物聯(lián)網(wǎng)不斷發(fā)展的過程中,我國已經(jīng)處于信息及數(shù)據(jù)超量的信息時代中。如何對此產(chǎn)品產(chǎn)生的大量數(shù)據(jù)進行挖掘,是現(xiàn)代運營商需要解決的問題。自從云計算技術(shù)的出現(xiàn),為數(shù)據(jù)挖掘技術(shù)提供了更好的發(fā)展方向。云計算可以實現(xiàn)資源動態(tài)分析、虛擬化功能,可以為應(yīng)用程序高性能開發(fā)提供幫助。本文所設(shè)計的平臺能夠降低企業(yè)和運營商在數(shù)據(jù)挖掘方面的投入,還能夠促進挖掘業(yè)務(wù)的推出,有效提高產(chǎn)品的收益。
1基于云計算的數(shù)據(jù)挖掘策略
1.1數(shù)據(jù)挖掘
數(shù)據(jù)挖掘技術(shù)就是利用識別技術(shù)、統(tǒng)計學(xué)、學(xué)習(xí)機器、人工智能等技術(shù),采取聚類、分析預(yù)測、特征化、關(guān)聯(lián)性數(shù)據(jù)等分類方法,從大量、隨機、不完整、模糊、噪聲數(shù)據(jù)中找出有價值的數(shù)據(jù)和信息[1]。
1.2云計算
云計算是商業(yè)計算中使用比較多的技術(shù),它就是將各種數(shù)據(jù)儲存在計算機資源結(jié)構(gòu)池中,這樣才能滿足系統(tǒng)自行建立信息儲存空間和計算、服務(wù)空間等。一般云計算包括軟件即服務(wù)(SoftwareasaService,SaaS)、基礎(chǔ)設(shè)備服務(wù)(InfrastructureasaService,IaaS)、平臺服務(wù)(PlatformasaService,PaaS)等模塊功能。
1.3數(shù)據(jù)挖掘云化
云計算的利用提高了數(shù)據(jù)挖掘技術(shù)的效率,同時也給數(shù)據(jù)挖掘技術(shù)帶來了新挑戰(zhàn)。很多行業(yè)的發(fā)展也開始利用云計算進行數(shù)據(jù)挖掘,傳統(tǒng)的數(shù)據(jù)挖掘平臺需要進一步完善[2]。
2基于云計算和挖掘服務(wù)的大數(shù)據(jù)挖掘體系結(jié)構(gòu)
傳統(tǒng)的數(shù)據(jù)挖掘分析的數(shù)據(jù)量比較少,而且都是從數(shù)據(jù)倉庫中挖掘,數(shù)據(jù)類型較為單一。數(shù)據(jù)云化模型具有高速、高精度、大量數(shù)據(jù)處理功能,它能夠利用數(shù)據(jù)挖掘算法,進行范圍的數(shù)據(jù)挖掘分析,數(shù)據(jù)挖掘算法可以進行數(shù)據(jù)結(jié)構(gòu)的優(yōu)化,從而擴大數(shù)據(jù)挖掘的范圍[3]。
2.1云計算平臺
云計算服務(wù)平臺包括SaaS,IaaS,Paas等3個模塊服務(wù),主要是負責(zé)處理數(shù)據(jù),同時能夠?qū)崿F(xiàn)儲存和處理數(shù)據(jù)的功能。該平臺可以和CPU、網(wǎng)絡(luò)支持、儲存等云服務(wù)硬件設(shè)備結(jié)合,利用分布式數(shù)據(jù)挖掘技術(shù)進行大量數(shù)據(jù)的處理和計算。
2.2開放接口的設(shè)計
云計算平臺具有數(shù)據(jù)接口開放服務(wù),它的優(yōu)勢就是具有無態(tài)型功能,用戶可以通過開放接口尋找自己需要的數(shù)據(jù)。在某個局域網(wǎng)中,可以重復(fù)進行緩沖裝置的調(diào)用,從而保證服務(wù)器快速的吞吐量,進而減少服務(wù)器工作的負擔(dān)[4]。
2.3數(shù)據(jù)挖掘?qū)?/p>
數(shù)據(jù)挖掘?qū)泳哂卸喾N封裝結(jié)構(gòu)形式,包括HTTP,XML,Restful等形式,而且可以實現(xiàn)結(jié)構(gòu)化語言查詢,通過引擎實現(xiàn)自動解析可以調(diào)動云服務(wù)。每個構(gòu)建行業(yè)的系統(tǒng)都是根據(jù)需求進行自身業(yè)務(wù)數(shù)據(jù)調(diào)用,之后整合。數(shù)據(jù)挖掘第三方算法技術(shù)也可以利用工具,比如:Weka分布式和Mathout等算法庫[5]。
2.4分布式系統(tǒng)架構(gòu)
分布式架構(gòu)系統(tǒng)(Hadhoop)是一種軟件框架,可以在更大的平臺中進行分布式數(shù)據(jù)處理,同時能夠數(shù)據(jù)提供引擎功能處理。下方HDFS文件框架結(jié)構(gòu)是一種分布式系統(tǒng),自身對外具有接口,能夠促進程序自動向離數(shù)據(jù)最近的位置進行移動,分布式儲存系統(tǒng)架構(gòu)移動計算數(shù)據(jù)節(jié)點可以有效減少投入成本[6]。上方HDFS能夠促進屬于稀疏數(shù)據(jù)的有效解決,從而減少數(shù)據(jù)實際體量需求,達到節(jié)省效果成本。上方HBase是一種MapReduse引擎,它具有兩種引擎方式,包括Trackers和Task,該功能的使用改變了傳統(tǒng)執(zhí)行任務(wù)單一的方式,而且能夠?qū)崿F(xiàn)多個任務(wù)進行拆分的功能,之后實現(xiàn)節(jié)點數(shù)據(jù)挖掘的有效分配,以此建立大量Reduse的任務(wù),在數(shù)據(jù)庫中進行但數(shù)據(jù)集加載,從而實現(xiàn)云計算數(shù)據(jù)挖掘和高效的大數(shù)據(jù)服務(wù)功能。但是該平臺是一種流處理和批處理模式,無法進行數(shù)據(jù)復(fù)雜、小延遲處理數(shù)據(jù),只能在較低的更新率大量數(shù)據(jù)靜態(tài)中使用,不能有效地實現(xiàn)計算內(nèi)存[7]。針對這種問題可以通過圖片數(shù)據(jù)庫處理工具來解決,同時結(jié)合分布式儲存和計算機技術(shù),實現(xiàn)快速的數(shù)據(jù)處理和查詢,之后進行半結(jié)構(gòu)和非結(jié)構(gòu)化的圖形數(shù)據(jù)和內(nèi)存計算,從而提高處理復(fù)雜數(shù)據(jù)的效率[8]。
3基于云計算數(shù)據(jù)挖掘機構(gòu)的實現(xiàn)
分布式架構(gòu)系統(tǒng)可以實現(xiàn)訪問日志、超級DNS、計算CDN云和數(shù)據(jù)動態(tài)分布功能,具體內(nèi)容包括以下方面。
3.1云計算
CDN化CDN的運行原理是規(guī)避有效網(wǎng)絡(luò)環(huán)境給數(shù)據(jù)穩(wěn)定性和傳輸?shù)挠绊懀诠?jié)點通暢網(wǎng)絡(luò)下進行數(shù)據(jù)傳輸,從而使用戶獲得相應(yīng)信息,來提高數(shù)據(jù)儲存的效率和穩(wěn)定性,同時能夠快速保證高效的網(wǎng)站反應(yīng)[9]。可以有效解決靜態(tài)傳輸數(shù)據(jù)中擴展問題,云計算平臺可以在短時間內(nèi)解決網(wǎng)絡(luò)靜態(tài)數(shù)據(jù)儲存和擴展動態(tài)內(nèi)容的問題[10]。
3.2DNS超級
DNS是一種域名系統(tǒng),可以通過云計算平臺進行數(shù)據(jù)的融合和擴展,從而實現(xiàn)客戶和企業(yè)進行Laas和Paas全面服務(wù)。通過切換智能DNS,在云計算平臺中進行網(wǎng)站大量IP地址的,通過服務(wù)器/客戶端結(jié)構(gòu)功能,進行云計算平臺應(yīng)用功能的優(yōu)化。
3.3動態(tài)數(shù)據(jù)分布
CDN可以以較低的成本在網(wǎng)站中全面進行鋪設(shè)。在結(jié)構(gòu)設(shè)計中,入股出現(xiàn)節(jié)點問題可以實現(xiàn)網(wǎng)站的訪問,普通網(wǎng)站用戶服務(wù)都是聚集在特定的區(qū)域中,具有一定的地域性特點,通過地域性用戶差異建立網(wǎng)站,在互聯(lián)網(wǎng)環(huán)境下實現(xiàn)云計算的創(chuàng)建和部署,在最近用戶位置進行平臺訪問,從而減少網(wǎng)站訪問時間[11]。
3.4訪問日志
用戶進行數(shù)據(jù)通過網(wǎng)絡(luò)的瀏覽時,實現(xiàn)網(wǎng)站可以日志的記錄訪問。在網(wǎng)絡(luò)環(huán)境下實現(xiàn)日志信息訪問,之后將數(shù)據(jù)保存在數(shù)據(jù)倉庫中,然后實現(xiàn)數(shù)據(jù)信息的深度挖掘,通過整合的數(shù)據(jù)進行網(wǎng)絡(luò)服務(wù)端的部署。然后根據(jù)訪問用戶網(wǎng)站進行的信息,建立反饋意見功能,為云計算的應(yīng)用平臺提供幫助[12]。
3.5智能調(diào)度系統(tǒng)
該系統(tǒng)可以有效解決知識組合問題,實現(xiàn)快速調(diào)度。通過超級DNS實現(xiàn)用戶訪問行為的索引,從而對用戶數(shù)據(jù)進行深度挖掘,實現(xiàn)快速網(wǎng)站分發(fā)和智能系統(tǒng)調(diào)度創(chuàng)建,從而提高用戶網(wǎng)站訪問效率,提高網(wǎng)站的承載力,減少用戶訪問時間[13]。
4結(jié)語
本文分析的技術(shù)系統(tǒng)還存在一定的問題有待以后解決,比如:大數(shù)據(jù)在云設(shè)備中傳輸、程序結(jié)構(gòu)的設(shè)計等問題需要加深研究。
[參考文獻]
[1]馮麗慧.云計算和挖掘服務(wù)融合下的大數(shù)據(jù)挖掘體系架構(gòu)設(shè)計及應(yīng)用[J].電腦編程技巧與維護,2017(24):49-51.
[2]鄧仲華,劉偉偉,陸穎雋.基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].情報理論與實踐,2015(7):103-108.
[3]劉文學(xué).基于云計算的大數(shù)據(jù)挖掘內(nèi)涵及解決方案研究[J].工程技術(shù)(全文版),2013(8):279.
[4]李娜,余省威.云計算環(huán)境下多服務(wù)器多分區(qū)數(shù)據(jù)的高效挖掘方法設(shè)計[J].現(xiàn)代電子技術(shù),2017(10):43-45.
作者:華英 單位:蘇州市職業(yè)大學(xué)