前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數(shù)據(jù)下計(jì)算機(jī)信息數(shù)據(jù)處理技術(shù)淺析范文,希望能給你帶來靈感和參考,敬請(qǐng)閱讀。
摘要:通過圍繞計(jì)算機(jī)數(shù)據(jù)信息處理的任務(wù),借助于后臺(tái)服務(wù)器、數(shù)據(jù)庫、存儲(chǔ)單元等硬件設(shè)施,以及Hadoop文件系統(tǒng)架構(gòu)、SOA服務(wù)體系、HDFS分布式存儲(chǔ)等大數(shù)據(jù)技術(shù),進(jìn)行計(jì)算機(jī)數(shù)據(jù)信息處理系統(tǒng)的建構(gòu),提供虛擬機(jī)資源調(diào)度、分布式數(shù)據(jù)計(jì)算、任務(wù)處理等服務(wù),來完成海量化數(shù)據(jù)資源的搜集、處理與存儲(chǔ)。
關(guān)鍵詞:大數(shù)據(jù);信息數(shù)據(jù)處理;網(wǎng)絡(luò)架構(gòu)
1大數(shù)據(jù)技術(shù)的主要內(nèi)容概述
當(dāng)前常用的大數(shù)據(jù)技術(shù),包括Hadoop文件系統(tǒng)架構(gòu)、SOA服務(wù)體系、HDFS分布式存儲(chǔ)等。其中Hadoop分布式數(shù)據(jù)處理架構(gòu),屬于大數(shù)據(jù)云計(jì)算系統(tǒng)的平臺(tái)即服務(wù)層,包括Collect(匯總)、Map(映射)、Reduce(歸約)等組成部分,主要秉持著先進(jìn)先出的動(dòng)態(tài)化任務(wù)調(diào)度理念。針對(duì)已搜集的海量化數(shù)據(jù)信息,利用Map映射函數(shù)建立兩組數(shù)據(jù)的映射規(guī)則,并向多個(gè)主節(jié)點(diǎn)、從節(jié)點(diǎn)的任務(wù)處理需求,動(dòng)態(tài)分配虛擬主機(jī),實(shí)現(xiàn)某一數(shù)據(jù)類型的映射、歸約操作。之后SOA服務(wù)體系為面向服務(wù)的組件模型,通常包含服務(wù)工作流、服務(wù)接口、服務(wù)注冊(cè)、服務(wù)訪問和服務(wù)查找等組件。該服務(wù)架構(gòu)通過TCP/IP網(wǎng)絡(luò)通信協(xié)議、定義的I/O接口,將某一應(yīng)用程序的多個(gè)功能服務(wù)單元進(jìn)行連接,并將多個(gè)分布式的服務(wù)組件進(jìn)行封裝,為用戶提供需要的Web數(shù)據(jù)發(fā)送與接收、業(yè)務(wù)處理等的服務(wù)[1]。最后,HDFS分布式存儲(chǔ)是以分布式形式,對(duì)互聯(lián)網(wǎng)中海量化的數(shù)據(jù)信息作出存儲(chǔ),主要包括數(shù)據(jù)資源管理、存儲(chǔ)等節(jié)點(diǎn)。HDFS的存儲(chǔ)單元為每個(gè)數(shù)據(jù)塊(block),而數(shù)據(jù)節(jié)點(diǎn)(DataNode)、元數(shù)據(jù)節(jié)點(diǎn)(Namenode)負(fù)責(zé)數(shù)據(jù)信息的寫入和讀出,其中數(shù)據(jù)塊的單個(gè)最小存儲(chǔ)單位是64Mbits。在HDFS文件系統(tǒng)HDFS框架的中心服務(wù)器,收到外部客戶端的數(shù)據(jù)訪問請(qǐng)求后,可以通過數(shù)據(jù)節(jié)點(diǎn)、元數(shù)據(jù)節(jié)點(diǎn)對(duì)數(shù)據(jù)訪問、目錄創(chuàng)建和數(shù)據(jù)存儲(chǔ)等作出控制,實(shí)現(xiàn)對(duì)不同數(shù)據(jù)資源的處理與存儲(chǔ)。
2大數(shù)據(jù)計(jì)算機(jī)信息處理的多層網(wǎng)絡(luò)架構(gòu)
基于大數(shù)據(jù)及云計(jì)算技術(shù)的計(jì)算機(jī)信息處理系統(tǒng),通常為包含基礎(chǔ)硬件設(shè)備、資源虛擬化硬件、用戶與映像管理、SOA服務(wù)體系的多層網(wǎng)絡(luò)架構(gòu),不同層級(jí)分別負(fù)責(zé)不同的硬件支持、任務(wù)響應(yīng)、數(shù)據(jù)處理與存儲(chǔ)工作[2]。1)硬件設(shè)施資源層。物理資源層為多層網(wǎng)絡(luò)架構(gòu)的最底層,包括計(jì)算機(jī)、后臺(tái)服務(wù)器、數(shù)據(jù)庫、存儲(chǔ)器和網(wǎng)絡(luò)交換機(jī)等硬件設(shè)備,不同設(shè)備之間經(jīng)由定義的I/O接口進(jìn)行連接,來為網(wǎng)絡(luò)資源虛擬化池、虛擬化計(jì)算機(jī)的建構(gòu)提供支持。2)資源虛擬化層。資源虛擬化層是依托于后臺(tái)服務(wù)器,對(duì)多臺(tái)計(jì)算機(jī)主機(jī)、數(shù)據(jù)信息服務(wù)硬件等進(jìn)行虛擬化,該層級(jí)存在網(wǎng)絡(luò)資源池、數(shù)據(jù)資源池、存儲(chǔ)與計(jì)算資源池等組成部分。在任務(wù)管理中間層收到前端用戶,發(fā)送的web網(wǎng)絡(luò)訪問、數(shù)據(jù)處理與存儲(chǔ)請(qǐng)求后,會(huì)充分借助資源虛擬化層的分布式虛擬硬件,為不同用戶任務(wù)執(zhí)行匹配合適的虛擬化硬件資源。3)映像與用戶管理層。映像與用戶管理層是負(fù)責(zé)不同數(shù)據(jù)之間映像、映射規(guī)則建立,以及用戶權(quán)限、任務(wù)請(qǐng)求管理的層級(jí)。其中用戶管理包括用戶身份、用戶許可、用戶請(qǐng)求等的管理模塊;映像管理包括映像創(chuàng)建、映像部署、映像庫管理和映像周期管理等組成模塊,負(fù)責(zé)對(duì)后臺(tái)服務(wù)器端搜集的數(shù)據(jù)信息,建立起兩組數(shù)據(jù)的映射規(guī)則,并作出映像周期的合理控制[3]。4)SOA服務(wù)體系層。SOA體系是是一種精確定義接口、松耦合的服務(wù)架構(gòu),包含服務(wù)工作流、服務(wù)接口、服務(wù)注冊(cè)、服務(wù)訪問和服務(wù)查找等組件結(jié)構(gòu)。多種服務(wù)組件為即插即用的排布方式,也即可以先進(jìn)行用戶安全檢查、再作服務(wù)處理與管理,也可以按相反順序執(zhí)行服務(wù),多種服務(wù)執(zhí)行有明確的接口定義、業(yè)務(wù)代碼。
3計(jì)算機(jī)數(shù)據(jù)信息處理涉及到的大數(shù)據(jù)關(guān)鍵技術(shù)
3.1數(shù)據(jù)挖掘技術(shù)
大數(shù)據(jù)挖掘技術(shù)是對(duì)網(wǎng)絡(luò)海量數(shù)據(jù)資源,進(jìn)行快速收集、篩選、處理與存取的技術(shù),通常利用關(guān)聯(lián)分析、聚類分析等的數(shù)據(jù)挖掘算法,對(duì)存在關(guān)聯(lián)性的、有價(jià)值的數(shù)據(jù)內(nèi)容作出挖掘。當(dāng)前網(wǎng)絡(luò)數(shù)據(jù)信息處理中用到的大數(shù)據(jù)挖掘技術(shù),包含數(shù)據(jù)獲取、數(shù)據(jù)預(yù)處理、數(shù)據(jù)清洗、數(shù)據(jù)變換和數(shù)據(jù)評(píng)估等內(nèi)容,各功能模塊分別負(fù)責(zé)多個(gè)數(shù)據(jù)挖掘步驟的執(zhí)行。
3.2分布式計(jì)算技術(shù)
分布式計(jì)算為多種Agent技術(shù)、Webservice技術(shù)等融合的計(jì)算技術(shù),其可以通過中間件為不同數(shù)據(jù)傳輸與處理、軟件應(yīng)用執(zhí)行提供支持。在利用分布式計(jì)算技術(shù)對(duì)海量數(shù)據(jù)信息進(jìn)行處理過程中,會(huì)將復(fù)雜的數(shù)據(jù)處理步驟,分解為若干個(gè)小的軟件處理任務(wù),再依托于虛擬化計(jì)算機(jī)硬件資源,多多種數(shù)據(jù)處理任務(wù)分配相應(yīng)的元數(shù)據(jù)節(jié)點(diǎn),不同節(jié)點(diǎn)負(fù)責(zé)特定的資源調(diào)度、分布式任務(wù)執(zhí)行,因而使用虛擬機(jī)進(jìn)行數(shù)據(jù)批量處理的效率更高、成本更低。
4大數(shù)據(jù)技術(shù)在計(jì)算機(jī)數(shù)據(jù)處理中的應(yīng)用流程研究
4.1數(shù)據(jù)采集
大數(shù)據(jù)技術(shù)支持下的數(shù)據(jù)信息處理系統(tǒng),包括數(shù)據(jù)采集、數(shù)據(jù)讀取、數(shù)據(jù)預(yù)處理、虛擬化資源調(diào)動(dòng)、數(shù)據(jù)分析等的執(zhí)行流程,其分布式數(shù)據(jù)處理的組成架構(gòu)如圖1所示。當(dāng)前局域網(wǎng)絡(luò)中的計(jì)算機(jī)數(shù)據(jù)信息采集,通常涉及經(jīng)營資本、財(cái)務(wù)流轉(zhuǎn)、業(yè)務(wù)執(zhí)行和人力資源管理等的數(shù)據(jù),特別在大量臨時(shí)文件、數(shù)字文檔或日志信息采集的過程中,需要先驗(yàn)證信息來源的安全性準(zhǔn)確性?;贖adoop分布式文件系統(tǒng)的數(shù)據(jù)信息采集模塊,主要利用Sqoop、Flume等數(shù)據(jù)采集工具,進(jìn)行網(wǎng)絡(luò)海量化數(shù)據(jù)資源的采集,再使用SQL語句將現(xiàn)有數(shù)據(jù)信息,傳輸至后臺(tái)服務(wù)器、數(shù)據(jù)庫的硬件端口。
4.2數(shù)據(jù)處理
數(shù)據(jù)預(yù)處理模塊通常采取均值法、平滑法等處理方式,對(duì)廣域網(wǎng)或局域網(wǎng)的網(wǎng)絡(luò)空間中,存在的錯(cuò)誤、冗余度高數(shù)據(jù)信息作出處理,主動(dòng)過濾掉帶有噪聲的、重復(fù)性的、空值的數(shù)據(jù),對(duì)網(wǎng)絡(luò)數(shù)據(jù)預(yù)處理的計(jì)算公式為R=Qq+Ww+Ee。在完成企事業(yè)單位的數(shù)據(jù)信息采集后,可以依托大數(shù)據(jù)云服務(wù)平臺(tái)的虛擬化資源池,設(shè)置設(shè)置時(shí)間系數(shù)Q、負(fù)荷系數(shù)W、緩存系數(shù)E,并設(shè)定時(shí)間系數(shù)Q的A1、A2和A3預(yù)設(shè)值,以及負(fù)荷系數(shù)W的B1、B2和B3預(yù)設(shè)值,緩存系數(shù)E的C1、C2和C3預(yù)設(shè)值。然后根據(jù)虛擬化資源池中不同數(shù)據(jù)處理任務(wù)的不同權(quán)重,分配預(yù)設(shè)值q、w和e(q<w﹤e)。將多種數(shù)據(jù)信息的處理任務(wù)代入以上公式,得出海量大數(shù)據(jù)的與處理結(jié)果,并將數(shù)據(jù)處理的R值與原始預(yù)設(shè)值r作比較,若R≤r則生成并輸出正常的數(shù)據(jù)處理信號(hào)。
4.3虛擬化資源任務(wù)調(diào)度
整個(gè)大數(shù)據(jù)信息處理過程中的虛擬化資源調(diào)度,主要針對(duì)不同數(shù)據(jù)信息的業(yè)務(wù)處理需求,選擇合適的分布式算法、網(wǎng)格算法等模型,在邏輯或物理操作層,向不同任務(wù)分配特定的虛擬化節(jié)點(diǎn),進(jìn)行用戶訪問管理、數(shù)據(jù)映射及處理的功能執(zhí)行。虛擬資源管理、任務(wù)分配,主要對(duì)虛擬機(jī)負(fù)載、故障情況進(jìn)行監(jiān)測(cè)與統(tǒng)計(jì),來保障虛擬資源運(yùn)行的負(fù)載均衡與安全。該任務(wù)調(diào)度的執(zhí)行流程為:將m個(gè)任務(wù)(Task),調(diào)度到n個(gè)元數(shù)據(jù)節(jié)點(diǎn)進(jìn)行執(zhí)行,假定設(shè)置單個(gè)任務(wù)執(zhí)行時(shí)間為TET(TaskExecutionTime),則第i個(gè)任務(wù)在第j個(gè)資源中的執(zhí)行時(shí)間為:CET(i,j)=starttime(j)+TET(i,j)在資源虛擬化硬件中,所有數(shù)據(jù)信息處理任務(wù)執(zhí)行完成的總時(shí)間為:T=min{T1,T2,T3,…,Ti}4.4數(shù)據(jù)分析數(shù)據(jù)分析是對(duì)挖掘到的數(shù)據(jù)處理、任務(wù)執(zhí)行結(jié)果,進(jìn)行全方位的價(jià)值評(píng)估。在映像與用戶管理層完成用戶身份、權(quán)限與網(wǎng)絡(luò)安全的審查后,由SOA服務(wù)體系層發(fā)送傳輸?shù)臄?shù)據(jù)信息處理信號(hào),保證整個(gè)數(shù)據(jù)分析流程的安全穩(wěn)定性。當(dāng)后臺(tái)服務(wù)器的虛擬化網(wǎng)絡(luò)系統(tǒng),接收到傳送的數(shù)據(jù)信息處理信號(hào)后,從虛擬控制器模塊讀取、提取出某一時(shí)間段內(nèi)的數(shù)據(jù)信息,存儲(chǔ)于后臺(tái)數(shù)據(jù)庫、模塊化存儲(chǔ)單元等設(shè)備中,以便于不同管理主體對(duì)數(shù)據(jù)的訪問、調(diào)用和共享。
5結(jié)語
大數(shù)據(jù)資源整合、云服務(wù)信息處理時(shí)代的到來,使得不同企事業(yè)單位都開始利用大數(shù)據(jù)技術(shù)、云計(jì)算服務(wù)平臺(tái),進(jìn)行內(nèi)部數(shù)據(jù)收集與傳輸、業(yè)務(wù)處理活動(dòng)的開展。因此,依托后臺(tái)服務(wù)器、網(wǎng)絡(luò)云平臺(tái)的分布式計(jì)算技術(shù),大數(shù)據(jù)云服務(wù)系統(tǒng)可針對(duì)多種數(shù)據(jù)信息處理、虛擬計(jì)算機(jī)運(yùn)行負(fù)載等的任務(wù),進(jìn)行用戶身份驗(yàn)證、數(shù)據(jù)處理與傳輸審計(jì)的安全管理,以及實(shí)時(shí)任務(wù)執(zhí)行監(jiān)測(cè)、故障統(tǒng)計(jì),完成多種分布式計(jì)算、數(shù)據(jù)分類存儲(chǔ)與管理的工作,以保證系統(tǒng)運(yùn)行的安全性。
參考文獻(xiàn)
[1]羅田琪.大數(shù)據(jù)時(shí)代背景下計(jì)算機(jī)信息處理技術(shù)的分析[J].電子元器件與信息技術(shù),2021(1):64-65.
[2]熊殿華.基于計(jì)算機(jī)數(shù)據(jù)處理接口程序的應(yīng)用研究[J].西安文理學(xué)院學(xué)報(bào)(自然科學(xué)版),2016(4):31-33.
[3]邱火旺,陳文富.大數(shù)據(jù)技術(shù)的應(yīng)用難點(diǎn)與問題分析[J].電腦編程技巧與維護(hù),2019(5):83-84;113.
作者:孫宇軒 單位:韶關(guān)學(xué)院信息工程學(xué)院
級(jí)別:省級(jí)期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:省級(jí)期刊
榮譽(yù):中國期刊全文數(shù)據(jù)庫(CJFD)
級(jí)別:部級(jí)期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫
級(jí)別:省級(jí)期刊
榮譽(yù):中國優(yōu)秀期刊遴選數(shù)據(jù)庫