前言:想要寫出一篇引人入勝的文章?我們特意為您整理了談電網(wǎng)業(yè)務(wù)流量監(jiān)控系統(tǒng)建設(shè)范文,希望能給你帶來靈感和參考,敬請閱讀。
隨著電力體制改革的不斷深化,業(yè)務(wù)管理方式逐漸由傳統(tǒng)的經(jīng)驗(yàn)管理轉(zhuǎn)向基于數(shù)據(jù)分析的智能化管理。為有效保障電網(wǎng)公司的業(yè)務(wù)監(jiān)管工作開展效率,電網(wǎng)大力建設(shè)業(yè)務(wù)流量監(jiān)控系統(tǒng),由此為實(shí)現(xiàn)智能化管理提供了有效的數(shù)據(jù)支持。本文基于業(yè)務(wù)流量監(jiān)控系統(tǒng)建設(shè)內(nèi)容,對流量采集手段、分析技術(shù)等做經(jīng)驗(yàn)總結(jié)、創(chuàng)新分析,并對未來的業(yè)務(wù)監(jiān)控建設(shè)方向做了深入分析。隨著各行業(yè)信息化的不斷深入,新建信息系統(tǒng)越來越多,同時隨著數(shù)據(jù)中心網(wǎng)絡(luò)規(guī)模擴(kuò)大,承載應(yīng)用系統(tǒng)越來越豐富,因此對運(yùn)維精細(xì)化要求不斷提高,網(wǎng)絡(luò)流量采集分析已成為精細(xì)化運(yùn)維不可或缺的分析手段,通過流量深度分析,能更快實(shí)現(xiàn)故障定位、協(xié)助優(yōu)化系統(tǒng),提升系統(tǒng)運(yùn)行效率。電網(wǎng)企業(yè)迫切需要在信息化建設(shè)中加強(qiáng)信息系統(tǒng)的應(yīng)用管理,通過業(yè)務(wù)流量監(jiān)控設(shè)備,為業(yè)務(wù)運(yùn)行監(jiān)控系統(tǒng)提供監(jiān)控?cái)?shù)據(jù),實(shí)時監(jiān)控各應(yīng)用系統(tǒng)運(yùn)行的狀態(tài)以及各個關(guān)鍵業(yè)務(wù)的運(yùn)行情況,全面了解各業(yè)務(wù)系統(tǒng)運(yùn)行情況,保證應(yīng)用系統(tǒng)有良好的運(yùn)行狀態(tài)。
1流量采集分析的實(shí)際應(yīng)用
現(xiàn)有的信息系統(tǒng)故障診斷由于缺乏有效的數(shù)據(jù)支持,時間往往被耗費(fèi)在無序的排查工作中,其中的主要問題在于:一旦發(fā)生問題,多部門同時開始根據(jù)各自經(jīng)驗(yàn)診斷;缺乏統(tǒng)一視角的證據(jù)支持,沒有入手點(diǎn);若無法達(dá)成共識,則需要進(jìn)一步線索進(jìn)行反復(fù)排查。通過對業(yè)務(wù)流量數(shù)據(jù)的采集,提供網(wǎng)絡(luò)性能、端到端業(yè)務(wù)性能等指標(biāo),將業(yè)務(wù)運(yùn)行監(jiān)控系統(tǒng)采集到的指標(biāo),輸出到信息安全運(yùn)行監(jiān)測預(yù)警系統(tǒng),以實(shí)現(xiàn)預(yù)警系統(tǒng)的全面覆蓋,同時便于快速發(fā)現(xiàn)定位應(yīng)用性能問題,厘清各部門責(zé)任,有針對性的解決問題,減少了問題處理時間,提高了運(yùn)維部門工作質(zhì)量和效率。
2采集、分析手段
數(shù)據(jù)中心的流量采集難度與業(yè)務(wù)流量所經(jīng)路徑、采集點(diǎn)數(shù)量等息息相關(guān),電網(wǎng)的信息系統(tǒng)建設(shè)已深入到各個業(yè)務(wù)部門,所以其流量采集面臨的挑戰(zhàn)諸多:覆蓋業(yè)務(wù)流量經(jīng)過的所有路徑,采集點(diǎn)多,根據(jù)不同的需求,還需對采集后的流量進(jìn)行差異化處理,且重要的一點(diǎn)是,流量的采集不能對運(yùn)行的業(yè)務(wù)系統(tǒng)產(chǎn)生影響。電網(wǎng)業(yè)務(wù)流量采集監(jiān)控系統(tǒng)建設(shè)采用無侵入式流量鏡像采集方式獲取端到端業(yè)務(wù)流量。本系統(tǒng)部署的數(shù)據(jù)采集方式為:從業(yè)務(wù)系統(tǒng)的網(wǎng)臺前端負(fù)載均衡部署探針設(shè)備,進(jìn)行流量鏡像采集,業(yè)務(wù)流量經(jīng)過交換機(jī)的數(shù)據(jù)包復(fù)制到鏡像端口,再由鏡像端口接入探針服務(wù)器,探針將采集到的數(shù)據(jù)分發(fā)給分析服務(wù)器進(jìn)行處理,由分析服務(wù)器對網(wǎng)絡(luò)數(shù)據(jù)進(jìn)行實(shí)時監(jiān)測、挖掘分析,并且不影響網(wǎng)絡(luò)和業(yè)務(wù)系統(tǒng)的正常運(yùn)行。業(yè)務(wù)監(jiān)控系統(tǒng)采用網(wǎng)絡(luò)旁路方式采集交換機(jī)/路由器鏡像出來的流量。被監(jiān)視業(yè)務(wù)系統(tǒng)或應(yīng)用完全感知不到監(jiān)測系統(tǒng)的存在,系統(tǒng)不向被監(jiān)控系統(tǒng)發(fā)送任何數(shù)據(jù),更不會對業(yè)務(wù)系統(tǒng)造成任何額外的計(jì)算資源、帶寬資源及緩存資源的開銷。產(chǎn)品安裝、迭代、升級時不需要重啟業(yè)務(wù)系統(tǒng)。完全不影響業(yè)務(wù)系統(tǒng)的性能,更不存在安全隱患問題。產(chǎn)品部署邏輯示意圖如圖1所示。通過交換機(jī)的流量鏡像采集,將應(yīng)用服務(wù)器之間的通訊數(shù)據(jù)抓取出來,并通過對應(yīng)的協(xié)議解碼功能將通訊中的數(shù)據(jù)解釋出來。將數(shù)據(jù)寫入分析服務(wù)器進(jìn)行業(yè)務(wù)分析與重組。系統(tǒng)只需要將探針服務(wù)器與交換機(jī)對接,分析服務(wù)器等監(jiān)控系統(tǒng)用到的設(shè)備都可以通過自組網(wǎng)的方式組網(wǎng),不對業(yè)務(wù)網(wǎng)絡(luò)產(chǎn)生影響。
3探針采集模塊(圖2)
模塊概述:旁路采集需要監(jiān)控的網(wǎng)絡(luò)數(shù)據(jù)包,然后根據(jù)7層協(xié)議規(guī)則進(jìn)行數(shù)據(jù)包深度解析,獲取七元組信息以及應(yīng)用層業(yè)務(wù)相關(guān)專屬指標(biāo),最后以一定的數(shù)據(jù)格式發(fā)送給Java分析平臺進(jìn)行業(yè)務(wù)統(tǒng)計(jì)分析,以及進(jìn)行業(yè)務(wù)端到端的關(guān)聯(lián)分析。主要涉及的功能有:數(shù)據(jù)包捕獲,數(shù)據(jù)包預(yù)處理,數(shù)據(jù)包解析,解碼數(shù)據(jù)輸出。數(shù)據(jù)包捕獲:通過加載dpdk自定義驅(qū)動程序采集交換機(jī)鏡像過來的網(wǎng)絡(luò)數(shù)據(jù)包,并給每個數(shù)據(jù)包添加時間戳,然后根據(jù)數(shù)據(jù)包的四元組信息通過對稱hash算法得到hash值,根據(jù)hash值將每個數(shù)據(jù)包同源同宿的均分到各個預(yù)處理隊(duì)列中,由下一個功能模塊對數(shù)據(jù)包進(jìn)行處理分析。應(yīng)用場景:將數(shù)據(jù)包從網(wǎng)卡中采集推送給應(yīng)用程序處理。數(shù)據(jù)包預(yù)處理:從預(yù)處理隊(duì)列中獲取數(shù)據(jù)包,對數(shù)據(jù)包頭進(jìn)行解析,獲取數(shù)據(jù)包七元組信息,然后過濾模塊根據(jù)過濾配置規(guī)則和過濾條件對數(shù)據(jù)包進(jìn)行過濾處理,符合過濾條件的數(shù)據(jù)包根據(jù)hash值再次同源同宿的分發(fā)給解碼隊(duì)列。應(yīng)用場景:對數(shù)據(jù)進(jìn)行清洗,篩選。數(shù)據(jù)包解析:根據(jù)七層協(xié)議規(guī)則對數(shù)據(jù)包進(jìn)行深度解析,獲取mac,ip,port,相關(guān)的時間指標(biāo)以及應(yīng)用協(xié)議中攜帶的業(yè)務(wù)關(guān)聯(lián)數(shù)據(jù)指標(biāo),進(jìn)行業(yè)務(wù)識別和匹配,進(jìn)行業(yè)務(wù)數(shù)據(jù)標(biāo)記。應(yīng)用場景:深度解析數(shù)據(jù)包內(nèi)容,獲取數(shù)據(jù)指標(biāo),供上層Java分析平臺分析業(yè)務(wù)關(guān)聯(lián)。解碼數(shù)據(jù)輸出:講解碼后的數(shù)據(jù)結(jié)構(gòu)字段,一次拼接成字符串流,通過socket或kafka發(fā)送給Java分析平臺。應(yīng)用場景:將解碼后的基礎(chǔ)數(shù)據(jù)發(fā)送給第三方平臺進(jìn)行二次深度分析關(guān)聯(lián)。
4系統(tǒng)創(chuàng)新點(diǎn)
(1)無侵入式采集客戶感知探測系統(tǒng)通過交換機(jī)流量鏡像采集方式獲取業(yè)務(wù)系統(tǒng)的端到端業(yè)務(wù)流量,實(shí)現(xiàn)無侵入式采集網(wǎng)絡(luò)原始數(shù)據(jù),對原有業(yè)務(wù)系統(tǒng)性能不會產(chǎn)生任何影響。(2)自動適配IT路徑圖的變化傳統(tǒng)部署的IT路徑圖:WEB負(fù)載-->web集群->接口匯聚負(fù)載->接口匯聚集群->能力中心服務(wù)集群->數(shù)據(jù)庫本系統(tǒng)的IT路徑圖:WEB負(fù)載-->web集群->接口匯聚負(fù)載->接口匯聚NG服務(wù)->接口匯聚容器->能力中心服務(wù)容器->數(shù)據(jù)庫本系統(tǒng)下,接口匯聚負(fù)載和接口匯聚容器之間增加了一個NG轉(zhuǎn)發(fā)服務(wù)。接口匯聚集群變成接口匯聚容器,能力中心服務(wù)集群變成能力中心服務(wù)容器。業(yè)務(wù)流量監(jiān)控系統(tǒng)能夠根據(jù)IP交互和業(yè)務(wù)資源調(diào)用關(guān)系,自動適配IT路徑圖的變化。(3)自動適配協(xié)議的變化探針能夠根據(jù)協(xié)議的內(nèi)容自動識別解碼。(4)IP漂移自動學(xué)習(xí)發(fā)現(xiàn)由于接口匯聚容器和能力中心服務(wù)容器的IP隨時可能發(fā)生變化(比如重啟,自動擴(kuò)縮容),業(yè)務(wù)流量監(jiān)控系統(tǒng)能夠根據(jù)IP交互關(guān)系和協(xié)議動態(tài)識別IP所屬網(wǎng)端,實(shí)現(xiàn)IP漂移場景下自動發(fā)現(xiàn)新的拓?fù)鋱D。
5系統(tǒng)效益
(1)提升系統(tǒng)運(yùn)行質(zhì)量針對每天流量探測出現(xiàn)的各類告警進(jìn)行篩選,形成各類BUG故障單、系統(tǒng)性能故障單等,將該系統(tǒng)的數(shù)據(jù)與實(shí)體流量監(jiān)測對比,能及時發(fā)現(xiàn)考核風(fēng)險(xiǎn),并及時定位考核問題。(2)提升業(yè)務(wù)運(yùn)行質(zhì)量通過數(shù)據(jù)采集和分析,發(fā)現(xiàn)業(yè)務(wù)運(yùn)行異常,提交業(yè)務(wù)規(guī)則類問題故障單,發(fā)現(xiàn)業(yè)務(wù)辦理失敗的問題,提交業(yè)務(wù)系統(tǒng)進(jìn)行修復(fù),同時給業(yè)務(wù)系統(tǒng)的預(yù)警和故障問題的定位提供了有力的支持和保障,從源頭減少了用戶投訴。(3)實(shí)現(xiàn)實(shí)時業(yè)務(wù)檢測系統(tǒng)通過建模的方式,對于特定類業(yè)務(wù)操作、業(yè)務(wù)量等進(jìn)行檢測,通過該手段發(fā)現(xiàn)敏感業(yè)務(wù)操作,保障了系統(tǒng)數(shù)據(jù)安全。(4)成本效益本項(xiàng)目創(chuàng)新所帶來的效益不僅包括資本支出方面,也體現(xiàn)在日常運(yùn)維成本方面。業(yè)務(wù)流量監(jiān)控系統(tǒng)降低了業(yè)務(wù)系統(tǒng)人工運(yùn)維成本,給業(yè)務(wù)系統(tǒng)的預(yù)警和故障問題的定位提供了有力的支持和保障,從源頭減少了客戶投訴,提升了客戶客戶感知滿意度。(5)業(yè)務(wù)效益業(yè)務(wù)流量監(jiān)控系統(tǒng)有助于推動信息系統(tǒng)平臺的順利上線。通過同時監(jiān)控新老系統(tǒng),新系統(tǒng)和老系統(tǒng)同時運(yùn)行,可以看到兩個系統(tǒng)相同業(yè)務(wù)的性能指標(biāo)數(shù)據(jù)對比,作為新系統(tǒng)是否正常運(yùn)行的一個重要評價標(biāo)準(zhǔn)。通過部署與實(shí)踐,我們不僅解決了現(xiàn)網(wǎng)遺留問題同時也攻克了不少技術(shù)難題。為電網(wǎng)全業(yè)務(wù)系統(tǒng)的主動探測探明了道路、掃除了前進(jìn)障礙,希望在助推電網(wǎng)企業(yè)智能運(yùn)維aiops方面能做出相應(yīng)的貢獻(xiàn),真正實(shí)現(xiàn)機(jī)器代替人工運(yùn)維的初衷。同時隨著監(jiān)控技術(shù)的不斷發(fā)展,在夯實(shí)云平臺監(jiān)控智能化的基礎(chǔ)上,后續(xù)有條件可以進(jìn)一步開展一系列技術(shù)革新探索。數(shù)據(jù)庫端到端關(guān)聯(lián)分析:充分挖掘數(shù)據(jù)庫流量,解碼每筆業(yè)務(wù)的SQL語句和相應(yīng)的性能指標(biāo),自動學(xué)習(xí)業(yè)務(wù)接口和SQL的關(guān)聯(lián)關(guān)系。通過業(yè)務(wù)資源配置關(guān)系,串聯(lián)每筆業(yè)務(wù)的數(shù)據(jù)庫端到端關(guān)系。從而更加精細(xì)地定位系統(tǒng)故障到SQL級別,實(shí)現(xiàn)SQL的性能統(tǒng)計(jì)分析。
作者:林志達(dá) 曹小明 葉思斯 張華兵 單位:中國南方電網(wǎng)公司