前言:想要寫出一篇引人入勝的文章?我們特意為您整理了業(yè)務(wù)IT基礎(chǔ)運維能力建設(shè)實踐探究范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:本文通過分析當(dāng)前數(shù)據(jù)中心IT基礎(chǔ)設(shè)施運維現(xiàn)狀和發(fā)展趨勢,對比IT運維和IT運營的差異,從技術(shù)、流程、工具等方面闡述了面向業(yè)務(wù)的IT基礎(chǔ)運營能力建設(shè),即在IT運維能力基礎(chǔ)上通過各項能力創(chuàng)新,逐步提升自動化、智能化運維能力,并在保證數(shù)據(jù)中心穩(wěn)定、安全、合規(guī)的前提下,進一步提高運行效率、降低資源投入、提升運維管理的智能化運維管理水平。
關(guān)鍵詞:IT運維;IT運營;系統(tǒng)畫像;系統(tǒng)健康度
當(dāng)前,金融行業(yè)正處于數(shù)字化轉(zhuǎn)型的關(guān)鍵時期,伴隨著云計算、大數(shù)據(jù)、人工智能、區(qū)塊鏈等新興技術(shù)的逐步成熟與深入應(yīng)用,銀行業(yè)不僅風(fēng)控體系更加完善、業(yè)務(wù)流程更加優(yōu)化、產(chǎn)品供給更加豐富,同時基于以客戶為中心的發(fā)展理念,還實現(xiàn)了精準(zhǔn)營銷、智能客服、智能營銷等精細(xì)化服務(wù),進一步提升了客戶體驗與風(fēng)控水平。在此過程中,高質(zhì)量的IT基礎(chǔ)設(shè)施運維能力發(fā)揮了至關(guān)重要的作用,如果數(shù)據(jù)中心的IT運維保障能力難以匹配業(yè)務(wù)發(fā)展要求,將嚴(yán)重影響客戶體驗和業(yè)務(wù)辦理效率,甚至最終導(dǎo)致客戶資源流失。因此,持續(xù)提升IT運維能力是所有數(shù)據(jù)中心運維管理人員需不斷關(guān)注和思考的問題,同時IT運維能力建設(shè)也是數(shù)字化轉(zhuǎn)型的一個重要內(nèi)容。
一、金融業(yè)數(shù)據(jù)中心運維現(xiàn)狀分析
隨著我國信息化建設(shè)的不斷加速,各行各業(yè)都在此過程中實現(xiàn)了巨大的效率提升,尤其對于金融行業(yè)來說,更是經(jīng)歷數(shù)次變遷打造現(xiàn)代化數(shù)據(jù)中心,逐步實現(xiàn)了IT日常運維管理的流程化、制度化、規(guī)范化、工具化。然而,傳統(tǒng)數(shù)據(jù)中心主要關(guān)注應(yīng)用的穩(wěn)定性、數(shù)據(jù)的安全性和運行的可靠性,而對資源利用率、節(jié)能高效等問題考慮較少,特別是隨著數(shù)據(jù)中心規(guī)模的擴大和功能的日趨多樣化,數(shù)據(jù)中心可靠性的提升以及維護管理成本的降低成為了新的挑戰(zhàn)。在此背景下,云數(shù)據(jù)中心憑借資源共享、資源動態(tài)調(diào)整、綠色環(huán)保、高自動化和高可用性等特點,為金融機構(gòu)的數(shù)字化轉(zhuǎn)型提供了全新選擇。與傳統(tǒng)的數(shù)據(jù)中心相比,云數(shù)據(jù)中心具有資源共享、資源動態(tài)調(diào)整、綠色環(huán)保、高度自動化和高可用性等特點,而隨著金融數(shù)字化轉(zhuǎn)型的逐步深入,實現(xiàn)數(shù)據(jù)中心日常運維工作的自動化、智能化已然是云數(shù)據(jù)中心發(fā)展的主要趨勢,同時也成為提升IT運維能力的強烈訴求。此外,隨著移動互聯(lián)網(wǎng)金融業(yè)務(wù)的繁榮以及場景化業(yè)務(wù)的增加,業(yè)務(wù)部門也對數(shù)據(jù)中心提供的IT運維能力提出了更高要求,不僅強調(diào)業(yè)務(wù)連續(xù)性、系統(tǒng)穩(wěn)定性以及客戶體驗,也更為關(guān)注IT基礎(chǔ)設(shè)施交付效率、新業(yè)務(wù)需求投產(chǎn)上線的響應(yīng)速度等內(nèi)容,從而促使數(shù)據(jù)中心急需持續(xù)提升IT運維能力以滿足日漸增長的業(yè)務(wù)需求。
二、IT運維轉(zhuǎn)變趨勢
面對上述挑戰(zhàn),數(shù)據(jù)中心的運維管理工作正逐步從IT運維向IT運營轉(zhuǎn)變,不僅更為強調(diào)安全和穩(wěn)定,同時也進一步拓展了高效、節(jié)能等內(nèi)容,即在保障數(shù)據(jù)中心系統(tǒng)正常穩(wěn)定運轉(zhuǎn)、業(yè)務(wù)正常開展的同時,還要保證數(shù)據(jù)中心運轉(zhuǎn)高效、終端客戶業(yè)務(wù)體驗良好以及運營效益的提高。與此同時,當(dāng)數(shù)據(jù)中心從IT運維轉(zhuǎn)型到IT運營,配套的技術(shù)、流程、工具等也同樣要有所轉(zhuǎn)變。例如,技術(shù)領(lǐng)域?qū)⒅鸩教蕴笮蜋C和小型機,開始向PC服務(wù)器和虛擬化轉(zhuǎn)變,基礎(chǔ)資源則是向IaaS、PaaS的云化資源發(fā)展,且應(yīng)用程序的部署架構(gòu)更為強調(diào)集群化、低耦合,以及更為關(guān)注IT基礎(chǔ)資源的交付效率與投入產(chǎn)出效益。同時,標(biāo)準(zhǔn)流程的日常工作將逐步向自動化流程轉(zhuǎn)變,而事件和變更管理在確保安全穩(wěn)定的基礎(chǔ)上,也更為注重應(yīng)急處置、問題定位、事件處置和分析效率等內(nèi)容。此外,在配合自動化運維工具逐步實現(xiàn)規(guī)范化、標(biāo)準(zhǔn)化的前提下,IT運維更加強調(diào)配置中心和“監(jiān)-管-控”等日常自動化工具的融合聯(lián)動與信息共享,并更為強調(diào)自動化、智能化的應(yīng)急處置,以逐步提高日常的運維工作效率。
三、面向業(yè)務(wù)的基礎(chǔ)運維能力建設(shè)
面向業(yè)務(wù)的IT基礎(chǔ)設(shè)施運維是指按照一體化的運維思路,通過整合現(xiàn)有日常運維工具打破相互隔閡,實現(xiàn)工具之間的互聯(lián)互通,使各個工具模塊的信息數(shù)據(jù)實現(xiàn)共享,共同服務(wù)和支撐業(yè)務(wù)的穩(wěn)定高效運轉(zhuǎn)。面向業(yè)務(wù)的IT基礎(chǔ)設(shè)施運維框架如圖1所示。面向業(yè)務(wù)的IT基礎(chǔ)設(shè)施運維通過對配置中心、監(jiān)控平臺、流程管理平臺、操作平臺、應(yīng)急響應(yīng)平臺等進行整合,將可基于其內(nèi)在的關(guān)聯(lián)性及借助數(shù)據(jù)挖掘、深度學(xué)習(xí)等手段,為業(yè)務(wù)運維管理活動、基礎(chǔ)設(shè)置指標(biāo)變化趨勢、事件定位、問題根因分析、告警自愈等提供綜合輔助,從而有效減輕IT基礎(chǔ)設(shè)施運維人員的工作量、提高日常運維工作效率、降低日常運維工作難度。此外,該框架還可在應(yīng)急事件處置時輔助開展問題定位和根因分析,并使運維人員更為準(zhǔn)確地掌握業(yè)務(wù)交易量的變化情況,及時做好資源規(guī)劃和容量管理。實踐中,該框架基于基礎(chǔ)運維工具和數(shù)據(jù)挖掘技術(shù),通過對應(yīng)用系統(tǒng)各個維度的信息數(shù)據(jù)進行有機組合,同時結(jié)合系統(tǒng)管理員的運維經(jīng)驗和事件問題總結(jié),按照一定的算法權(quán)重將運維數(shù)據(jù)進行數(shù)字化,可形成應(yīng)用系統(tǒng)在某一維度上的數(shù)值反饋。此后,再根據(jù)業(yè)務(wù)系統(tǒng)從變更事件、資源容量、監(jiān)控環(huán)境、交易數(shù)據(jù)、網(wǎng)絡(luò)流量、日志信息等各個維度進行綜合打分,將形成一個基于應(yīng)用系統(tǒng)運行健康度的數(shù)字畫像,最終再結(jié)合實際運維經(jīng)驗設(shè)定各個維度權(quán)重,即可得到一個業(yè)務(wù)系統(tǒng)的健康度得分。應(yīng)用系統(tǒng)健康度畫像如圖2所示。以某一個典型的日常運維場景為例,當(dāng)前,數(shù)據(jù)中心業(yè)務(wù)系統(tǒng)之間的關(guān)聯(lián)性越來越強,甚至一個系統(tǒng)可能與數(shù)十個其他業(yè)務(wù)系統(tǒng)通過微服務(wù)、接口、中間件等形式相互訪問或者進行數(shù)據(jù)交互,并最終在IT基礎(chǔ)設(shè)施上體現(xiàn)為一個TCP/IP連接通信。對此,通過采集網(wǎng)絡(luò)設(shè)備的連接通信關(guān)系以及網(wǎng)絡(luò)流量,借助配置中心CMDB的相關(guān)信息,將可根據(jù)IP地址、通信端口實現(xiàn)訪問關(guān)系的資源化映射,從而獲取應(yīng)用系統(tǒng)之間的訪問關(guān)系,然后結(jié)合網(wǎng)絡(luò)連接數(shù)和網(wǎng)絡(luò)通信流量進行分析挖掘,即可判斷出這種關(guān)系的強弱以及業(yè)務(wù)交易情況的變化,進而在事件發(fā)生時準(zhǔn)確、高效地評估出系統(tǒng)關(guān)聯(lián)拓圖2應(yīng)用系統(tǒng)健康度畫像示意撲關(guān)系以及業(yè)務(wù)影響情況,形成系統(tǒng)間的網(wǎng)絡(luò)拓?fù)鋱D。最終,通過根據(jù)各個關(guān)聯(lián)系統(tǒng)的健康度來評估交易鏈路各個環(huán)節(jié)的監(jiān)控情況,將能夠有效為監(jiān)控平臺、容量管理平臺、應(yīng)急處置等基礎(chǔ)運維工具提供輔助支持。上述場景的各個環(huán)節(jié)都是依托于現(xiàn)有日常運維工具層的基礎(chǔ)運維數(shù)據(jù),然后通過有機整合各個工具來實現(xiàn)數(shù)據(jù)共享,同時借助大數(shù)據(jù)和機器學(xué)習(xí)等技術(shù)挖掘運維數(shù)據(jù)的潛在價值,并對應(yīng)用系統(tǒng)的健康情況進行實時在線的自動化描述,以反映其在各個維度上的健康狀況,最后再反作用于日常運維工具,實現(xiàn)數(shù)據(jù)中心提效、增速、減投入的運營目標(biāo)。綜上所述,本文通過描述數(shù)據(jù)中心運行模式的發(fā)展軌跡及日常運維工作現(xiàn)狀,總結(jié)分析了面向業(yè)務(wù)的IT基礎(chǔ)設(shè)施運維所代表的差異和變化,及其對IT基礎(chǔ)設(shè)施運維提出的全新要求。在此基礎(chǔ)上,農(nóng)業(yè)銀行順應(yīng)金融數(shù)字化轉(zhuǎn)型的發(fā)展趨勢,整合并借助自動化、智能化的技術(shù)手段實現(xiàn)了所有運維工具的互聯(lián)互通與信息共享,以更高效地響應(yīng)業(yè)務(wù)需求和保障運維計劃實施,最終在實現(xiàn)自動化、智能化運維的同時,切實保障了數(shù)據(jù)中心的業(yè)務(wù)連續(xù)性、穩(wěn)定性和安全性。
作者:耿輝 張乾尊 謝廣斌 程戈亮 陳林 王曉華 單位:中國農(nóng)業(yè)銀行數(shù)據(jù)中心