前言:想要寫出一篇引人入勝的文章?我們特意為您整理了業務IT基礎運維能力建設實踐探究范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:本文通過分析當前數據中心IT基礎設施運維現狀和發展趨勢,對比IT運維和IT運營的差異,從技術、流程、工具等方面闡述了面向業務的IT基礎運營能力建設,即在IT運維能力基礎上通過各項能力創新,逐步提升自動化、智能化運維能力,并在保證數據中心穩定、安全、合規的前提下,進一步提高運行效率、降低資源投入、提升運維管理的智能化運維管理水平。
關鍵詞:IT運維;IT運營;系統畫像;系統健康度
當前,金融行業正處于數字化轉型的關鍵時期,伴隨著云計算、大數據、人工智能、區塊鏈等新興技術的逐步成熟與深入應用,銀行業不僅風控體系更加完善、業務流程更加優化、產品供給更加豐富,同時基于以客戶為中心的發展理念,還實現了精準營銷、智能客服、智能營銷等精細化服務,進一步提升了客戶體驗與風控水平。在此過程中,高質量的IT基礎設施運維能力發揮了至關重要的作用,如果數據中心的IT運維保障能力難以匹配業務發展要求,將嚴重影響客戶體驗和業務辦理效率,甚至最終導致客戶資源流失。因此,持續提升IT運維能力是所有數據中心運維管理人員需不斷關注和思考的問題,同時IT運維能力建設也是數字化轉型的一個重要內容。
一、金融業數據中心運維現狀分析
隨著我國信息化建設的不斷加速,各行各業都在此過程中實現了巨大的效率提升,尤其對于金融行業來說,更是經歷數次變遷打造現代化數據中心,逐步實現了IT日常運維管理的流程化、制度化、規范化、工具化。然而,傳統數據中心主要關注應用的穩定性、數據的安全性和運行的可靠性,而對資源利用率、節能高效等問題考慮較少,特別是隨著數據中心規模的擴大和功能的日趨多樣化,數據中心可靠性的提升以及維護管理成本的降低成為了新的挑戰。在此背景下,云數據中心憑借資源共享、資源動態調整、綠色環保、高自動化和高可用性等特點,為金融機構的數字化轉型提供了全新選擇。與傳統的數據中心相比,云數據中心具有資源共享、資源動態調整、綠色環保、高度自動化和高可用性等特點,而隨著金融數字化轉型的逐步深入,實現數據中心日常運維工作的自動化、智能化已然是云數據中心發展的主要趨勢,同時也成為提升IT運維能力的強烈訴求。此外,隨著移動互聯網金融業務的繁榮以及場景化業務的增加,業務部門也對數據中心提供的IT運維能力提出了更高要求,不僅強調業務連續性、系統穩定性以及客戶體驗,也更為關注IT基礎設施交付效率、新業務需求投產上線的響應速度等內容,從而促使數據中心急需持續提升IT運維能力以滿足日漸增長的業務需求。
二、IT運維轉變趨勢
面對上述挑戰,數據中心的運維管理工作正逐步從IT運維向IT運營轉變,不僅更為強調安全和穩定,同時也進一步拓展了高效、節能等內容,即在保障數據中心系統正常穩定運轉、業務正常開展的同時,還要保證數據中心運轉高效、終端客戶業務體驗良好以及運營效益的提高。與此同時,當數據中心從IT運維轉型到IT運營,配套的技術、流程、工具等也同樣要有所轉變。例如,技術領域將逐步淘汰大型機和小型機,開始向PC服務器和虛擬化轉變,基礎資源則是向IaaS、PaaS的云化資源發展,且應用程序的部署架構更為強調集群化、低耦合,以及更為關注IT基礎資源的交付效率與投入產出效益。同時,標準流程的日常工作將逐步向自動化流程轉變,而事件和變更管理在確保安全穩定的基礎上,也更為注重應急處置、問題定位、事件處置和分析效率等內容。此外,在配合自動化運維工具逐步實現規范化、標準化的前提下,IT運維更加強調配置中心和“監-管-控”等日常自動化工具的融合聯動與信息共享,并更為強調自動化、智能化的應急處置,以逐步提高日常的運維工作效率。
三、面向業務的基礎運維能力建設
面向業務的IT基礎設施運維是指按照一體化的運維思路,通過整合現有日常運維工具打破相互隔閡,實現工具之間的互聯互通,使各個工具模塊的信息數據實現共享,共同服務和支撐業務的穩定高效運轉。面向業務的IT基礎設施運維框架如圖1所示。面向業務的IT基礎設施運維通過對配置中心、監控平臺、流程管理平臺、操作平臺、應急響應平臺等進行整合,將可基于其內在的關聯性及借助數據挖掘、深度學習等手段,為業務運維管理活動、基礎設置指標變化趨勢、事件定位、問題根因分析、告警自愈等提供綜合輔助,從而有效減輕IT基礎設施運維人員的工作量、提高日常運維工作效率、降低日常運維工作難度。此外,該框架還可在應急事件處置時輔助開展問題定位和根因分析,并使運維人員更為準確地掌握業務交易量的變化情況,及時做好資源規劃和容量管理。實踐中,該框架基于基礎運維工具和數據挖掘技術,通過對應用系統各個維度的信息數據進行有機組合,同時結合系統管理員的運維經驗和事件問題總結,按照一定的算法權重將運維數據進行數字化,可形成應用系統在某一維度上的數值反饋。此后,再根據業務系統從變更事件、資源容量、監控環境、交易數據、網絡流量、日志信息等各個維度進行綜合打分,將形成一個基于應用系統運行健康度的數字畫像,最終再結合實際運維經驗設定各個維度權重,即可得到一個業務系統的健康度得分。應用系統健康度畫像如圖2所示。以某一個典型的日常運維場景為例,當前,數據中心業務系統之間的關聯性越來越強,甚至一個系統可能與數十個其他業務系統通過微服務、接口、中間件等形式相互訪問或者進行數據交互,并最終在IT基礎設施上體現為一個TCP/IP連接通信。對此,通過采集網絡設備的連接通信關系以及網絡流量,借助配置中心CMDB的相關信息,將可根據IP地址、通信端口實現訪問關系的資源化映射,從而獲取應用系統之間的訪問關系,然后結合網絡連接數和網絡通信流量進行分析挖掘,即可判斷出這種關系的強弱以及業務交易情況的變化,進而在事件發生時準確、高效地評估出系統關聯拓圖2應用系統健康度畫像示意撲關系以及業務影響情況,形成系統間的網絡拓撲圖。最終,通過根據各個關聯系統的健康度來評估交易鏈路各個環節的監控情況,將能夠有效為監控平臺、容量管理平臺、應急處置等基礎運維工具提供輔助支持。上述場景的各個環節都是依托于現有日常運維工具層的基礎運維數據,然后通過有機整合各個工具來實現數據共享,同時借助大數據和機器學習等技術挖掘運維數據的潛在價值,并對應用系統的健康情況進行實時在線的自動化描述,以反映其在各個維度上的健康狀況,最后再反作用于日常運維工具,實現數據中心提效、增速、減投入的運營目標。綜上所述,本文通過描述數據中心運行模式的發展軌跡及日常運維工作現狀,總結分析了面向業務的IT基礎設施運維所代表的差異和變化,及其對IT基礎設施運維提出的全新要求。在此基礎上,農業銀行順應金融數字化轉型的發展趨勢,整合并借助自動化、智能化的技術手段實現了所有運維工具的互聯互通與信息共享,以更高效地響應業務需求和保障運維計劃實施,最終在實現自動化、智能化運維的同時,切實保障了數據中心的業務連續性、穩定性和安全性。
作者:耿輝 張乾尊 謝廣斌 程戈亮 陳林 王曉華 單位:中國農業銀行數據中心