前言:想要寫出一篇引人入勝的文章?我們特意為您整理了機房精細化管理及運維工作原則分析范文,希望能給你帶來靈感和參考,敬請閱讀。
1前言
為扎實做好數據機房運維管理工作、保障人民銀行的正常履職,人民銀行數據中心按照機房精細化管理及科學運維的工作思路對提高數據機房制冷效率、優化設備布局、設備功率監控及加強電氣化火災防控等方面進行了深入研究并提出了合理的實現方案,旨在強調用技術手段加強管理,在提高數據機房業務連續性保障能力的同時降低能源消耗和運維成本,積極探索提升人民銀行IT風險管理整體水平的有效手段。在上述研究過程中,摸索并驗證了大型數據中心精細化管理的若干工作原則,現整理歸納如下,以饗讀者。
2大型數據中心精細化管理的若干工作原則
2.1細化監控顆粒度
數據中心機房的精細化管理體現在環境溫/濕度精確監控、機房制冷;M評估及制冷效率提升、設備功率實時采集、機柜空間合理利用、故障過程暫態波形記錄及火災風險防控等各個方面,數據積累的越多、監控顆粒度越細則越有利于總結規律和發現問題,也越有利于及時準確地對相關內容進行調整以達到最優效果。目前人民銀行分支行中尚有不少機房對設備運行功率的監揑只達到配電柜一級,配電柜后端每個機柜的用電功率數據都無法獲得,更不能對機柜內部每臺IT設備進行功率實時監控,故機柜空間和空調制冷量的高效利用更是無從談起。所以,只有把精細化管理思想切實貫穿到機房運維的方方面面,才能使機房整體的運行更加高效、更加安全可靠。
2.2提倡科學運維管理工作方式
在數據中心機房運維管理工作中,維保計劃編制、設備冗余配置、設備擺放位置選擇、空調分組及通風地板通風重調整等都是在科學分析的基礎上確定的,對于大型數據中心而言,甚至現場值班人員的人數和專業搭配乃至巡檢路線的規劃都是可以通過運籌學原理進行方案最優化選擇的,機房運維管理尤其是基礎設施運維管理工作是一項科學性很強的工作,每—項決策都不能憑借拍腦門、想當然。近幾年數據中心機房行業蓬勃發展,然而機房總能耗高、空調制冷效率低、機房內設備擺放不科學、設備功率無法監控、高水平專業技術人員緊缺等問題卻是普遍問題、共性問題,這也是科學運維觀念不強導致的歷史問題。所以在專業知識集合程度高的數據機房從事運維管理工作一定要提倡科學運維的工作方式,主動學習機房管理所需的通風、消防、水循環、供配電、網絡、建筑結構、環境監控、項目管理等各方面知識,以嚴謹的、科學的態度對待每一項運維工作,才能使機房的可靠性和安全性得到不斷提升。
2.3重視機房制冷和氣流組織優化
在調研中發現仍有少數分支行的數據機房存在不區分冷熱通道、設備擺放沒有規律等不重視機房制冷和氣流組織的問題,這樣的機房短期內可能不會發生溫度超標的情況,但是隨著機房內設備的増多、功率密度的增大,其后期非常有可能出現局部熱點問題。對機房制冷和氣流組織粗放式管理,不僅制冷量利用效率低,造成能源無端浪費、機房能耗PUE值居高不下,而且無法使運維人員準確掌握機房各區域的設備擺放能力,導致無法制定合理的機房區域使用規劃,嚴重制約機房的可持續發展能力。
2.4強調以電氣火災防控為重點
電氣火災占我國火災總數的三分之一以上,我國面臨的火災形勢非常嚴峻。對于數據中心機房而言,電氣火災是災難性的風險,機房區域內火災必然影響IT設備的運行,對于銀行、證券等行業而言,數據中心機房火災導致的損失是不可估量的。配電系統三相不平衡易引發火災,諧波含量超標易引發火災,機房接地效果不良易引發火災,這些都屬于電氣火災的范疇。而機房空氣濕度太低導致靜電容易聚集并放電引發火災,電源插□距地面太近易受周圍空調水管漏水浸入導致短路起火等間接引發電氣火災的問題亦需警惕。所以電氣火災的風險防控并不只是做好供配電系統巡檢就萬事大吉了,數據中心機房的火災風險管控一定是以電氣火災為重點的綜合管控,每一個可能引發火災的細節都應認真辨識并及時進行處置,這樣才能最大限度地降低數據中心發生火災的可能性。
2.5積極引入先進技術與設備
冷通道封閉技術、機房氣流模擬技術、極早期空氣采樣裝置、電氣化火災智能監控系統、故障錄波裝置、高頻UPS主機、智能PDU、模塊化機柜、有源濾波器、即插式母線槽系統等技術與裝備,都是能夠提高數據中心機房基礎設施設備安全運行水平且能節約大量人力成本的技術與設備,機房管理人員應根據機房的實際情況和面臨的具體問題積極引入類似的技術手段或設備。所以在機房日常運維管理過程中應關注主流設備廠家的最新產品及行業的最新技術發展動向,還可以針對具體問題邀請廠家專業工程師到現場進行技術交流,通過這樣的方式加強與最新技術的接軌。
2.6避免發生系統性故障
數據中心機房基礎設施主要包括配電系統、空調及水循環系統、UPS及蓄電池系統、柴油機系統、環境監控系統和消防系統等幾大相對獨立但又相互關聯的系統,一定要根據機房實際情況深入分析各系統的薄弱點,避免發生系統性風險。比如,依靠水系統蒸發散熱的機房一旦循環水泵或管道主管路出現問題,則可導致機房溫度升高繼而引發丨T設備大面積宕機,再比如,供配電系統長時間三相不平衡可能產生變壓器或開關故障并導致區域性停電。及時發現并規避系統性故障,可以有效控制事故嚴重程度和影響范圍,對提高數據中心機房安全性十分重要。
2.7關注隱性風險
數據中心機房內的空氣溫度、濕度及含塵濃度指標對基礎設施設備和IT設備都非常關鍵,雖然這三項指標是現行國家標準《電子信息系統機房設計規范》(GB50174-2008)中規定的有關機房空氣質量指標的明確要求,但對機房安全運行而言這幾項指標卻并不是全部:空氣中二氧化硫、二氧化氣及臭氧可以腐蝕電路板和電子元器件,可以引發設備宕機或信息傳輸錯誤等問題。目前國內對數據中心機房內的類似腐蝕性氣體濃度標準尚無強制要求,但是應該留意針對這些項目檢測、治理的最新發展動態,將有效的措施及時應用到人民銀行總行和分支機構數據中心運維工作中,嚴防類似的隱性風險給機房帶來危害。
2.8打造穩定可靠的運維團隊
對于數據中心機房而言,不論其基礎設施設備配置有多先進,不論其環境監控系統功能有多完善,機房安全可靠運行的根本支撐點仍在于機房運維管理人員的工作積極性和業務水平,只有在運維管理工作中積極承擔、主動探索并不斷學習提升自己的工作能力,才能發現深層次風險并提前預防和消除風險。應做好機房運維人才梯隊建設及培養規劃,鼓勵運維人員參與技術研究和學術交流活動,大膽嘗試新的管理思路和技術手段,培養運維人員發現問題和科學分析問題、解決問題的能力。只有具備了人員穩定、技術過硬的機房運維隊伍,才能為保證機房的安全可靠運行打好堅實基礎。
3結語
提升機房安全可靠運行保障能力、降低機房運維成本是國內大型數據中心面臨的嚴峻挑戰,是建設‘‘綠色機房”的必經之路。人民銀行數據中心在不斷提升機房運維管理工作水平的過程中摸索、總結了機房精細化管理及科學運維的一些經驗與大家分享,希望我們的淺見薄識能為銀行業數據中心在機房管理方面提供參考與借鑒,同時希望與大家共同推進整個銀行業數據中心的轉型發展。
作者:肖鑫 單位:中國人民銀行金融信息中心