前言:想要寫出一篇引人入勝的文章?我們特意為您整理了智慧運維平臺設計與分析范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:為建設自主可控的數據中心智慧運維管理平臺,系統調研國產化數字產品及服務研發現狀,以數據中心業務需求、設施需求、管理需求、自助服務管理及事件管理為目標,以物理層、資源抽象層、云服務層與云安全防護層構建管理頂層平臺架構,從分別以業務管理及運行監控為中心進行了平臺詳細功能設計、資源池設計與安全設計,最后綜合分析了國產化智慧運維管理平臺的效益。國產化智慧運維管理平臺可將數據中心局域資源納入統一管理范圍,建立科學合理的管理體系,建立標準規范的運維管理流程,實現數據資源主動的、靈活的、集中的、高效的管理和運維。
關鍵詞:數字化;數據中心;運維平臺;國產化
面對快速增長的IT基礎設施和應用系統,業務系統規模日趨龐大、架構日趨復雜,各類企業對業務系統的穩定性、可靠性要求也越來越高。為提高業務系統日常運維的可視化、提高運行效率、量化運行質量,建設智慧運維平臺已迫在眉睫。然而,我國在基礎軟件、高端芯片、專用設備、測試儀器、關鍵工藝等核心技術方面都存在短板,整個IT產業鏈中最核心的芯片、CPU硬件和操作系統軟件大多數依賴國外技術或直接進口。自主創新、自主可控,兩者的落實和發展都離不開國家的政策支持與引導。2003年中共中央辦公廳、國務院辦公廳聯合轉發的《國家信息化領導小組關于加強信息安全保障工作的意見》明確指出要重點保護基礎信息網絡和關系國家安全、經濟命脈、社會穩定等方面的重要信息系統,抓緊建立信息安全等級保護制度,制定信息安全等級保護的管理辦法和技術指南。2016年,網絡安全被正式劃入“十三五”規劃重點建設方向,包括《網絡安全法》、《國家網絡空間安全戰略》及近期的《戰略性新興產業重點產品和服務指導目錄》在內的多項重磅政策密集出臺,加速推動信息安全產品需求釋放。因此,為建立安全可控、運維高效的數據中心運維管理平臺,本文全面分析國產化設備與技術與微軟技術體系的適配性與兼容性,采用國產化設備與技術服務搭建數據中心運維平臺,為企業數智化發展提供安全可控保障,對指導國產化數字產品的推廣應用具有現實意義。
1國產化產品現狀
1.1CPU
我國服務器芯片自主研發主要有以下五種方向:Alpha架構、ARM架構、MIPS架構、X86架構、Power架構。涌現出了基于MIPS的龍芯、基于X86的海光、基于MAR的飛騰和鯤鵬以及基于Alpha架構的申威等,不同芯片參數對比為提高與既有數據中心設備及系統的兼容性,從架構層次來說采用X86生態的芯片兼容性最佳,其他的廠商需要構建自己的生態系統。慮到單核性能和核心數的差異,不同芯片會存在較大差距。從擁有自主知識產權和芯片安全可控方面考慮,國產芯片可選擇種類較少。
1.2操作系統
操作系統是平臺連接軟硬件的紐帶,在自主安全上處于核心地位。國產操作系統多為以Linux為基礎二次開發的操作系統。國內基于Linux二次開發的國產化服務器操作系統目前有很多家,主要包括麒麟、普華中科方德、深度等操作系統。國產操作系統情況上述國產操作系統中,兩類國產操作系統在服務器端的應用發展較為成熟,通過了多個國家權威部門的測評,可支持龍芯、飛騰、申威、鯤鵬等多種主流國產化芯片,其產品支撐著國防、政府、企業、電力和金融等各領域的應用,滿足政府部門、國防、金融、電力、機要、保密等領域對操作系統的高安全性需求。
1.3數據庫
代表性的國產化數據庫廠商有:神通、金倉、達夢、南大通用等。主流國產化數據庫技術路線
2平臺頂層設計
智慧運維管理平臺建設整體分為四大部分,分別是:物理層、資源抽象層、云服務層與云安全防護層。以上架構設計可以實現各個模塊在保證各自獨立性的前提下獨立運行,還可以實現各模塊深度融合、自動化運營,從而保證整體技術架構的靈活性、先進性、合理性、高可用、高安全和可擴展性。物理層包括智慧運維管理平臺所需的機房運行環境,以及計算、存儲、網絡、安全等設備。通過部署國產化交換機、防火墻、服務器等設備,為智慧運維管理平臺提供基礎的物理運行環境。資源抽象層通過虛擬化技術,負責對底層硬件資源進行抽象,對底層硬件故障進行屏障,統一調度資源池。核心是計算虛擬化技術,該技術提供主機CPU、內存、IO的虛擬化,并通過共享文件系統保證虛擬主機的遷移、HA集群和動態資源調度。云服務層是依托于原數據中心云平臺具備的云計算IaaS服務能力,為智慧運維管理平臺提供云存儲、云防火墻、云網絡等多種類型的云服務。云安全防護層為物理層、資源抽象層、云服務層提供全方位的安全防護。包括應具備的漏洞掃描、主機防御、網站防御、租戶隔離、認證與審計、數據安全等模塊。
3平臺功能設計
3.1平臺功能架構
功能架構劃分為兩個層次及兩大模塊,各層形成一個統一的整體,為數據中心提供云內資源的統一運維、監控及管理服務。智慧運維管理平臺的整體功能架構最底層是IT基礎設施層,即平臺的被管理對象,它包含數據中心范圍內運行使用的對象,包括網絡設備、服務器、計算存儲資源、系統應用軟件、虛擬化資源等。運行監控管理模塊實現對IT基礎架構統一監控,通過代理或免代理的方式實現數據采集和數據處理,實現對被管理運行對象的監控,掌握運行資源的配置狀況、監控對象的運行狀態和性能參數。業務服務管理模塊基于運行監控管理模塊的數據采集及數據處理信息,按照業務進行建模,展現業務的整體運行情況,進行業務預警和快速發現IT系統的根源故障。業務展示層,提供了多種展示視圖和方式,為不同的用戶提供不同的管理視圖,包括領導視圖、運維門戶、自服務門戶、業務展示視圖等。
3.2平臺詳細功能設計
具體功能包括業務管理、應用資源管理、容量管理、用戶體驗管理、自動化運維管理、告警管理、報表管理等功能。
(1)業務管理:實時展示各個業務系統當前的用戶體驗層狀態,IT基礎架構層運行狀態,IT架構層指標包括:健康狀態、繁忙程度、可用狀態、業務告警總覽。
(2)應用資源管理:對不同的業務系統、應用和網絡服務進行遠程監控和管理,從而充分滿足用戶對各種關鍵業務和數據中心的監控管理需求。
(3)網絡設備管理:提供設備的詳細信息,包括設備地址、運行時間、設備型號、版本、接口數量、登入方式、路徑拓撲展示、會話連接數、CPU利用率、內存利用率、端口流量速率、告警信息等監控,起到網絡性能管理、網絡配置管理、網絡資源管理等作用。
(4)存儲管理:平臺支持對業內主流存儲設備的監控與管理功能,可對支持并開啟相關協議的存儲設備進行統一管理。
(5)自動化運維管理:預先構建的合規性基準,合規性部署模板和修復措施,基于現有合規內容創建符合外部(如國資委、公安部、網信辦)監管要求的行業基準和策略。
(6)告警管理:通過實時告警關聯分析,屏蔽重復無效告警,分析生成根因告警;通過實時告警與拓撲提示、通過告警板聲光提示、通過手機短信及Email、微信等遠程提示,快速通知網絡管理員詳細準確的故障信息。
(7)報表管理:提供集中的報表管理平臺,實現對報表模板管理、Web報表設計管理、周期性報表管理和報表模板的發布,同時提供實時報表和周期性報表的查看。
3.3安全設計
安全設計包括鏈路安全上的防火墻、入侵防御、防病毒等以及日志審計、運維審計、漏洞掃描、數據庫審計等能力,從而使得智慧運維平臺能夠滿足國家安全等級保護三級的部署要求。為了完善國產化資源池與數據中心環境之間的安全隔離,國產化資源池接入區部署一臺國產化防火墻,實現國產化區域與非國產化區域之間的信息交互的安全可靠。
4技術路線
在滿足需求的前提下,采用應用國家創新的安全可靠的信息化設備;在滿足安全可靠要求的前提下,優先選擇成熟度高、適配性強的產品,確保系統的穩定性、可靠性;選擇符合相關標準協議的產品,確保產品間可互聯互通及今后的可擴展;軟件產品優先選用開放式體系架構的成熟產品,盡量減少自行開發工作,確保系統工作穩定。具體技術路線選擇上可以從平臺軟件、基礎硬件、兼容性和適配性四方面進行分析確認。
4.1平臺軟件選擇
針對國產化技術改造平臺類軟件進行國產化分析,所涉及的運維平臺、虛擬化等基礎平臺軟件,還包括國產化操作系統,數據庫,成品軟件相關。對于核心技術使用開源項目的軟件,需要進行分析,如對開源技術已進行深度定制開發,同時不受閉源影響,則可以選用。
4.2基礎硬件選擇
基礎硬件設施選用包括服務器、存儲、網絡、安全等硬件產品,按照核心部件和相關軟件的設計研發情況進行選擇,優先選擇獲得國家對安全可靠認證的產品。其他相關國產化產品需要進行可研分析,核心部件選用自主設計生產的產品;對于核心部件使用國外產品,而國內沒有可替代的產品,則需要進行專項分析。
4.3軟硬件兼容性
需要充分考慮所選擇的軟硬件產品與既有數據中心平臺環境的兼容性與適配問題。在對各廠商軟硬件產品分析,平臺軟件、基礎硬件選型過程中,需要充分論證各產品及其技術路線與現有數據中心平臺環境是否兼容適配。
4.4適配性測試
為確保軟硬件適配性及運行的穩定性,從需求分析審查、設計審查、代碼審查、單元測試、功能測試、性能測試、可恢復性測試、資源消耗測試、并發測試、健壯性測試、安全測試、安裝配置測試、可移植性測試、文檔測試以及最終的驗收測試等內容進行測試,及時發現平臺缺陷,分析錯誤產生的原因和錯誤的分布特征,提升平臺運行穩定性。
5平臺實踐
通過業務狀態分布圖直觀呈現業務系統整體運行情況,核心業務卡片實時展示各個業務系統當前的用戶體驗層狀態,IT基礎架構層運行狀態,IT架構層指標包括:健康狀態、繁忙程度、可用狀態、業務告警總覽。管理設備類型:除了傳統的路由器、交換機外,更能對網絡中的無線、安全、語音、存儲、監控、服務器、打印機、UPS等設備進行管理,實現設備資源的集中化管理。可以根據網絡情況設置多種選項和自動化配置;可以設置多套設備訪問參數,運維平臺將自動適配每個設備使用的參數;通過網段過濾設置可以更加有選擇性地發現網絡設備;結合定時發現設置可以周期性的掃描指定網絡,自動管理新加入網絡的設備。平臺還提供了豐富的故障檢測工具,例如ping、tracert、telnet等。當鼠標懸浮在某個網絡設備或者網絡鏈路上時,顯示網絡設備和網絡鏈路名稱、IP地址、物理位置、網絡互聯端口、物理跳線連接、負責人等基本信息,網絡鏈路雙向實時流量、網絡帶寬使用率、網絡時延、丟包率、錯包率和CPU利用率等性能信息。自動對管理的網絡設備資源進行周期性的狀態輪詢和配置輪詢,缺省的狀態輪詢周期是1分鐘,缺省的配置輪詢周期是2小時,用戶可以修改每個設備的狀態輪詢周期和配置輪詢周期。在輪詢的過程中,如果發現設備不可達、接口DOWN/UP等重要事件,平臺將產生相關告警通知用戶,同時會反映在設備的狀態上。平臺可以從存儲組、存儲設備,存儲池,存儲卷等多個層級對存儲設備進行監控與管理。所實現的功能包括將多個存儲設備組織成一個存儲組、在存儲設備上劃分存儲池,在一個存儲池中劃分存儲卷等。平臺提供了豐富的預定義報表模板,提供多種報表模板和圖表類型,能夠滿足大部分用戶的日常報表需求。并且可以基于預定義報表進行自定義設計,大大簡化了用戶自定義報表的工作量。可以多種形式展現網絡性能監控報表。
6總體效益分析
智慧運維平臺能夠從單一管理控制臺上獲取整個數據中心的運維狀況,更有效地了解各項服務的運行狀態、及時解決系統故障,從而提高整個數據中心的運維水平,并且提高計算資源利用率。
6.1提高業務應用管理水平
能夠感知業務應用系統整體運行狀態,發現業務系統存在的問題,定位業務故障根因,及時解決相關問題,保障業務系統的正常運行。并且提供領導決策分析、運維監控歷史數據分析依據,確保數據的真實性與有效性。通過分析歷史數據,生成性能、故障等的量化分析報告,為決策分析提供可靠依據。同時還可通過可視化的監控中心完成對信息系統的全面管理、數據保護、成本管理和風險控制,極大地提升了運營能力。
6.2提升業務運維能力
提供業務服務狀態和用戶體驗詳情綜合分析,實現業務故障早發現、早報告、早預警、早處置,保障業務高可用性。可以主動地在集群之間均衡工作負載,并且提供容量規劃功能,讓管理員更準確地分配資源,并且及時回收不再使用的資源。極大地提高了服務器的利用率,在滿足總體容量需求的同時減少了每年的硬件采購支出。
6.3加速國產化產品適配
實現對國產化計算資源的靈活調度與彈性分配,充分使用了網絡、服務器、安全、操作系統、數據庫、虛擬化等國產化產品,極大促進了國產化產品在交通行業內的影響力。
6.4保障信息系統自主可控
依靠自身研發設計,全面掌握產品核心技術,實現信息系統從硬件到軟件的自主研發、生產、升級、維護的全程可控,實現對信息系統安全監控管理,防止非法利用信息系統。直觀展現業務運行狀態,以可視化的方式進行故障定位分析,運維人員可以關注核心告警,快速解決現場問題,大大提升運維工作效率。
7展望
基于國產化數字產品及服務構建國產化資源池,兼容并適配既有軟硬件,建立數據中心智慧運維管理平臺,為數據中心部署的各類業務系統、服務器設備、存儲設備、網絡設備和安全設備提供統一監控、管理和運維。動態資源調整特性能夠整合服務器,降低IT成本,增強靈活性。所構建的統一指揮、聯網聯動、信息研判、資源調配、綜合管理為基本職能的管理平臺將為數據中心關鍵業務運行狀態發揮智慧監控與維護功能,提高各類信息應用系統日常運維的可視化程度、量化運行質量,提高IT系統運行效率,保障業務不間斷運行。下一步,國產軟硬件研發與適配分析仍是IT行業的重點研究內容,國產數字產品與服務替代仍是各行業的重點任務,全國各領域應積極推進自主平臺研發與國產軟硬件應用,為提升企業信息化建設水平、助力我國信息領域的自主創新及信息安全提供有力支撐。
參考文獻:
[1]劉建兵,王振欣,楊華,等.主動安全網絡架構與等保要求[J].信息安全研究,2022,8(01):28-34.
[2]曹龍,吉梁,朱彤.綜合性集團網絡安全水平評價指標體系構建與實證研究[J].信息安全研究,2022,8(01):101-108.
[3]張浩,秦宏波,侯震寰.上海市互聯網數據中心能效狀況研究[J].上海節能,2021(12):1359-1364.
[4]焦芳,張朝熙.自動撥測系統對數據中心業務保障的研究與實現[J].電子世界,2021(24):180-181.
[5]華日通訊自主研發國產化信號分析軟件產品[J].中國無線電,2021(12):7.
[6]寧金葉,徐謙,羅小麗,等.基于國產化軟硬件計算機的高可用集群軟件設計[J].電腦與信息技術,2021,29(06):37-40.
[7]趙琪,郭森科,潘成瑤.智慧運維管控平臺系統[J].中國交通信息化,2021(10):130-131+134.
[8]王新官.高速公路收費站智慧收費及運維系統[J].中國交通信息化,2021(08):107-109.
[9]盧士達,金玲麗,姚亦凡.智慧電力網絡安全態勢感知能力建設與提升——數據驅動從傳統運維轉型智慧運維[J].信息安全與通信保密,2021(08):60-67.
[10]徐世波,張林,郭延紅,等.智慧校園背景下的網絡運維綜合管理平臺設計研究[J].網絡安全技術與應用,2021(08):98-101.
[11]李勝杰,馬名東.智慧建筑運維管理平臺初探[J].智能建筑電氣技術,2021,15(03):16-19.
作者:郝志強 劉志勝 楊永杰 郗冬冬 單位:山西交通控股集團有限公司 山西省交通規劃勘察設計院有限公司