前言:想要寫出一篇引人入勝的文章?我們特意為您整理了大數據分析平臺安全問題及建議范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:隨著大數據技術的發展,大數據分析在各領域的作用也越來越重要,隨之而來的安全問題也開始凸顯。大數據系統具有服務分布式、數據海量和多樣化等特性,對傳統數據安全和網絡安全技術提出了新的要求。本文以人民銀行湖南省大數據分析平臺為例,從系統安全、網絡安全及數據安全三個方面入手,分析存在的問題,提出措施建議。
關鍵詞:大數據;分析平臺;安全
2017年人民銀行科技工作會議提出:“構建以大數據為支撐的央行決策平臺、以分布式系統為核心的央行服務平臺、以數字貨幣探索為龍頭的央行創新平臺”。人民銀行“長沙中支”迅速行動,組織開展了人民銀行湖南省大數據分析平臺的建設工作。加強了大數據分析技術的學習和研究,對大數據分析平臺的可行性進行了論證,召開年度信息化項目立項審批會,將“大數據分析平臺”列為年度信息化建設項目。經過多月開發測試,人民銀行湖南省大數據分析平臺上線運行。2017年11月至今,完成系統生產環境部署及近3年相關業務數據導入,平臺運行情況良好,各項功能達到或超過設計要求。
1應用效果
人民銀行湖南省大數據分析平臺采用大數據領域的先進技術框架,順應大數據技術發展趨勢,便于技術的跟蹤、升級。從目前來看,大數據平臺運行效果較好,能夠滿足業務數據大規模存儲、分析、挖掘的需要。一是為海量業務數據提供了存儲空間。該平臺能夠存儲海量數據,設計存儲量可滿足未來10年幾十億條數據的存儲。二是能在海量數據下,完成快速計算、快速統計。目前數億數據量情況下,根據任意條件,精確、快速定位到對應記錄,查詢時間小于5秒。用戶進行數據統計生成圖表,相應時間在2秒以下。三是提供了多種數據展示手段,讓數據可視化。根據業務需求,該平臺提供對數據的多樣化統計、分析,以報表、多維分析、圖表等形式進行展現,為決策提供可靠的數據支持。
2存在問題
人民銀行湖南省大數據分析平臺的成功應用,為履職提供了強有力的支撐,但在應用過程中,也發現存在一些安全隱患。下文結合大數據安全和傳統數據系統安全之間的差異,分析人民銀行湖南省大數據分析平臺存在的安全問題。(1)缺乏全局的安全防護體系一是大數據環境下的安全模式發生改變。在傳統數據系統中,數據來源及用途,對于安全維護人員都是可知可控的,因而可以建立起有針對性的安全保護措施。但是在大數據系統中,數據海量,數據來源多種多樣,一些不經意的問題可能造成無法預料的結果。二是大數據系統的應用催生了網絡攻擊的新手段。傳統網絡攻擊手段,主要以癱瘓數據系統或竊取數據為主,攻擊方式較為直接,目的性強。而在大數據系統中,可持續攻擊(APT)被運用得更為廣泛,攻擊持續時間長,攻擊行為也更為隱蔽,給防護帶來困難。因此,大數據安全需要具有全局的思路,綜合考慮數據的傳輸、存儲和處理過程的安全,建立多角度的防護體系。目前人民銀行湖南省大數據分析平臺的安全依賴于傳統的安全防護策略,尚未建立針對大數據系統的全局安全防護體系。(2)未實施有效的網絡隔離方案大數據系統中,網絡安全防護體系的建設難度較傳統數據系統高。一是由于分布式的服務器和離散的數據采集,使得訪問控制的配置難度提高,容易出現配置漏洞,造成非授權數據訪問風險。二是數據在網絡中流動非常頻繁,而傳統網絡保護的方式對于較大較復雜的網絡往往力不從心,無法將監控和保護部署到每個網絡節點,數據在流動中被竊取的可能性大大提高。目前人民銀行湖南省大數據分析平臺部署集中在省級數據中心,但是為了快速提供對外服務和同原有數據系統進行數據交換,大數據系統未同原有數據系統之間采取隔離措施,大數據系統復用了現有的存儲網絡和應用網絡,未使用獨立的安全域,這給大數據系統帶來了網絡方面的安全隱患。(3)數據泄露風險大、溯源難度高大數據系統中各種數據存儲在一起,如果未采取相應的措施進行安全等級分類,可能出現違規獲取的情況。另外,進行數據分析時,由于未進行數據細粒度權限控制,可能出現數據無法按需調用的情況。數據出現泄露情況后,由于數據來源復雜,使用量大,數據泄露的追蹤和溯源難度高。目前人民銀行湖南省大數據分析平臺數據來源于單一業務,使用人員也集中在單一部門,數據安全風險較低。平臺擴展后,數據來源廣,人員復雜,數據安全風險激增,勢必需要將數據安全防護體系與大數據系統同步規劃、同步建設、同步使用。
3加強大數據平臺數據安全的措施建議
3.1加強大數據系統本身的安全防護水平
(1)建立集中審計系統,對Hadoop的數據訪問和使用進行安全審計。由于Hadoop自身沒有審計系統,同時各組件的日志和審計記錄都分別存儲于組件內部,想通過Hadoop自身完成全范圍的安全審計幾乎不可能。可以通過建立一個集中審計系統,從各組件中收集日志及審計記錄,進而集中存儲、分析,完成全系統安全審計。通過審計系統加強大數據系統責任管理,將數據安全責任落實到每個使用人身上。(2)使用加密認證機制替代簡單認證機制。Hadoop中簡單機制是默認設置,根據客戶進程的有效UID確定用戶名,只能避免內部人員的誤操作。使用加密認證機制替代簡單認證機制,可更好地確保Hadoop集群的可靠性、安全性。目前,普遍采用的較為安全可靠的是Kerberos認證機制。Kerberos認證機制支持集群中服務器間的認證和Client到服務器的認證。Kerberos可以將認證的密鑰在集群部署時事先放到可靠的節點上,集群運行時,集群內的節點使用密鑰得到認證,認證通過后的節點才能提供服務,企圖冒充的節點由于沒有事先得到密鑰信息,無法與集群內部的節點通信,無法非授權使用或篡改Hadoop集群。
3.2建立有效的網絡隔離機制
(1)建立獨立的網絡安全域供大數據平臺使用。通過使用網絡防火墻和交換機ACL策略,結合主機自身防火墻和遠程登錄配置,限制大數據平臺的外部訪問。通過防火墻映射等方式,保護大數據應用WEB服務。(2)通過流量分析系統等網絡安全設備,建立針對大數據系統的網絡數據分析報告。通過對日志信息、流量數據等的采集、分析,可以對大數據系統的網絡流量、網絡行為等信息有整體的了解,從而制定針對性的網絡安全防護策略。
3.3對敏感數據進行隔離監控
(1)建立敏感數據保護視圖,加強數據分級。可根據數據的不同來源,在大數據平臺中建立數據保護視圖。根據用戶的等級權限和業務需求,采用分級別保護的方式讓用戶接觸不到業務需求之外的數據,當數據使用者使用敏感數據時應有提醒。(2)建立數字水印機制,使泄密數據可以溯源。數字水印是指將一些標識信息直接嵌入數字載體(包括多媒體、文檔、軟件等)當中,且不影響原載體的使用價值,也不容易被探知和再次修改。但生產方可以探查并通過這些標識信息確認數據來源。數字水印機制在數字版權保護系統中被廣泛使用,并被認為是有效的。數字水印在大數據中的應用,主要在于兩個方面:一是利用數字水印隱蔽和不可篡改的特性,判斷數據傳輸過程中是否遭到篡改;二是通過數據水印探測,對數據泄露進行溯源。基層央行大數據平臺可在數據源和數據分析結果中使用數字水印機制,一方面保證數據源的可用性;另一方面保障數據分析結果安全,當數據出現泄漏時,可及時發現并溯源。(3)對敏感數據進行脫敏處理。數據脫敏是指對敏感信息通過脫敏規則對數據進行變形,實現敏感數據的保護。數據脫敏的主要方法有:一是加密方法,采用標準的加密算法,加密后完全失去業務屬性;二是基于數據失真的技術,使用隨機干擾、“亂序”等方式,不可逆的打亂數據,通過這種算法可以生成“看起來很真實的假數據”;三是可逆的置換算法,兼具可逆和保證業務屬性的特征,可以通過位置變換、表映射、算法映射等方式實現。脫敏后的數據,既不影響大數據的分析、挖掘,又可有效地保護數據安全。當用戶使用央行大數據平臺中的數據時,應根據用戶權限和數據用途等,對調用的數據進行脫敏處理,既可保證大數據的充分使用,又可防止敏感數據泄漏。
參考文獻:
[1]何利文,李杰,陳向東.面向大數據的軟件定義安全服務[C].第二屆CCF大數據學術會議論文集,2018.
[2]中國信息通信研究院安全研究所.大數據安全白皮書(2018).
[3]朱建波,李萍,于炯,廖彬.改進的kerberos協議在HDFS環境下的研究[J].計算機工程與設計,2014(10).
[4]朱倩,李雪燕.數字水印技術在大數據安全保護中的應用[J].軟件導刊,2016(15).
作者:譚旺 單位:中國人民銀行長沙中心支行