前言:想要寫出一篇引人入勝的文章?我們特意為您整理了智慧水利建設遙感數據處理問題探析范文,希望能給你帶來靈感和參考,敬請閱讀。
[摘要]按照“需求牽引、應用至上、數字賦能、提升能力”的要求,從推進算據、算法、算力建設的角度詳細闡述了遙感大數據的特征和并行處理研究現狀,梳理了目前先進處理平臺的理論、方法、技術和最新進展,討論了當前階段所面臨的問題,并提出了一種網格計算和云計算平臺相結合的云格遙感大數據處理平臺設計框架,旨在為推進智慧水利建設中急需解決的遙感數據處理問題提出解決方案,為推進智慧水利建設提供支撐。
[關鍵詞]智慧水利;遙感大數據;空天地一體化;云計算;云格
隨著治水矛盾發生深刻變化、治水思路的相應調整,智慧水利建設面臨著新的形勢和新的挑戰。在加強以數字化、網絡化、智能化為主線,以數字化場景、智慧化模擬、精準化決策為路徑,加快構建具有預報、預警、預演、預案功能的智慧水利體系的新要求下,迫切需要全面推進算據、算法、算力建設,提升數據處理能力。隨著我國信息化建設不斷推進,信息技術應用越來越廣泛。遙感影像的四高(高時間分辨率、高空間分辨率、高輻射分辨率和高光譜分辨率)化和五多(多區域、多角度、多時間、多傳感器和多平臺)化發展,使得利用光學、熱紅外和微波等不同技術形成的空天地一體化對地觀測系統獲取的不同區域的多種遙感數據堆積成觀測地球空間的海量數據“金字塔”[1]。遙感數據已成為地理國情監測和分析的主要數據來源,其含有大量資源環境信息,可結合水土保持學、水文學和災害學等多學科交叉進行綜合分析。在具體應用中,水土保持監測、水資源管理、水環境監測、水利工程監測、防洪抗旱和水土保持碳匯等情境中所體現出的遙感數據的時效性特點對處理所需精度和速度提出了更高的要求。相對于海量遙感影像的存儲、處理和共享等流程的龐大計算量,運用串行處理方式的普通計算機和價格高昂的專用計算機系統遠不足匹配當下實時高效的遙感數據處理應用需求[2],而目前大力發展的高性能并行計算技術在數據處理的實時性、算法的自動化程度、具體應用的規模化求解方面都得到了極大的提升。本研究按照“需求牽引、應用至上、數字賦能、提升能力”的要求,從推進算據、算法、算力建設的角度詳細闡述了遙感大數據的特征和并行處理研究現狀,梳理了目前先進處理平臺的理論、方法、技術和最新進展,討論了當前階段所面臨的問題,并提出了一種網格和云計算平臺相結合的遙感大數據處理平臺設計框架,旨在為推進智慧水利建設中急需解決的遙感數據處理問題提出解決方案,為推進智慧水利建設提供支撐。
1遙感大數據
現代社會生產生活中80%的信息包含地理空間信息。作為地理空間信息的主要來源,遙感大數據的處理和分析直接關系到“國家大數據戰略”“智慧水利建設”的實施成效。根據中國信息通信院2020年12月的《大數據白皮書》,預測到2035年全球數據生產總量將高達2142ZB。遙感數據量正呈指數級增長,日益成為政府、企業和科研機構直接快速提取信息的重要途徑[3]。遙感大數據的特點有:①容量大。全球各個系列的航空航天平臺已經積累超大容量的遙感數據,且以每天幾百TB的速度不斷增長。②類型多。遙感數據的來源豐富、獲取手段多樣,除了全球分布的觀測網絡實時接收的大量遙感數據,還有航拍所得的遙感數據,以及民眾用戶通過互聯網和帶有地理信息的手持終端設備提供的個性化信息。③效率高。遙感大數據處理并得到結果的速度越快,效率就越高。遙感大數據本身高效性的體現仍取決于數據處理環節。目前的數據處理速度遠跟不上數據獲取速度,在實際應用如應急救災、實時監測等對數據要求較高的領域,數據處理技術面臨著極大的挑戰。④穩定性差。運用衛星、無人機等獲取遙感數據的過程中,受地物環境、傳感器和大氣環境等因素的干擾,獲取的遙感數據穩定性存在較大差異。特別是受模型近似度影響,遙感數據的穩定性規律難以把握。⑤差異性大。目前收集到的遙感數據有光學衛星遙感數據、模擬航片、數字航片和雷達衛星遙感數據等,不同種類遙感數據的數據格式、組織單元、元數據格式、波段組合、元數據編碼方式各異。⑥價值高。各種遙感數據能反映地物的不同屬性,從中能提取出環境、水文、氣象、森林、農作物產量、城市格局、軍事目標和交通信息等多種信息,這些信息對政府決策、科學研究等具有極高的價值。
2遙感大數據的并行處理
目前遙感大數據的研究工作正處于蓬勃發展階段,但是采集獲取與有效處理間的巨大落差是限制其潛力充分挖掘的關鍵。數據向知識的極低轉換效率會導致數據不停堆積,這種存儲和使用間的不對稱關系所引發的后果對數據本身來說也是災難性的。
2.1并行處理
遙感圖像數據存儲具有的關聯性、規律性特點和遙感圖像數據處理具有的順序性、一致性特點為遙感圖像數據的并行計算創造了條件。遙感數據的并行處理算法的設計宗旨是在有限的時間和空間內處理更多的遙感圖像數據。并行處理算法是基于多節點協助處理開展的,把處理任務分解為多個并行部分,各個并行部分由所接節點單獨計算完成,具體可以分為任務并行和數據并行,并行處理流程見圖1。目前針對集群環境圖像并行處理流程的任務分配和調度策略方面的研究成果相對較少,研究成果主要集中在對多核并行的研究,特別是對一種任務多種數據并行機制的研究。開展并行計算是提升傳統串行計算效率和跨越性能門檻的發展趨勢,與串行計算相比,并行計算可分割為多流程、同時間、多空間、多處理器并行完成,極大提升了有限資源的運用效能[4]。在進行串行運算時,海量遙感數據處理算法所具有的系統性會對計算機的運行內存做出最低程度的限定,這種系統性特征也導致了基礎數據并行化計算模型不能對遙感數據的系統信息進行有效獲取,從而無法收獲科學有效的分析結果。以常見的遙感影像分割為例,分割算法決定了遙感數據處理與分析能否科學有效,只有建立在科學分割結果的基礎上,才能深入進行信息提取與目標識別,收獲理想效果。因此,開展高性能、低投入、具有可持續生產力的“面向全局的局部運算”算法研究就顯得尤為重要。
2.2分布式并行遙感文件系統
對于海量遙感數據的存儲,通常由多模塊硬盤搭建的磁盤陣列來完成。為了實現項目組或實驗室等范圍內部的數據共享,一般采取存儲局域網等方式[5]。局域網間由光纖相互連接,但這種方式的運轉依然受硬盤讀寫速度的限制。為充分發揮多塊硬盤的讀寫能力,以GPFS、Lustre、PVFS等為代表的分布式文件系統被引入到遙感數據的存儲中。最初的分布式文件系統不會區分數據和元數據,系統會將數據與元數據設置相同的物理存儲地址。隨著客戶端的劇增,目前通用的遙感影像分布式處理系統GFS、Lustre采取把數據和元數據分別放置的模式,將其置于不同服務器上,數據由應用服務器存取,元數據由元數據服務器存取,解決了受磁盤吞吐量決定的服務器處理能力問題,大大增強了文件讀取的效率。GFS作為Google云計算的主要基礎架構組成,分管遙感影像數據的存儲。GoogleEarth即采用GFS存儲遙感影像數據和地理空間文件,為廣大用戶提供瀏覽和應用服務。
3高性能遙感大數據處理平臺
傳統遙感處理系統存在不支持并行處理、可擴展性差、數據吞吐量較低等問題,無法滿足當前形勢下的遙感大數據處理需求。隨著計算機結構由單核向多核化架構的轉變,高性能數據處理系統在遙感數據處理中的應用越來越多,包括集群高性能處理系統、網格計算處理系統、云計算處理系統,以及具有超強處理能力的云格數據處理系統等。高性能遙感數據處理平臺的應用極大緩解了遙感數據處理中的大數據量、大計算量、大并發訪問量等問題[6]。
3.1基于超級計算機集群的遙感大數據處理平臺
超級計算機由數以萬計的處理器、獨立設計的內存系統及I/O系統組成。計算機集群是一種由多類分散的計算機軟硬件構成的超大規模計算集群系統。實際應用中為應對使用超級計算機的高昂代價,研究人員提出了一種新的解決思路,即通過高速網絡把使用COTS的計算機設備組成一個集群的概念,以低成本提供高計算能力。這種策略經常被稱為Beowulf類型集群計算。在這種策略的指導下越來越多的成本低廉的計算機集群系統被廣泛地運用于遙感數據處理領域[7]。在國內,中國科學院已購置多套機架式和刀片式集群用于遙感數據的處理實驗,有效驅動了基于GPU集群的計算模型和多核GPU集群系統的混合編程等研究課題的發展。遙感數據處理的特點是龐大的數據量和復雜的處理算法,同時它們的獨特性在于遙感影像自身的相似性。根據這一特點我們可將其切割成塊獨立運行,再將運行結果合并得到最終成果,這樣就可極大地提高集群的處理能力,滿足快速化、高效化、規模化的處理需求,其原理如圖2所示。通常處理遙感數據的集群規模組成從幾個到數萬個節點不等,根據節點的數量可進行分類,具有較多節點的集群環境亦可稱之為超級計算機。建立這種處理遙感數據的集群環境的構架必須符合以下三大條件:集群環境必須具有兩個或兩個以上能夠進行數據流通的互通互聯的計算節點;集群本質上是一種呈分布式的內存結構,必須能夠完成并行化的遙感數據處理過程,即用集群環境處理的遙感數據可以進行拆分且能夠并行化執行;集群環境必須具有并行編譯的環境,如編譯器、消息傳遞接口等。在對計算機性能要求較高的高分辨率影像提取和高光譜影像處理等領域實驗發現,隨著集群環境節點數量的增加,完成計算任務的效能在一定程度上得到了提升,但兩者間并非呈正比關系[8],只有當計算節點數量和計算量適當均衡時,系統的性能才會顯示出最大的效率。目前基于集群思想和當前硬件結構條件,研究人員已經開發出一批高效的遙感數據處理系統,具有代表性的有武漢大學研發的數字攝影測量網格軟件、法國的像素工廠軟件等。
3.2基于網格計算的遙感大數據處理平臺
網格計算通過對分布式資源———計算機、傳感器、儀器、存儲設備、軟件和數據等的合理調配,實現在非集中控制的環境下完成大數據量和大計算量的遙感數據處理任務。網格中間件作為網格計算處理的核心,這種分布式異構環境中的標準服務接口為數據和算法提供了一個無縫整合的環境,為分布于各地的用戶提供協同式的服務,實現在整個廣域網范圍內的計算資源共享。長遠來看,網格計算需要在網格通信協議、計算資源分配、網格安全認證等關鍵技術方面實現突破。基于網格計算的遙感大數據處理平臺,不僅實現了基礎層面上的資源優化共享,而且能利用各類數據資源為具體的應用服務,解決遙感大數據的存儲、共享和計算問題。但目前技術領域仍存在一些問題,比如:并不是所有的遙感處理算法都適合網格計算平臺上的并行化處理;當前的算法技術仍未達到對海量遙感數據的大吞吐量處理要求,需要對目前可適用但并不成熟的處理算法進行優化改進;網格計算平臺設施本身的可靠性、系統的穩定性和數據存儲與共享的安全性等方面仍有待完善。
3.3基于云計算的遙感大數據處理平臺
云計算是對分布式計算的進一步發展,是一種由虛擬化的計算資源構成的并行的、分布式的系統,能夠根據服務提供者擁有的資源和用戶的需求將共享的軟硬件資源以事先約定好的服務等級協議進行分配。云計算一般包含基礎設施層、平臺層和應用層三層,能夠提供基礎設施即服務(IaaS)、平臺即服務(PaaS)、軟件即服務(SaaS)和遙感數據即服務(RdaS)等至少4種形式的服務,解決了當前遙感大數據處理時出現的數據密集型、計算密集型和瞬時訪問密集型等諸多問題。(1)基礎設施層。基礎設施即服務(IaaS)處于最低層級,用戶可以通過互聯網從基礎設施獲得服務,包括硬件、海量存儲和數據庫等具體形式。基礎設施即服務可依據具體的科學計算優化資源,使計算單元、存儲單元和并行單元等與其所需任務相匹配。(2)平臺層。平臺即服務(PaaS)處于中間層,它可以針對遙感影像的數據挖掘算法、相關參數提取、現象動態模擬等具體處理對開發環境進行抽象的封裝,也就是說將服務器平臺和開發環境作為一個整體服務提供給用戶。(3)應用層。應用層處于云計算體系結構的頂端,包含軟件即服務(SaaS)和遙感數據即服務(RdaS)兩種模式。針對遙感大數據海量、多維度、分布各異的特點,遙感數據即服務模式提供的數據瀏覽和使用服務可進行多位置軟件引用,用戶無需額外購買軟件即可通過遙感數據即服務模式享受云計算體系內的軟件服務,這一點優于軟件即服務模式。一個基于云計算平臺的遙感數據處理系統應該包含數據存儲模塊、數據管理模塊、數據分析與處理模塊、GIS應用模塊和云計算環境模塊等。根據這種系統架構可以模擬出一種云計算體系結構下的遙感大數據處理平臺,如圖3所示。該平臺主要由4個子系統、1個服務器群及1個數據庫群組成,它利用云計算服務模式將系統內所存遙感數據開放共享,整體上優化了遙感大數據處理,并且這種開放式的系統可以及時王雋雄等:推進智慧水利建設急需解決的遙感數據處理問題研究·76·完成自我維護和資源更新,從而提高遙感數據處理與分析效率。
3.4基于云格的遙感大數據處理平臺
網格計算著重于提供任務分解后的并行計算,而云計算在此基礎上實現了抽象資源的平臺化服務,如果能將兩種技術結合應用實現互補,則將實現遙感大數據的處理技術質的飛躍。李德仁等[9]對遙感大數據自動分析和數據挖掘進行了理論層面的研究。曾志等[10]提出利用云計算增強網格基礎設施的機制實現云計算和網格的集成,達到資源虛擬化管理,并提出了基于網格計算和云計算環境下的資源與服務一體化的異構資源統一建模方法。在此背景下,基于云格的遙感大數據處理平臺應運而生。在云格平臺中,云可以是數據服務云、軟件服務云、硬件環境服務云,亦或是兩種或多種組合服務云,也包含私有云(由第三方提供的付費服務)、公有云(一個單位內部共享的數據服務)和混合云(包含公有云和私有云兩種)。由于云計算平臺和網格計算平臺的聯合應用研究仍處于實驗和研究階段,因此目前并沒有一個成熟的應用范例。將網格平臺和云平臺優化整合實現云格平臺架構的方法和機制靈活多樣,在云格平臺中,以網格平臺為基礎在計算和存儲等基礎設施方面提供保障,再通過統一的標準規范將云計算平臺和網格平臺提供的服務進行整合,兩種平臺間亦可以實現數據的傳輸和共享,共同實現高效率的數據處理。基于以上思路,本研究提出可以將多種云計算平臺和網絡計算平臺按照統一的標準規范利用聚合工具構建出一個統一開放的云格服務平臺。在這個開放的云格服務平臺中,云計算平臺和網格計算平臺兩種系統共存且互不影響,兩種系統都以各自的方式整合資源,這樣不僅能充分發揮出網格計算平臺的超強計算與存儲潛力,而且能集成云計算平臺的云存儲、云處理、云組裝和云服務優勢,設置一個統一的管理中心用以實現兩種資源與其他資源間的傳輸與調配,整個系統始終以一種開放的狀態不斷進行著自我完善和更新,用戶可以通過統一的賬戶入口快速訪問相關資源和鏈接所需服務。
4結語
隨著推進智慧水利建設新形勢的要求和信息技術在廣度和深度層面的不斷突破,遙感大數據“質”的進步和“量”的積累帶來了一場新的機遇和挑戰。如何實現“數據向知識,知識向決策”的迅速轉化是目前急需解決的問題,而開展遙感大數據的高效處理研究提供了新的思路和方法。在以地理空間信息服務為主的大數據時代,面向“智慧水利建設”的新要求,數據資源已成為關鍵生產要素,是“數字化場景、智慧化模擬、精準化決策”的“新能源”,而推進遙感大數據算據、算法、算力建設必然會在水土流失防治、水資源管理、水環境監測、水利工程監測、防洪抗旱和水土保持碳匯研究等具體領域發揮巨大作用。
作者:王雋雄 李陽 王宇菲 單位:水利部水土保持監測中心 黃河水利委員會 自然資源部