前言:想要寫出一篇引人入勝的文章?我們特意為您整理了環境監測數據分析中層次聚類分析應用范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:層次聚類分析作為一種常用的聚類分析方法,能有效識別環境監測數據集中的隱藏關系。文章主要介紹了層次聚類分析在水、大氣、土壤等環境監測數據分析中的應用,提出以熱圖形式優化層次聚類分析可視化結果,并對熱圖在土壤污染狀況調查項目的應用進行展望。
關鍵詞:層次聚類分析;環境監測數據分析;熱圖;應用
引言
定期的環境監測會積累龐大而復雜的化學數據集,越來越多的研究者開始關注數據集中的內在關系。多元統計分析是研究多變量相互之間關系的統計分析方法,是環境監測數據分析的有力工具。常用的多元統計分析包括聚類分析、主成分/因子分析、判別分析等,其中聚類分析不僅用于環境管理研究,而且在環境監測領域發揮巨大作用。聚類分析可識別變量間的隱藏關系,僅用一小部分因子表示,且沒有損失太多數據信息,有利于研究者快速掌握環境介質污染狀況,判別各介質中潛在的污染來源[1]。
1聚類分析方法介紹
聚類分析也稱集群分析、分類分析或數值分類,其基本思想是按照所研究的樣品或變量之間存在相似性或不相似性,以一些能夠度量樣品或變量之間相似程度的統計量作為劃分類型的依據,將數據分為若干類別,使類別內樣品(或變量)差異盡可能小,類別間差異盡可能大。通常用距離來度量樣品之間的相似性,用相似性系數來度量變量之間的相似性,結果以聚類樹狀圖顯示。聚類分析是一種探索性分析,按聚類的方法可分為層次聚類法、非層次聚類法等。其中,常用的是層次聚類法,也稱系統聚類法,其實質是根據變量或樣品之間的親疏程度,從最相似的對象開始,逐步聚成一類[2]。按照分析的對象不同聚類分析也可分為樣本聚類(Q型聚類)和變量聚類(R型聚類)。該文將主要介紹層次聚類分析在環境監測數據分析中的應用。
2層次聚類分析在環境監測數據分析中的應用
層次聚類分析作為一種常用的聚類分析方法,可有效降低原始監測數據集的維度,簡化數據的復雜程度,以監測點位、時間、指標和污染評價結果等為對象進行聚類分析,便于分析各指標時空分布特征及指標間的相關性。適用于不同環境介質監測過程獲得的數據。近年來,層次聚類分析作為傳統多元統計方法,常用于地表水、地下水、大氣和土壤環境監測數據分析[3]。對地表水體的監測點位和時間進行層次聚類分析,可得到若干點位集群和時間集群,監測點位和時間的層次聚類分析結果可作為采樣斷面和頻率優化的重要依據,可有效降低采樣成本[4][5]。除分析監測數據集的時空變化特征外,層次聚類分析也用于監測指標的統計分析,便于判別污染來源。秦文婧等對柳江煤礦所在區域的地下水中的離子進行層次聚類分析,得到不同離子的相似來源,有助于分析煤礦對區域地下水水質造成的影響[6]。層次聚類分析同樣適用于大氣污染物時空分布特征研究和污染溯源。陳楊歡等在分析上海市大氣PM2.5時空分布特征時引入層次聚類法,揭示不同季節和地理位置的大氣PM2.5濃度相互關系[7]。劉杰等對陜西省某工業園區春季大氣降塵中的重金屬進行聚類分析,判斷該工業區重金屬污染主要受金屬冶煉、交通運輸和燃煤等影響[8]。相對水和大氣環境的環境監測,土壤環境監測頻次較少,監測數據集通常由空間維度不同指標監測濃度組成。因此,層次聚類分析法也可適用于土壤環境污染物的空間分布特征分析和污染溯源方面。方淑波等在研究浦東新區土壤重金屬沿城鄉梯度分布特征時引入層次聚類分析不同金屬的空間差異性,識別出城市土壤重金屬環境風險的優先控制區域[9]。通過對土壤污染物指標的聚類分析,可協助識別污染源。如有研究者以鉛鋅尾礦區的11種重金屬為研究對象,采用層次聚類分析等統計學方法判斷尾礦區重金屬來源[10]。層次聚類分析在城市、農村等土壤環境污染溯源方面取得了較好的效果,但該方法在建設用地土壤污染狀況調查數據統計分析中的應用鮮有報道[11]。利用層次聚類分析具體地塊土壤污染調查監測數據集,既可體現污染物在采樣點位的分布特征,又能判別檢出污染物之間的相似程度,有助于深入剖析地塊土壤污染狀況和污染來源。此外,土壤監測數據層次聚類分析結果可佐證資料收集、人員訪談、現場踏勘等工作階段識別的污染源,間接反映出前期調查的完整度和準確度。
3層次聚類分析可視化結果的優化
層次聚類分析結果以聚類樹狀圖顯示,僅能顯示單個維度的分析結果。將樣本和變量之間的層次聚類分析結果進行組合,可呈現兩個維度的聚類結果,對于數據的分析和表達將更有效。Laursen等建立了雙層次聚類分析,用于識別在正常情況和肝硬化時丹麥人、格陵蘭因紐特人體肝組織中的元素之間的相關性和協同作用[12]。雙層次聚類分析同樣適用于環境監測領域。Ma等檢測了黃河的三個區域沉積物中重金屬的濃度,水平系統樹圖中包括重金屬與pH、總碳、總有機碳和地區生產總值的聚類結果;垂直系統樹圖是采樣位點的聚類結果[13]。由此可知,雙層次聚類分析結果體現更多的數據集信息和統計分析結果。熱圖是一種常見的可視化方法的形式,可將多維數據以二維的方式完全直觀地呈現,并用顏色梯度變化來表示數值的大小[14]。熱圖已在在群落生態學、生物分類學與系統學等方面應用廣泛[15]。環境監測獲得的數據集通常包括時間、空間、指標等多維度信息,熱圖對層次聚類分析結果的可視化也有利于解釋實際環境數據,但將熱圖應用于環境監測數據集的統計分析的研究較少。采用熱圖解析環境監測數據和相關污染指標之間的相關性,既可保留原始數據的完整性,也能顯示雙層次聚類分析結果。因此,在環境監測數據集的分析中利用熱圖分析監測結果更為直觀,且有助于污染溯源分析。
結語
層次聚類分析有助于識別環境監測數據集中的內在聯系,能較好地應用于環境污染物時空差異性分析和污染溯源。目前,該方法主要用于大尺度空間領域的環境監測數據統計分析,而在實際項目中的應用較少。鑒于熱圖在統計分析和可視化方面的優勢,該方法完全可用于具體土壤污染狀況調查項目。通過熱圖分析監測數據集,挖掘闡釋污染物間的相似性以及空間上差異性,以提高污染源識別的有效性和精準度。
作者:汪宇鵬 單位:上海市政工程設計研究總院