前言:想要寫出一篇引人入勝的文章?我們特意為您整理了可視化技術下的市場監管大數據分析系統范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:為提高機構改革期間市場監管部門工作效率,本文提出了一種基于可視化技術的市場監管大數據分析系統。系統將源自多個部門的數據進行清洗后存入數據倉庫,通過J2EE平臺調用數據分析模型對數據進行分析,并通過可視化工具以圖、表等形式對結果進行可視化輸出。實用結果表明,該系統提供了有效的決策參考,提高了市場監管干部的工作效率。
關鍵詞:大數據;可視化;數據倉庫;市場監管
引言
運用大數據技術來加強對市場主體的服務和監管,是促進政府職能轉變、簡政放權和優化服務的有效手段,也是近年來的發展趨勢[1]。國務院辦公廳的《國務院辦公廳關于運用大數據加強對市場主體服務和監管的若干意見》中要求,各級政府部門都要充分認識運用大數據技術加強對市場主體服務和監管的重要性,通過運用大數據技術來提高對市場主體的服務水平、加強和改進新形勢下的市場監管能力,并以此為動力推進政府和社會信息資源的開放和共享,提高政府部門運用大數據技術的水平。為了進一步加強和改進市場監管方法,提升市場監管部門的市場主體服務能力,順應大數據時代潮流,運用大數據技術加強對市場主體的服務和監管,促進政府職能轉變,做好簡政放權和優化服務,在現有軟硬件資源的基礎上,整合原工商、質監、食藥監、物價、知識產權等相關部門各個業務系統的數據,建設基于可視化技術的市場監管大數據分析系統。基于可視化技術的市場監管大數據分析系統由數據倉庫、大數據分析軟件及相關軟硬件設備組成。
1系統架構
系統采用松耦合、高聚合、多層次和面向服務的體系結構,堅持功能實用、接口規范和高響應時效的原則,采用J2EE架構和多服務器、虛擬化和集群化的部署方式。支持Oracle、mysql、SqlServer、DB2等主流數據庫,支持Hadoop分布式系統基礎架構。采用了兼容性較好的B/S模式,并結合當前科技創新工作的要求,支持Linux系統客戶端下的火狐、谷歌等主流瀏覽器。系統的基本架構如圖1所示。系統的數據源來自原工商、質監、食藥監、物價、知識產權等多個部門不同廠家、不同版本的業務軟件,經過數據清洗模塊對各部門的數據進行整理、清洗,存入數據倉庫。J2EE平臺調用數據分析模型接口對數據倉庫中的數據進行分析,并通過可視化工具以圖、表等形式對結果進行可視化輸出。
2數據預處理
由于數據源所在的數據產生部門、數據庫廠商和版本各不相同,數據庫中表結構的差異較大,必須先對從各數據源中抽取的數據進行預處理,將清洗整理過的數據存儲到數據倉庫中,才能把數據完整、有效地提供給數據分析模塊進行分析,并對分析產生的結果進行可視化輸出。
2.1源數據抽取針對多部門不同的數據庫系統,都開發了相應的數據庫接口進行數據抽取,對于未采用數據庫進行存儲的數據,則通過從軟件用戶端界面手動導入的方法進行抽取。抽取到的源數據保存在前置數據庫中。前置數據庫提供了自定義表結構功能,用戶可通過數據導入模塊自行定義表結構和數據表中的字段屬性,以便靈活導入未經過事先定義的數據。以市場監管工作中的反不正當競爭監管數據為例,通過數據抽取模塊將行政執法的基本數據(案件號,案件名稱,當事人,案值,處罰金額,立案時間等)導入系統后,系統將數據自動轉化并存儲至前置庫的數據表中,數據表中相關字段的屬性自動根據導入的字段類型進行判斷,若表中部分字段內容缺失,系統先以默認值填充,待數據清洗時進一步處理。前置庫中的行政執法信息數據如表1所示。
2.2數據清洗
數據清洗是對前置庫中的數據進行校驗和審查的過程[2]。數據清洗的目的是刪除前置庫中的重復信息、糾正錯誤數據,并將字段值的單位進行統一[3-6]。來自各部門的歷史數據往往存在數據重復、無效值、空值等實際情況,需要對其進行數據清洗后再存儲到數據倉庫中以供進一步分析展示使用。對源數據的數據清洗主要采用以下方法進行。對源數據中屬性值均相等的數據視為重復信息,將其進行合并處理,只保留一條重復的數據。對源數據中的存在空值的不完整信息,若某個屬性存在的空值過多,且該屬性對所展示的問題不是特別重要,則刪除該屬性;若該屬性僅存在少量空值,則判斷該屬性與其它屬性間的相關性,存在相關性的根據其他屬性的值和相關規則推測該屬性的值,無法推測的保留空值。若處理后的某條數據存在的空值仍然過多,則將此條數據刪除,否則保留此條數據并保留空值。對源數據中日期等格式不規范的數據進行格式轉換,將不同的數據格式轉換成統一格式。清洗后的數據存儲在數據倉庫中,供數據分析模型和可視化工具讀取并產生可視化分析結果。
3基于可視化技術的大數據分析系統
利用數據可視化工具,開發市場監管大數據可視化平臺,將處理過的市場監管數據以多種類型的圖、表等形式直觀地展現出來,并對展現出來的信息進行標注、解析、匯總和分析,系統能直觀的顯示出市場主體的基本概況、發展趨勢、風險預警等信息。
3.1數據可視化技術
數據可視化技術是通過算法和工具對多維的信息空間進行定量的處理和計算,將大型數據集中的數據處理后以圖形圖像形式表示出來,從而將數據中隱藏的信息直觀地展現給用戶[7-9]。目前數據可視化技術已經提出了多種方法,根據原理的不同可以劃分為面向像素的技術、基于幾何的技術、基于圖像的技術、基于圖標的技術、基于層次的技術和分布式技術等[10-12]。
3.2市場監管大數據分析系統
市場監管大數據分析系統運用大數據技術來提高市場監管部門的公共服務能力,對市場主體事中后監管數據進行高效的采集和整合。系統利用市場監管大數據,制定規范了市場監管大數據標準體系,將大數據分析結果作為提高市場監管治理能力重要手段,不斷提高服務和監管的針對性和有效性。市場監管大數據分析系統主要包括數據倉庫平臺及分析展示平臺兩大部分。數據倉庫平臺將原有各單位業務軟件中的數據進行抽取,進行清洗及格式轉換后存儲在數據倉庫中;大數據分析展示平臺將數據倉庫中的數據通過建模,以可視化的方式將結果展示給市場監管人員,提高市場監管部門的公共服務能力和事中事后監管水平。數據分析平臺包括綜合查詢、業務分析、風險預警、決策支持、綜合分析等主要功能模塊及年報監控、統計報表等輔助功能模塊。系統的主要功能模塊如圖2所示。其中,大數據分析工具主要采用集成了報表引擎、全文檢索引擎、多維分析引擎、數據挖掘引擎及數據可視化組件中的BI工具實現。通過數據可視化BI組件,為用戶提供應用層各功能模塊的分析結果可視化輸出,實現了市場主體分析的GIS熱力圖、放射性樹狀圖、標簽云等各類圖形和報表輸出等功能。
4系統實用效果
市場監管大數據分析系統通過對數據倉庫中登記注冊、信用監督、特種設備、食品藥品安全、知識產權等幾大數據源的數據進行抽取、清洗等預處理,將預處理后的數據進行挖掘分析,并對結果以圖、表等可視化方式輸出,效果簡潔直觀。市場監管大數據分析系統的每個模塊根據業務種類劃分子模塊,每個子模塊均支持多種方式的可視化輸出,為市場監管人員提供決策支持。系統可對各類數據進行分析統計,形成特定的圖表,可通過自定義條件對分析數據進行篩選,點擊圖表上的相關內容可向下一級進行鉆取,查看下一級的分析圖表。圖3是上年各月度行政執法立案和處罰數趨勢圖。由圖3中可以看出,上一年第二季度的行政執法立案數和處罰數較多;前三季度行政執法立案數和處罰數基本呈現正相關聯系,而第四季度由于市場監管政策變化,行政執法處罰數出現明顯下降;2月份由于傳統假期,行政執法立案數和處罰數都明顯較少。圖4是市場主體分布情況的GIS熱力圖顯示,根據市場主體的分布密度不同顯示出不同的顏色。市場主體的分布密度越大,GIS熱力圖中的顏色就越深,市場主體分布密度小的區域顏色越淺。由圖4可以看出,濱湖區和新吳區的市場主體分布密度較大,主要原因是這兩個區的高新科技產業園較多,市場主體主要集中在產業園及其周邊;對郊區而言,工業集中區及其周邊的顏色較深,傳統農業鄉鎮的熱力圖顏色較淺,結果符合該市城鄉發展的實際情況。
5結束語
隨著市場監管部門機構改革的推進,如何將分屬多個部門多個系統的數據有效整合并分析運用成為急需解決的問題。通過基于數據可視化技術的市場監管大數據分析系統,將松散的數據進行整合和清洗,并進行有效的分析和可視化輸出。經過市場監管部門的實際使用,系統中的綜合查詢、業務分析、風險預警、決策支持等功能模塊有效提高了市場監管干部的工作效率,為新時期的市場監管工作提供了直觀的決策參考。
參考文獻:
[1]張維維.基于大數據的市場主體監管體系建設[J].信息技術,2016(5):187-190.
[2]李蕾.大數據環境下相似重復記錄數據清洗關鍵技術研究[D].南京:南京郵電大學,2019.
[5]蔡鐘杰,雷斌,張偉.關于重復記錄數據清理算法研究[J].信息技術與信息化,2013(4):32-34+40.
[6]張荃,陳暉.基于最小哈希的重復數據清洗方法[J].通信技術,2019,52(11):2653-2658.
[7]徐永順.基于意象圖式的多域異構數據可視化設計研究[D].無錫:江南大學,2019.
[8]李明灝,潘剛.博物館館藏文物數據可視化分析[J].計算機與數字工程,2019,47(11):2850-2855.
[9]李磊,魯興河,康警予,等.一種基于知識圖譜的數據檢索與可視化方法[J].計算機與網絡,2020,46(5):61-64.
[10]梅鴻輝,陳海東,肇昕,等.一種全球尺度三維大氣數據可視化系統[J].軟件學報,2016,27(5):1140-1150.
[11]曾悠.大數據時代背景下的數據可視化概念研究[D].杭州:浙江大學,2014.
[12]何兆成,周亞強,余志.基于數據可視化的區域交通狀態特征評價方法[J].交通運輸工程學報,2016,16(1):133-140.
作者:羊斌 寧麗 單位:無錫市市場監督管理局