前言:想要寫出一篇引人入勝的文章?我們特意為您整理了畜產品下的大數據分析系統設計范文,希望能給你帶來靈感和參考,敬請閱讀。
摘要:畜產品安全與人們的生命安全和身體健康息息相關,近年來,畜牧業作為農業產業調結構、轉方式、提質量、增效益的主導產業和重要方向,基礎條件和發展模式發生深刻變化,進入產業化、規模化、集約化的高速增長新階段。在新的要求下,保證產品質量成為畜產品發展的首要要求,也是保障民生的重要內容,提高產品質量就要從提升畜產品檢驗檢測的工作質量上入手。文章對畜產品大數據分析系統的構建進行了全面的分析,為系統的開發提供理論的依據。
關鍵詞:畜產品;大數據;數據倉庫;監測分析
1畜產品大數據的現狀
在大數據時代下,人工智能、云平臺和高性能計算等技術的高速發展為畜產品智能檢測分析系統提供了重要的支撐。智能檢測分析系統的建構,有利于提升畜產品檢測的智能化,完善畜產品質量安全體系,推進農業信息化建設[1]。將畜產品檢測與大數據技術相結合,利用現代信息技術,通過采集海量碎片化的信息數據,準確的進行篩選、分析,并最終歸納、整理出政府和相關機構需要的資訊,構建一套畜產品檢測智能分析系統,實行及時有力的深度分析,整體提升畜產品檢測監管能力和水平,促進畜牧業產業健康、可持續發展。針對目前畜產品的檢測,其數據處理主要存在3個問題:(1)畜產品檢測注重檢測方法的使用和創新,檢測設備的培訓和升級,檢測人員的指導和培訓,而對檢測數據分析不夠重視,沒有深度發掘測試數據的潛在價值。(2)各類檢測機構眾多且互不統屬,有傳統的人工統計模式,還有利用軟件進行簡單分析的模式。此外實驗室所用大型儀器,廠家不同,操作軟件也不同,數據存儲和處理也不同,測試數據分散,導致數據收集困難。(3)畜產品數據的數據統計、分析與挖掘還比較滯后,需要向系統化、集成化、智能化的方向發展,缺乏相對應的畜產品檢測數據分析系統。
2大數據平臺的數據處理
2.1數據獲取
數據獲取是從數據源收集數據,數據源分為閉源數據和開源數據。閉源數據指的是和相關檢測機構合作獲取的內部數據,這部分數據可靠性比較高且不向外部公開,僅僅只作為分析統計使用,不能進行商業的應用。開源數據是指各檢測機構通過網絡的公開檢測數據,比較分散,可以利用爬蟲軟件進行抓取[2]。對開源數據進行收集時,首先是定時,每段時間對相關網站進行分析,觀察所檢測數據的更新情況。其次定量,要準確地識別出哪些是最新的、哪些是相關的內容。數據主要來源于國家、省、市、縣和具有檢測資質的企業等相關網站,這些數據都比較分散,需要進一步進行有意義信息的提取,比如:過濾冗余信息,集成互補性信息。這其中還存在很多問題,如信息的質量問題,哪些信息是有價值的、可信賴的。可以從可信溯源(信息的不同來源進行分析,省市級的信息比較重要和真實)、動態輪詢(根據后期分析和預測結果對數據源之前的重要性權重進行動態更新)做出判斷。采集數據分為結構化數據和非結構化數據,要區別對待。
2.2資源聚合
考慮到不同數據來源中數據特性的不同,對于結構化相對較好、關聯相對簡單的檢測機構知識庫數據,重點關注檢測指標實體(如樣品編號、測量對象、濃度等)的識別與消歧;對于采集的非結構化數據,重點關注基于所識別的測試指標實體,抽取數據中的命名實體及其實體之間的關聯。最后,研究知識融合方法消除知識元素間的知識冗余、知識沖突,以保證知識的精準性與可行度,構建可靠的畜產品檢測知識圖譜。針對復雜、迭代式的信息抽取與知識融合,使用具有高可擴展性、可容錯性的MapReduce架構(開源Spark系統),實現并發處理與調度。以研究人員為中心,針對數據的局部性,設計合理劃分策略,將大的數據集分為若干個容易處理的子數據集。根據劃分的策略,針對不同子數據集的特點,設計特有的清洗方法,提升局部數據質量。設計整體清洗策略,清洗多個子數據之間存在的錯誤、不一致等問題,提升整體數據質量。由于分區的清洗策略充分的考慮了數據的局部特征與整體特征,將顯著提高清洗效率和效果[3]。
2.3對多源異構數據的融合分析
畜產品檢測數據之間存在潛在的信息互補和信息冗余,對這些大規模數據進行融合分析和產品動態畫像的構建,能更加全面、有效地分析出畜產品質量異常發生的季節、地點、產生的原因等。針對數據的融合分析,本課題從兩個方面進行處理:(1)為了過濾掉畜產品數據之間的冗余信息,并且對有意義、高質量的互補信息進行提取,采用主成分分析(PCA)和知識圖譜的嵌入向量融合的方法,最終得到更加全面、準確的畜產品特征表示。(2)為了提高在下游任務中的性能,采用集成學習的思想對不同弱分類(或預測)器進行決策層的融合,比如在Flume的基礎上結合Spark實現梯度提升決策樹(GBDT)以及隨機森林(RF)算法的快速分布式融合。
3數據倉庫系統設計
數據倉庫能夠以不同的維度(如區域,時間等)、不同的粒度級別存儲數據,同時具有方便的擴展性,因此課題擬使用基于Hive的MapReduce+Spark雙計算引擎混合架構進行數據倉庫系統設計,通過和機器學習技術結合,無須人工干預和停機就能自動調優、修補、升級、監視和保護數據庫,以幫助疫病預測和制定戰略決策[4-5],系統設計如圖1所示。數據倉庫的主模塊包含HDFS、YARN、MapReduc、Spark和Hive。首先系統將多源異構數據匯聚到HDFS分布式文件系統,通過YARN對Hadoop集群和Spark集群的資源進行分配和管理,然后再利用Hive工具進行數據的管理和索引,再通過上層MapReduce和Spark計算引擎對數據進行查詢分析和計算。雙引擎的好處在于,可以依據業務計算需求的不同,通過配置或簡單命令隨時切換Hive計算引擎。MapReduce采用了多進程模型,便于細粒度控制每個任務占用的資源,但會消耗較多的啟動時間,對實時性要求不高或對穩定性要求較高的場景下使用MapReduce計算引擎;而Spark采用了多線程模型,雖然會出現嚴重的資源爭用,但有效地減少了中間數據傳輸數量與同步次數,對實時性有一定要求時使用Spark計算引擎。此外,根據項目的實際需要,添加以下模塊:(1)考慮到業務的擴展性,添加組件ZooKeeper,按需對集群節點進行擴容。(2)考慮到病情預警所需要的實時性,添加組件SparkStreaming對數據進行流處理,為實時流處理提供平臺。(3)考慮到數據源多樣性,添加組件Graphx對圖片類型數據進行處理。(4)考慮到和機器學習技術結合,添加機器學習庫SparkMlib。
4結語
傳統產業與現代信息技術結合,已經成為畜牧業創新發展的制高點。大數據時代,畜牧業在產前、產中、產后各鏈條、各環節產生大量的數據,如何分析、挖掘、開發和利用大數據技術對海量數據進行相關分析,對畜牧業發展做出準確預測,對畜牧業生產經營管理者進行正確指導和選擇合適的技術行為,是畜牧大數據開發的關鍵,畜產品檢測作為畜牧業安全保障的關鍵一環,需要加快信息資源整合,讓數據轉起來、用起來,讓決策有依據,大數據分析必不可少。
[參考文獻]
[1]邵航,宋英華,李墨瀟,等.我國食品安全與數據科學交叉研究的科學計量學分析[J].食品科學,2019(10):1-18.
[2]許世衛.畜牧業信息監測與大數據分析技術及展望[J].獸醫導刊,2019(15):6-7.
[3]趙志.教育大數據統計分析平臺設計與研究[D].西安:西安理工大學,2019.
[4]韓太武.第八師動物衛生監督互聯網+大數據智能監管平臺設計[D].石河子:石河子大學,2016.
[5]金磐石,朱志,沈麗忠.融合大數據技術架構在大型商業銀行海量數據分析的應用[J].計算機系統應用,2018(10):46-53.
作者:楊毅 單位:河南牧業經濟學院