• <input id="zdukh"></input>
  • <b id="zdukh"><bdo id="zdukh"></bdo></b>
      <b id="zdukh"><bdo id="zdukh"></bdo></b>
    1. <i id="zdukh"><bdo id="zdukh"></bdo></i>

      <wbr id="zdukh"><table id="zdukh"></table></wbr>

      1. <input id="zdukh"></input>
        <wbr id="zdukh"><ins id="zdukh"></ins></wbr>
        <sub id="zdukh"></sub>
        公務員期刊網 精選范文 計算機大數據論文范文

        計算機大數據論文精選(九篇)

        前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的計算機大數據論文主題范文,僅供參考,歡迎閱讀并收藏。

        計算機大數據論文

        第1篇:計算機大數據論文范文

        1.1大數據的發展

        通過對大數據的匯集、智能分析和挖掘技術,發現數據中的潛在價值信息,幫助人們做出正確決策,這就是大數據產業的利益。國外大數據的起步比較早,比較成功的大數據應用案例有:商業龍頭沃爾瑪公司通過對消費者的購物數據進行分析,了解顧客的行為喜好,對超市的商品結構進行搭配重置以增加銷售額;亞馬遜公司通過大數據構建自己的推薦系統,每年可以靠此多收益20%;奧巴馬通過大數據分析系統進行數據挖掘,用科學的手段獲取選票、募集資金,贏得了總統競選的勝利。相比于國外,國內的大數據研究和應用還處于起步和發展中的階段,比較成功的案例有:淘寶數據魔方平臺,通過大數據,為買家量身打造完善的購物體驗產品;新浪微博大數據產品,通過大量的社交數據,創造不同的社會經濟價值等。

        1.2云計算的發展

        云計算可以像電力資源一樣提供彈性的按需服務,事實上它是集合了一系列的服務提供給用戶。云計算的核心可分為三個層次,分別為基礎設施層、平臺層、應用層,如圖2所示。云計算將基礎設施、軟件運行環境、應用程序抽象成服務,具有可靠性高、可用性強、規模可伸縮等特點,滿足了不同企業的發展需求,各個云服務提供商根據各自服務對象的差別分別開發了各具特色的云服務。(1)基礎設施即服務層基礎設施即服務(InfrastructureasaService,IaaS)層通過部署硬件基礎設施對外提供服務,用戶可以根據各自的需求購買虛擬或實體的計算、存儲、網絡等資源。用戶可以在購買的空間內部署和運行軟件,包括操作系統和應用程序。消費者不能管理或控制任何云計算基礎設施,但能控制操作系統的選擇、存儲空間、部署的應用,也有可能獲得有限制的網絡組件(如防火墻、負載均衡器等)的控制。云服務提供商為了使硬件資源得到更有效的利用,引入了Xen、KVM、VMware等虛擬化技術,使得云服務商可以提供更個性化的IaaS服務。亞馬遜彈性云計算(AmazonElasticComputeCloud,AmazonEC2)是亞馬遜Web服務產品之一,AmazonEC2利用其全球性的數據中心網絡,為客戶提供虛擬主機服務,讓使用者可以租用云服務運行所需應用的系統。(2)平臺即服務層平臺即服務(PlatformasaService,PaaS)層是指云計算應用程序開發和部署的平臺,包括應用設計、應用開發、應用測試和應用托管,都作為一種服務提供給客戶。開發者只需要上傳代碼和數據就可以使用云服務,而無需關注底層的具體實現方式和管理模式。鑒于PaaS平臺的重要意義,國內外廠商根據各自的戰略提出了相應的PaaS平臺,國外的如GoogleAppEngine(GAE),通過GAE,即使在重載和數據量極大的情況下,也可以輕松構建能安全運行的應用程序。國內也有新浪的SAE(SinaAppEngine)、阿里的ACE(AliyunCloudEnginee)等。(3)軟件即服務層軟件即服務(SoftasaService,SaaS)層是為云計算終端用戶提供基于互聯網軟件應用服務的平臺。隨著Web服務、HTML5、AJAX、Mashup等技術的成熟與標準化,SaaS應用近年來發展迅速,典型的SaaS應用包括GoogleApps、SalesforceCRM等。國外云計算平臺比較成功的應用案例有:亞馬遜電子商務網站根據用戶的購買行為和搜索技術搭建Hadoop集群,構建推薦系統;Twitter社交網站搭建Hadoop分布式系統用于用戶關聯的建立。國內云計算平臺的成功案例有:阿里巴巴目前整個集群達到1700個節點,數據容量達到24.3PB,并且以每天255TB的速率不斷攀升;2013年,華為推出國內首個運營云平臺,目前為止與該平臺簽訂協議的ISV有3000多家。

        1.3云計算相關技術

        (1)分布式文件系統分布式文件系統(GoogleFileSystem,GFS)[3]是Google公司針對云計算過程處理海量數據而專門設計的。一個GFS集群由一個主節點和多個從節點組成,用戶可以通過客戶端訪問文件系統,進行正常的文件處理工作。在云計算中,海量數據文件被分割成多個固定大小的數據塊,這些數據塊被自動分配到不同的從節點存儲,并會在多個節點進行備份存儲,以免數據丟失。主服務器管理文件系統記錄文件的各種屬性,包括文件名、訪問控制權限、文件存儲塊映射、塊物理信息等數據。正是通過這個表,文件系統可以準確地找到文件存儲的位置,避免數據丟失,保證數據安全。圖3是GFS的體系結構示意,每一個節點都是普通的Linux服務器,GFS的工作就是協調成百上千的服務器為各種應用提供服務。(2)分布式并行數據庫BigTableBigTable[4]是一個為管理大規模結構化數據而設計的分布式存儲系統,可以擴展到PB級數據和上千臺服務器。很多Google的項目使用BigTable存儲數據,這些應用對BigTable提出了不同的挑戰,比如對數據規模的要求、對時延的要求。BigTable能滿足這些多變的要求,為這些產品成功地提供了靈活、高性能的存儲解決方案。BigTable采用的鍵是三維的,分別是行鍵(RowKey)、列鍵(ColumnKey)和時間戳(Timestamp)。行鍵和列鍵都是字節串,時間戳是64位整型;值是一個字節串,可以用(row:string,column:string,time:int64)string來表示一條鍵值對記錄。(3)分布式計算框架MapReduceMapReduce[5]是Google公司提出的大數據技術計算框架,被廣泛應用于數據挖掘、海量數據處理以及機器學習等領域,由于其并行化處理數據的強大能力,越來越多的廠商根據MapReduce思想開發了各自的云計算平臺,其中以Apache公司的Hadoop最為典型。MapReduce由Map和Reduce兩個階段組成。用戶只需要編寫簡單的map()和reduce()函數就可以完成復雜分布式程序設計,而不用了解計算框架的底層實現。MapReduce的數據分析流程如圖4所示。分布在不同服務器節點上的海量數據首先通過split()函數被拆分成Key/Value鍵值對,map()函數以該鍵值對為輸入,將該鍵值對進行函數處理,產生一系列的中間結果并存入磁盤。MapReduce的中間過程shuffle()將所有具有相同Key值的鍵值對傳遞給Reduce環節,Reduce會收集中間結果,并將相同的Value值合并,完成所有工作后將結果輸出給用戶。MapReduce是一個并行的計算框架,主要體現在不同的服務器節點同時啟動相同的工作,并且在每個獨立的服務器節點上又可以啟動多個map()、reduce()并行計算。

        2基于云計算的大數據處理

        目前大數據處理的基本流程如圖5所示,整個流程經過數據源的采集,用不同的方式進行處理和加工,形成標準的格式,存儲下來;然后用合適的數據計算處理方式將數據推送到數據分析和挖掘平臺,通過有效的數據分析和挖掘手段,找出大數據中有價值的信息;最后通過可視化技術將信息展現給人們。

        2.1數據采集存儲

        大數據具有不同結構的數據(包括結構、半結構、非結構),針對不同類型的數據,在進行云計算的分布采集時,需要選擇不同的數據采集方式收集數據,這也是大數據處理中最基礎的一步。采集到的數據并不是都適合推送到后面的平臺,需要對其進一步處理,例如來源不同的數據,需要對其進行加載合并;數據存在噪聲或者干擾點的,需要對其進行“清洗”和“去噪”等操作,從而保障數據的有效性;數據的格式或者量綱不統一的,需要對其進行標準化等轉換處理;最后處理生成的數據,通過特定的數據庫,如NoSQL數據(Google的BigTable,Amazon的Dynamo)進行存儲,方便進行下一步的數據讀取。由于傳統的數據倉庫無法適應大數據的存儲要求,目前基于云計算的數據倉庫都是采用列式存儲。列式存儲的數據具有相同的數據類型,可以大大提高數據的壓縮率,例如華為的云存儲服務MOS(MassiveObjectService)的數據持久性高達99.9%,同時提供高效率的端到端保障。

        2.2數據計算模式

        這一環節需要根據處理的數據類型和既定目標,選擇合適的計算模型處理數據。由于數據量的龐大,會消耗大量的計算資源,因此,傳統的計算技術很難使用大數據的環境條件,取而代之的是分而治之的分布式計算模式,具有代表性的幾種計算模式的特點見表1。采用批處理方式計算的Hadoop平臺,例如,Facebook擁有全球最大規模的Hadoop集群,集群機器目前超過3000臺,CPU核心更是超過30000個,可以存儲的數據量能夠達到驚人的40PB;采用流處理方式計算的Storm平臺分布式計算的時延比Hadoop更?。粚崟r處理方式計算的Spark是一種基于內存的計算模式,例如,Yahoo運用Spark技術在廣告營銷中實時尋找目標用戶,目前在Yahoo部署的Spark集群有112臺節點和9.2TB內存;交互處理方式計算的Dremel在處理PB級別的數據時耗時可以縮短至秒級,并且無需大量的并發。

        2.3數據分析挖掘

        數據分析挖掘環節是從海量數據中發現隱藏規律和有價值信息的過程,這個環節是大數據處理流程最為有價值和核心的部分,傳統的數據分析方法有機器學習、商業智能等。傳統的數據挖掘十大算法[6](其中有K-Means、Na觙veBayes、SVM、EM、Apriori等)在云計算環境下都得到了大幅度的并行優化,在大數據的背景下,計算速度得到了很大程度的提升?,F在新興的深度學習是原始機器學習的一個新領域,動機是在于建立、模擬人腦進行分析學習的神經網絡,它模仿人腦的機制來解釋數據,這種新的數據分析挖掘技術已經在計算機視覺、語音識別、自然語言處理等領域有了成功的應用。

        2.4數據解釋展現

        將挖掘出來的復雜信息進行數據解釋和展現是整個大數據處理流程的最后一個環節,數據分析的結果需要向客戶進行恰當的展現。與傳統的數據輸出和文本展示等方式不同,現在絕大部分的企業都通過引進“數據可視化”技術來展示大數據分析的結果信息,這種方式以圖像、動畫等方式,形象地向客戶展現數據處理分析的結果,也容易被客戶理解和接受,更為先進的是,現在逐步形成的“交互式可視化技術”,大大地方便了數據與人之間的“親密交流”。目前面向大數據主流應用的可視化技術見表2。

        3大數據和云計算的未來挑戰

        大數據需要超大存儲容量的計算能力,云計算作為一種新的計算模式,為大數據的應用研究提供了技術支持,大數據和云計算的完美結合,相得益彰,發揮了各自的最大優勢,為社會創造了巨大的價值。雖然國內大數據和云計算的研究還是處于初步階段,但隨著研究的不斷進行,所面臨的問題也越來越多。在大數據向前不斷邁進的階段里,如何讓我們對大數據的研究朝著有利于全人類的方向發展成為了重中之重。

        3.1重要戰略資源

        在這個信息社會里,大數據將會成為眾多企業甚至是國家層面的重要戰略資源。國家層面要將大數據上升為國家戰略。奧巴馬在2012年3月將“大數據戰略”上升為最高國策,像陸權、海權、空權一樣,將數據的占有和控制作為重要的國家核心能力。大數據資源也會成為各種機構和企業的重要資產以及提升企業社會競爭力的有力武器。在大數據市場里,客戶的各種數據信息都會為企業創造價值,也會在促進消費水平、提高廣告效應等方面扮演重要的角色。

        3.2數據隱私安全

        大數據如果運用得當,可以有效地幫助相關領域做出幫助和決策,但若這些數據被泄露和竊取,隨之而來的將是個人信息及財產的安全問題得不到保障。2011年索尼公司遭到黑客攻擊,造成一億份客戶資料泄露,經濟虧損約1.71億美元。為了解決大數據的數據隱私安全問題,Roy等在2010年提出了一種隱私保護系統,將信息流控制和差分隱私保護技術融入到云計算平臺中,防止MapReduce計算過程中的數據泄露問題。在數據更新飛速的情況下,如何維護數據的隱私安全成為大數據時代研究的重點方向。

        3.3智慧城市

        人口的增長給城市交通、醫療、建筑等各方面帶來了不小的壓力,智慧城市就是依靠大數據和云計算技術,實現城市高效的管理、便捷的民生服務、可持續的產業發展。在剛剛結束的“兩會”的政府工作報告中,總理也特意強調了智慧城市發展的重要性,目前國家智慧城市試點已遍布全國各地,多達409個。智慧安防、智慧交通、智慧醫療等都是智慧城市應用領域。智慧城市的建設也趨使大數據人才的培養。據預測,到2015年,大數據將會出現約100萬的人才缺口,全球將新增440萬個與大數據相關的工作崗位來填補這個空缺。

        3.4能源消耗

        第2篇:計算機大數據論文范文

        統計學論文2300字(一):統計學方法的發展及其在大數據中的應用論文

        【摘要】現階段,統計學方法在我國企業管理中有廣泛應用。本文嘗試對統計學方法的誕生以及發展情況進行了簡要的分析,同時還對統計學方法在現今大數據時代的應用情況進行了探索。

        【關鍵詞】統計學方法發展大數據應用

        對于統計學方法來說,誕生的最初只是為了進行單純的計數以及描述,隨著統計學方法的不斷發展,其所涉及到的內容更加多樣化。在統計學家以及各個領域專家的不懈努力之下,統計學方法正在不斷的進步以及完善,在實際應用的過程中也發揮出了較為理想的效果。在現階段大數據的時代背景之下,對統計學進行深入探究是非常重要的,會對今后多個行業的快速發展起到促進作用。

        一、統計學基本發展探析

        對世界統計學的發展情況進行分析,會發現,其與科學界的發展趨勢較為類似,隨著統計學的不斷完善,也開始與其他科學進行融合發展。對統計學進行總結,可以發現,其主要具備兩個基本結合趨勢,即與實質性學科結合的趨勢以及與計算機學結合的趨勢。對于統計學來說,其與經濟學結合發展我國有廣泛的應用,并且產生了經濟統計這一專業;而統計學與教育的結合產生了教育統計。對于這些分支學科來說,其具有雙重屬性。一方面是統計學的分支;另一方面是實質性學科的分支。隨著計算機信息技術的不斷發展,其運算能力不斷提升,這也使得大規模的統計調查工作在實際展開的過程中取得了理想效果,不僅保證了數據計算的準確性,同時也保證了計算的高效性。因此,在進行統計學技術研究發展的過程中,與計算機技術的深入結合應用是重要發展途徑。通過對計算機軟件的有效應用可以使統計計算過程中一些疑難的部分得到有效解決,同時也使得統計計算的展開更加方便。從現階段我國經濟類統計專業的教育情況來看,一方面在對統計方法進行創新教育,另一方面在對學生利用商品化統計軟件包裝能力進行提升。由此我們可以看出,在今后統計學的發展過程中,勢必不能離開計算機技術的支持。在今后統計學相關專業的教育過程中,應該對學生的計算機程序設計以及利用能力進行培養提升,使得在展開統計工作的時候可以通過統計模型的編程來實現。

        二、統計學方法在大數據中的應用趨勢

        (一)統計學方法及相關領域的動態分析

        目前,國內外對統計學都有較為廣泛的應用,主要應用在教育行業、生產制造行業以及企業管理當中,取得了較為理想的應用效果。根據CNKI數據庫中統計方法、機器學習分布情況可以看出,在機器學習領域的論文數量從2013年以后一直呈現出持續增長的勢頭,并且在2016年超過了統計方法領域的論文數量。由此可以說明,我國在機器學習領域的發展速度正現出穩定提升的趨勢,反映了我國在大數據領域研究方面越來越深入,所應用的研究方法也開始呈現出多樣化的特點。從總體上來看國內在統計學方法研究過程中已經取得了階段性的成果,并且其所面臨的拐點與國家上的統計學發展拐點基本保持一致,大概都是在2013年開始對大數據以及將其學習等方面有了深入的探究,并且開始逐漸取得突破性的成果。而機器學習方法的論文數量都是在2016年開始超過統計方法的論文數量。但是與此同時,我們也看出其差異性也很明顯,國內在統計方面研究的論文以及在機器學習方法方面研究的論文與國際相比較尚且存在較為明顯的差距,并且這種差距呈現出了持續性的特點,這也使得我國在這兩個領域方面還有很大的發展空間。

        (二)統計學方法及相關領域研究方向分析

        經過對CNKI數據庫中的統計方法以及大數據領域期刊論文分布情況進行分析之后,可以看出,統計方法領域中出現頻次最高的是“統計分析”以及“數理統計”、“人工智能”;在大數據領域出現頻次較高的是“云計算”、“圖書館”以及“物聯網”等關鍵詞。通過上述關鍵詞來看,其所涉及到的內容都是反映當前我國統計以及大數據技術所研究的重點以及熱點,同時我們也可以看出,現階段我國在統計與大數據領域方向的研究存在著一定的重合。在進行的數據研究的時候,需要應用到統計學方法,同時統計學方法在利用的時候往往也需要與大數據進行結合。

        (三)統計學方法的發展展望

        有數據的地方勢必就會涉及到統計學。從17世紀開始,國勢學派以及算數學派的爭論到今天大數據計算、計算機技術的相互作用,使得統計學的內容正在不斷完善,并且其應用領域也在不斷擴大,隨著大數據時代的來臨,使得傳統的統計學發展方向發生了一定轉變,開始從小樣本的統計推斷分析走向大數據量的挖掘分析,從而使其所掌控的數據量不斷提升。在未來統計學方法發展的過程中,應該注意將統計學與新的數據思維相結合,從而產生一種新型的、應用范圍更廣的大數據算法。從現階段我國大數據方法創新發展的情況來看,其與國際研究在深度以及廣度上還存在不小的差距,這也恰恰說明了我國在大數據統計學方面還有很大的進步空間?,F階段,國內的大數據研究更多的是停留在信息化產業上,與其他行業的融合發展趨勢尚且不明顯,這也使得信息服務以及數據產業的創新發展受到了一定影響。在今后統計學發展的過程中,其研究熱點勢必會從數據分析以及數據發掘向算法方向轉移,這樣也使得大數據技術與統計學方法二者之間的聯系更加緊密。

        結束語

        綜上所述,我國統計學方法在今后發展過程中應該充分考慮到實際需求,積極適應時代變化,現階段大數據時代已經全面到來,并且大數據技術在我國有廣泛應用,在實際應用的過程中取得了較為理想的效果。將大數據與統計方法進行結合可以使統計學方法的作用得到更好的體現,也使得統計學方法不斷的進步以及拓展,在大時代背景之下,其功能性得到了更加充分的展現。

        統計學畢業論文范文模板(二):線上線下混合式教學在生物統計學教學中的實踐與研究論文

        [摘要]為提升生物統計學課程的教學水平,針對傳統生物統計學教學中的局限,分析和實踐基于線上網絡教學+線下面授教學的混合式教學模式在生物統計學教學中的應用策略和方法。實踐表明,通過線上+線下的互動與教學,能激發學生學習的興趣與動力,豐富生物統計學的教學形式與內容,促進生物統計學教學質量的提升。

        [關鍵詞]線上線下;混合式教學;生物統計學;實踐

        [作者簡介]嚴明(1981—),女,重慶人,博士,講師,研究方向:生物技術。

        [中圖分類號]G642[文獻標識碼]A[文章編號]1674-9324(2020)25-0273-02[收稿日期]2020-03-18

        生物統計學是生物醫學類專業的必修課程,學生通過學習本課程掌握實驗設計的原理和方法,并學會對實驗數據進行統計分析和處理。然而,生物統計學涉及到大量基礎理論,單純通過教師講解,學生理解度較低,學習效果不佳。如何在有限的課時內,改革傳統的以講授為主的教學方式,有效提高教學效果是生物統計學教學亟待解決的難題。

        近年來,隨著互聯網信息技術的發展,一種基于線上網絡教學+線下面授教學的混合式教學模式應運而生。該模式可避免傳統教學模式中以教師為主導,學生學習主動性差的缺點,又可克服學生完全在線學習缺乏監管、學習效果不佳的困難。本文嘗試將混合式教學方法運用到生物統計學教學中,以期在有限的教學時間內最大限度實現教學目標,提升課程教學效果。

        一、線上線下混合式教學的概念及內涵

        線上線下混合式教學是一種新興的教學模式,授課教師利用網絡教學平臺向學生提供教學視頻和課件等教學資源,并設置作業、調查等互動模塊,學生利用課外時間自主完成學習任務,并通過平臺與教師交流。在線下課堂,教師根據學生在線學習的情況,對疑難問題進行有針對性的講授,幫助學生理解、掌握教學難點。

        線上線下混合教學模式打破了教學的時空限制,學生可以靈活安排學習時間,通過學習在線資料提出問題,并帶著問題進行課堂學習,有效提升學習效率。線上線下混合教學還可幫助教師動態掌握學生學習情況,生成客觀的過程性評價材料,并豐富課程的教學形式,拓寬教學路徑,因此正逐漸成為高等教育領域的一大趨勢。

        二、生物統計學課程教學面臨的困境

        1.教學時長受限。目前,本校生物統計學面向生物醫學工程和醫學信息工程專業開設,每學期共32個課時。由于教學內容抽象,而且學生要通過大量實踐才能掌握統計學原理在生物研究中的應用,因此,教學難度高,課堂教學時間很難滿足教學需求。

        2.教與學不同步。傳統教學模式下,教師與學生之間的溝通以課堂為主,教師按照教學安排按部就班地進行教學,對學生需求重視不足;學生缺乏主動反饋的意識,教師很難掌握學生的真實學習狀況,教與學處于不同步狀態。

        上述困境對如何拓展教學時間,完成課程教學并指導學生學以致用提出了新的挑戰。

        三、線上線下混合式教學在生物統計學教學中的實踐探究

        1.構建線上教學平臺,實現課前線上自主學習。授課教師首先以超星泛雅平臺和學習通APP為依托構建線上教學平臺。教師在平臺上將課程每章的重難點列示出來,搭建課程框架體系,并上傳包括課件和教師根據課程知識體系錄制的教學視頻等資料。教學視頻時長控制在15分鐘以內,并保證精煉、易懂,讓學生不會因視頻過長而放棄觀看,提高學習時效。同時,在教學平臺提供視頻配套的課件資料,方便學生下載并配套觀看。教師還在平臺設置了視頻彈幕問答和闖關式章節測試,學生通過答題和測試后才能進入后續章節的學習。

        在教學實踐中發現,線上教學平臺還可以為理論教學提供良好的拓展實踐平臺。教師可以在線上平臺提供實驗設計及實驗數據分析的實例供學生練習,實現對課時壓縮的有效彌補。學生普遍反映網絡教學平臺十分有利于自主學習,尤其是遇到知識難點時,學生可以通過反復線上觀看教學視頻來幫助理解,能達到較好的學習效果。

        此外,線上教學平臺可以通過視頻回放次數、測試完成程度等數據統計幫助教師了解學生之間的差異性,既方便教師掌握學生學習狀態,分析存在的問題,也為線下課堂教學提供依據,在后續教學中因材施教,滿足不同層次學生的個性化學習需求提供依據。

        2.線下檢測自主學習效果,實施針對性教學。采用線上線下混合模式教學,課堂教學的任務發生轉移。教師要集中精力對知識點進行梳理和歸納,并針對重難點以及學生在線上學習過程中的困難進行答疑解惑和查漏補缺。在教學實踐中,為完成上述任務,在每個章節的線上學習完成后均安排答疑和小組討論,讓每位學生通過多種方式修正和完善遺漏或理解錯誤的知識點。全部授課結束后,授課教師向學生發放了關于教學效果的調查問卷,結果顯示,78.2%(18/23)的學生認為采用混合式教學方法可以把重要知識點學透,在課堂上有更充裕的時間進行消化吸收,更有利于教學內容的掌握。

        在線下教學中,教師還對教學場景進行了編排和優化。教師提供具體的實驗案例,并以某一具體實驗案例(如抗癌藥物篩選)為背景貫穿整個課程教學始終,模擬真實實驗場景,讓學生從實驗參與者的角度設計實驗流程、整理實驗數據、統計分析和解讀呈現的全部流程。幫助學生實踐生物學研究提出假說—實驗驗證—得出結論的基本流程,理解生物統計學對生物學研究的重要指導作用,培養學生知識遷移、應用和分析并解決科學問題的能力。

        3.課后回顧學習并提升。在課堂教學完成后,師生的教學活動都還沒有結束。教師要對線上線下教學過程中容易出現的問題進行整理總結,并將解決方案到網絡平臺,供學生回顧性學習。學生要對課堂上遇到的問題,搜集學習資料進一步思考和鞏固。教師還要對學生課后學習情況進行挖掘,并根據學生的不同情況進行個性化的學習支持。對于有困難的學生,教師要單獨輔導和監管,幫助學生完成課程學習;對于學有余力的學生,可以鼓勵學生走進實驗室,跟隨教師的科研工作,完成真正的動手實踐,實現素質提升。最終通過師生配合,完成對課程教學效果的提升。

        4.教學考核。由于教學形式發生變化,課程的教學考核模式也要隨之做出調整和改變。在實踐中,教師改變傳統的期末考核模式,充分利用線上線下教學記錄,實現全過程考核。考試成績包含網絡平臺學習考核(25%)、線下課堂表現(25%)和期末閉卷考試(50%)三部分。其中網絡平臺學習考核由系統根據學習時間、頻率以及測試情況生成;課堂表現根據學生聽課及參與討論情況,綜合學生互評和教師考核給分。上述考核方式,降低了期末考試在總成績中的比重,更加側重于學生的平時學習積累和實踐能力的培養。因此,可避免學生“突擊考試”的僥幸心理,促進學生向平時主動學習轉變,更符合現代教學模式和人才培養的需求。

        第3篇:計算機大數據論文范文

        1 前言

        信息管理與信息系統專業雖然屬于管理學,但其主干學科包括計算機科學與技術、經濟學、管理學等三個,該專業的綜合性、實踐性很強,但是目前各高校該專業的實踐教學體系不完備,還未自成一家、各具特色,以致畢業生實踐能力不突出,特色彰顯不夠,就業競爭力不強,培養應用型人才是當務之急,核心是要培養學生的應用能力、創新能力和工程素養。要達到本目標,就要大力加強和完善實踐教學環節,建立多層次、一體化的實踐教學體系。

        曲靖師范學院信息管理與信息系統專業從2008年開辦至今,已經培養5屆學生,一直以來,我們不斷加強和完善該專業的實踐教學環節,形成了四位一體的實踐教學體系,取得了良好的效果。

        2實踐教學體系的“硬件位”

        實踐教學體系的“硬件位”強調實驗室建設。實驗室是開展教研的硬件基礎,沒有這個基礎,一切教研工作就是空中樓閣。我們一直重視信息管理與信息系統專業的實驗室建設。采購實驗設備的指導思想是實驗設備要先進、實用,充分滿足學生的學習和教師的教學科研的需要。

        該專業已經建成硬件實驗室有2個:計算機組成原理實驗室、計算機組裝與維護實驗室,通信與網絡實驗室有2個:計算機通信實驗室、計算機網絡實驗室,信息管理類的實驗室有3個:數字庫應用實驗室、信息管理與軟件實驗室、信息技術創新實驗室。同時為適應當今云計算、大數據的大趨勢,我們投資200多萬建立了云計算平臺。

        這些實驗室的更新及新建,能充分滿足學生的學習和教師的教學及科研的需要。

        3實踐教學體系的 “抓手位”

        專業技能訓練提升學生實踐能力的抓手,在學生的整個大學四年期間,為了在不同學期提升學生的綜合實踐能力,我們開展了貫穿大學4年的專業技能訓練。

        專業技能訓練是實踐教學體系的抓手,專業技能訓練的目的是根據訓練大綱,我們應以項目為驅動來創新該專業的實踐教學體系[1],提升學生應具備的專業素養和能力,形成幾大子抓手,再作專項的打造。

        我院的專業技能訓練主要包括兩個級別,一是課程設計訓練,本訓練以課程為依托,制定課程級別的訓練大綱和測試方案;二是綜合設計訓練,訓練學生綜合能力,要求學生能靈活應用所學課程,完成一個綜合性、設計性項目。

        3.1 課程設計訓練

        “課程設計”一個多義詞詞條。它可以指“為掌握某一課程內容所進行的設計”[2]。課程設計是課程實驗的高級環節,課程實驗是提升學生立體實踐能力的根本,課程實驗分為驗證性實驗、綜合性實驗和課程設計實驗,我們在傳統驗證性實驗的基礎上開展課程設計實驗,提升學生的課程綜合實踐能力。

        信息管理與信息系統專業的核心課程有6門,分別是:Java程序設計、管理信息系統、數據庫原理、計算機網絡及實驗、管理學、經濟學。我們針對這些課程,在編寫實驗大綱時,就要求編寫課程對應的課程設計,設計方案要經過教研室的審核和信息工程學院教授委員的討論及審定。以審定通過的課程設計為依托,為后續綜合實踐能力的提升打下堅實的基礎。

        以《Java程序設計》課程設計為例,課程設計的目的:利用Java語言的語法特性,結合數據結構算法、網絡知識、文件處理和數據庫等知識完成綜合題目的設計和代碼實現,并培養鍛煉分析程序、撰寫報告等能力。

        3.2 綜合設計訓練

        綜合設計訓練的目的是鍛煉學生綜合所學知識,設計和開發一個小項目的能力。這些項目有“ERP企業應用”、“Oracle運維管理”、“大數據管理”、“Java Web開發”等,這些小項目的訓練要基于幾門課的知識和技能,如“Java Web開發”就需要學生綜合數據庫、數據結構、軟件工程、計算機程序設計等知識與技能。

        綜合設計訓練要與畢業設計區別開來,此訓練的主要目的是讓學生體驗和掌握項目開發流程,同時鍛煉綜合應用所學課程來完成一個具體的小項目。

        3.3 信息管理與信息系統專業技能訓練安排

        為鼓勵學生多渠道獲得技能分,我們規定,學生在校期間,通過全國計算機技術與軟件專業技術資格(水平)考試的中級資格、全國計算機等級考試的四級證書、思科(微軟、ORACLE、華為、H3C或銳捷)的工程師級別認證、中級會計師,可獲得3個學分;通過全國計算機技術與軟件專業技術資格(水平)考試的高級資格、思科(微軟、ORACLE、華為、H3C或銳捷)的高級工程師級別認證,可獲得4個學分。

        4實踐教學體系的“信息系統開發能力位”

        本專業的學生要求具體一定和信息系統開發能力,該能力通過畢業論文(設計)來煉成。畢業論文(設計)是教學過程的最后階段采用的一種總結性的實踐教學環節。通過畢業設計,學生可以綜合應用所學的各種理論知識和技能,進行全面、系統、嚴格的技術及基本能力的練習。[3]畢業論文(設計)是實踐教學體系的技能整合,我院對畢業論文(設計)作重大改革,著力打造學生綜合實踐能力

        參加畢業論文(設計)的學生分兩部分,一部分在公司實習,同時要在公司完成畢業設計工作,余下的學生在校內完成畢業論文工作,為提高畢業論文(設計)的質量,經向教務處請示,允許我院結合專業實踐性強的實際,改革本專業畢業論文(設計)工作。改革思路包括三點,一是我院學生的畢業論文(設計)以畢業設計為主,弱化對學生文本的要求,強化對實踐動作能力的提升和檢查,二是做好規范管理工作,制定相關文件,如:“信息工程學院畢業論文(設計)工作規定”、 “信息工程學院畢業設計開發文檔的撰寫與打印規范” 、“信息工程學院畢業設計開發文檔”等。

        5實踐教學體系的“校企合作位”

        為提升學生的實習水平,滿足用人單位的需求。我們自2013年開始,與四川華迪信息技術有限公司開展畢業實習合作,該公司是一家集軟件外包、信息服務、學生專業技能培訓為一體的軟件公司,在全國小有名氣。學生參加校企合作實習有兩種類型,一是為期三個月的專業實習,二是為期四個月的就業培訓。三個月的專業實習分為軟件開發方向和網絡方向,軟件開發實訓重點是提升學生的軟件開發實踐能力和水平,網絡方向的實訓重點是提升學生的網絡設計、實施、部署能力。

        從2013年開始,每年大概有一半的學生參加校企合作的實習,取得了良好效果,學生的專業實踐能力提升了,就業質量明顯提高,很多學生就在四川成都就業、創業。

        第4篇:計算機大數據論文范文

        關鍵詞 大數據應用背景 超級計算機 數據處理

        在電子信息技術的推動下,大數據已成為了當代潮流前線的主流技術,所謂大數據,從狹義上理解主要是指各種大規模的數據,具體來說是指難以在既定的時間范圍內使用常規軟件以及技術進行收集、統計、儲存以及管理的數據集合,必須通過新型處理模式才可將其決策力、洞察力、發現力以及流程化進行充分發揮、具有規模大、復雜程度高、實時性強、高增長率以及多元化等特征的信息資產。由此可見,大數據是一種不同于傳統數據的信息化數據資產,僅僅應用傳統的軟件或工具進行統計或管理是難以顯效的,我們必須針對大數據的特征以及需求設計一款超級計算機,用于滿足大數據的計算需求。

        通過超級計算機來構建大數據處理中心,是現階段最為主流的應用趨勢。相比于傳統計算機來說,超級計算機在性能方面具有顯著優勢,可以為大數據提供高效的計算以及處理服務。超級計算機早在二十世紀七十年代初就已被很多國家作為了一種戰略性資源而進行使用,在國家經濟建設、國防安全、社會發展、科學研究等方面得到了廣泛的應用,并作出了極大的貢獻,因此現階段,超級計算機技術基本已經成為了衡量國家科技水平以及國防力量的重要指標之一。天河二號超級計算機是由我國國防科學技術大學研制而成的,它實現了每秒鐘三點山九億億次的浮點運算速度,并以此成績蟬聯五次奪得全球運行速度最快超級計算機獎項。但是,超級計算機雖然具有如此高效的運行速率,它仍然只能在自己所擅長的以科學與工程運算為主的領域中發揮作用,例如一些計算密集型的任務中。此外,超級計算機具有計算模式單一的特點,它的處理過程通常由批量處理計算、流式運算、迭代運算、圖運算等數據密集型運算方式組成,因此傳統上的超級計算機很難直接被應用在大數據的計摘 要 在大數據應用時代背景當中,超級計算機迎來了前所未有的挑戰,這些挑戰主要體現在數據的計算、存儲、通信以及編程方面,因此基于大數據的實際特征以及需求來設計一個超級計算機系統是十分有必要的。本文圍繞如何基于大數據特征以及需求進行超級計算機設計、大數據時代應用背景下編程模型的設計兩個方面展開討論,對大數據應用背景下的超級計算機設計進行了分析,并提出了一些筆者自己的見解,希望能夠對大數據應用背景下的數據處理問題提供一些對策建議。

        關鍵詞 大數據應用背景 超級計算機 數據處理算以及處理中。

        1如何基于大數據特征以及需求進行超級計算機設計

        顯而易見,大數據的出現給人類技術帶來了極大的挑戰,而超級計算機具有十分強大的計算能力以及極其高效的數據處理能力,它將海量的信息高度集中在自己的系統當中,并通過工具媒介、數據存儲等多元化角度對這些龐大的數據進行處理、分析以及應用,由此可見,不同的超級計算機在對信息處理以及計算時所呈現出的性能水平也是有所差異的。我們之所以要通過超級計算機來實現高性能數據計算,主要目的就在于提升數據計算效率,并通過對大數據的應用來增強通信效率。在本文中,筆者將圍繞硬件和軟件兩個層面來設計大數據應用背景下的超級計算機。

        1.1硬件體系結構

        信息量大以及操作簡單是大數據應用的顯著特征,大數據應用能夠確保計算指令維持在一個相對來說較低的狀態,實際上間接增加了數據訪問所需的成本,由此可見,在使用超級計算機管理大數據的過程中主要存在的問題在于數據吞吐率與數據計算效率之間的失衡性。針對這一問題,我們可以重點以兩個切入點進行解決,一是針對片上緩存實施徹底優化處理。大數據應用指令等級相對較低,跳轉頻率較高,且不具備充分的局部性,再加上大數據通常只能使用一次,我們可以基于上述特點來降低指令緩存,并構建一個連接處理器與二級緩存的通道,以確保數據吞吐率與計算效率之間的失衡狀態得到相對改善;二是提高大數據計算能力。在大數據的影響下,信息逐漸呈現出高密集化狀態,這使得傳統的處理器已無法滿足信息處理需求。因此必須通過超級計算機來部署一個具備良好實時性的處理器,其中異構并行處理器是一項很好的選擇,具體來說,也就是把R檔募鈾倨韉既脛鐐ㄓ么理器核心當中,在加速器的推動作用下,使數據處理過程中能夠實現數據并行的效果。大數據應用過程中,對于數據的處理頻率相對較高,因此必須想方設法改善節點計算效率并強化通信效率。顧名思義,大數據就是代表龐大的數據信息量,因此相應的儲存模式也較為復雜,種類繁多,其中最為常見的數據儲存模式為集中式存儲模式以及分布共享式存儲模式。為了較好地應對大數據通信頻率較高這一問題,必須通過合理的手段來提高節點與節點或與設備之間的連接效率以及。對上文內容進行總結后得知,要想有效解決大數據應用中存在的問題,其中最關鍵的環節在于加大互聯通信技術層面的研究開發力度,提高在節點連接效率優化方面的研究力度,一般可以通過兩種方式來實現,一種為研發一款軟硬件結合的多借口網絡芯片,另一種為通過光互連技術來改善數據傳送過程中的問題。

        1.2硬件體系架構

        在大數據中包含著海量的結構化數據、非結構化數據以及半結構化數據。這三種數據類型對應的存儲方式也各不相同,結構化數據通常使用數據庫結構實現存儲,而非結構化以及半結構化數據的存儲則更多地以依靠于不同文件與系統之間的協調與配合來實現。數據處理與數據計算是兩個完全不同的過程,在數據計算的過程中,當數據加載已經結束時,則需要對各系統之間的交互頻率進行合理地調整和控制,所以說應該選擇單一的分布式文件系統來實現。而針對大數據的處理方式則相對來說更為豐富,同時也更加復雜,其中使用頻率最高的數據處理方式有圖處理以及批處理兩種,這樣據必須得到不同文件與系統之間的良好配合已結支持。由此可見,在設計超級計算機時,單一的文化系統完全不能滿足計算機運行需求,應將多種文件組合在一起進行超級計算機系統的設計。

        通過對非結構化數據的存儲模式進行深入研究后可以發現,它所使用的存儲結構通常為分布式文件系統。為了能夠進一步提升大數據的處理效率,Google對大數據儲存的文件系統進行了一定的創新,在原有基礎上設計了一款具有擴展功能的GFS文件系統,創新后的文件系統在對應用層的運用下實現了對控制流以及數據量進行分離的目的,可以說是一個真正意義上的分布式文件系統,即使面對規模龐大的數據信息,該文件系統也能夠實現高校的儲存以及處理。GFS文件系統由以下三個基本部分構成,分別為若干塊服務器、單一的主控服務器以及客戶端。本論文以GFS文件系統為出發點,對目前已研發上市且具有代表意義的阿里巴巴分支ADFS系統進行了分析。在阿里巴巴的ADFS系統中,主要針對HDFSNameNode在使用過程中暴露出來的單點故障以及內存不足等一系列問題實施優化,工作原理主要為將內存中不屬于熱點范圍內的數據轉移至外部數據庫當中,通過這種方式來緩解NalneNode所承受的內存壓力,從而提升數據的處理質量以及效率。而在對半結構化數據以及結構化數據進行研究后發現,半結構化數據以及結構化數據在存儲方式上有著十分顯著的共性特征,他們通常都優先選擇數據庫以及分布式表結構作為存儲方式,只有一些結構相對較為簡單的半結構化數據更傾向于選擇Key/Value分布式系統,其中較為典型的為亞馬遜公司的Dynamo系統以及Facebook的Cassandra系統,亞馬遜的Dynamo主要是運用Key/Value作為數據存儲模式,這一存儲模式相比于其它模式的優點在于具有強大的可擴展性以及可用性。Facebook的Cassandra系統同樣也是采用Key/Value作為數據存儲模式,通過對這一存儲模式的運用進一步實現了數據存儲可擴展性以及一致性的增強。

        2大數據時代應用背景下編程模型的設計

        在大數據時代@一背景下,編程模型所面臨的挑戰也是日益凸顯出來,傳統的編程模型也開始表現出一定的動力不足趨勢,并無法滿足大數據的編程要求,為了有效解決這一矛盾,必須基于大數據的特征以及需求來設計一種有別于傳統編程模型的全新的編程模型。大數據時代下的編程模型必須滿足簡單易操作的基本原則,并在此基礎上盡可能提高性能水平,構建一個清晰明確的編程抽象,確保程序員的編程工作能夠更加順暢,在這一過程中,程序員并不需要關注程序在集群中運行的具體狀態以及情況,只需要針對每一項問題進行一一解決即可。在新的編程模型中,程序員的主要工作與任務在于關注一切有待解決的問題,以此來確保編程過程中各項任務的清晰化、明了化,同時還可以使代碼后期的維護管理工作得到極大程度的簡化,使程序員的工作更加方便、簡潔、高效。此外,在構建編程模型時還應考慮到系統數據計算能力以及處理能力提升的目的,我們不僅要確保程序能夠在集群上實現高效穩定的運行,同時也要保證不同類型的作業與任務能夠在集群上并發運行,這樣可以大大提高集群內部資源的共享有效率。但是在這一模型下,我們也會面臨許多新的問題,需要后期通過探索與研究進行慢慢攻破,例如如何有效處理異構性問題、如何提升本地數據的有效利用率等。因此在基于大數據應用背景下進行新編程模型構建的同時,我們的考慮內容不能過于單一,必須綜合衡量各方面的影響與利弊,在此基礎上作出適當的取舍以及判斷,從而構建一個簡單、便捷、可靠、高效的大數據編程模型。

        為了使效率得到進一步提升,超級計算機一般來說都會選擇應用并行編程模型,例如Open MP以及MPI,其中,Open MP通常會與共享存儲模式的融合而被廣泛地應用在對稱多處理器等架構的相關設備當中,而MPI所涉及的編程模型則相對來說更為復雜,一般來說需要在切換至信息通信計算模型下,要求編程工程人員針對所有的程序問題根據一定的規則進行一一分類,隨后再將這些分類號的問題映射至分布式進程集合當中。Open MP以及MPI等并行編程模型并不適用于大數據的計算以及處理過程中,因此一些規模較大的互聯網企業會根據自身公司的實際情況以及需求來研制具有針對性的大數據處理模型,這樣一來不僅可以使工作人員的工作效率得到提升,同時也在很大程度上促進了大數據應用的有效實現。

        3結語

        綜上所述,在大數據應用背景之下,對于超級計算機的設計可以適當導入一些高效模塊結構,例如多核結構以及眾核結構等。此外,寬帶網絡速度的提升也有利于超級計算機運行速度的改善,為其提供基本的保障條件。總而言之,在大數據時代背景之下,要想使數據處理以及計算速率得到有效提升,超級計算機的應用是必然的趨勢所在,并取消以往計算機系統中的計算密集模式,取而代之的是數據密集模式。筆者相信在大家的共同努力之下,大數據應用背景下的數據處理以及計算問題自會得以有效解決。

        參考文獻

        [1] 張聽,袁曉如.樹圖可視化[J].計算機輔助設計與圖形學學報,2012(9):1113- 1124.

        第5篇:計算機大數據論文范文

        關鍵字:計算機;物聯網;網絡;應用領域;大數據

        既然計算機物聯網技術對于社會發展、科技進步、人類生活等多個方面都有積極的影響,那么當下我們就應該將物聯網技術的進一步發展作為科研重點。物聯網技術的運用不能是盲目的,它的目的是為了在滿足市場需求的前提下、建立更為完善的技術產業。只有這樣,才能進一步推廣物聯網技術。另外,物聯網技術的普遍應用并不是沒有生活問題的,為了使其發展的更為快速,我們需要認清當下物聯網運用的特點,分析物聯網包含的主要技術,還要了解當前物聯網技術的一些應用領域。

        一、計算機物聯網概述

        計算機物聯網就如其名稱所示的一樣,是在大數據時代,將有形物體接入互聯網的一種技術。計算機物聯網包含兩個含義,第一方面,計算機物聯網技術以網絡為核心。在某種程度上,計算機物聯網是互聯網絡的擴展。眾所周知,計算機物聯網是在大數據時代下應運而生的,因此其另一方面的含義就與計算機信息化有關,具體來說,就是計算機物聯網可以通過大量的數據,促進與客戶信息交流和溝通。計算機物聯網技術在世界上被公認為最有發展前景的先進創新,它就像是一筆無形的財富。

        (一)從技術層次看待計算機物聯網

        計算機物聯網僅從字面上分析是無法真正理解的,還需要從計算機物聯網的技術結構、關鍵技術、應用領域等方面來深入探究。從技術層次上來看,計算機物聯網包含感知層、網絡層和應用層三大層次。計算機物聯網技術的三個技術層即相輔相成。每個技術層次都包含其特有的技術的,例如,其中網絡層還可以分為兩大層次,即傳輸層和處理層,主要負責信息數據的傳輸工作,由私有網絡、互聯網、有線和無線通信網組成。感知層就如同人體的神經末梢,負責信息資料的采集,其包含的技術最為豐富,有條形碼、傳感器、智能機械、識別碼等。網絡層是信息交換與通訊的重要平臺,應用也最為廣泛,其中的傳輸層包括衛星通信、移動通訊網等技術,處理層包括GIS/GRS技術、云計算等技術。另外,計算機物聯網的技術層次上還包括一些常見的感知終端,例如二氧化碳濃度傳感器、溫度、濕度傳感器、RFID標簽和讀寫器、攝像頭、GPS等。

        (二)計算機物聯網關鍵技術

        在近幾年來,物聯網所涉及的領域面越來越廣。其實現的基礎是計算機物聯網所包含的一些關鍵技術。具體有傳感器技術、RFID標簽、嵌入式系統技術。所謂傳感器技術,是計算機能夠處理海量數據的關鍵,也是計算機的主要應用程序。我們知道,計算機處理的數據需要時數學信號,這就要求計算機具備將模擬信號轉變為數據信號的功能,故有了傳感器技術。近些年來,隨著計算機物聯網的發展,另一種傳感器技術得以問世,即RFID標簽,其是一種整合技術,主要應用于自動識別、物品物流管理等領域。計算機信息化建設使得物聯網技術也在不斷發展,目前已經形成一種集信息技術設備、傳感器技術、一體化技術為一體的尖端技術,即嵌入式系統技術。其是計算機物聯網技術發展成熟的體現,在長期的的演變、法杖過程中,嵌入式系統得以廣泛運用,涉及到工業生產和國防工業,小到人類的生活,大到可以運用在衛星系統。

        (三)計算機物聯網的應用技術

        除了傳感器技術、RFID標簽、嵌入式系統技術之外,計算機物聯網的核心技術還包括RFID等標識技術以及云計算技術,而其應用技術的發展也尤為迅速,較為成熟的包括無線傳感網絡技術、射頻技術、網絡通訊技術等。我們知道,隨著社會的發展,要想利用計算機技術更好的服務于人類,必須考慮技術的功能性,保證其能適應科技時代的進步。傳統的傳感器并不成熟,其無法實現功能多樣性。發展至今的無線傳感網絡技術已經能夠滿足軍民,主要由許多個不同的無線傳感器節點組成。為了順應科技潮流,無線傳感網絡技術已經在努力向微型化、智能化的目標發展。相信在不久的將來,無線傳感網絡技術能夠實現從傳統傳感器到智能傳感器的完全蛻變。近些年來,計算機物聯網技術的發展還體現在射頻技術的應用上,較常見的應用有無線射頻識別技術。這類技術主要用于電子晶片、感應卡。射頻技術的原理比較難以理解,需要為由掃描器發射以特定頻率進行無線電波能量的發射,還要驅動接收器電路將內部的代碼送出。射頻技術的先進在于其接收器的特殊性,且其晶片密碼為世界唯一無法復制,安全性高、長壽命。除此之外,計算機物聯網的應用技術還有網絡通訊技術,具體是指利用現有的計算機設備,在相關網絡通訊設備的輔助下,進行圖文數據的采集、存儲、處理和傳輸。網絡通訊設備可以使資源實現其效用最大化,使信息資源達到充分共享。

        二、物聯網的應用

        (一)城市交通管理

        物聯網技術最初就運用在交通行業,在其技術支持下,交通管制實現智能化。例如,物聯網技術可以使交通管制系統更加自動化、智能化,能進行道路交通的實時監控。能在短時間內,對公路、橋梁、公交、停車場等場所進行系統管理??梢栽谌我鈺r段估測道路交通流量,及時發現事故、交通堵塞等情況,并進行快速的自動判斷,從而利于采取有效的解決措施。相信在不久的將來,全世界的交通都能實現智能化。

        (二)家庭生活

        科學技術的發展使得社會經濟發展的速度越來越大,在計算機技術的推動下,我們來到了數字化的二十一世紀。在物聯網技術的帶領下,我們不管是在家庭生活,還是工作中,都感受到了巨大的便捷。通過計算機物聯網技術,我們過上了智能化生活??梢酝ㄟ^手機來職能的控制家里的電器設備。通過手機端傳送指令,來遠程控制電器工作、監控家里的一切。近些年來,隨著物聯網生活生產領域的應用,其長足發展已成必然。

        (三)節能減排

        計算機物聯網的發展,勢必會使人類的生活發生改變。因此,一些由于人類生活方式而造成的空氣污染、資源浪費問題將迎刃而解。我們知道,空氣污染一直是全球環保工作的棘手難題。計算機物聯網技術在應對空氣污染上正好發揮了是特有的功能。近些年來,已經有科研學者針對空氣污染進行了合理的分析,并認為,可以通過計算機物聯網技術來改善。具體是通過物聯網技術,對反應空氣質量的數據進行收集。與此同時,要研發出一種新型的空氣實時監測系統。這樣就既能通過智能的實時監測系統來進行檢測工作,又能物聯網技術下對空氣質量數據進行自動分析、統計。

        三、結論

        綜上所述,計算機物聯網的優勢顯而易見。其包含多種功能,符合大數據時代的先進科技技術。就目前來看,計算機物聯網在人類生活和工業中都發揮著巨大的作用。其帶動著多個行業的發展,使得智能化產品走向多樣化。另外,從計算機物聯網在多個領域的應用可以看出,物聯網技術已經逐漸成熟起來,其在未來的發展趨勢十分良好。作為計算機行業的工作者,我們應該永不止步,全身心的致力于更多像物聯網技術的科技項目研究。希望在不久的將來,我們能讓物聯網在未來發展的更為快速,讓我國所自主研發的智能化設備越來越多,給我們帶來更多高科技體驗。

        作者:譚秦紅 單位:貴州省銅仁職業技術學院

        參考文獻:

        [1]朱順強.中國物聯網發展狀況分析[A].中國通信學會2010年光纜電纜學術年會論文集[C].2010年.

        第6篇:計算機大數據論文范文

        關鍵字:大數據 情報研究 情報研究技術

        中圖分類號: G250.2 文獻標識碼: A 文章編號: 1003-6938(2012)06-0001-08

        1 引言

        當數據和黃金一樣,成為一種新的經濟資產[1],當科研處于以數據為基礎進行科學發現的第四范式[2],當數據開始變革教育[3],這些無不宣告著我們已經進入了大數據(big data)時代。不同的學科領域,正在不同的層面上廣泛地關注著大數據對自己的研究和實踐帶來的深刻影響,情報研究領域也不例外。

        大數據,顧名思義是大規模的數據集,但它又不僅僅是一個簡單的數量的概念,IBM公司指出,大數據的特點是4個V:Volume(大量)、Velocity(高速)、Variety(多樣)及Veracity(真實),它提供了在新的和正在出現的數據和內容中洞悉事物的機會,使業務更加靈活,并回答以往沒有考慮到的問題[4]。Gartner公司的報告也提出,大數據是大容量、高速和多樣化的信息資產,它們需要新的處理方式,以提高決策能力、洞察力和流程優化[5]。

        由此可見,大數據強調的不單純只是數據量多少的問題,其背后隱藏了更為復雜和深刻的理念,這些理念包括:①將對數據和信息的分析提升到了前所未有的高度。這里的分析不是一般的統計計算,而是深層的挖掘。大數據時代,如何充分利用好積累的數據和信息,以創造出更多的價值,已經成為企業管理者、政府機構以及科研工作者首要關注的問題?!皹I務就是數據”、“數據就是業務”、“從大數據中發掘大洞察”等意味著對數據分析提出了新的、更高的要求??梢赃@么說,大數據時代就是數據分析的時代。②多種數據的整合和融合利用。大數據時代,數據的多樣性是一種真實的存在,數據既包括結構化的數據,也包括非結構化的數據,表現方式可以是數據庫、數據表格、文本、傳感數據、音頻、視頻等多種形式。同一個事實或規律可以同時隱藏在不同的數據形式中,也可能是每一種數據形式分別支持了同一個事實或規律的某一個或幾個側面,這既為數據和信息分析的結論的交叉驗證提供了契機,也要求分析者在分析研究過程中有意識地融集各種類型的數據,從多種信息源中發現潛在知識。只有如此,才能真正地提高數據分析的科學性和準確性。③更加廣泛地應用新技術和適用技術。數據量大(Volume)、類型多樣(Variety)、增長速度快(Velocity)是大數據的突出特點,這必然會帶來數據獲取、整合、存儲、分析等方面的新發展,產生相應的新技術或者將已有的技術創新地應用于大數據的管理與分析。同時,大數據的這些特點也決定了傳統的、以人工分析為主的工作模式將遇到瓶頸,計算機輔助分析或基于計算機的智能化分析,將成為大數據時代數據與信息分析的主流模式。

        對于在數據分析領域扮演重要角色的情報研究工作而言,大數據的理念和技術既帶來了機遇,也帶來了挑戰。一方面,在大數據時代,情報研究工作正在得到空前的重視,大數據為情報研究的新發展提供了機會,從更為廣闊的視野來看待情報研究的定位,研究新技術新方法,解決新問題,將極大地促進情報研究理論與實踐前進的步伐。另一方面,大數據時代本身也要求各行各業重視情報研究工作,這就必然使得眾多學科有意識地涉足到以往作為專門領域的情報研究之中,并將其作為本學科的重要組成部分加以建設。文獻分析(本質是文本分析)不再為情報研究所獨占,以往情報研究領域積累的相關理論和方法很有可能優勢不再。因此,如何把握住自身的優勢,并抓住機會有所拓展,是情報學在大數據時代需要思考的問題。

        2 大數據環境下情報研究的發展趨勢

        大數據帶來的新觀念,正在引報研究的新發展,而且,研究人員也在不斷地從情報研究的實踐中總結經驗教訓,引導情報研究的未來走向。英國萊斯特大學的Mark Phythian教授在2008年10月作 了題為“情報分析的今天和明天”的報告[6],指出:①獲知情境是至關重要的。忽略戰略環境、領導風格和心理因素等更為廣泛的問題,將導致情報研究的失誤;②要加強信息之間的關聯。美國政府部門內部的信息共享障礙,致使分析人員無法獲取充足的信息來支持分析活動,導致情報研究中的預測失??;③要汲取更多外界的專業知識。這一舉措雖然不能保證分析的成功性,但將是競爭分析的重要信息來源。

        綜合大數據背景的要求和以往情報研究的經驗教訓,結合國內外同行的研究成果,本文將情報研究的發展趨勢總結為以下五個方面:單一領域情報研究轉向全領域情報研究;綜合利用多種數據源;注重新型信息資源的分析;強調情報研究的嚴謹性;情報研究的智能化。

        2.1 單一領域情報研究轉向全領域情報研究

        隨著學科的深入交叉融合及社會發展、經濟發展與科技發展一體化程度的增強,情報研究正從單一領域分析向全領域分析的方向發展。

        首先,表現在各領域中的情報研究從視角、方法上的相互借鑒。從方法上看,社交網絡分析方法、空間信息分析等其他學科的分析方法,廣泛應用于軍事情報、科技情報等領域,心理學等領域的理論也用于情報分析的認知過程,以指導情報分析及其工具的研發。同時,情報學中的引文分析等文獻計量方法也被借鑒用于網站影響力評估。從技術上看,可視化、數據挖掘等計算機領域的技術,為情報研究提供了有力的技術視角,情報研究獲得的知識反過來又給予其他技術領域的發展以引導。可見,無論從思想上、方法上、技術上,各領域之間的交叉點越來越多,雖然這種相互借鑒早就存在,但現在意識更強、手段更為綜合。

        其次是分析內容的擴展,這也是最為重要和顯著的變化。在情報研究過程中,不僅僅局限于就本領域問題的分析而分析,而將所分析的內容置于一個更大的情景下做通盤考慮,從而得出更為嚴謹的結論。聯合國的創新倡議項目Global Pulse在其白皮書“Big Data for Development: Opportunities & Challenges”[7]中指出,情境是關鍵,基于沒有代表性樣本而獲得的結論是缺乏外部合法性的,即不能反映真實的世界。在情報研究領域,一些數據往往因為一些不可抗力的原因而不完整,如早期的科技數據,可能由于國際形勢等外部因素,導致一些國家的科技信息無法獲取,基于這樣缺失的分析樣本來評估該國的科技影響力,如果僅就數據論數據,無疑是會得“正確”的錯誤結論,這時應針對這樣的異常情況,將研究問題放置在當時的時代背景下,揭示背后的原因,從其他方面收集信息來補充,才能得出符合實際的結論。也就是說,必須要考察不同時間戳下的相關信息,再對分析內容加以擴充,這實質是一種基于時間軸的擴展。另外,將內容擴展至本領域的上下游則是一種更為重要的擴展。例如,考察某項技術的發展前景,如果僅就該技術本身來討論,可能會得出正面的結論,但如果結合特定地區人們對該技術的態度、當地的技術水平、物理條件、發展定位等,卻可能會得出相反的結論。這就說明,在很多領域中,環境不同,發展程度不同,要解決的問題也就不同。一些地區當前關注的問題不一定就是其他地區要關注的問題,某些欠發達地區當前不一定就必須照搬另一些所謂發達地區的當前做法。這需要通盤考察,分析相關思想、觀點和方法產生的土壤、使用的條件,結合當前環境再做出判斷,否則可能會對決策者產生誤導。

        2.2 綜合利用多種數據源

        綜合利用多種信息源已經成為情報研究的另一大發展趨勢。Thomas Fingar[8]從軍事情報角度指出,軍事情報界需要綜合利用人際情報、信號情報、圖像情報和外部情報,進行全資源分析(all-source analysis),即利用多種不同的信息資源來評估、揭示、解釋事物的發展、發現新知識或解決政策難題。科技情報界也是如此,如利用科技論文和專利,發現科技之間的轉換關系、預測技術發展方向,綜合利用政府統計數據、高校網站、期刊、報紙、圖書等來評估大學等科研機構。可見,綜合利用多種信息源是從問題出發,系統化地整合所有相關信息資源來支持情報研究,信息源可以是學術論文、專利等不同類型的文獻集合、文本和數據的集合也可以是正式出版物與非正式出版物的集合等。

        這一發展趨勢是由幾大因素決定的。一是情報研究問題的復雜性。在大數據背景下,情報不再局限在科技部門,而成為全社會的普遍知識。公眾對情報的需求使得情報研究問題更為綜合,涉及要素更為多元,同時也更為細化。這導致單一數據源不能滿足分析的要求,需要不同類型的信息源相互補充。例如要分析科技之間的轉換關系,就避免不了涉及科技論文和專利這兩種類型的信息源。二是各種信息源的特性。不同信息源可以從不同角度揭示問題,如專利、研究出版物、技術報告等,可以較為直觀地反映研究者對某科技問題的理解與描述,而評論文章、科技新聞、市場調查等,可以反映出社會對該科技的觀點、認知情況[9]。因此,各類信息自身的特性就說明他們之間可以、也需要相互補充。此外,從現實角度來看,通常會遇到某些信息無法獲取的情況,這就需要別的信息加以替代,這就從實踐角度說明了綜合利用多種信息源的必要性。三是分析結果的重要性。以評估大學為例,評估的結果會引導各學校在比較中發現自身優勢和差距,指導未來發展定位,同時也為廣大學生報考提供參考??梢姡芯拷Y果對社會的影響是廣泛而深遠的,要做到分析結果的可靠性、科學性,必然先要從源頭上,即分析數據上加以豐富完善。

        綜合利用多種信息源也意味著諸多挑戰。首先分析人員要熟悉每一種信息資源的特性,了解相似信息在不同資源類型中是如何表現的,不同信息源相互之間的關系是怎樣的。其次,針對待分析的問題,要選擇適合的信息,并不是信息越多越好,類型越全越好,尤其是當問題含糊不清時,可能需要不斷地調整信息源。再次,情報研究人員要能有效地綜合、組織、解釋不同信息源分析出的結果,特別是當結論有所沖突的時候,識別不當結果、保證分析結果的正確性是很重要的。

        2.3 注重新型信息資源的分析

        隨著網絡應用的深入,出現了許多新型的媒體形式。Andreas M. Kaplan等人將構建于Web2.0技術和思想基礎上,允許用戶創建交換信息內容的基于網絡的應用定義為社會化媒體(Social Media),包括合作項目(如維基百科)、博客、內容社區(如YouTube)、社交網站、虛擬游戲世界和虛擬社會世界(如第二人生)等六種類型[10]。這類媒體形式依托于Web2.0等網絡技術,以用戶為中心來組織、傳播信息,信息可以是用戶創造性的言論或觀點,可以是圍繞自己喜好收集的信息資源集合等。由于社會化媒體的易用性、快速性和易獲取性等特點,它們正迅速地改變著社會的公共話語環境,并引導著技術、娛樂、政治等諸多主題的發展[11]。這些通過龐大的用戶社區來傳播的高度多樣化的信息及其網絡結構,為洞悉公眾對某一主題的觀點、研究信息擴散等社會現象[12]、預測未來發展方向[11]等提供了機會,有助于發現有共同興趣的社群、領域專家、熱點話題[13]等,帶來了網絡輿情分析等研究內容。此外,這類信息結合其他類型的數據,產生了新的情報研究領域。例如,智能手機的普及和GPS的廣泛應用,使得可以從社交網絡和網絡交互數據、移動傳感數據和設備傳感數據中獲取社會和社區情報(social and community intelligence,SCI),揭示人類行為模式和社群動態[14]。

        此外,機構知識庫等作為一種反映組織或群體知識成果的智力資源,也正引報界的重視。網絡信息聯盟的執行董事Clifford A. Lynch[15]從大學的角度指出,成熟完整的機構知識庫應包含機構和學生的智力成果(包括科研材料和教學材料)以及記錄機構自身各項事件和正在進行的科研活動的文檔。這暗示著學術界從過去只關心科研成果正逐步轉向關注科研過程。從機構知識庫中,可以發現隱藏其中的科研模式、揭示目前科研狀況的不足,引導機構未來科研的發展走向等。但現有的機構知識庫工具還缺乏幫助人們理解和分析這些資源的機制[16],在大數據環境下,加強這方面的研究也是必然趨勢。可以預見,隨著科技的發展和應用的深入,還會不斷的有新型資源出現,并不斷促進情報研究的發展。

        2.4 強調情報研究的嚴謹性

        情報研究活動在宏觀層面上是一種意義構建(sensemaking)[17],依賴于分析人員根據已有知識構建認知框架(frame),通過對認知框架的不斷修正來達到理解的目的[18]。這意味著情報研究活動本身帶有很大的不確定性,很多因素影響著情報研究的有效性。如何使情報研究工作更加嚴謹,減少情報分析的不確定、提升情報成果的質量,正成為學術界當前普遍關注的問題。情報研究嚴謹性(rigor)不等同于分析結果的正確性,它衡量的是情報研究的過程,是指在情報研究過程中“基于仔細考慮或調查,應用精確和嚴格的標準,從而更好地理解和得出結論”[19]。美國俄亥俄州立大學的Deniel Zelik[20][21]從評估角度,給出了8個指標來衡量分析過程的嚴謹性:假設探索、信息檢索、信息驗證、立場分析、敏感度分析、專家協作、信息融合和解釋評價。從這幾項指標看,信息檢索和融合是從分析信息源上消除不全面性;假設探索是要使用多種視角來揭示數據和信息;信息驗證側重于數據的溯源、佐證和交叉驗證;立場分析強調分析的情境性;敏感度分析指分析人員要了解分析的局限性,目的是從分析方法上消除主觀影響;專家協作是防止分析結果受分析人員自身的學科背景或經驗帶來的偏差;解釋評價是要正確對待分析結論??梢?,情報研究的嚴謹性意在消除人的主觀偏見,用更為客觀的視角對待情報研究。如果說之前的情報研究活動依賴專家的個人判斷,帶有較為強烈的主觀色彩,那么走向嚴謹性的情報研究活動正逐步轉變為一門科學。

        在大數據背景下,情報分析的嚴謹性,不僅體現在理念上,還暗含了對技術的要求。面對海量數據,自動化的技術手段必不可少。當信息的檢索更多的是借助檢索系統,而不是人工的收集,信息融合更多依賴數據倉庫等技術手段,如何在這樣的分析環境中將情報研究的科學性落到實處,是需要關注的問題。可以看到,利用技術本身已經在一定程度上避免了人的主觀性,但面對同樣一個問題,可以有不同的技術手段,也可能產生不同的結果,如何避免由技術產生的偏見,也許通過多種技術手段或采用不同的算法,全方位地展示信息內容及其之間的關系,從而避免產生信息的誤讀,是一個解決方案??梢姡诖髷祿r代,情報研究需要多種手段來加強其分析過程的科學性,而這又需要多種技術方法加以支持。

        2.5 情報研究的智能化

        大數據背景下的情報研究,對技術提出了更高的要求。正如美國國家科學基金會(NSF)的報告[22]所說,美國在科學和工程領域的領先地位將越來越取決于利用數字化科學數據以及借助復雜的數據挖掘、集成、分析與可視化工具將其轉換為信息和知識的能力。對于情報研究來說,應用智能化技術能自動進行高級、復雜的信息處理分析工作,在很大程度上把情報研究人員從繁瑣的體力勞動中解放出來,尤其在信息環境瞬息萬變的今天,及時收集信息分析并反饋已經變得非常重要,這都需要智能化技術加以支撐。從信息源來講,情報研究對象得以擴展,其中可能包含微博等社會化媒體信息,可能包含圖片、新聞等,大量非結構或半結構化數據的涌入,必然需要技術將這些數據轉化為結構化數據,以供后續分析。同時,多元化的信息,需要根據分析需求加以融合,這可能需要語義層面上的技術支持。從分析需求來講,簡單的統計分析已不能滿足現在社會的決策需求,需要從大量信息中發現潛在模式,指導未來的發展,這就涉及數據挖掘、機器學習等技術。此外,要尋求情報研究的客觀性,摒除過多的主觀意愿,也需要多種技術來支撐。可見,這一發展趨勢是大數據時代下的必然。而各國在積極建設的數字化基礎設施,也在推動著情報研究的智能化,如歐洲網格基礎設施(European Grid Infrastructure,EGI)[23]項目就致力于為歐洲各領域研究人員提供集成計算資源,從而推動創新。

        目前,對情報研究中的智能化技術沒有統一的界定,但概觀之,可以將情報研究智能化的本質概括為定量化、可計算、可重復。定量化是針對過去情報研究更多的是依賴人的主觀判斷,即基于已有文字材料或數據,根據研究人員的經驗等給出粗略的結論,如果說這是一種定性化分析,現在更多地依賴通過計算機自動化處理原始材料并獲得潛在數據,并在此基礎上輔以人的判斷,可以說是一種定量化的分析??捎嬎闶侵笇⒏鞣N信息資源轉化為計算機可理解、處理的形式,如從新聞、論文、專利等中,提取出科研組織、科研人員等實體,再基于這些結構化的、富有語義的信息,采用統計、數據挖掘等方法加以計算,獲取隱含的知識??芍貜褪侵缸詣踊治黾夹g消除了許多主觀因素,從理論上講,如果分析數據等條件一致,分析結論也應該是一致的,這也體現了智能化技術為情報研究帶來客觀性的一面。

        3 情報研究中的技術問題

        情報研究的上述發展走向,決定了情報研究既不能仍然停留在定性分析上,也不能僅僅靠簡單的統計替代情報研究中的計算技術,由此對情報研究技術提出了新的要求。美國McKinsey Global Institute在2011年5月了研究報告“大數據:創新、競爭和生產力的下一個前沿領域”(Big data: The next frontier for innovation, competition, and productivity)[24]。報告分六個部分,其中第二部分討論了大數據技術,并圍繞大數據分析技術、大數據技術和可視化三方面進行了闡述。在大數據分析技術中,列舉了26項適用于眾多行業的分析技術,包括A/B測試、關聯規則學習、分類、聚類分析、眾包(Crowdsourcing)、數據融合和數據集成、數據挖掘、集成學習、遺傳算法、機器學習、自然語言處理、神經網絡、網絡分析、優化、模式識別、預測建模、回歸、情感分析、信號處理、空間分析、統計、監督學習、模擬、時間序列分析、無監督學習和可視化。這些技術絕大部分是已有的技術,也有部分是隨著互聯網的發展以及對大規模數據挖掘的需求,在原有技術的角度發展起來的,如眾包就是隨著Web2.0而產生的技術。

        根據我們的理解,這些技術大致可以劃分為可視化分析、數據挖掘以及語義處理三大類。這三大類技術也是當前情報分析領域應予以關注和深入研究的技術。

        3.1 可視化分析

        可視化分析(Visual Analytics)是一門通過交互的可視化界面來便利分析推理的科學[25],是自動分析技術與交互技術相結合的產物,目的是幫助用戶在大規模及復雜數據內容的基礎上進行有效的理解,推理和決策[26]。它不同于信息可視化,信息可視化關注計算機自動生成信息的交互式圖形表示,關注這些圖形表示的設計、開發及其應用[27],而可視化分析在此基礎上加入了知識發現過程,關注自動分析方法及其選擇,以及如何將最佳的自動分析算法與適當的可視化技術相結合,以達到輔助決策的目的。

        目前的情報分析系統,雖然也提供了多種視圖來揭示信息,但更多的是一種分析結果的呈現,系統內部分析、處理的機制對分析人員來講是個黑匣子,分析人員無法了解分析方法、分析結果的局限性或者有效性,這無疑不符合情報研究嚴謹性這一發展要求。同時,現有的分析工具需要分析人員輸入各種繁雜的參數,又缺乏對情報分析認知過程的支持,這就對使用人員的專業化程度提出了較高的要求,增加了分析的難度。而可視化分析則可以較好地解決這一問題,它整合了多個領域包括采用信息分析、地理空間分析、科學分析領域的分析方法,應用數據管理和知識表示、統計分析、知識發現領域的成果進行自動分析,融入交互、認知等人的因素來協調人與機器之間的溝通,從而更好地呈現、理解、傳播分析結果[28]。佐治亞理工學院的John Stasko等人應用Pirolli 等人提出的情報分析概念模型[29],建立了一個名為Jigsaw(拼圖)的可視化分析系統[30],并將其應用于學術研究領域(涉及期刊和會議論文)以及研究網絡文章(如網絡新聞報道或專題博客)領域,也說明了將可視化分析技術應用于情報研究的可行性。

        將可視化分析技術應用于情報研究領域,有眾多問題要解決。首先,在情報研究工具中,是以自動化分析為主,還是以可視化為主?Daniel A. Keim等人將待分析的問題分為三類,第一類是在分析過程中可視化和自動化方法可以緊密結合的問題,第二類是應用自動化分析潛力有限的問題,第三類是應用可視化分析潛力有限的問題。在研究這三類問題中交互程度對分析效率影響的基礎上,Daniel A. Keim等人指出,應分析如何通過考慮用戶、任務和數據集特點,來確定可視化和自動分析方法的優化組合,從而達到最佳的效果[31]。可見,要將可視化分析技術應用于情報研究領域,需要明確每類問題適用哪種組合方式。其次,情報研究領域適合使用哪些可視化交互手段?這可能包括原始分析數據、析取出的關系數據、深層挖掘的模式數據等的可視化手段,分析人員與系統交互的方式,分析過程的可視化展示等。第三,情報研究領域中的認知過程是什么樣的,關注哪些問題,涉及哪些實體,在大數據環境下面臨哪些認知困難,需要在哪些環節加以支持,這些困難能否通過技術來解決。此外,從現有的可視化分析技術來看,主要是將各個相關領域的技術以優化的方式整合起來,但在將來會產生一體化的可視化分析解決方法[32],這種一體化的方法可能是什么形式,又會對情報研究帶來怎樣的影響等等,都是在情報研究中引入可視化分析技術需要關注的。

        3.2 數據挖掘

        廣義的數據挖掘指整個知識發現的過程,是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數據中提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。它涵蓋了數據分析和知識發現的任務,從數據特征化與區分到關聯和相關性分析、分類、回歸、聚類、離群點分析、序列分析、趨勢和演變分析等,吸納了統計學、機器學習、模式識別、算法、高性能計算、可視化、數據庫和數據倉庫等領域的技術,并可以用于任何類型的數據,包括數據庫數據、數據倉庫等基本形式,也包括數據流、序列數據、文本數據、Web數據、圖數據等其他類型的數據[33]。

        從數據挖掘的涵義看,它與情報研究有著天然的聯系;從數據挖掘的方法看,有其特定的含義和實現過程,可以有效地解決情報研究的問題。例如,情報研究可以借鑒關聯規則發現的成功案例——超市的“啤酒+尿布”,嘗試用關聯規劃來分析研究主題的相關性,從科技論文與專利的關聯中發現科技的轉換關系等等。但從目前的情報研究成果看,許多還僅僅停留在簡單的頻率統計、共詞計算層次上,在知識發現的過程中,這些工作僅僅是數據挖掘的數據準備,還有待于更為深入的發掘??梢姡瑪祿诰蚰軌蛞矐搼糜谇閳笱芯款I域,這不僅是數據挖掘應用擴展的結果,也是情報研究自身發展的需求。此外,由于較少有專門針對情報研究領域研發的挖掘工具,現有情報分析通常借助于其他工具,不同工具的功能不同,這就導致常常同時使用好幾個分析工具,如在使用SPSS進行聚類分析的同時,還使用Ucinet分析社會網絡。這帶來的問題是,分析缺乏完整性,可能社會網絡和其他信息之間有關聯,因為工具的分割性,就導致潛在模式的丟失。由此,研發適用于情報研究的挖掘工具,是必要也是緊迫的,尤其是面對大數據的挑戰,智能化地輔助分析人員,減少認知壓力,是亟待解決的問題。

        要解決以上的問題,首先需要研究情報分析任務,分析哪些問題是可以使用數據挖掘技術來支持的,這類問題有哪些共同點、特殊性,能否對未來可能的情報分析問題進行擴展,哪些問題不適用于數據挖掘技術,原因是什么等。其次,對于某類或某個分析問題,使用哪種數據挖掘技術或幾種技術的組合才能有效地解決,涉及的算法是否需要針對該問題進行適應性改造,如何評價挖掘的結果等。第三,數據挖掘出現了交互挖掘這一發展趨勢,即構建靈活的用戶界面和探索式挖掘環境[33],這與可視化分析在某些方面上也不謀而合,這樣的趨勢會對情報研究帶來哪些影響,如何在這一背景下,探索情報研究工具的新發展,尋找情報分析的新模式,值得我們關注。

        3.3 語義處理

        語義是關于意義(meaning)的科學,語義技術提供了機器可理解或是更好處理的數據描述、程序和基礎設施[34],整合了Web技術、人工智能、自然語言處理、信息抽取、數據庫技術、通信理論等技術方法,旨在讓計算機更好地支持處理、整合、重用結構化和非結構化信息[35]。核心語義技術包括語義標注、知識抽取、檢索、建模、推理等[34]。語義技術可以為信息的深層挖掘打好基礎,即通過對各類信息的語義處理,在獲取的富有語義的結構化數據上使用各種數據挖掘算法來發現其中的潛在模式。數據的語義性支持了機器學習等技術的內在功能[36]。

        從現有的情報研究實踐和工具看,語義支持的缺失是一個普遍問題,這其中又可劃分為兩個層次。對于傳統的情報研究對象,如科技論文、專利等,有較為成熟的分析工具,但這些工具往往缺少深層次的語義支持。例如,要分析論文的內容主題時,需要從摘要等自由文本中提取出主題信息,在數據處理時,常常無法識別同義詞、近義詞等,需要人工干預。一些工具雖然在語義方面做了努力,但仍然存在諸多不足,例如在形成的主題聚類結果上,缺乏有效的主題說明,自動形成的主題標簽不具有代表性,需要分析人員深入其中重新判斷等。這在小數據集環境下,還可以接受,當面對大數據的沖擊,這種半自動化的處理方法無疑是耗時又費力的。此外,對于新型情報研究對象,如網絡新聞、博客等,已有如動態監測科研機構等的系統工具,但總體來說還處于起步狀態,目前較多的還是依賴人工篩選出所需信息,并整理成結構化的數據,同樣也不利于大規模的數據分析。這些問題的存在,使得消除語義鴻溝(semantic gap)[37],應用語義技術成為廣泛需求及必然。

        將語義技術應用于情報分析,需要關注以下幾方面的內容。首先,分析情報研究任務的特點,了解它的語義需求,是否存在規律性的準則以供指導分析工具的研發,這既需要原則性和方向性的準則,也需要為針對多維度劃分出的各類任務給出詳細的規范,例如,對微博等社會化媒體,其中既存在高質量的信息,也存在辱罵等低質量的信息,區分這些信息并篩選出高質量信息,就成為在分析社會化媒體中的語義任務之一。其次,語義資源建設問題,即在情報分析領域中,要實現語義層面上的理解,是否需要建設語義資源,如果不需要,哪些技術手段可以代替,如果需要,哪種類型的語義資源可以便捷、快速、高效地構建,并且這種語義資源應該如何構建,如何使用才能有效地服務于情報研究工作。第三,信息抽取問題。科技信息涉及眾多學科的專業術語、各種科研機構、組織等,如何使用語義技術將這些信息準確地提取出來并加以標注,尤其是針對不同類型的信息源,采用什么樣的抽取策略等。第四,信息整合問題,即如何使用語義技術,把不同來源的數據對象及其互動關系進行融合、重組,重新結合為一個新的具有更高效率和更好性能的具有語義關聯的有機整體,以便后續分析。

        4 結語

        正如本文引言中所談到的那樣,大數據的理念和技術為情報學領域中情報研究的理論和實踐帶來了機遇,也帶來了挑戰。機遇巨大,挑戰更大,需要我們對此有清醒的認識。本文分析了大數據背景下情報研究的若干發展趨勢,總結了情報研究中值得關注的技術問題,以期能為促進情報研究的理論和實踐的發展添磚加瓦。

        參考文獻:

        [1]Big Data,Big Impact[EB/OL].[2012-09-06]..

        [27]Chaomei Chen. Information visualization[J]. Wiley Interdisciplinary Reviews:Computational Statistics,2010,

        2(4):387-403.

        [28]Daniel A. Keim, et al. Challenges in Visual Data Analysis[C]. Information Visualization, 2006:9-16.

        [29]P.Pirolli. The Sensemaking Process and Leverage Points for Analyst Technology as Identified Through Cognitive Task Analysis[EB/OL].?。?012-09-16].http://vadl.cc.gatech.edu/documents/2__card-sensemaking.pdf.

        [30]John Stasko, et al. Jigsaw: supporting investigative analysis through interactive visualization[EB/OL]. [2012

        -09-16].http:///fil

        es/Sandbox/victor/jigsaw-VAST07.pdf.

        [31]Daniel A. Keim, Florian M., and Jim Thomas. Visual Analytics: How Much Visualization and How Much Analytics?[J]. ACM SIGKDD Explorations Newsletter,2009,11(2):5-8.

        [32]Aigner, et al. Visual Methods for Analyzing Time-Oriented Data[J]. Transactions on Visualization and Computer Graphics, 2008, 14(1) :47-60.

        [33]Jiawei Han, Micheline Kamber, Jian Pei. Data Mining concepts and techniques third edition[M]. Morgan Kaufmann,2011.

        [34]John Domingue, et al.Handbook of Semantic Web Technologies[M]. Springer Publishing Company,2011.

        [35]Dieter Fensel,et mon Value Management-based on Effective and Efficient On-line Communication[EB/OL].[2012-09-17].http://wiki.iao.fraunhofer.de/images

        /studien/proceedings-common-value-management.pdf#page=19.

        [36]Bettina Berendt, Andreas Hotho, Gerd Stumme. Introduction to the Special Issue of the Journal of Web Semantics: Bridging the Gap-Data Mining and Social Network Analysis for Integrating Semantic Web and Web 2.0[J]. Web Semantics: Science, Services and Agents on the World Wide Web,2010,8(2-3):95-96.

        第7篇:計算機大數據論文范文

        關鍵詞 大數據時代 研究生培養質量 反饋

        中圖分類號:G643 文獻標識碼:A DOI:10.16400/ki.kjdkz.2015.08.023

        Postgraduate Education Quality Feedback Thoughts in Big Data Era

        ZHAN Zhiyong, CHEN Mingchan, YI Xiaoxi, WANG Zhichao

        (Harbin Engineering University, Harbin, Heilongjiang 150001)

        Abstract: Work quality of postgraduate training feedback main body is relatively simple, strong sense of quality feedback, the feedback mechanism is not the system, outdated methods of gathering information and other issues, combined with the characteristics of the era of big data, for quality of postgraduate training feedback work thinking that the quality of graduate education the depth and breadth of feedback work will occur gradually change to adapt to the era of big data.

        Keywords: big data era; postgraduate training quality; feedback

        近年來,隨著信息技術的飛速發展,大數據、云計算、慕課、翻轉課堂、顛倒教室等信息化時代的新名詞如雨后春筍般不斷涌現出來,2013年被媒體稱為“大數據元年”,大數據時代已經來臨。數據科學家舍恩伯格提出:“現有的認知和體系是建立在稀缺數據上的成果,人們思維和工作方式必須發生變革以適應大數據時代的到來”。①在新時代來臨之際,教育的各個環節面臨著重新洗牌的可能。

        1 大數據時代

        1.1 大數據

        “大數據”概念源于20世紀90年代,隨著互聯網技術的發展,大數據的內涵由“無法用傳統方法進行分析的數據集合”逐漸轉變為“具有超強決策力、洞察力和流程優化能力,與先進數據處理方式緊密相關的海量、多樣的信息資產”。②在一定條件下,可通過先進計算機技術,對此類信息資產進行有目的的設計與分析,揭示隱藏其中的各類信息,為我們進行研究、決策、管理提供可靠依據。

        大數據具有以下特點:(1)大量性。大數據的數據信息量巨大,有人稱其起始計量單位至少是P(1000個T)。(2)價值性。大數據具有很高價值,但其價值密度低,通過先進技術在海量信息中提取高價值信息是大數據發展的關鍵。(3)繁雜性。大數據的類型多樣,包括文本資料、網絡日志、圖片、音頻、視頻、搜索信息等各類結構化、非結構化及半結構化數據。(4)高時效性。很多大數據信息要求處理速度快,高時效性是大數據區別于傳統數據挖掘的顯著特征。

        1.2 大數據時代

        大數據時代是指基于大數據的各類信息及其相關技術發展與創新的信息時代,社會各領域的決策逐步由傳統的經驗決策轉變為數據決策、由注重因果關系轉變為相關關系。大數據時代開啟全新的時代,逐步影響著我們的生活、工作和思維,并且正在深刻改變傳統社會的商業、教育模式。

        大數據時代具有以下特點:③(1)信息生產泛在。信息的產生無時不有、無處不在,存在人類生產生活的各個領域,大數據的生產過程以及相應挖掘技術呈指數增長。(2)信息民主公開。絕大多數的數據產生于公共開放的網絡環境中,所有人可以是信息數據的生產者也可以是消費者。(3)反饋信息及時豐富。各類新型信息分析技術可對巨量數據及時分析判斷,為信息反饋工作提供了無盡可能。(4)信息具有相關性。數據信息在理論上能在各個維度無限使用與傳播,能在各種不同系統與應用中傳遞,在不同的環境中與不同數據有機結合能表達完全不同的涵義。(5)引導社會發展無限可能。如果說工業化時代使得機械力迅速增長,拓展了人類體力邊界;那么大數據時代使得智力無限增長,讓人類社會與處理信息充滿了無盡的想象空間。大數據時代,人類社會的各個領域即將或正在發生變革,以“慕課”為代表的教育領域也正在經歷一場革命。

        2 研究生培養質量反饋工作

        研究生培養質量是指在一定環境下研究生培養工作的各類特性總和,主要由培養過程質量(如教師授課質量、導師指導水平等)和產出成果質量即教育產品或服務的質量(如研究生科研成果質量、創新能力以及服務社會的質量等)有機組成。④研究生培養質量反饋機制指對研究生培養工作起調節指導作用的機制,即研究生培養“輸出”的研究生培養質量“反作用”于研究生培養工作各環節,指導研究生培養工作的過程。

        我國研究生培養單位歷來重視研究生培養質量反饋工作,各個培養單位做法不盡相同,或成立研究生培養質量管理部門管理或邀請校外專業評估機構或相應管理部門開展以座談、問卷調查等方式的基于樣本數據形式的質量評價工作。目前,研究生培養質量反饋工作普遍存在以下問題。

        (1)反饋主體相對單一。一方面,在研究生培養質量反饋工作中,研究生培養單位是質量反饋工作的實施者,政府、行業機構或者專業的調查機構參與較少。另一方面,在研究生培養單位中,實施培養質量反饋工作的部門主要是就業和研究生管理部門,而這些部門的職能很多,難以投入大量精力從事培養質量反饋工作。缺少社會參與、培養單位精力有限,難免出現反饋工作不科學,反饋信息不全面、不準確的現象。

        (2)質量反饋意識不強。多數研究生培養單位的工作重心在研究生的過程管理以及就業管理方面,注重研究生的培養過程質量和產出成果質量,對培養質量反饋工作的重要性認識不足,未能系統全面思考研究生培養質量反饋工作,常常造成研究生培養質量反饋工作流于形式,導致反饋信息不夠全面及時,無法有效指導研究生培養管理工作,研究生培養工作與社會需求脫節。

        (3)反饋機制不系統。目前,各個研究生培養單位在研究生培養的日常工作中,對研究生培養質量反饋工作進行了許多有益嘗試,如采取研究生評教、專家評教、座談、問卷調查等方式來改進管理工作,但這些工作多數停留在“頭疼醫頭腳疼醫腳”的層面,各項工作相對獨立,反饋結果難以有效利用,效率低下,反饋機制不成體系。往往是就業部門的反饋工作僅限就業部門使用,未能將反饋信息及時應用到研究生培養及其他相關部門,各部門間的質量反饋工作相互脫節。

        (4)信息采集方式落伍。現行的信息采集方式一般為調研,是培養質量反饋工作的重要內容,現行調研工作一般采用問卷調查、座談會以及電話調研等傳統方式進行,但傳統調研形式存在以下局限性:一是被調研者當時狀態影響調研結果,不同環境下被調研者的狀態也有不同,造成調研結果與實際情況存在誤差;二是調研群體代表性不強,傳統調研方法選取一定數量樣本進行調研,其必然無法代表全體;三是信息調研工作量較大,信息采集費時費力,同時要對采集到的信息進行分析研究;四是信息采集量不全面,調查問卷、座談等調研不能設計太多問題,許多被忽視的信息可能對研究生培養質量有重大影響;五是傳統調研工作過分強調因果關系,不注重相關關系。

        研究生培養質量反饋工作與數據緊密相關,而大數據時代則為研究生培養質量反饋工作的研究與發展提供了無限可能。

        3 大數據時代下研究生培養質量反饋工作的變革方向

        大數據時代的特點決定了現階段研究生培養質量反饋工作存在的問題將逐步解決,同時,研究生培養質量反饋工作的深度與廣度必然將逐步發生相應的轉變以適應形勢發展。

        (1)反饋信息數據采集方式不斷拓展。傳統研究生培養質量反饋機制相關數據一般來源于調查問卷、座談會、訪談以及相關信息統計等經典調研手段,大數據時代的數據采集工作不僅可以使用傳統調研手段獲取,絕大多數是從研究生的日常學習、生活信息以及身體信息中獲取,將來有可能出現從研究生幼兒學會說話的時間來判斷研究生的創造潛力,也有可能從研究生中學時期的習慣、愛好來判斷其科研潛力。同時,以往研究生培養工作尤其是課程教學工作中,由于缺乏相應數據支撐特別是對研究生數據的全面、深入分析,研究生培養工作往往形成整齊劃一的“工業流水線”,培養的是“標準件”,研究生的個性差異和創新能力培養得不到充分體現,而在大數據時代,研究生的所有學習行為都被網絡“神不知鬼不覺”地采集下來,研究生培養單位依據采集的數據對培養過程實時進行動態調整,針對每位研究生的不同特點實施個性化培養。⑤

        (2)數據分析統計方法不斷改進。一般質量反饋工作常采用傳統統計方法通過普通計算機或手工方式來處理結構化數據,而大數據時代的數據可以是半結構、非結構數據,其統計分析以相關關系為基礎展開,數據分析統計方法也隨著現代計算機技術的發展而不斷改進。⑥

        (3)研究生培養質量反饋機制逐步深化。隨著大數據時代的來臨,研究生培養管理過程與現代計算機網絡技術的聯系愈加緊密,不斷發生變革,如研究生課程教學的慕課沖擊、研究生學位論文的要求、研究生學位論文盲審系統的開發使用等,研究生培養管理過程的“在線化”變革必然導致相應的研究生培養反饋機制的逐步深化。同時,對于實施培養質量反饋工作的管理者來講,應提高個人數據素養,努力學習數據分析的基本原理和方法,發現并搜集反映研究生培養各個環節運行狀態和存在問題的狀態數據,加強其基于數據來進行決策和采取相應措施來保證研究生培養質量的自主性。

        (4)教育第三方全面介入。大數據時代,數據挖掘分析技術飛速發展,研究生培養單位已沒有能力依靠自身實力對研究生培養質量的大量相關數據進行深度挖掘。而作為數據挖掘分析見長的第三方,如專業數據挖掘公司、專業研究生培養質量評估機構甚至是學校計算機網絡中心必將不斷開發技術、拓展業務,與研究生培養單位圍繞研究生培養質量反饋工作開展全面合作,擔負研究生培養質量數據的挖掘與分析工作,為研究生培養質量反饋工作提供技術支持。

        (5)研究生培養工作各單元逐步融合。對于國家的教育系統來講,研究生教育屬于頂層教育,前期各層次的教育質量無不對研究生培養質量產生重要的影響,大數據時代將使得研究生培養質量反饋工作不再單純局限于研究生培養階段,應將整個教育過程如幼兒教育、小學、初中、高中以及大學等個層面的教育納入其中,將其作為一個系統來通盤謀劃。對于研究生培養單位來講,研究生培養質量反饋工作不應局限在研究生管理部門,應結合研究生的招生、培養、就業乃至校友溝通等各個層面,加強研究生各層面研究生培養數據資源的整合是大數據時代研究生培養單位在研究生培養質量反饋工作的重點。

        注釋

        ① 舍恩伯格.大數據時代[M].袁杰,譯.浙江人民出版社,2012.

        ② 楊旭,湯海京等.數據科學導論[M].北京理工大學出版社,2014.

        ③ 鄭毅.大數據時代的特點[J].新金融評論,2012(1).

        ④ 占志勇,侯彥芬等.基于系統論的研究生課程教學機制探討[J].黑龍江高等教育研究,2013(9).

        第8篇:計算機大數據論文范文

        (1武漢輕工大學數學與計算機學院 湖北 武漢 430023 2重慶交通大學 重慶 400074)

        摘 要:針對橋梁健康監測獲取海量數據卻無法實時精確地監測評估橋梁結構狀態的困難性,本立足數據挖掘算法理論,在Hadoop平臺下運用KNN文本分類算法對橋梁結構縮尺模型加速度數據進行分類分析,采用分布式文件系統HDFS對監測數據進行存儲和訪問,應用Map/Reduce并行計算框架對橋梁各環境參數進行計算,并據此判斷監測點屬于何種工況,實現了橋梁監測海量數據的存儲、訪問、分類以及橋梁結構健康狀況的判別,通過實驗室縮尺模型工程實例驗證了理論的有效性。實驗結果表明,與傳統的串行分類算法相比,基于Hadoop平臺的并行分類算法具有較好的擴展性,并取得了基于大數據理論的橋梁監測技術研究的革新。

        關鍵詞 :Hadoop平臺;大數據;KNN文本分類算法;HDFS

        中圖分類號:U445 文獻標識碼:Adoi:10.3969/j.issn.1665-2272.2015.05.036

        0 引言

        隨著橋梁事業的蓬勃發展,多數橋梁上建立了健康監測系統,可以通過傳感器獲取各種環境下的反映結構響應行為的信息,期間從各個監測點收集的數據量可達到GB級,而面對海量數據卻不能及時得到反映橋梁結構狀態的有效信息,橋梁結構監測系統的分析與處理不能及時完成,大數據概念和大數據技術的適時出現提供了一個分析處理橋梁監測歷史數據的途徑。Hadoop作為一個開源的云計算平臺提供了分布式文件系統HDFS和并行編程模型Map/Reduce,以其高容錯性、高伸縮性等優點允許用戶將Hadoop部署在大量廉價的硬件上,人們可以充分利用集群的存儲和高速運算能力,完成海量數據的處理,其中包括海量文本數據的分類問題。分類算法是一種重要的數據挖掘算法,該模型通過對海量樣本數據進行訓練能把未知類別的樣本映射到給定類別中的某一個,以此判別橋梁狀態所屬類別,K近鄰(K-Nearest Neighbor,KNN)文本分類算法是基于訓練集的文本分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。

        云計算提供的海量數據存儲和分布式計算能力在數據挖掘以及相關領域中是一種非常受青睞并且有效的方法,結合大數據技術和數據挖掘算法—KNN文本分類算法進行橋梁健康監測,在Hadoop平臺下運用KNN文本分類算法對橋梁結構縮尺模型加速度數據進行分類分析,采用分布式文件系統HDFS對監測數據進行存儲和訪問,應用Map/Reduce并行計算框架對橋梁各環境參數進行計算,使用分布式文件系統Hadoop Distributed Filesystem來存儲原始文檔(已分類的數據)和待分類文檔(監測數據),將文件讀寫和分布式并行計算框架MapReduce相結合實現KNN文本分類,將監測點的監測數據分到已有的工況中,并據此判斷監測點屬于何種工況,以便采取相關措施對橋梁進行維護,以此來探索基于大數據技術的橋梁監測分析處理的方法。

        1 大數據及其應用平臺

        “大數據”是一個體量很大,數據類別多樣的數據集,并且這樣的數據集無法用傳統數據庫工具對其內容進行抓取、管理和處理,主要具有數據體量巨大;①數據類別大; ②數據來自多種數據源, 囊括了半結構化和非結構化數據; ③數據處理速度快,在數據量非常龐大的情況下, 也能夠做到數據的實時處理;④數據價值密度低,價值密度的高低與數據總量的大小成反比。如何通過強大的機器算法更迅速地完成數據的價值“提純”并通過對海量數據進行分析獲得有價值的數據成為目前大數據背景下亟待解決的難題。

        Hadoop是Apache軟件基金會旗下的一個開源分布式計算平臺及分布式處理的軟件框架,主要用來處理大量數據,它實現了MapReduce一樣的編程模式和框架,能在由大量計算機組成的集群中運行海量數據并進行分布式計算。處理的海量數據能達到PB級別(1PB=1024TB),并可以讓應用程序在上千個節點中進行分布式處理。以Hadoop分布式文件系統(HDFS,HadoopDistributed Filesystem)和MapReduce(Google MapReduce的開源實現)為核心的Hadoop為用戶提供了系統底層細節透明的分布式基礎架構。HDFS的高容錯性、高伸縮性等優點允許用戶將Hadoop部署在低廉的硬件上,形成分布式系統;MapReduce分布式編程模型允許用戶在不了解分布式系統底層細節的情況下開發并行應用程序,所以用戶可以利用Hadoop輕松地組織計算機資源,從而搭建自己的分布式計算平臺,并且可以充分利用集群的計算和存儲能力,完成海量數據的處理。MapReduce 是大規模數據(TB級)計算的利器,Map和Reduce是它的主要思想,來源于函數式編程語言,Map負責將數據打散,Reduce負責對數據進行聚集。它的流程如圖1所示。

        2 K近鄰文本分類算法

        K近鄰(K-Nearest Neighbor,KNN)文本分類算法是基于訓練集的文本分類算法,是一個理論上比較成熟的方法,也是最簡單的機器學習算法之一。該方法的思路是:計算一個點A與其他所有點之間的距離,取出與該點最近的k個點,然后統計這k個點里面所屬分類比例最大的,則點A屬于該分類。根據加權距離和判斷測試樣本所屬的類別的具體過程如下:

        假設給定有m個訓練樣本集D,每個樣本具有n個屬性,di=(σi1,σi2,…,σin),其中i=(1,2,…,m)表示第幾個訓練樣本。

        (1)設定k的值,k最近鄰的數量;

        (2)把測試樣本表示成測試文本向量X(ω1,ω2,…,ωn);

        (3)根據下式計算測試樣本與訓練集中所有樣本的相似度:

        公式(1)中di為訓練樣本,X為測試樣本。

        (4)對根據步驟(3)計算出的m個相似度進行排序,選出k個最大值,作為X的近鄰;

        (5)根據公式(2)收集這k個最近鄰的類別,

        公式(2)中X表示測試樣本,sim(X,di)為相似度計算公式,y(di,Cj)為類別屬性函數,即如果di屬于類別Cj,那么函數值為1,否則為0。

        (6)對步驟(5)計算出的值排序,將測試樣本分到值最大的類別中去。

        3 工程實例

        3.1 實例模型

        本次工程實例根據云南黑沖溝特大橋全橋作為原型建立,使用的數據是由橋梁實驗室的縮尺模型上建立的監測系統收集到的,原型立面圖(見圖2)。

        試驗獲得以下三種工況的加速度時間序列:工況一,跨中無裂縫,模擬無損傷情況;工況二,跨中具有0.1mm裂縫,模擬有損傷情況;工況三,跨中有0.12mm+0.03mm兩條裂縫情況,模擬損傷加劇情況。

        根據本次動力學試驗的研究目的,確定試驗的主要測試內容為模型結構關鍵部位加速度,該測試項目可采用壓電加速度傳感器進行量測,采用重錘敲擊的方式,給模型提供激勵,來模擬完成脈動試驗,采樣頻率為18.8Hz,在激振器開始激振5s后進行采樣,采樣時間為50s,獲取各個測點的加速度數據,特征選擇方法采用文檔頻率,k取30。

        3.2 文檔預處理

        本次工程實例的樣本數據是通過縮尺模型重錘敲擊獲取的加速度數據,監測系統收集了不同工況下的監測數據,對損傷前即健康狀況,損傷后0.1mm裂縫和損傷加劇0.12mm+0.03mm裂縫進行樣本數據訓練分析,獲取不同的損傷情況下各個監測點的分類情況,得出每個監測點的損傷情況,實驗選定0.12mm+0.03mm兩條裂縫情況下采用小車激勵的方式獲取該工況下的加速度時程信號作為待分類數據,通過對監測數據的分類,判定其是否存在損傷。

        待分類文檔節點中,WCDMapper繼承hadoop平臺的Mapper類,并重寫map方法對待分類文檔進行讀取,并統計每個詞出現的次數;WCDReducer繼承hadoop平臺的Reducer類,并重寫reduce方法對待分類數據進行寫操作。WCDMapper類的map方法和WCDReducer類的reduce方法分別如下,處理后的待分類文檔如圖3所示,前面一個是數據,后一個數字是該數據出現在待分類文檔的次數。后面的原始文檔經過預處理后也與此相似。

        由于MapReduce只輸出一個結果,而每個原始文檔都采用MapReduce處理會增加代碼量和內存的消耗,所以本文采用Hadoop平臺提供的FileSystem、FSDataInput-Stream、FSDataOutputStream類來對原始文檔進行相應的讀寫,最后輸出到文檔中的內容與圖4.2相似,而文件讀取方式不同。最后需要將它們合并到一個文檔中,采用Hadoop平臺提供的FileSystem、FSDataInputStream、FSDataOutputStream類來對文件進行讀寫。輸出的matrix文件如圖4.3所示,每一行的第一個數為監測的數據,后面的數字為該數據在每個文檔中出現的次數。

        3.3 特征選擇

        根據上一步得到的文件,計算每個數據的增益值,對每一個數據的信息增益進行從大到小排序,最后把增益值最大的個特征項輸出到文件。本次設計中選取的為100,輸出到文件的內容如圖5所示,每一行只顯示1個數據。

        3.4 文檔向量化

        原始文檔和待分類文檔都需要向量化,原始文檔向量化之后需要歸一,而待分類文檔向量化之后不需要歸一,所以給他們分別提供了一個向量化的類。從文件中讀入特征項。參數文件存儲經過特征選擇后剩下的特征項。

        原始文檔經過向量化之后,輸出到每個文檔的內容不一樣,圖6是文檔名為0向量化后的部分內容。待分類文檔的向量化后不需要歸一化,輸出到文檔的內容如圖7所示。

        3.5 分類

        此步驟計算原始文檔和待分類文檔向量兩個向量的夾角的余弦。最后的絕對值越大,說明夾角越小,越相似,距離越近。在訓練文本集中選出與新文本最相似的個文本,這個文檔中屬于哪一類的文檔最多,則待分類的文檔就屬于哪一類。map( )方法獲取待分類文檔的向量,reduce( )方法輸出結果到文件中。分類的結果表示待分類的文檔屬于哪一類,也即是該監測數據來源的監測點的損壞情況屬于哪一類。本次實驗選定0.12mm+0.03mm兩條裂縫情況,采用小車激勵的方式獲取該工況下的加速度時程信號,數據分類結果如圖8所示,該結果顯示待分類的文檔屬于損傷0.1mm這一類。

        3.6 結果分析

        在上一步中已經獲得了待分類文檔分類的結果,此分類結果的數據只是監測數據的一部分,而且在分類中由于KNN分類的值選取沒有較好的方法以及其他影響因素,獲得的結果可能有誤。因此將監測點傳來的數據拆分到若干個帶分類文檔中,同時對這些文檔進行分類。分類完成之后再對分類結果進行整合分析,獲得最終的有效的結果即該監測點準確的損傷情況。Map( )方法讀取各個待分類文檔分類的結果,并對結果匯總加以分析,獲得監測點數據最后的分類結果,reduce( )方法將最后的有效結果寫入文件。最后的輸出結果如圖9所示。

        綜上所述,基于MapReduce編程模型的橋梁監測信息分類技術可以有效判別橋梁狀態所屬類別,由于HDFS將大數據分割成了若干個blocks存儲在不同的節點上,這樣KNN分類算法由一個主機的運算分散到多個節點并行處理,每個節點完成T個任務,時間復雜度為O(ns)/T,其中n為訓練樣本的總數,s為特征屬性數模,應用HADOOP平臺的分布式處理框架大大降低了算法的時間復雜度。

        4 結論

        本文針對橋梁健康監測系統歷史數據無法有效利用,無法通過海量數據實時精確地監測評估橋梁結構狀態的困難性,基于數據挖掘算法理論,提出了基于大數據的橋梁健康監測信息分類研究技術的革新,在Hadoop平臺下運用KNN文本分類算法對橋梁結構縮尺模型加速度數據進行分類分析,采用分布式文件系統HDFS對監測數據進行存儲和訪問,應用Map/Reduce并行計算框架對橋梁各環境參數進行計算,將文件讀寫和分布式并行計算框架MapReduce相結合實現KNN文本分類,將監測點的監測數據分到已有的工況中,并據此判斷監測點屬于何種工況,實現了橋梁監測海量數據的存儲、訪問、分類以及橋梁結構健康狀況的判別,Hadoop平臺下的KNN算法實現了分布式并行計算,提高了算法運行時間效率,降低了時間復雜度,通過實驗室縮尺模型實驗驗證了方法的有效性。

        存在的不足之處是值的選擇,值選擇過小,得到的近鄰數過少,會降低分類精度,同時也會放大噪聲數據的干擾;而如果值選擇過大,并且待分類樣本屬于訓練集中包含數據數較少的類,那么在選擇個近鄰的時候,實際上并不相似的數據亦被包含進來,造成噪聲增加而導致分類效果的降低。如何選取恰當的值也成為KNN的研究熱點,尚需進一步改進。

        參考文獻

        1 黃荷.大數據時代降臨[J]. 黨政論壇,2012(11)

        2 金鵬. 基于Hadoop的SINN文本分類算法的設計與實現[D]. 武漢:華中師范大學碩士學位論文,2013

        3 李登榮.文本分類及其相關技術研究[D].復旦大學博士論文,2005

        4 Samovsky M, Kacur T. Cloud-based classification of text documents using the Gridgain platform[C]. Applied Computational Intelligence and Informatics,2012(7)

        5 Caruana G, Li M, Qi M. A MapReduce based parallel SVM for large scale spam filtering[C]. Fuzzy Systems and Knowledge Discovery, 2011 (4)

        6 Viktor Mayer-Sch nberger.Big Data[M].杭州:浙江人民出版社,2013(1)

        7 (英)維克托·邁爾-舍恩伯格,肯尼思·庫克耶著.大數據時代[M]. 北京:人民出版社,2012

        8 向小軍,高陽,商琳,等.基于Hadoop平臺的海量文本分類的并行化[J].計算機科學,2011(10)

        9 (美)Tom White著. 周敏奇,王曉玲,金澈清,錢衛寧譯. Hadoop權威指南(第2版) [M]. 北京:清華大學出版社,2011

        10 萬川梅,謝正蘭. 深入云計算:Hadoop應用開發實戰詳解[M]. 北京:中國鐵道出版社,2013

        11 張寧,賈自艷,史忠植.使用KNN算法的文本分類[J].計算機工程,2005(6)

        第9篇:計算機大數據論文范文

        關鍵詞:大數據;高校應用;發展方向

        1大數據概要

        近年來,當人們還對物聯網、云計算、移動互聯網等熱詞感覺新穎的時候,大數據(BigData)也橫空出世并呈燎原之勢。大數據是一個體量大、數據類別多的數據集,并且這樣的數據集不能用傳統數據庫工具對其進行處理。如果說傳統數據庫時代的數據管理方式是“池塘捕魚”,那么大數據時代的數據管理方式則是“大海捕魚”,大數據管理方式,不僅在數據規模、數據類型、數據模式、數據對象處理工具上和傳統數據模式有著明顯的差異,它還能讓我們以一種從未涉足過的方式,對巨量數據進行分析,從而能幫助我們獲得更有價值的產品和服務,最終形成影響社會發展的變革之力。

        2高校管理中的大數據初步應用

        據教育部統計截至2013年,全國共有普通本科院校879所、普通高職(專科)院校1266所、國家批準設立的獨立學院287所(不含軍事院校和港澳臺院校),每所高校學生人數都破萬,每名學生都存在學籍、選課、考試、考勤、學費、學分等各種數據;對于教師有教師基本信息、職稱、論文、課件、考題等數據。故高校信息系統是數據生產大戶,長期運營積累下來的數據就是高校中的大數據,合理利用這些數據,不僅可以幫助教學管理,減輕教學工作中的事務性工作,更能提高招生推廣活動,改變教學領域的授課和學習模式,不論高校自身,還是社會各界,都能從高校中的大數據應用受獲益匪淺。

        2.1個性化學習

        從孔孟時代開始,我們就提出了因材施教,個性化學習也是教育所追求的最高目標。要實現這目標,首先要了解受教育對象的長處、短處,各種特點。但目前高校擴招,一個教師教多個教學班,很難去了解每一個學生的特點實施教學,將大數據挖掘技術與日常教學相結合,通過可視化的在線學習平臺,學生自主選擇自己感興趣的課程學習,就能夠實現滿足個性化學習的功能。學生在自主學習平臺上的學習資料,交流互動信息,每個知識點不同的學習進度等,通過大數據技術對這些個性化信息的分析拓展,不僅能幫助學生完善知識結構,更能加快學生對自身興趣愛好的挖掘和特長的培養,在整個教育信息化的大背景下,只有基于大數據技術才能更好地實現這種學習方式,充分利用大數據技術,可以為各地高校帶來更具有針對性的教育方式,能夠實現盡可能早的將學生的天賦創造力釋放出來。

        2.2教學質量評估

        教學質量評估是全國每個高校定期要做的事務性工作,其目的是通過不同渠道,包括老師,同學,行政部門等不同角度對教學評估,以期發現教學工作、管理工作中存在的各類問題,并及時地通過調整教學方案等手段來改正完善,達到提高教學質量的目的。在教育評估系統中引入大數據技術,不僅從時間成本上節約,更能加強評估的科學性,增強了教育數字化建設的實效性。在教學質量評估中利用基于大數據挖掘的智能算法,我們就可以根據教師教學互動、多媒體課件的效果、學生積極性等因素中找出其中的內在聯系,就能為教學評估部門提供客觀的、科學的、符合實際的決策支持信息,為教師提供準確的反饋信息,使之更好地開展教學工作,提高教學質量。

        2.3專業培養方向拓展

        大數據技術是新興的,但它卻又發展迅速,朝夕之間,大數據技術應用到了各行各業,面對大數據帶來的挑戰與機遇,國內各大高校根據各個行業的大數據分析,可準確評估出未來幾年社會需要的專業性人才方向,如數據采樣量大,完整,還能直接分析出各個專業的需求人數,從而更好地開設專業培養方向,適當調整專業招收人數,以免再現前幾年出現的入學時,專業很火爆,到學生畢業時,卻又人才過剩。

        2.4分析決策

        一切要拿事實說話,在做重大決策時候,我們更需要用事實,用數據來參考。在實際運用中,我們通過高校業務管理方面的專家,在不考慮數據結構化問題的前提下,將理念累積的管理知識整理,并轉化成數據知識,形成數據中心知識庫,再利用大數據技術,對數據進行收集、分類、抽取、清洗、轉換,提取出我們需要的數據,以新的組合形式儲存到數據倉庫中。在數據倉庫的基礎上,建立通用的和面向主題的分析平臺,實現從不同的維度進行統計分析,最終實現為不同層次決策者們提供數據支持。

        2.5心理咨詢

        互聯網移動應用的普及,學校論壇、微博公共平臺上每天都會產生主題,評論等數據,對這些數據進行科學的存儲分析,可從中分析出師生的思想情況、情感走向和行為動態,再利用這些行為動態,建立師生情感模型,便可以掌握師生的心理健康程度,有針對性地加強對師生的心理輔導。目前高校信息系統數據因早期規劃,數據平臺不一致等問題,普遍存在數據的質和量都不高,許多高校的數據僅停留在記錄保存上面,對數據很難分析和利用而想要充分利用大數據技術,提升高校的信息化水平,就必須要有保質保量的數據來源,這就要求高校業務必須和計算機技術緊密結合,并且需要不斷迭代更新,跟上技術發展的腳步。目前的情況來看,高校大數據應用還存在著一些問題,還需要進一步地修正和探索。

        參考文獻:

        [1]維克托邁爾舍恩伯格.大數據時代[M].杭州浙江人民出版社,2013

        无码人妻一二三区久久免费_亚洲一区二区国产?变态?另类_国产精品一区免视频播放_日韩乱码人妻无码中文视频
      2. <input id="zdukh"></input>
      3. <b id="zdukh"><bdo id="zdukh"></bdo></b>
          <b id="zdukh"><bdo id="zdukh"></bdo></b>
        1. <i id="zdukh"><bdo id="zdukh"></bdo></i>

          <wbr id="zdukh"><table id="zdukh"></table></wbr>

          1. <input id="zdukh"></input>
            <wbr id="zdukh"><ins id="zdukh"></ins></wbr>
            <sub id="zdukh"></sub>
            欧美日韩精品一区二区三区不卡 | 亚洲一本大道在线 | 欧美国产在线一区 | 亚洲人成影视在线观看 | 一伊人久久香线蕉综合 | 思思在线精品视频综合首页 |