前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的數(shù)據(jù)分析統(tǒng)計學方法主題范文,僅供參考,歡迎閱讀并收藏。
關鍵詞:大數(shù)據(jù)時代;統(tǒng)計學;影響
隨著大數(shù)據(jù)時代的到來,各企業(yè)采用了新的策略,獲得了更多的利潤。對于統(tǒng)計專業(yè)來說,改變發(fā)展策略,使培養(yǎng)出來的專業(yè)人才能夠適應大數(shù)據(jù)背景的需求是其主要任務。目前,高校統(tǒng)計學專業(yè)逐漸認識到大數(shù)據(jù)時代綜合性人才培養(yǎng)的重要性,并對專業(yè)建設進行了相關改革。
一、大數(shù)據(jù)時代對統(tǒng)計學的影響
大數(shù)據(jù)時代的到來對現(xiàn)代統(tǒng)計專業(yè)的發(fā)展造成了新的沖擊,要確保培養(yǎng)出來的人才能夠起到應有的作用,首先要了解大數(shù)據(jù)時代對統(tǒng)計專業(yè)所造成的影響。
(一)大數(shù)據(jù)時代使數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)性質(zhì)發(fā)生變化
網(wǎng)絡技術(shù)以及基于網(wǎng)絡技術(shù)的電子商務等新的數(shù)據(jù)記錄模式標志著大數(shù)據(jù)時代的到來。大數(shù)據(jù)時代,不再依賴于抽樣調(diào)查的記錄模式,網(wǎng)站瀏覽、視頻監(jiān)控都將形成大量數(shù)據(jù)。傳統(tǒng)的數(shù)據(jù)結(jié)構(gòu)甚至是數(shù)據(jù)性質(zhì)發(fā)生了變化。大量的數(shù)據(jù)信息對于需求者來說,如何甄別其可用價值成為關鍵。傳統(tǒng)的數(shù)據(jù)可以二維表格顯示和整理。但大數(shù)據(jù)時代所產(chǎn)生的數(shù)據(jù)具有多樣化和復雜化特征,往往包含了大量的音頻、視頻、HTML等。這要求大數(shù)據(jù)的收集具有較強的目的性,才能實現(xiàn)其價值。
(二)大數(shù)據(jù)時代要求統(tǒng)計分析方法和統(tǒng)計思維更新
大數(shù)據(jù)時代的主要特征為數(shù)據(jù)多且復雜,數(shù)據(jù)分析要求分析者對總體進行分析。在這一背景下,參數(shù)統(tǒng)計不再具有意義,假設檢驗法也隨著總體分析而失去價值。數(shù)據(jù)的復雜化對傳統(tǒng)大數(shù)據(jù)統(tǒng)計思維造成了巨大的沖擊,要求統(tǒng)計者具有活躍的思維。只有對傳統(tǒng)數(shù)據(jù)的改變進行分析,并且樹立新的統(tǒng)計方法。
二、大數(shù)據(jù)時代下的統(tǒng)計學發(fā)展新策略
為適應大數(shù)據(jù)時代的需求,統(tǒng)計學專業(yè)的發(fā)展勢必要對傳統(tǒng)模式進行改革。目前,多數(shù)高校統(tǒng)計學專業(yè)已經(jīng)認識到大數(shù)據(jù)對于其發(fā)展帶來的沖擊。為此,本文提出了以下策略,以及能夠幫助統(tǒng)計學取得更好發(fā)展。
(一)加強統(tǒng)計應用性教學
根據(jù)大數(shù)據(jù)時代數(shù)據(jù)的總體分析特征,數(shù)據(jù)分析人員應掌握全面的分析方法。在人才培養(yǎng)過程中,應致力于培養(yǎng)實踐分析能力,提高數(shù)據(jù)和資料收集能力,并且培養(yǎng)其強烈的數(shù)據(jù)價值觀,使其能夠從眾多數(shù)據(jù)中找到所需的。另外,對傳統(tǒng)模式進行改革,增加大數(shù)據(jù)統(tǒng)計內(nèi)容,以適應時代的需求。基于大數(shù)據(jù)的結(jié)構(gòu)特點,實施資料透視化教學,提高分析者對復雜數(shù)據(jù)的分析能力。
(二)培養(yǎng)大數(shù)據(jù)統(tǒng)計思維
在人才培養(yǎng)過程中,新的統(tǒng)計思維的培養(yǎng)具有重要意義,即強調(diào)數(shù)據(jù)分析實踐能力的提高。統(tǒng)計思維的培養(yǎng)有助于數(shù)據(jù)分析者對復雜的數(shù)據(jù)進行區(qū)分,從而整理有效信息。在大數(shù)據(jù)時代,不僅要以傳統(tǒng)的平均思維、動態(tài)思維和變異思維為基礎,還要注重基于整體分析的大數(shù)據(jù)思維。另外,還要培養(yǎng)數(shù)據(jù)分者的復雜性思維,以應對復雜的數(shù)據(jù)庫??傊?,大數(shù)據(jù)時代需要數(shù)據(jù)分析者具有全面的、創(chuàng)新性的思維。
(三)強化基礎性統(tǒng)計知識
統(tǒng)計學自身具有復雜性,其改變多且抽象?;A的統(tǒng)計知識是進一步掌握大數(shù)據(jù)分析思維的基礎,可見學習基礎性統(tǒng)計知識的重要性是不言而喻的。為此,應該采取深入淺出的方法,利用多媒體等方式使復雜的數(shù)據(jù)統(tǒng)計清晰化、簡單化。結(jié)合具體的案例使數(shù)據(jù)分析者正確認識統(tǒng)計概念、掌握統(tǒng)計原理和方法。此外大數(shù)據(jù)分析不再是一種專業(yè),而是更傾向于一種技術(shù),這要求我們將大數(shù)據(jù)分析與統(tǒng)計學以外的相關知識相互聯(lián)系。注重真實相關與偽相關的講解,強調(diào)商務智能的開發(fā)和分析。只有具有堅實的基礎,才能確保數(shù)據(jù)分析者大數(shù)據(jù)分析思維的養(yǎng)成,適應現(xiàn)代社會的需求。
(四)加強復合型人才培養(yǎng)
為適應大數(shù)據(jù)時代的需求,復合型人才的培養(yǎng)是關鍵。所謂復合型人才,是指其不但要具有專業(yè)的數(shù)據(jù)分析能力,還要相應的具備管理以及其從事專業(yè)的技術(shù)。大數(shù)據(jù)時代,高校應建立全面的人才培養(yǎng)模式,注重培養(yǎng)人才的數(shù)據(jù)分析能力、編程能力等,使其真正了解大數(shù)據(jù),懂得如何利用大數(shù)據(jù)對其所處的行業(yè)起到積極作用才是關鍵??傊?,大數(shù)據(jù)時代對綜合性人才具有更高的需求,大數(shù)據(jù)時代不僅培養(yǎng)的是一種能力,而且是一種思維,是對全新模式下的數(shù)據(jù)的分析和利用。高校作為人才培養(yǎng)的重要基地,其教學模式的改革、對大數(shù)據(jù)時代所需教學模式的認識是高校的主要任務。
三、總結(jié)
統(tǒng)計學是經(jīng)濟學的基礎課程,傳統(tǒng)的統(tǒng)計人才培養(yǎng)具有定向性。而隨著大數(shù)據(jù)時代的到來,數(shù)據(jù)產(chǎn)生的形式多樣,且具有復雜性。大數(shù)據(jù)分析不僅是作為一種專業(yè)存在,而是應以一項必備的技術(shù)而存在。大數(shù)據(jù)時代,傳統(tǒng)的統(tǒng)計思維和統(tǒng)計方法發(fā)生了改變,統(tǒng)計人才培養(yǎng)方式的改革也就勢在必行。(作者單位:海南師范大學)
參考文獻:
[1] 朱懷慶.大數(shù)據(jù)時代對本科經(jīng)管類統(tǒng)計學教學的影響及對策[J].高等教育研究,2014(3).
[2] 姚壽福.經(jīng)濟管理類本科專業(yè)統(tǒng)計學課程教學改革思考[J].高等教育研究,2012(3).
[3] 孫耀東.大數(shù)據(jù)背景下統(tǒng)計學專業(yè)課程教學探究[J].廊坊師范學院學報(自然科學版),2015(06).
一、數(shù)理統(tǒng)計思想的形成
統(tǒng)計思想需要經(jīng)歷統(tǒng)計觀念、統(tǒng)計意識、統(tǒng)計理念等階段。統(tǒng)計思想是根據(jù)人類社會需求的變化而開展各種統(tǒng)計實踐、統(tǒng)計理論研究與概括,才能逐步形成系統(tǒng)的數(shù)理統(tǒng)計思想。
二、數(shù)理統(tǒng)計思想的特點
數(shù)理統(tǒng)計思想從數(shù)理統(tǒng)計學派汲取新的營養(yǎng),并且越來越廣泛的應用數(shù)學方法,聯(lián)系也越來越密切,但在數(shù)理統(tǒng)計思想的體現(xiàn)上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現(xiàn)出:(1)數(shù)理統(tǒng)計思想強調(diào)方法性與應用性的統(tǒng)一;(2)數(shù)理統(tǒng)計思想強調(diào)科學性與藝術(shù)性的統(tǒng)一;(3)數(shù)理統(tǒng)計思想強調(diào)客觀性與主觀性的統(tǒng)一;(4)數(shù)理統(tǒng)計思想強調(diào)定性分析與定量分析的統(tǒng)一。
三、數(shù)理統(tǒng)計思想
就是統(tǒng)計實際工作、數(shù)理統(tǒng)計學理論及應用研究中必須遵循的基本理念和指導思想。數(shù)理統(tǒng)計的思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想。
1.均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有數(shù)理統(tǒng)計學理論,是數(shù)理統(tǒng)計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發(fā)展趨勢,避免個別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.變異思想
統(tǒng)計研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計方法就是要認識事物數(shù)量方面的差異。數(shù)理統(tǒng)計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹?shù)谋匾襟E。
4.相關思想
事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯(lián)的。
5.擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現(xiàn)得非常復雜,這種方法就是對規(guī)律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數(shù)量上所體現(xiàn)的模于此而預示的可能性”。
6.檢驗思想
數(shù)理統(tǒng)計方法總是歸納性的,其結(jié)論永遠帶有一定的或然性,基于局部特征和規(guī)律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數(shù)量特征的假設是否可信。
四、數(shù)理統(tǒng)計的思想方法?
1.要更正不正確的思想認識
英國著名生物學家、統(tǒng)計學家高爾頓曾經(jīng)說過:“統(tǒng)計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統(tǒng)計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現(xiàn)實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯(lián)的是,有些人認為只有推斷統(tǒng)計才是科學,描述統(tǒng)計不是科學,并延伸擴大到只有數(shù)理統(tǒng)計是科學、社會經(jīng)濟統(tǒng)計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經(jīng)濟統(tǒng)計的無知。比利時數(shù)學家凱特勒不僅研究概率論,并且注重于把統(tǒng)計學應用于人類事物,試圖把統(tǒng)計學創(chuàng)建成改良社會的一種工具。經(jīng)濟學和人口統(tǒng)計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產(chǎn)。
2.要不斷拓展統(tǒng)計思維方式
數(shù)理統(tǒng)計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數(shù)據(jù)信息(尤其是不完全甚至劣質(zhì)的信息)去產(chǎn)生新的知識或去驗證一個假設,即以所掌握的數(shù)據(jù)信息為依據(jù),歸納得出具有一般特征的結(jié)論。歸納推理是要在數(shù)據(jù)信息的基礎上透過偶然性去發(fā)現(xiàn)必然性。演繹推理是對統(tǒng)計認識能力的深化,尤其是在根據(jù)必然性去研究和認識偶然性方面,具有很大的作用。
3.要深化對數(shù)據(jù)分析的認識
任何統(tǒng)計研究都離不開數(shù)據(jù)分析。因為這是得到統(tǒng)計研究結(jié)論的必要環(huán)節(jié)。雖然統(tǒng)計分析的形式隨時代的推移而變化著,但是“從數(shù)據(jù)中提取一切信息”或者“歸納和揭示”作為統(tǒng)計分析的目的卻一直沒有改變。對統(tǒng)計數(shù)據(jù)分析的原因有以下三個方面:一是基于同樣的數(shù)據(jù)會得出不同、甚至相反的分析結(jié)論;二是我們所面對的分析數(shù)據(jù)有時是缺損的或存在不真實性;三是我們所面對的分析數(shù)據(jù)有時則又是海量的,讓人無從下手。雖然統(tǒng)計數(shù)據(jù)分析已經(jīng)經(jīng)歷了描述性數(shù)據(jù)分析、推斷性數(shù)據(jù)分析和探索性數(shù)據(jù)分析等階段,分析的方法技術(shù)已經(jīng)有了質(zhì)的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數(shù)據(jù)分析的認識,圍繞“準確解答特定問題并且從數(shù)據(jù)中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續(xù)開展數(shù)據(jù)分析方法技術(shù)的研究。
數(shù)理統(tǒng)計思想方法應用必須堅持以事實為依據(jù)、用數(shù)據(jù)說話的原則,把統(tǒng)計技術(shù)的應用與專業(yè)技術(shù)緊密結(jié)合,在考慮統(tǒng)計項目實施時,應從理論和事實層面上注重分析和使用條件,認真權(quán)衡各種關聯(lián)因素。數(shù)理統(tǒng)計學是繼承和發(fā)展基礎統(tǒng)計的理論成果,堅持統(tǒng)計學的社會科學性質(zhì),使統(tǒng)計理論研究更接近統(tǒng)計工作實際,在國家和社會得到廣泛發(fā)展。
參考文獻
[1] 陳福貴.統(tǒng)計思想雛議[J]北京統(tǒng)計,?2004,(05).
[2] 龐有貴.統(tǒng)計工作及統(tǒng)計思想[J]科技情報開發(fā)與經(jīng)濟,?2004,(03).
[3] 范文正.幾種基本統(tǒng)計思想的現(xiàn)實意義[J]統(tǒng)計與決策,?2007,(08).
【論文摘要】所謂統(tǒng)計思想,就是在統(tǒng)計實際工作、統(tǒng)計學理論的應用研究中,必須遵循的基本理念和指導思想。統(tǒng)計思想主要包括均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等思想。文章通過對統(tǒng)計思想的闡釋,提出關于統(tǒng)計思想認識的三點思考。
1關于統(tǒng)計學
統(tǒng)計學是一門實質(zhì)性的社會科學,既研究社會生活的客觀規(guī)律,也研究統(tǒng)計方法。統(tǒng)計學是繼承和發(fā)展基礎統(tǒng)計的理論成果,堅持統(tǒng)計學的社會科學性質(zhì),使統(tǒng)計理論研究更接近統(tǒng)計工作實際,在國家和社會得到廣泛發(fā)展。
2 統(tǒng)計學中的幾種統(tǒng)計思想
2.1 統(tǒng)計思想的形成
統(tǒng)計思想不是天然形成的,需要經(jīng)歷統(tǒng)計觀念、統(tǒng)計意識、統(tǒng)計理念等階段。統(tǒng)計思想是根據(jù)人類社會需求的變化而開展各種統(tǒng)計實踐、統(tǒng)計理論研究與概括,才能逐步形成系統(tǒng)的統(tǒng)計思想。
2.2 比較常用的幾種統(tǒng)計思想
所謂統(tǒng)計思想,就是統(tǒng)計實際工作、統(tǒng)計學理論及應用研究中必須遵循的基本理念和指導思想。統(tǒng)計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想?,F(xiàn)分述如下:
2.2.1 均值思想
均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統(tǒng)計學理論,是統(tǒng)計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發(fā)展趨勢,避免個別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.2.2 變異思想
統(tǒng)計研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計方法就是要認識事物數(shù)量方面的差異。統(tǒng)計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
2.2.3 估計思想
估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹?shù)谋匾襟E。
2.2.4 相關思想
事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯(lián)的。
2.2.5 擬合思想
擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現(xiàn)得非常復雜,這種方法就是對規(guī)律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數(shù)量上所體現(xiàn)的模式和基于此而預示的可能性”。
2.2.6 檢驗思想
統(tǒng)計方法總是歸納性的,其結(jié)論永遠帶有一定的或然性,基于局部特征和規(guī)律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數(shù)量特征的假設是否可信。
2.3 統(tǒng)計思想的特點
作為一門應用統(tǒng)計學,它從數(shù)理統(tǒng)計學派汲取新的營養(yǎng),并且越來越廣泛的應用數(shù)學方法,聯(lián)系也越來越密切,但在統(tǒng)計思想的體現(xiàn)上與通用學派相比,還有著自己的特別之處。其基本特點能從以下四個方面體現(xiàn)出:(1)統(tǒng)計思想強調(diào)方法性與應用性的統(tǒng)一;(2)統(tǒng)計思想強調(diào)科學性與藝術(shù)性的統(tǒng)一;(3)統(tǒng)計思想強調(diào)客觀性與主觀性的統(tǒng)一;(4)統(tǒng)計思想強調(diào)定性分析與定量分析的統(tǒng)一。
3 對統(tǒng)計思想的一些思考
3.1 要更正當前存在的一些不正確的思想認識
英國著名生物學家、統(tǒng)計學家高爾頓曾經(jīng)說過:“統(tǒng)計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統(tǒng)計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現(xiàn)實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜越科學,在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯(lián)的是,有些人認為只有推斷統(tǒng)計才是科學,描述統(tǒng)計不是科學,并延伸擴大到只有數(shù)理統(tǒng)計是科學、社會經(jīng)濟統(tǒng)計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經(jīng)濟統(tǒng)計的無知。比利時數(shù)學家凱特勒不僅研究概率論,并且注重于把統(tǒng)計學應用于人類事物,試圖把統(tǒng)計學創(chuàng)建成改良社會的一種工具。經(jīng)濟學和人口統(tǒng)計學中的某些近代概念,如gnp、人口增長率等等,均是凱特勒及其弟子們的遺產(chǎn)。
3.2要不斷拓展統(tǒng)計思維方式
統(tǒng)計學是以歸納推理或歸納思維為主要的邏輯方式的。眾所周知,邏輯推理方式主要有兩種:歸納推理和演繹推理。歸納推理是基于觀測到的數(shù)據(jù)信息(尤其是不完全甚至劣質(zhì)的信息)去產(chǎn)生新的知識或去驗證一個假設,即以所掌握的數(shù)據(jù)信息為依據(jù),歸納得出具有一般特征的結(jié)論。歸納推理是要在數(shù)據(jù)信息的基礎上透過偶然性去發(fā)現(xiàn)必然性。演繹推理是對統(tǒng)計認識能力的深化,尤其是在根據(jù)必然性去研究和認識偶然性方面,具有很大的作用。
3.3深化對數(shù)據(jù)分析的認識
任何統(tǒng)計研究都離不開數(shù)據(jù)分析。因為這是得到統(tǒng)計研究結(jié)論的必要環(huán)節(jié)。雖然統(tǒng)計分析的形式隨時代的推移而變化著,但是“從數(shù)據(jù)中提取一切信息”或者“歸納和揭示”作為統(tǒng)計分析的目的卻一直沒有改變。對統(tǒng)計數(shù)據(jù)分析的原因有以下三個方面:一是基于同樣的數(shù)據(jù)會得出不同、甚至相反的分析結(jié)論;二是我們所面對的分析數(shù)據(jù)有時是缺損的或存在不真實性;三是我們所面對的分析數(shù)據(jù)有時則又是海量的,讓人無從下手。雖然統(tǒng)計數(shù)據(jù)分析已經(jīng)經(jīng)歷了描述性數(shù)據(jù)分析(dda)、推斷性數(shù)據(jù)分析(ida)和探索性數(shù)據(jù)分析(eda)等階段,分析的方法技術(shù)已經(jīng)有了質(zhì)的飛躍,但與人類不斷提高的要求相比,存在的問題似乎也越來越多。所以,我們必須深化對數(shù)據(jù)分析的認識,圍繞“準確解答特定問題并且從數(shù)據(jù)中獲取一切有效信息”這一目的,不斷拓展研究思路,繼續(xù)開展數(shù)據(jù)分析方法技術(shù)的研究。
參考文獻:
[1] 陳福貴.統(tǒng)計思想雛議[j]北京統(tǒng)計, 2004,(05) .
[2] 龐有貴.統(tǒng)計工作及統(tǒng)計思想[j]科技情報開發(fā)與經(jīng)濟, 2004,(03) .
一、統(tǒng)計學中的幾種常見統(tǒng)計思想
統(tǒng)計思想主要包括:均值思想、變異思想、估計思想、相關思想、擬合思想、檢驗思想等。統(tǒng)計思想不是天然形成的,需要經(jīng)歷統(tǒng)計觀念、統(tǒng)計意識、統(tǒng)計理念等階段。統(tǒng)計思想是根據(jù)人類社會需求的變化而開展各種統(tǒng)計實踐、統(tǒng)計理論研究與概括,才能逐步形成系統(tǒng)的統(tǒng)計思想。作為一門應用統(tǒng)計學,它從數(shù)理統(tǒng)計學派汲取新的營養(yǎng),并且越來越廣泛的應用數(shù)學方法,聯(lián)系也越來越密切,但在統(tǒng)計思想的體現(xiàn)上與通用學派相比,還有著自己的特別之處。其基本特點:(1)統(tǒng)計思想強調(diào)方法性與應用性的統(tǒng)一;(2)統(tǒng)計思想強調(diào)科學性與藝術(shù)性的統(tǒng)一;(3)統(tǒng)計思想強調(diào)客觀性與主觀性的統(tǒng)一;(4)統(tǒng)計思想強調(diào)定性分析與定量分析的統(tǒng)一。
1.均值思想。均值是對所要研究對象的簡明而重要的代表。均值概念幾乎涉及所有統(tǒng)計學理論,是統(tǒng)計學的基本思想。均值思想也要求從總體上看問題,但要求觀察其一般發(fā)展趨勢,避免個別偶然現(xiàn)象的干擾,故也體現(xiàn)了總體觀。
2.變異思想。統(tǒng)計研究同類現(xiàn)象的總體特征,它的前提則是總體各單位的特征存在著差異。統(tǒng)計方法就是要認識事物數(shù)量方面的差異。統(tǒng)計學反映變異情況較基本的概念是方差,是表示“變異”的“一般水平”的概念。平均與變異都是對同類事物特征的抽象和宏觀度量。
3.估計思想。估計以樣本推測總體,是對同類事物的由此及彼式的認識方法。使用估計方法有一個預設:樣本與總體具有相同的性質(zhì)。樣本才能代表總體。但樣本的代表性受偶然因素影響,在估計理論對置信程度的測量就是保持邏輯嚴謹?shù)谋匾襟E。
4.相關思想。事物是普遍聯(lián)系的,在變化中,經(jīng)常出現(xiàn)一些事物相隨共變或相隨共現(xiàn)的情況,總體又是由許多個別事務所組成,這些個別事物是相互關聯(lián)的,而我們所研究的事物總體又是在同質(zhì)性的基礎上形成。因而,總體中的個體之間、這一總體與另一總體之間總是相互關聯(lián)的。
5.擬合思想。擬合是對不同類型事物之間關系之表象的抽象。任何一個單一的關系必須依賴其他關系而存在,所有實際事物的關系都表現(xiàn)得非常復雜,這種方法就是對規(guī)律或趨勢的擬合。擬合的成果是模型,反映一般趨勢。趨勢表達的是“事物和關系的變化過程在數(shù)量上所體現(xiàn)的模式和基于此而預示的可能性”。
6.檢驗思想。統(tǒng)計方法總是歸納性的,其結(jié)論永遠帶有一定的或然性,基于局部特征和規(guī)律所推廣出來的判斷不可能完全可信,檢驗過程就是利用樣本的實際資料來檢驗事先對總體某些數(shù)量特征的假設是否可信。
二、對統(tǒng)計思想的若干思考
1.要改變當前存在的一些不正確的思想認識。英國著名生物學家、統(tǒng)計學家高爾頓曾經(jīng)說過:“統(tǒng)計學具有處理復雜問題的非凡能力,當科學的探索者在前進的過程中荊棘載途時,唯有統(tǒng)計學可以幫助他們打開一條通道”。但事實并非這么簡單,因為我們所面臨的現(xiàn)實問題可能要比想象的復雜得多。此外,有些人認為方法越復雜,越科學。在實際的分析研究中,喜歡簡單問題復雜化,似乎這樣才能顯示其科學含量。其實,真正的科學是使復雜的問題簡單化而不是追求復雜化。與此相關聯(lián)的是,有些人認為只有推斷統(tǒng)計才是科學,描述統(tǒng)計不是科學,并延伸擴大到只有數(shù)理統(tǒng)計是科學、社會經(jīng)濟統(tǒng)計不是科學這樣的認識。這種認識是極其錯誤的,至少是對社會經(jīng)濟統(tǒng)計的無知。比利時數(shù)學家凱特勒不僅研究概率論,并且注重于把統(tǒng)計學應用于人類事物,試圖把統(tǒng)計學創(chuàng)建成改良社會的一種工具。經(jīng)濟學和人口統(tǒng)計學中的某些近代概念,如GNP、人口增長率等等,均是凱特勒及其弟子們的遺產(chǎn)。
培養(yǎng)數(shù)據(jù)分析觀念是小學數(shù)學“統(tǒng)計與概率”領域內(nèi)容的核心目標,《義務教育數(shù)學課程標準(2011)》后,特別是在2015年教育部提出“核心素養(yǎng)”以來,數(shù)據(jù)分析觀念的培養(yǎng)得到前所未有的關注和重視。
數(shù)據(jù)分析是反映由一組數(shù)據(jù)引發(fā)的思考,人們可以分析與推測出可能的結(jié)論。數(shù)據(jù)分析強調(diào)的是數(shù)據(jù),是實證判斷,而不是憑感覺臆斷,既要回顧分析,又要做出預期,既要關注局部,又要關注整體。因此,數(shù)據(jù)分析觀念的培養(yǎng)需要學生親歷與體驗。
史寧中教授在他的《基本概念與運算方法》一書中指出:“統(tǒng)計學研究的基礎是數(shù)據(jù),是通過對數(shù)據(jù)的分析得到產(chǎn)生數(shù)據(jù)背景的信息?!苯y(tǒng)計學與數(shù)學有所不同,數(shù)學研究的基礎是抽象了的定義與假設,而統(tǒng)計學強調(diào)的是數(shù)據(jù),是數(shù)據(jù)分析觀念。如平均數(shù)在數(shù)學里只是一個算式的運算結(jié)果,而在統(tǒng)計學里是一個重要概念,使用平均數(shù)反映一組數(shù)據(jù)的水平以及產(chǎn)生的影響。
當前,教師們關注與研究更多的是數(shù)學,對統(tǒng)計學的認識還比較模糊,在實際教學中難免出現(xiàn)偏差。那么,如何引導學生經(jīng)歷統(tǒng)計過程,更好地促進和培養(yǎng)數(shù)據(jù)分析觀念呢?筆者認為,“統(tǒng)計與概率”教學要重視以下四個方面的轉(zhuǎn)變。
一、資源利用變虛擬為真實
教材提供的活動設計,或出現(xiàn)的一組數(shù)據(jù),本質(zhì)上都是虛擬情境,學生難以獲得真實的經(jīng)歷與體驗,如果開發(fā)真實的活動資源,經(jīng)歷真實的統(tǒng)計過程,效果更佳。
例如,教師組織課堂內(nèi)的統(tǒng)計活動――摸球游戲:袋子里裝了10顆球,有紅球和黃球。不打開袋子看,你怎樣才能知道紅球多還是黃球多?要求先討論摸球規(guī)則,再分組進行“我摸你猜”的摸球游戲。學生根據(jù)小組內(nèi)的摸球統(tǒng)計數(shù)據(jù),初步猜想哪種顏色的球多,感受小數(shù)據(jù)信息的作用。接著,學生進行小組摸球情況對比,分析與大多數(shù)摸球情況不同的個案,探討能讓實驗判斷更為準確的方法。最后,匯總?cè)鄶?shù)據(jù),感受數(shù)據(jù)信息量變大之后給“哪種球多”的判斷帶來的變化。學生經(jīng)歷試驗、猜想與驗證的過程,感受隨機現(xiàn)象的不確定性,以及隨機現(xiàn)象背后隱藏的一般規(guī)律。有些統(tǒng)計活動還可以從課堂內(nèi)延伸到課堂外,使學生親歷實實在在的統(tǒng)計過程。
二、統(tǒng)計活動變“一般”為內(nèi)涵
小學階段的統(tǒng)計方式最為簡單,無非是收集數(shù)據(jù)、整理數(shù)據(jù)與簡單的數(shù)據(jù)分析,但從統(tǒng)計背景和統(tǒng)計學的視角看,在統(tǒng)計過程中還可以從以下方面挖掘內(nèi)涵。
1. 樣本感知。
例如,教學中進行“全班學生最喜歡哪個體育項目”的調(diào)查活動,教師不應著急調(diào)查統(tǒng)計,讓學生先對樣本的選擇有初步的感受。引導學生選擇與討論:三種調(diào)查方法,哪種比較合適?(1)問自己最要好的幾位同學;(2)問自己小組的所有同學;(3)問全班同學。然后,再次討論:要知道全校同學最喜歡哪種體育項目,你認為哪種方法比較合適?(1)問全校學生;(2)調(diào)查每個年級的一個班級學生;(3)在校門隨機詢問部分學生。引導學生聚焦樣本的代表性與可操作性,建立樣本概念,感知總體與抽樣調(diào)查的樣本選擇。
2. 嘗試方法。
在收集數(shù)據(jù)與統(tǒng)計數(shù)據(jù)的過程中,不同情況下采用的統(tǒng)計方法也會不一樣,教師需要提供給學生嘗試不同方法的機會,感受調(diào)查方法的多樣性和不同方法的優(yōu)點。
例如,每學年末的不同學科教師的滿意度調(diào)查,先采用逐一詢問同學后畫正字的統(tǒng)計方式,讓學生感受該方法效率的低下;然后采用全班舉手的方式,學生感受快捷與方便,但又發(fā)現(xiàn)這樣統(tǒng)計真實性受到影響,學生對這樣的調(diào)查統(tǒng)計沒有心理安全感,進而討論更科學的調(diào)查統(tǒng)計方法。最后采用不記名問卷統(tǒng)計完成調(diào)查任務,學生對無記名問卷的真實性有了初步的感受。如果用網(wǎng)絡無記名調(diào)查問卷的方式,學生在規(guī)定時間內(nèi),可以在不同地方完成問卷,時效更佳。
3. 體會價值。
一般情況下,課堂上教師都會讓學生說一說統(tǒng)計與統(tǒng)計結(jié)果的用處,比如調(diào)查統(tǒng)計學生最喜歡的運動項目,那么就可以建議學校多開展這項體育活動,但這就像是一場模擬活動,學生還是沒有獲得真切的價值體驗。我們所期待的效果是,通過統(tǒng)計活動,學生可以發(fā)現(xiàn)問題,讓他們看到事物的發(fā)展變化,才能更好地體驗統(tǒng)計的價值。
例如,筆者針對校園周邊環(huán)境臟亂差的現(xiàn)象,組織學生開展研究性學習活動。學生通過調(diào)查,發(fā)現(xiàn)校園周邊臟亂差現(xiàn)象的成因是小攤小販占道經(jīng)營,不僅阻礙學生通行,還留下了許多垃圾。隨著調(diào)查的深入,他們發(fā)現(xiàn)在小攤販購買早餐的主要群體是學生。進一步在五年級開展的問卷調(diào)查中,學生發(fā)現(xiàn):經(jīng)常在小攤販吃早餐的學生占全年級總數(shù)的34%,其中外來務工人員子女占92%,主要原因是父母沒時間準備早餐。取得第一手數(shù)據(jù)資料后,由學生策劃的“家里吃早餐,安全又健康”的活動隨即展開:給家長一封倡議書,開設保健與養(yǎng)生課,與街道、城管等多部門齊抓共管,使得校園周邊環(huán)境得到徹底改善。在調(diào)查、統(tǒng)計、分析、活動的過程中,學生真切感受到調(diào)查統(tǒng)計對具體事物所產(chǎn)生的變化,體現(xiàn)了它的實用價值。
三、統(tǒng)計圖的選擇變“絕對”為“相對”
在小學階段,主要有三種統(tǒng)計圖供教學選擇,它們都可以直接表述數(shù)據(jù),但還是有各自的特點:條形統(tǒng)計圖能清楚地表述數(shù)量的多少,扇形統(tǒng)計圖能清楚地表述數(shù)量所占的比例,折線統(tǒng)計圖能清楚地表述數(shù)量的變化情況。一般統(tǒng)計圖選擇的標準是:離散的數(shù)據(jù)用條形統(tǒng)計圖,連續(xù)的數(shù)據(jù)用折線統(tǒng)計圖。但統(tǒng)計學與數(shù)學不同,統(tǒng)計圖的選擇只有“好壞”之分而無“對錯”之分,也就是說,要表述離散數(shù)據(jù)的變化規(guī)律或發(fā)展趨勢,也可以采用折線統(tǒng)計圖,要表述連續(xù)數(shù)據(jù)的多少,也可以用條形統(tǒng)計圖。
例如,要表述兩個班在運動會4個項目上的成績對比。
如果用折線統(tǒng)計圖表示,也能清楚地反映1班各個項目成績總體高于2班,但在第三個項目成績對比中出現(xiàn)反差,2班的得分明顯高于1班,要引起1班的重視,查找原因;而2班在第三個項目上總結(jié)成功經(jīng)驗,在其他項目上要總結(jié)經(jīng)驗教訓、改變策略。
因此,統(tǒng)計圖選擇的關鍵在于你要表達什么,能達到目的即可,教學時切忌一刀切。
四、統(tǒng)計課程變單一學科教學為學科整合
“統(tǒng)計與概率”作為數(shù)學課程重要內(nèi)容,分布在每一冊教材中,它作為數(shù)學教學的一個模塊,意味著課時量有限,讓學生充分體驗統(tǒng)計過程有一定難度。教師需要拓展統(tǒng)計教學的時間與空間,將統(tǒng)計活動滲透到各個相關學科的教學中,與學科教師合作,整合課程內(nèi)容,更好地培養(yǎng)統(tǒng)計意識,達成提升學生數(shù)據(jù)分析觀念水平的目的。
舉例來說,筆者所在學校開展全員體鍛活動一年有余,體育教師感覺學生的體質(zhì)健康水平有了很大提高,這一結(jié)論要有說服力,就需要用數(shù)據(jù)證明,讓學生親歷數(shù)據(jù)收集、整理、分析與判斷的過程是很有意義的活動。學科教師合作引導學生收集體鍛前與體鍛后同年級身高、脈搏、近視率,以及各項運動水平的真實數(shù)據(jù),制作成復式條形統(tǒng)計圖和折線統(tǒng)計圖,條形統(tǒng)計圖對比前后兩年同期學生的健康水平,折線統(tǒng)計圖顯示同一個學生在體鍛前與體鍛后健康水平的差異,數(shù)據(jù)顯示,學生的脈搏與近視率等各項指標的變化讓人吃驚,學生在經(jīng)歷統(tǒng)計的過程中體驗運動的重要性。讓人意想不到的是,全校師生在數(shù)據(jù)面前統(tǒng)一了思想認識,全員體鍛的理念得到持久地貫徹與落實。
關鍵詞:大數(shù)據(jù);應用統(tǒng)計學;教學改革
中圖分類號:G642.0 文獻標志碼:A 文章編號:1674-9324(2016)43-0101-03
一、研究背景
自2002年桂林理工大學在廣西開辦了第一個統(tǒng)計學本科專業(yè)以來,針對當時理學學位的統(tǒng)計學專業(yè)培養(yǎng)的學生雖然數(shù)理基礎相對扎實,但普遍統(tǒng)計思想不夠,實際應用能力較弱的現(xiàn)狀和特點,對統(tǒng)計學專業(yè)進行了全方位的改革研究,確立了"數(shù)學與統(tǒng)計學相融,從培養(yǎng)學生扎實的數(shù)理基礎和極強的統(tǒng)計分析應用能力有機相結(jié)合的理念出發(fā),構(gòu)建了新的課程體系和教學內(nèi)容,取得了系列研究成果。2009年研究成果開創(chuàng)“應用性、實驗性、案例性”一體化的統(tǒng)計學專業(yè)課程體系和教學模式,獲得廣西高等教育自治區(qū)級教學成果二等獎[1],并在其后分別把統(tǒng)計學學科建成廣西重點學科和廣西高等學校優(yōu)勢特色專業(yè),以及把應用統(tǒng)計實驗室建成廣西高等學校重點實驗室。
雖然我校統(tǒng)計學專業(yè)的教學改革和建設取得了許多成果,但近幾年,我們也逐漸感覺到在大數(shù)據(jù)新形勢下,我校應用統(tǒng)計學專業(yè)的教學體系還有一些不適應的地方,且某些問題還有日益凸顯的趨勢,我們原來的某些研究成果已不再適應新時代的要求,這就迫使我們繼續(xù)進行改革研究,探討在大數(shù)據(jù)背景的新形勢下,如何培養(yǎng)統(tǒng)計學專業(yè)復合型和應用型人才,如何準確把握統(tǒng)計學的發(fā)展方向與發(fā)展形勢,如何調(diào)整人才培養(yǎng)模式,如何調(diào)整相關課程和課程內(nèi)容,以培養(yǎng)適應大數(shù)據(jù)背景下社會經(jīng)濟發(fā)展需要的統(tǒng)計學專業(yè)人才。
許多國家越來越重視數(shù)據(jù)在大數(shù)據(jù)時代重要作用,我國也不例外,2012年9月,國家統(tǒng)計局第7次局務會提出,盡快開展在政府統(tǒng)計中應用大數(shù)據(jù)的研究。2013年可以看作是我國政府統(tǒng)計之大數(shù)據(jù)元年。2015年9月《國務院關于印發(fā)促進大數(shù)據(jù)發(fā)展行動綱要的通知》(國發(fā)〔2015〕50號)[2]頒布,標志著我國正逐步進入大數(shù)據(jù)建設的新時代,為此,國家統(tǒng)計局積極推動大數(shù)據(jù)在各方面的應用與實踐。而大數(shù)據(jù)的核心是數(shù)據(jù),應用統(tǒng)計學學科是與數(shù)據(jù)分析處理聯(lián)系最為緊密的應用性學科,因此,應用統(tǒng)計學專業(yè)的教學體系應順應大數(shù)據(jù)發(fā)展的趨勢。在大數(shù)據(jù)背景下,應用統(tǒng)計學專業(yè)在繼承傳統(tǒng)數(shù)據(jù)分析技術(shù)的基礎上,對所需的數(shù)據(jù)處理技能提出的需求更高了。這就是說,大數(shù)據(jù)對應用統(tǒng)計學的培養(yǎng)目標,以及教學內(nèi)容等的沖擊無疑是最大且不可避免的,這給應用統(tǒng)計學專業(yè)帶來了巨大的挑戰(zhàn),同時也為應用統(tǒng)計學學科的發(fā)展帶來了前所未有的機遇。
大數(shù)據(jù)逼迫人們改變分析、處理數(shù)據(jù)的手段、思維和理念,這就逼迫應用統(tǒng)計學專業(yè)改革必須引入新手段、新思維和新理念。培養(yǎng)應用統(tǒng)計學人才必須與時俱進,才能不斷適應大數(shù)據(jù)新時代的要求,這關系到應用統(tǒng)計學專業(yè)培養(yǎng)的人才能否適應和滿足社會的需求,因此,這一研究是十分必要、十分迫切且有著重要的理論和實際應用意義。
二、大數(shù)據(jù)背景下應用統(tǒng)計學專業(yè)的改革探討
一、大數(shù)據(jù)與統(tǒng)計學的區(qū)別
統(tǒng)計知識在大數(shù)據(jù)的利用研究中有多樣化的應用形式,主要是對“大數(shù)據(jù)”進行肢解,對爆炸增長的數(shù)據(jù)信息進行搜索、分類以及整合主要依賴于統(tǒng)計學。因此,大數(shù)據(jù)的相關研究在一定程度上運用了統(tǒng)計學的知識。但是,大數(shù)據(jù)的使用尚未被統(tǒng)計學這門學科充分利用,這主要是因為大數(shù)據(jù)的運用方式,使用模式和統(tǒng)計學之間存在著重要差異。統(tǒng)計學主要利用的是樣本統(tǒng)計資源,樣本主要在根據(jù)既定的概率標準從總體中抽樣調(diào)查,但是隨機抽樣調(diào)查是帶有成本屬性的,例如消耗時間、資本投入的成本等。在樣本數(shù)量逐漸增加的情況下,樣本估計的誤差范圍是伴隨著總體樣本數(shù)量的增大而逐漸增加的,這是樣本統(tǒng)計學不能忽視的缺點。大數(shù)據(jù)時代最具代表性的就是海量的信息數(shù)據(jù)化以及即時電子商務信息,大數(shù)據(jù)在整體上呈現(xiàn)出“總體樣本數(shù)據(jù)化”的趨勢,這樣的特征恰好可以補充樣本統(tǒng)計的弊端。大數(shù)據(jù)環(huán)境下的整體樣本統(tǒng)計即使可以囊括全部的樣本容量,但是因為很多情況下數(shù)據(jù)具有非結(jié)構(gòu)性和半數(shù)據(jù)化的特征,而且大量的數(shù)據(jù)資源呈現(xiàn)的是重視尾部分布的狀態(tài),方差、標準差等標準化的方法變得毫無意義,整體依靠性和不穩(wěn)定性經(jīng)常會超越經(jīng)典時間內(nèi)的時間序列的整體假設性,所以概率論的應用范圍呈現(xiàn)狹窄化的發(fā)展趨勢。因此,統(tǒng)計學在利用大數(shù)據(jù)進行樣本統(tǒng)計的過程中,可以對整體上的數(shù)據(jù)資源進行融合和選擇,這和樣本統(tǒng)計中的數(shù)據(jù)化處理技術(shù)存在異曲同工之妙。
二、大數(shù)據(jù)時代統(tǒng)計學教育的發(fā)展
1.全面培養(yǎng)人才素質(zhì)
統(tǒng)計學專業(yè)的學生需要具備良好與人交往能力。統(tǒng)計學的學生很多都是理科出身的學生,不善于交際。但是在日常的工作中,有數(shù)據(jù)經(jīng)驗的科學家應該經(jīng)常和每個部門的工作人員交流,協(xié)同工作。怎么樣才能讓頗具專業(yè)性的數(shù)據(jù)分析結(jié)果讓普通的老百姓也可以讀懂,讓每個部門的工作人員都能無障礙地理解,這是不容易做到的。要訓練自己的交往能力和溝通技能,主動地參加演講活動是不錯的渠道,演講活動鍛煉了演講者的自信,在整個演講的過程中,能否清晰地表達自己的思想以及給人以信服力是至關重要的。需要培養(yǎng)數(shù)據(jù)常識,廣其見聞。數(shù)據(jù)科學家經(jīng)常面對各種各樣的海量數(shù)據(jù),并需要從這些數(shù)據(jù)中挖掘出有價值的信息,這就需要數(shù)據(jù)科學家具有強烈的數(shù)據(jù)敏感性。對數(shù)據(jù)的敏感程度的訓練不是一蹴而就的,要經(jīng)過長時間的積累和數(shù)據(jù)分析工作的磨練,同時也可以根據(jù)閱讀數(shù)據(jù)分析材料積累閱歷,提升對數(shù)據(jù)資源的敏感程度。
2.培養(yǎng)應用型人才
大數(shù)據(jù)時代培養(yǎng)的數(shù)據(jù)科學家需要兩方面的基本素質(zhì),第一是概念性,也就前面所說的數(shù)據(jù)科學家需要掌握的基本素養(yǎng)和專業(yè)知識;第二是實踐性,也就是本文中我們提及的應用型人才,也就是實際操作中處理數(shù)據(jù)的能力。在高校開展大數(shù)據(jù)分析研究生學科,最大的問題是沒有可用的數(shù)據(jù),這就需要高效與大數(shù)據(jù)企業(yè)合作,進行研究生的聯(lián)合培養(yǎng),注重學生的實際操作能力,這里面涉及到我們的應用統(tǒng)計學專業(yè)碩士的雙導師培養(yǎng)制度,一名校內(nèi)導師一名校外導師,校內(nèi)導師注重學生的概念性,校外導師注重學生的實踐性,學生通過在校外導師單位的實習,從而熟悉并且掌握實際工作中所需要的技能。
3.促進統(tǒng)計與數(shù)學、計算機學科合作
“大數(shù)據(jù)”時代需要的海量數(shù)據(jù)分析資源僅僅憑借統(tǒng)計學科單一學科的發(fā)展是不能滿足發(fā)展需求的,大數(shù)據(jù)的數(shù)據(jù)結(jié)構(gòu)性特征已經(jīng)拋棄了傳統(tǒng)意義上的數(shù)據(jù)分析模式的非智能化框架,而且數(shù)據(jù)分析需要利用新型的數(shù)據(jù)運算方式以及計算機技能分析,這也是進行數(shù)據(jù)分析工作的攔路虎。所以,數(shù)據(jù)科學家的成長僅僅依靠單一的統(tǒng)計學科知識的學習是遠遠不夠的,其需要的是數(shù)學、計算機和統(tǒng)計學三門學科融合發(fā)展,緊密結(jié)合。三門學科之間交叉發(fā)展,融會貫通,這樣既可以發(fā)揮學科的優(yōu)勢資源,同時也能彌補其他學科的弊端。
【關鍵詞】函數(shù)數(shù)據(jù) 函數(shù)數(shù)據(jù)分析 網(wǎng)上拍賣
近幾十年來,由于統(tǒng)計學的不斷發(fā)展,出現(xiàn)并發(fā)展了一些新的方法解決了很多問題。然而,無論獲得的是截面數(shù)據(jù)還是時間序列數(shù)據(jù),我們只能進行某一橫向研究或縱向研究,同時其前提條件很多不能滿足,因此常常導致數(shù)據(jù)分析結(jié)果的不可靠性。雖然面板數(shù)據(jù)模型將截面數(shù)據(jù)和時間序列數(shù)據(jù)結(jié)合起來,具有較強的因果推理屬性,但是三者存在共同的缺陷:即所建立的模型都是線性的,而在實際應用過程中無法完全保證變量間的線性關系,并且也難以確保數(shù)據(jù)滿足前提假設條件,從而使方法的具體應用及方法適用于數(shù)據(jù)的類型均具有一定的局限性。函數(shù)數(shù)據(jù)分析是將觀測數(shù)據(jù)當作一個整體(函數(shù)),而不是一系列單個離散的觀測結(jié)果。之所以這樣做是因為在研究中我們不僅關心的已得到的數(shù)據(jù),更關心未得到的或者無法得到的數(shù)據(jù)。函數(shù)性數(shù)據(jù)分析(Functional Data Analysis,F(xiàn)DA)的概念,始見于加拿大統(tǒng)計學家J.0.Ramsay和C.J.Dalzell于1991年發(fā)表的論文《函數(shù)性數(shù)據(jù)分析的一些工具》。文中提出了適用于研究時間上無限維度的函數(shù)型數(shù)據(jù)一些方法和工具,并使用函數(shù)型數(shù)據(jù)的主成分分析和線性模型對加拿大溫度與降水量的關系進行實證研究。此后在1997年J.0.Ramsay和B.W.silverman總結(jié)了函數(shù)數(shù)據(jù)分析的理論和方法,出版了《Functional Data Analysis》一書。
雖然函數(shù)性數(shù)據(jù)的來源形式多種多樣,但就其本質(zhì)來說,它們由函數(shù)構(gòu)成。這些函數(shù)的幾何圖形可能是光滑的曲線,也可能是不光滑的藍線。函數(shù)性數(shù)據(jù)分析的基本思想是把觀測到的數(shù)據(jù)函數(shù)看作一個整體,而不僅僅是個體觀測值的順序排列。函數(shù)指的是數(shù)據(jù)的內(nèi)在結(jié)構(gòu),而不是它們直觀的外在表現(xiàn)形式。實際中,之所以要從函數(shù)的視角對數(shù)據(jù)進行分析是因為:實際中,獲得數(shù)據(jù)的方式和技術(shù)多種多樣,更重要的是,原本用于工程技術(shù)分析的修勻(光滑)和插值技術(shù),可以由有限組的觀測數(shù)據(jù)產(chǎn)生出相應的函數(shù)表示;盡管只有有限次的觀測數(shù)據(jù)可供利用,但有一些建模問題,將其納入到函數(shù)范式下進行考慮,會使分析更加全面、深刻;在有些情況下,如果想利用有限組的數(shù)據(jù)估計函數(shù)或其導數(shù),則分析從本質(zhì)上來看就具有函數(shù)性的特征;將平滑性引入到一個函數(shù)過程所產(chǎn)生的多元數(shù)據(jù)的處理中,對分析具有重要的意義。
函數(shù)型數(shù)據(jù)分析有以下優(yōu)點:打破了連續(xù)型數(shù)據(jù)和離散型數(shù)據(jù)長期以來的分離狀態(tài),實現(xiàn)離散和連續(xù)的過渡;可分析大批量的數(shù)據(jù),實現(xiàn)從有限維數(shù)據(jù)到無限維數(shù)據(jù)的轉(zhuǎn)換,得到的數(shù)據(jù)信息更豐富、更可靠;很少依賴于模型構(gòu)建及假設條件;由于假設函數(shù)都是可導的,因此可進行微分分析,如:得到位相圖,實現(xiàn)動能與勢能之間的轉(zhuǎn)換;將多元統(tǒng)計分析方法進一步延伸。
典型的函數(shù)數(shù)據(jù)具有這樣的形式:
Y1,Y2,…Yn,其中Yi=(Yi1,Yi2,…Yini)來自第i條曲線,Yij是在時間tij上測量,i=1,…N;j=1,…ni,為了簡化,我們通常都假定nij=n,Yij=Xi(tij)+εij,εij是測量誤差,E(εij)=0,Var(εij)=σ2。
估計X(t)在函數(shù)數(shù)據(jù)分析中是關鍵的一步,最常用的兩種方法是基展開和平滑判罰。
一、基展開的方法
原理:一組在某種意義下相互獨立的函數(shù){φk},其線性組合可以逼近任意的函數(shù)。
這樣函數(shù)Xi(t)有如下的基展開
一般情況下,對于周期函數(shù),我們常用Fourier級數(shù)來擬合;而對于非周期函數(shù),我們常用樣條函數(shù)來擬合。
Fourier級數(shù):1,sin(wt),cos(wt),sin(2wt),cos(2wt),…
樣條函數(shù):將函數(shù)的定義區(qū)間用斷點序列,τ=(t0,t1,…,tL)(t0與tL:為定義區(qū)間兩端點)分成L個子區(qū)間,在每個子區(qū)間上,定義一個階為m的多項式,這里的階是指定義多項
式所需的系數(shù)個數(shù)。相鄰多項式要求在斷點處連續(xù),并且在定義域上存在m-2次導數(shù),這樣樣條函數(shù)就m-2次可導。
樣條函數(shù)的自由度=階數(shù)+內(nèi)點個數(shù)。
B樣條:每個m階B樣條基函數(shù)只在不超過m個相鄰子區(qū)間上取正值,在其他定義域上取0,這種緊支集性質(zhì)就給了B樣條基函數(shù)良好的數(shù)值計算性質(zhì)。
Bi,1(t)=1 ti≤t≤ti+10 else
二、平滑判罰
在基展開方法中,平滑參數(shù)K的選擇比較麻煩,我們可以獲得更好的結(jié)果多選一些基但加一個粗糙度判罰來控制模型復雜度。
通常選擇J(x)為二階導數(shù)的積分
三、函數(shù)數(shù)據(jù)的主成分分析
在多元統(tǒng)計分析中,記錄的是同一時期或時點上對每一觀測對象多個變量的數(shù)據(jù)信息.為了達到簡化數(shù)據(jù)的目的,通常是把大量的原始變量綜合為少數(shù)幾個綜合變量。
函數(shù)性數(shù)據(jù)記錄了每個觀測對象的同一個變量某個區(qū)間上很多個時刻的數(shù)據(jù)信息.如果將時間看作多元數(shù)據(jù)對應的變量(變化因素) ,則發(fā)現(xiàn)函數(shù)性數(shù)據(jù)分析面臨更大的"維數(shù)災難"基于這種特點,可以將多元主成分分析的技術(shù)引入到函數(shù)性數(shù)據(jù)分析中,稱為函數(shù)性主成分分析。
四、函數(shù)性數(shù)據(jù)分析的基本步驟總結(jié)
(1)原始數(shù)據(jù)的收集、整理和組織。
(2)將離散數(shù)據(jù)轉(zhuǎn)換成函數(shù)型數(shù)據(jù)。采用基函數(shù)的線性組合,常用的B樣條基和傅立葉基。
[關鍵詞] 大數(shù)據(jù)時代;數(shù)據(jù)質(zhì)量;信息孤島
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2016. 23. 093
[中圖分類號] TP311 [文獻標識碼] A [文章編號] 1673 - 0194(2016)23- 0178- 02
1 大數(shù)據(jù)與大數(shù)據(jù)時代
近年來,隨著英國維克托?邁爾-舍恩伯格的《大數(shù)據(jù)時代》和美國Bill Franks的《駕馭大數(shù)據(jù)》等著作的出版,大數(shù)據(jù)引起了社會的廣泛關注,人們已經(jīng)意識到大數(shù)據(jù)時代正在呼嘯而至。大數(shù)據(jù)幾乎對每個領域都會產(chǎn)生影響,所以限于不同領域各自的特點,對大數(shù)據(jù)的表述也不同,但是一個廣泛的觀點是:“大數(shù)據(jù)是一個數(shù)據(jù)集合,這個數(shù)據(jù)集合是無法在規(guī)定時間里用常規(guī)軟件工具對它進行搜集、整理和分析的?!?/p>
2 大數(shù)據(jù)時代對統(tǒng)計數(shù)據(jù)的挑戰(zhàn)
大數(shù)據(jù)時代需要既講機遇也講挑戰(zhàn)。各個應用領域的不斷變化使得統(tǒng)計學成為一門難以成熟的學科。所以在數(shù)據(jù)分析的世界里,統(tǒng)計學發(fā)展的終身動力是不斷提高駕馭數(shù)據(jù)的能力。大數(shù)據(jù)是推斷數(shù)據(jù),不是原始數(shù)據(jù),所以會存在抽樣偏倚、隨機的和非隨機的誤差。數(shù)據(jù)包括原始數(shù)據(jù)和推斷的數(shù)據(jù)。數(shù)據(jù)的認知范圍有限,所以數(shù)據(jù)可解釋的范圍就有限。模型是對數(shù)據(jù)信息的匯總,由于數(shù)據(jù)信息有限,所以模型可解釋的程度也有限。超出模型可解釋的程度,就是對模型進行一系列的假設。大數(shù)據(jù)方法研究需要多學科的聯(lián)合,統(tǒng)計學家需要關注實時決策和計算機資源,計算機學家需要了解算法和統(tǒng)計推斷的復雜性。
3 大數(shù)據(jù)時代對統(tǒng)計數(shù)據(jù)質(zhì)量的影響
3.1 大數(shù)據(jù)時代對數(shù)據(jù)時效性的影響
庫克耶和舍恩伯格認為:大數(shù)據(jù)不用抽樣調(diào)查的方法,而用所有數(shù)據(jù)的方法。數(shù)據(jù)科學家甚至提出“樣本=總體”,這或許意味著統(tǒng)計工作重心要轉(zhuǎn)移。舍恩伯格和庫克耶認為抽樣調(diào)查有很多自身的不足:一是樣本的隨機性很難實現(xiàn);二是不適合考察有子類別的情況;三是采樣忽略了細節(jié)的考察,而大數(shù)據(jù)分析則可以彌補抽樣調(diào)查的這些不足之處。如果說之前統(tǒng)計工作的重點在于數(shù)據(jù)搜集和整理,那么大數(shù)據(jù)時代統(tǒng)計工作的重心就是如何搜集整理分析有用的信息。這樣一來,已經(jīng)得出的數(shù)據(jù)結(jié)論可能不具有這個時代的特點,即失去了時效性。
3.2 大數(shù)據(jù)時代對數(shù)據(jù)真實性的影響
大數(shù)據(jù)時代除了對數(shù)據(jù)的時效性有影響之外,對數(shù)據(jù)的真實性也有影響。由此,當通過網(wǎng)絡搜集數(shù)據(jù)時,首先需要考慮的是,數(shù)據(jù)是否是由自動化算法系統(tǒng)產(chǎn)生?如果是,究竟有多少?以淘寶網(wǎng)為例,大量的虛假評論已經(jīng)影響了信息的真實。
4 大數(shù)據(jù)時代統(tǒng)計工作的應對之策
大多數(shù)的研究指出,當前統(tǒng)計方面存在的問題在于業(yè)務部門沒有利用好大數(shù)據(jù)導致數(shù)據(jù)資源缺乏;企業(yè)內(nèi)部信息孤島導致數(shù)據(jù)的有效信息無法充分利用;工作人員數(shù)據(jù)分析能力差導致大數(shù)據(jù)時代下統(tǒng)計工作很難進行。
4.1 國家應對之策
在大數(shù)據(jù)時代下,要保障統(tǒng)計數(shù)據(jù)質(zhì)量,國家應當做到以下幾點:
(1)盡快改革當前統(tǒng)計管理體制的制約,保證統(tǒng)計獨立調(diào)查、獨立報告、獨立監(jiān)督的職權(quán)不受侵犯。在大數(shù)據(jù)時代,統(tǒng)計體制改革要與時俱進,盡快建立符合我國國情的統(tǒng)計管理體制。
(2)充分發(fā)揮黨委政府的主導作用,賦予各其統(tǒng)計數(shù)據(jù)質(zhì)量的主體責任。要發(fā)揮各級地方黨委政府對本區(qū)域統(tǒng)計數(shù)據(jù)質(zhì)量的主體責任,將統(tǒng)計數(shù)據(jù)質(zhì)量的好壞作為考核一個地區(qū)領導業(yè)績的主要方面之一。
(3)盡快建立引導一個提速增效的統(tǒng)計考核評價指標體系,完善黨政領導的績效考評機制。
4.2 企業(yè)應對之策
企業(yè)應做到以下幾點:信息以數(shù)據(jù)形式呈現(xiàn),強化建設數(shù)據(jù)標準;融合結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù);推廣應用大數(shù)據(jù),促進使用信息資源;重視數(shù)據(jù)的安全管理。
4.3 個人應對之策
統(tǒng)計學家必須積極學習新事物,適應大數(shù)據(jù)環(huán)境,拓展統(tǒng)計學的應用領域,創(chuàng)造出新的統(tǒng)計方法。大數(shù)據(jù)時代帶給我們的挑戰(zhàn)與機遇并存。
主要參考文獻
[1]朱建平,章貴軍,劉曉葳.大數(shù)據(jù)時代下數(shù)據(jù)分析理念的辨析[J].統(tǒng)計研究,2014(2).
[2]鄭京平,王眾全.官方統(tǒng)計應如何面對BigData挑戰(zhàn)[J].統(tǒng)計研究,2012(12).
[3][英]維克托?邁爾-舍恩伯格.大數(shù)據(jù)時代――生活工作與思維的大變革[M].周濤,譯.杭州:浙江人民出版社,2013.
[4]Brian Hopkins,Boris Evelson.Expand Your Digital Horizon with Bigdata[N/OL],2011-09-30.
[5]邱東.大數(shù)據(jù)時代對統(tǒng)計學的挑戰(zhàn)[J].統(tǒng)計研究,2014(1).