前言:一篇好文章的誕生,需要你不斷地搜集資料、整理思路,本站小編為你收集了豐富的統(tǒng)計學(xué)經(jīng)驗法則主題范文,僅供參考,歡迎閱讀并收藏。
大數(shù)據(jù)技術(shù)的發(fā)展又離不開數(shù)據(jù)挖掘,那。。。
什么是數(shù)據(jù)挖掘?
數(shù)據(jù)挖掘(英語:Data mining),又譯為資料探勘、數(shù)據(jù)采礦。它是數(shù)據(jù)庫知識發(fā)現(xiàn)(英語:Knowledge-Discovery in Databases,簡稱:KDD)中的一個步驟。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。
數(shù)據(jù)挖掘如此重要,如何進行數(shù)據(jù)挖掘呢?當然是知識!
知識將成為比數(shù)據(jù)更重要的資產(chǎn)
復(fù)旦大學(xué)計算機科學(xué)與技術(shù)學(xué)院教授肖仰華博士在他近期所作的《知識圖譜與認知智能》報告中指出:前幾年大數(shù)據(jù)時代到來的時候,大家都說“得數(shù)據(jù)者得天下”。去年,微軟研究院的沈向陽博士曾經(jīng)說過“懂語言者得天下”。而我曾經(jīng)論述過,機器要懂語言,背景知識不可或缺。因此,在這個意義下,將是“得知識者得天下”。如果說數(shù)據(jù)是石油,那么知識就好比是石油的萃取物。
那么問題來了?你需要哪些知識?
數(shù)據(jù)挖掘是個復(fù)雜的過程,它需要統(tǒng)計學(xué)、數(shù)據(jù)庫、機器學(xué)習(xí)、模式識別等多學(xué)科的交叉融合來實現(xiàn)。
數(shù)據(jù)挖掘過程中用到的算法也很多,下圖是對這些算法的一個總體梳理:
接下來我們就來說說這傳說中的十大經(jīng)典算法:
決策樹(C4.5算法)
聚類(K-means算法)
關(guān)聯(lián)規(guī)則(Apriori算法)
隨機森林算法
邏輯回歸
SVM
樸素貝葉斯
K最近鄰算法
Adaboost 算法
神經(jīng)網(wǎng)絡(luò)
篇幅有限,為了保證閱讀質(zhì)量,本文只講解前三個。其余的算法講解會不定期更新的呦,想學(xué)習(xí)的小伙伴看過來???
十大經(jīng)典算法圖解(一)
01
決策樹(C4.5算法)
決策樹(Decision Tree),又稱為判定樹,是數(shù)據(jù)挖掘技術(shù)中的一種重要的分類方法,它是一種以樹結(jié)構(gòu)(包括二叉樹和多叉樹)形式來表達的預(yù)測分析模型。
根據(jù)一些特征( feature )進行分類,每個節(jié)點提一個問題,通過判斷,將數(shù)據(jù)分為若干類,再繼續(xù)提問。這些問題是根據(jù)已有數(shù)據(jù)學(xué)習(xí)出來的,再投入新數(shù)據(jù)的時候,就可以根據(jù)這棵樹上的問題,將數(shù)據(jù)劃分到合適的葉子上。
決策樹生長算法流程(以C4.5算法為例):
C4.5算法實例圖解:
兩周內(nèi)的天氣及網(wǎng)球俱樂部顧客光顧情況
02
聚類(K-means算法)
什么是聚類?
什么是K-means?
K-means算法流程圖解:
Setp1:確定初始質(zhì)心
Setp2:計算距離&劃分簇
Setp3:迭代計算中心點
Setp4:收斂
03
關(guān)聯(lián)規(guī)則(Apriori算法)
關(guān)聯(lián)規(guī)則是形如XY的蘊涵式,其中, X和Y分別稱為關(guān)聯(lián)規(guī)則的先導(dǎo)(antecedent或left-hand-side, LHS)和后繼(consequent或right-hand-side, RHS) 。其中,關(guān)聯(lián)規(guī)則XY,存在支持度和信任度。
關(guān)聯(lián)規(guī)則經(jīng)典算法及優(yōu)缺點比較:
Apriori算法是種最有影響的挖掘布爾關(guān)聯(lián)規(guī)則頻繁項集的算法。它的核心是基于兩階段頻集思想的遞推算法,該關(guān)聯(lián)規(guī)則在分類上屬于單維、單層、布爾關(guān)聯(lián)規(guī)則。
在Apriori算法中,尋找最大項目集(頻繁項集)的基本思想是:算法須要對數(shù)據(jù)集進行多步處理。
Apriori算法圖解:
1.產(chǎn)生頻繁項集
關(guān)鍵詞:logistic回歸 BP神經(jīng)網(wǎng)絡(luò) 上市公司 信用風(fēng)險
在經(jīng)濟全球化的趨勢下,信用將成為主要的交易方式,金融危機的爆發(fā)更是顯示出信用風(fēng)險管理和信用風(fēng)險分類的重要性。從20世紀60年代至70年代的統(tǒng)計學(xué)方法,20世紀80年代的專家系統(tǒng)到90年代的神經(jīng)網(wǎng)絡(luò),各種信用風(fēng)險評級方法層出不窮。在我國,信用風(fēng)險的度量和管理較為落后,金融機構(gòu)沒有完善有效的評級方法和體系,目前所應(yīng)用的方法主要是粗略的定性方法,如綜合利用宏觀經(jīng)濟與行業(yè)風(fēng)險、所有權(quán)及治理結(jié)構(gòu)、信用風(fēng)險及其管理、市場風(fēng)險及其管理、資金來源/流動性、盈利能力等進行“加權(quán)”加分,信用風(fēng)險的度量模式顯得比較單一,所以對于信用風(fēng)險分類方法是學(xué)術(shù)界和實務(wù)界必須解決的課題之一。
一、文獻綜述
(一)國外文獻Logistic模型最早是由Martin (1977)用來預(yù)測公司的破產(chǎn)及違約概率。他從1970年至1977年間大約5700家美聯(lián)儲成員銀行中界定出58家困境銀行,并從25個財務(wù)指標中選取總資產(chǎn)凈利潤率等8 個財務(wù)比率,用來預(yù)測公司的破產(chǎn)及違約概率,建立了Logistic回歸模型,根據(jù)銀行、投資者的風(fēng)險偏好設(shè)定風(fēng)險警界線,以此對分析對象進行風(fēng)險定位和決策。同時還將Z-Score模型,ZETA模型和Logistic模型的預(yù)測能力進行了比較,結(jié)果發(fā)現(xiàn)Logistic回歸模型優(yōu)于Z- Score模型和ZETA模型。Madalla (1983) 則采用Logistic模型區(qū)別違約與非違約貸款申請人,其研究結(jié)果表明,當違約概率p>0.551時是風(fēng)險貸款;當p
(二)國內(nèi)文獻 在國內(nèi)的研究文獻中,齊治平(2002)從我國滬、深兩交易所選取164 家上市公司,然后隨機分成兩組,運用線性判別模型、Logistic 回歸模型以及含有二次項和交叉項的Logistic 模型對數(shù)據(jù)樣本提前兩年進行預(yù)測。結(jié)果發(fā)現(xiàn),含有二次項和交叉項的Logistic模型對前一年數(shù)據(jù)的預(yù)測準確率最高。吳世農(nóng)(2003)使用剖面分析、單變量分析、線性概率模型(LPM)、Fisher二類線性判定、Logistic模型等統(tǒng)計方法對財務(wù)困境公司進行預(yù)測研究,其中Logistic模型對前一年數(shù)據(jù)的預(yù)測準確率達到93.53%,F(xiàn)isher判別分析法和LPM的準確率都為89.93%。龐素琳(2003)利用多層感知器分別對我國2000年106家上市公司進行信用評級,信用評價準確率高達98.11%。本文即是從上市公司的財務(wù)指標入手,通過logistic回歸分析和BP神經(jīng)網(wǎng)絡(luò),構(gòu)建衡量企業(yè)信用狀況的模型,并通過實證研究考察模型的適用性,對比兩者信用風(fēng)險分類的準確度。
二、研究設(shè)計
(一)樣本選取和數(shù)據(jù)來源本研究選取滬深兩市A股市場上2005年至2007年三年中部分被進行特別處理的118家ST公司和126家非ST公司,數(shù)據(jù)主要來源于CSMAR深圳國泰安信息技術(shù)有限公司提供的財務(wù)指標數(shù)據(jù),將118家ST公司的財務(wù)數(shù)據(jù)和126家非ST公司的財務(wù)數(shù)據(jù)劃分為訓(xùn)練樣本和測試樣本。樣本集選取如(表1)所示。
(二)變量選取本文采取的財務(wù)數(shù)據(jù)在參考了已有文獻以及考慮到實際數(shù)據(jù)可得性的基礎(chǔ)上,選取了能夠反映短期還款能力,長期還款能力,盈利能力和營運能力4方面共12個財務(wù)指標。指標變量名稱及自變量符號具體見表。因變量為0-1變量,信用級別高的設(shè)置為1,信用級別低的設(shè)置為0。在做logistic回歸的時候會進一步運用向后篩選法剔除方差貢獻率不大的指標變量。具體如(表2)所示。
(三)模型設(shè)定
(1)Logistic回歸模型:
(2)多層次前向神經(jīng)網(wǎng)絡(luò)。本文所應(yīng)用的是一種稱為前向網(wǎng)絡(luò)的特殊神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)。本研究應(yīng)用Rumehhart于1986年提出的如下函數(shù):Ii=wijxj+?準,xi=fi=其中,Ii為神經(jīng)元i的層輸入,xi為神經(jīng)元的輸出,wij為神經(jīng)元間的連接權(quán),?準為神經(jīng)元i的偏置。每一條連接弧都被賦予一定的數(shù)值來表示連接弧的連接強度,正的權(quán)值表示影響的增加,負的權(quán)值表示影響的減弱。在前向網(wǎng)絡(luò)中,神經(jīng)元間前向連接,同層神經(jīng)元互不連接,信息只能向著一個方向傳播。前向網(wǎng)絡(luò)的連接模式是用權(quán)值向量W來表示的。在網(wǎng)絡(luò)中,權(quán)值向量決定著網(wǎng)絡(luò)如何對環(huán)境中的任意輸入作出反應(yīng)典型的學(xué)習(xí)算法是搜索權(quán)值以找到最適合給定樣本的權(quán)值。在本研究中應(yīng)用的是多層前向網(wǎng)絡(luò)的BP算法,其主要作用是知識獲取和推理,采用有導(dǎo)師學(xué)習(xí)的訓(xùn)練形式,提供輸入矢量集的同時提供輸出矢量集,通過反向傳播學(xué)習(xí)算法,調(diào)整網(wǎng)絡(luò)的連接權(quán)值,以使網(wǎng)絡(luò)輸出在最小均方差意義下,盡量向期望輸出接近,通過修改各層神經(jīng)元的連接權(quán)值,使誤差減小,然后轉(zhuǎn)入正向傳播過程,反復(fù)循環(huán),直至誤差小于給定的值為止。本文建立的BP神經(jīng)網(wǎng)絡(luò)圖(見圖1)。本文建立財務(wù)困境神經(jīng)網(wǎng)絡(luò)預(yù)警模型主要考慮以下兩方面的問題:一是確定網(wǎng)絡(luò)結(jié)構(gòu);二是學(xué)習(xí)參數(shù)的調(diào)整。首先考慮網(wǎng)絡(luò)結(jié)構(gòu)的確定。網(wǎng)絡(luò)結(jié)構(gòu)主要包括連接方式、網(wǎng)絡(luò)層次數(shù)和各層結(jié)點數(shù)。網(wǎng)絡(luò)的連接方式代表了網(wǎng)絡(luò)的拓撲結(jié)構(gòu),Lippmann(1987)證明在一定條件下,一個三層的BP神經(jīng)網(wǎng)絡(luò)可以用任意精度去逼近任意映射關(guān)系,而且經(jīng)過實驗發(fā)現(xiàn),與一個隱層相比,用兩個隱層的網(wǎng)絡(luò)訓(xùn)練并無助于提高預(yù)測的準確。因此在本研究中采用單隱層的BP網(wǎng)絡(luò)。各隱含層節(jié)點數(shù)的選擇并無確定的法則,只能結(jié)合實驗并根據(jù)一些經(jīng)驗法則:隱層節(jié)點數(shù)不能是各層中節(jié)點數(shù)最少的,也不是最多的;較好的隱層節(jié)點數(shù)介于輸入節(jié)點和輸出節(jié)點數(shù)之和的50%~75%之間;隱層節(jié)點數(shù)的理論上限由其訓(xùn)練樣本數(shù)據(jù)所限定。
三、實證結(jié)果分析
(一)logistic模型的參數(shù)估計及結(jié)果常規(guī)的線性判別模型計算得到的Z值只是個抽象的概念,無法從經(jīng)濟學(xué)上進行解釋,Logistic回歸分析解決了這個問題,其前提假設(shè)符合經(jīng)濟現(xiàn)實和金融數(shù)據(jù)的分布規(guī)律,殘差項小要求服從止態(tài)分布。本文運用SPSS自帶的Wald向后逐步選擇法篩選變量,提高模型的判別性能,從全變量模型開始,逐步提出對殘差平方和貢獻最小的變量,具體的回歸結(jié)果見(表2)。以2005年為例,根據(jù)SPSS計算結(jié)果中的參數(shù)表,估計Logistics模型的判別方程,(表3)反映了最大似然迭代記錄(顯示最后的迭代過程),(表4)反映了參數(shù)估計結(jié)果。步驟9是經(jīng)過9步變量篩選后最后保留在模型中的變量。從各個系數(shù)的Wald值及伴隨概率p來看,最終選定的5個指標變量具有最高的解釋能力。綜上,2005年公司分類的logistic模型為:p=。從(表5)步驟1及步驟9的分類結(jié)果看出,剔除不顯著變量之后,分類準確率并未大幅下降,可以認為最終的模型能通過檢驗。(表6)顯示了最終的Logistic模型參數(shù)估計結(jié)果。(表7)顯示了模型分類準確率。
(二)BP神經(jīng)網(wǎng)絡(luò)的參數(shù)估計及結(jié)果首先對輸入輸出樣本進行數(shù)據(jù)處理,消除影響預(yù)測結(jié)果的噪聲,神經(jīng)網(wǎng)絡(luò)輸入的變量要求規(guī)范在[-1,1](若使用tanh函數(shù))或[0,1](若使用logistic函數(shù))之間。本文對輸入數(shù)據(jù)進行標準化處理,采用以下方法:X=。X為規(guī)范后的變量,x為每個變量的實際值,x1為每個變量的最小值,x2為每個變量的最大值。Matlab中相應(yīng)的函數(shù)為[output_X,PS]=mapminmax(X,output_min,outpt_max)由于實際財務(wù)困境評價往往非常復(fù)雜,企業(yè)財務(wù)狀況的好壞與財務(wù)比率的關(guān)系常常是非線性的,而神經(jīng)網(wǎng)絡(luò)作為一種非線形建模過程,并不依賴判別模型的假設(shè),能找出輸入與輸出的內(nèi)在聯(lián)系,因此本文決定嘗試使用神經(jīng)網(wǎng)絡(luò)技術(shù)進行信用狀況的分類研究,分為訓(xùn)練集和測試集兩組對神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,過程如下:第一,輸入層和輸出層神經(jīng)元數(shù)目的確定。第一層為輸入層,采用判別分析得出的模型變量為輸入變量,共有12個結(jié)點,每個結(jié)點代表相應(yīng)的財務(wù)比率。第三層為輸出層,用一個結(jié)點表示,訓(xùn)練導(dǎo)師值為0代表信用級別“差”的公司,1代表信用級別“好”的公司。第二,隱含層數(shù)和隱結(jié)點個數(shù)的確定。本文選擇單隱層的前饋BP網(wǎng)絡(luò);通過學(xué)習(xí)逐步增加隱神經(jīng)元數(shù),訓(xùn)練反復(fù)調(diào)整。最后定為10個隱結(jié)點。第三,用訓(xùn)練集的數(shù)據(jù)訓(xùn)練這個神經(jīng)網(wǎng)絡(luò),使不同的輸入向量得到相應(yīng)的輸出值,當誤差降到一個指定的范圍內(nèi)時,神經(jīng)網(wǎng)絡(luò)所持有的那組權(quán)數(shù)值就是網(wǎng)絡(luò)通過自學(xué)習(xí)得到的權(quán)數(shù)值,即完成了神經(jīng)網(wǎng)絡(luò)的自學(xué)習(xí)過程。第四,輸入待評價的樣本(本文直接在輸入矩陣中劃分為訓(xùn)練),讓訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)輸出企業(yè)財務(wù)狀況的標志(0或1),即實現(xiàn)神經(jīng)網(wǎng)絡(luò)的模式分類。神經(jīng)網(wǎng)絡(luò)的初始權(quán)重由Matlab隨機產(chǎn)生的。訓(xùn)練算法采用專用于模式分類的trainscg方法,各種訓(xùn)練參數(shù)見(表8)。由此看出,算法逐步收斂,最終達到誤差標準見(表9)。
(三)兩種模型比較分析 本文對Logistic和BP神經(jīng)網(wǎng)絡(luò)分別對我國上市公司的信用狀況給予兩類模式的評級,最終發(fā)現(xiàn),Logistic和BP神經(jīng)網(wǎng)絡(luò)在我國市場上的分類效果相當(見表10)。主流觀點認為,人工神經(jīng)網(wǎng)絡(luò)具有良好的模式識別能力,可以克服統(tǒng)計等方法的限制,因為它具有良好的容錯能力,對數(shù)據(jù)的分布要求不嚴格,具備處理資料遺漏或是錯誤的能力。最為可貴的一點是人工神經(jīng)網(wǎng)絡(luò)具有學(xué)習(xí)能力,可以隨時依據(jù)新準備的數(shù)據(jù)資料進行自我學(xué)習(xí)、訓(xùn)練、調(diào)整其內(nèi)部的儲存權(quán)重參數(shù)以應(yīng)對多變的企業(yè)運作環(huán)境。但是本文得出的結(jié)果是:傳統(tǒng)的Logistic方法和神經(jīng)網(wǎng)絡(luò)方法的分類效果相當?,F(xiàn)代人工智能方法并未表現(xiàn)出理論上的優(yōu)勢??赡艿脑蚴牵壕W(wǎng)絡(luò)不穩(wěn)定,訓(xùn)練樣本的仿真準確率很高,但對測試樣本的仿真準確率會降低;解釋性差,網(wǎng)絡(luò)最終確定后,每個神經(jīng)元的權(quán)值和閾值雖然已知,但不能很好地分析各個指標對結(jié)果的影響程度,對現(xiàn)實問題中的經(jīng)營管理也就不能起到很好的借鑒作用;網(wǎng)絡(luò)的輸入個數(shù)與隱層節(jié)點個數(shù)的確定沒有理論指導(dǎo),只能通過經(jīng)驗確定。
四、結(jié)論
本文選取2005年至2007年部分被進行特別處理的118家ST公司和126家非ST公司,以其財務(wù)指標為樣本,進行Logistic回歸和BP神經(jīng)網(wǎng)絡(luò)分類,對這兩種信用風(fēng)險評判模型在中國市場做了實證研究。結(jié)果發(fā)現(xiàn):兩種模型均適用于中國上市公司兩模式分類(ST和非ST公司),而BP神經(jīng)網(wǎng)絡(luò)在我國市場上并未體現(xiàn)其分類的優(yōu)勢,分類準確度和Logistic相當。即使如此,本文證實了Logistic和BP神經(jīng)網(wǎng)絡(luò)模型對于我國上市公司的評級還是有效的,能夠為投資者的科學(xué)決策提供建設(shè)性的指導(dǎo)意見,使投資者理智地回避風(fēng)險和獲取收益。同時,該判別模型也有利于準確評價一個企業(yè)的信用狀況,從而為銀行等放貸機構(gòu)提供決策依據(jù)。
參考文獻:
[1]吳世農(nóng)、盧賢義:《我國上市公司財務(wù)困境的預(yù)測模型研究》,《經(jīng)濟研究》2001年第6期。
[2]齊治平、余妙志:《Logistic模型在上市公司財務(wù)狀況評價中的應(yīng)用》,《東北財經(jīng)大學(xué)學(xué)報》2002年第1期。
[3]龐素琳、王燕鳴、羅育中:《多層感知器信用評價模型及預(yù)警研究》,《數(shù)學(xué)實踐與認識》2003年第9期。
雖然我國目前還沒有對房地產(chǎn)保有環(huán)節(jié)進行普遍的稅收征管,但是在房地產(chǎn)存量交易的稅收核價環(huán)節(jié)以及金融機構(gòu)的風(fēng)險控制部門等都已經(jīng)存在了房地產(chǎn)批量評估的需求。市場上出現(xiàn)了一些批量評估的系統(tǒng)或產(chǎn)品,在批量評估技術(shù)方面已經(jīng)具有了一定的社會實踐基礎(chǔ),就目前幾個主流的房地產(chǎn)批量評估技術(shù)做一簡要匯總和分析,希望有助于房地產(chǎn)批量評估技術(shù)的深入探討和研究。
關(guān)鍵詞:
房地產(chǎn)批量評估,標準價調(diào)整法,多元線性回歸模型,數(shù)據(jù)挖掘
根據(jù)房地產(chǎn)批量評估技術(shù)中人工參與程度的多少,現(xiàn)行批量評估技術(shù)方法可分為:以人工為主、以計算機技術(shù)為主和以人工與計算機技術(shù)相結(jié)合三類。本文將對此進行討論,對如何選用房地產(chǎn)批量評估技術(shù)方法進行研究。
1以人工為主的技術(shù)方法之標準價調(diào)整法
1.1標準價調(diào)整法的概念標準價調(diào)整法,作為市場比較法派生出來的一種方法,類似于城市動拆遷評估中的基準價格修正法和香港的指標估價法,但又有其自身的特點。標準價調(diào)整法可定義為:一種批量估價方法,在一定區(qū)域范圍內(nèi)進行估價分區(qū),在每個估價分區(qū)內(nèi)設(shè)定標準房地產(chǎn)并求其價值,利用房地產(chǎn)價格調(diào)整系數(shù)將標準房地產(chǎn)價格調(diào)整為各宗房地產(chǎn)的價值。標準價調(diào)整法適用于估價對象物業(yè)屬性和估價特性較為近似的物業(yè),尤其適用于小范圍且價格影響因素少的樓棟批量評估。
1.2標準價調(diào)整法在不同物業(yè)類型中的應(yīng)用標準價調(diào)整法的實施涉及到:估價分區(qū)的劃分、標準房的設(shè)定、價格修正系數(shù)的設(shè)定以及標準房價格的評估。無論應(yīng)用于哪種物業(yè)類型,這四個步驟必不可少,差異在于各步驟的具體實施方法不盡相同。在住宅物業(yè)的評估中,往往以小區(qū)作為估價分區(qū)的劃分,在一個小區(qū)內(nèi)根據(jù)一定規(guī)則設(shè)定一個標準房,再由有經(jīng)驗的估價師根據(jù)實地調(diào)研情況設(shè)置標準房與其他房屋之間的價格差異系數(shù)。最后仍由估價師定期對標準房進行估價,并通過已設(shè)定的系數(shù)求得所有物業(yè)的價格。在辦公物業(yè)的評估中,差異在于分區(qū)是以樓棟或項目來劃分,后續(xù)步驟和住宅一致。在集中型商業(yè)物業(yè)或工業(yè)物業(yè)中,都可以借鑒上述方法來進行操作。但在沿街零售型物業(yè)中,由于沿街零售性物業(yè)分布廣泛,沒有明顯的集中趨勢,并且價格影響因素的差異較大,導(dǎo)致標準價調(diào)整法的應(yīng)用也與其他物業(yè)類型有較大不同,主要表現(xiàn)在估價分區(qū)的劃分和價格修正系數(shù)的設(shè)定這兩個環(huán)節(jié)。現(xiàn)有的技術(shù)方案一般采集兩級調(diào)整的方案。按商圈(或類似因素)將城市區(qū)域劃分成諸多估價分區(qū),在每個分區(qū)中設(shè)定一個標準商鋪,稱為區(qū)域基準商鋪。之后在分區(qū)內(nèi)再進行一次估價分區(qū)的劃分,這一劃分以路段為分區(qū),在每個路段中設(shè)定一個標準商鋪,稱為路段基準商鋪。估價人員經(jīng)過現(xiàn)場調(diào)研后,需設(shè)置兩級修正系數(shù),即區(qū)域基準商鋪與路段基準商鋪的價格調(diào)整系數(shù),以及路段基準商鋪與路段內(nèi)其他商鋪的價格修正系數(shù)。最后經(jīng)估價師定期對區(qū)域基準商鋪進行估價,并通過兩級系數(shù)的修正求得所有商鋪的價格。
1.3標準價調(diào)整法的優(yōu)點①在規(guī)模較小的城市中,可以實現(xiàn)絕大部分物業(yè)的批量評估需求,具有較強的實用性。②可以達到較高的批量評估覆蓋率。③估價準確性較好,并具有較好的質(zhì)量可控性。④除建設(shè)初期投入的人員成本和時間成本較大,后續(xù)維護的成本適中。
1.4標準價調(diào)整法的缺點①由于人工作業(yè)的工作量太大,不適用大、中型城市。②對估價人員的經(jīng)驗要求較高,尤其是系數(shù)設(shè)置與標準房的價格評估等環(huán)節(jié)對質(zhì)量的要求很高。團隊運作時,需要具備較高的質(zhì)量管理能力。③不同物業(yè)間的系數(shù)關(guān)系可能受到市場、規(guī)劃等因素的影響而改變,需要定期進行監(jiān)控和維護,有一定的難度或容易疏忽和遺漏。
2以人工為主的技術(shù)方法之多元線性回歸模型
2.1多元線性回歸模型簡述多元回歸分析是目前在國外批量評估中占主流的校準技術(shù),包括線性回歸分析和非線性回歸分析。其基本原理是:在大量樣本的基礎(chǔ)上,通過對變量、誤差的假定,依靠最小二乘法來擬合因變量與自變量關(guān)系,從而建立數(shù)學(xué)模型。多元回歸是統(tǒng)計學(xué)方法,運用時要和經(jīng)濟學(xué)理論結(jié)合,實踐中對多元回歸模型的應(yīng)用是基于特征價格理論。國內(nèi)關(guān)于運用特征價格理論來進行房地產(chǎn)價格批量評估也有較多的研究和學(xué)術(shù)論文,但絕大多數(shù)還處于理論研究階段。
2.2多元回歸分析的主要步驟多元回歸既可以用來預(yù)測售價,也可以用來預(yù)測租金,甚至可以用來統(tǒng)計其他中間參數(shù)。在步驟上不同類型的物業(yè)沒有明顯區(qū)別,只是在變量的選擇與量化上有所不同。為便于表述,下面以預(yù)測辦公物業(yè)價格為例來進行闡述。①選取樣本:為了訓(xùn)練預(yù)測辦公物業(yè)價格的模型方程,在目標范圍內(nèi)選取一定數(shù)量的樣本,調(diào)研其價格信息和基礎(chǔ)信息。這里的重點是樣本對總體的代表性以及樣本數(shù)據(jù)采集的準確性。②構(gòu)建辦公物業(yè)價格影響因素體系:通過調(diào)研分析以及房產(chǎn)專家意見調(diào)查,歸納出可能影響辦公物業(yè)價格的特征變量,并進行賦值量化。③模型擬合:觀察、分析特征變量的變動規(guī)律,采用統(tǒng)計分析軟件進行分析,對模型和特征變量賦值不斷地嘗試和修正,找出合理的價格和各特征變量之間的定量關(guān)系。④模型檢驗:最終得到的模型是否成功,取決于經(jīng)濟意義檢驗、統(tǒng)計檢驗、計量經(jīng)濟學(xué)檢驗以及模型預(yù)測檢驗。其中統(tǒng)計檢驗包括了擬合優(yōu)度檢驗和顯著性檢驗;計量經(jīng)濟學(xué)檢驗包括多重共線性檢驗及異方差檢驗等。但凡通過上述所有的檢驗,即可認為模型已成功建立。⑤模型應(yīng)用:對辦公物業(yè)的特征變量進行賦值,代入最終的模型進行自動計算,即可評估辦公物業(yè)的價格。
2.3多元線性回歸模型的優(yōu)點①多元回歸方法所涉及的工作量主要在于特征變量的數(shù)量以及特征變量的賦值容易程度,受城市規(guī)模的影響較小,因此可以適用于大中型及以上城市。②多元回歸方法通過擬合因變量與自變量關(guān)系從而建立數(shù)學(xué)模型,這個過程與何種物業(yè)類型無關(guān),因此理論上多元回歸方法適合各類型物業(yè)的批量評估建模。③通過“調(diào)整R方”和“標準誤差”兩項指標,基本可以判斷和掌握模型價格估計的準確度,并且可以對模型進行持續(xù)改進,從而保證批量評估的準確性。④在市場穩(wěn)定時期,由于自變量與因變量的關(guān)系也較為穩(wěn)定,因此模型更新維護的成本較低,從而價格更新的成本也較低。
2.4多元線性回歸模型的缺點①在不同區(qū)域或不同市場,價格的影響因素不盡相同,建立的回歸模型也不相同。因此對每個城市每個物業(yè)類型的市場需要分別建立回歸模型。②多元回歸的建模研究過程中,在理論假設(shè)、建模方法、數(shù)據(jù)采集等各環(huán)節(jié)中,需要綜合的知識、經(jīng)驗和技能要求。除了房地產(chǎn)估價師所需具備的估價理論知識、實務(wù)經(jīng)驗、調(diào)研及價格判斷能力外,還需要統(tǒng)計學(xué)、經(jīng)濟學(xué)等多學(xué)科知識。對人員和團隊的綜合能力要求很高,而這往往是傳統(tǒng)估價機構(gòu)所欠缺的。③對樣本數(shù)據(jù)的準確性要求較高。如果沒有準確的樣本數(shù)據(jù),建立科學(xué)的經(jīng)濟學(xué)模型則為空中樓閣。而要獲得準確的樣本數(shù)據(jù),長久以來一直是一個難題,其中有人為的因素(如交易避稅),也有客觀的因素(如商業(yè)物業(yè)的交易活躍度低)。④在市場波動大的時候,原有模型可能失效或者預(yù)測能力大幅下降,而模型的迭代或維護周期較長,可能無法及時調(diào)整。
3以計算機技術(shù)為主的技術(shù)方法
房地產(chǎn)批量評估領(lǐng)域中以計算機技術(shù)為主的技術(shù)方法主要是基于大數(shù)據(jù)的數(shù)據(jù)挖掘。這一技術(shù)的應(yīng)用最早開始于房地產(chǎn)互聯(lián)網(wǎng)企業(yè),如搜房、安居客等房地產(chǎn)房源網(wǎng)站,后來逐步被引入到房地產(chǎn)批量評估的技術(shù)或產(chǎn)品研發(fā)中來。
3.1數(shù)據(jù)挖掘的方法和原理首先,數(shù)據(jù)挖掘的前提需要有大量的數(shù)據(jù)可供挖掘。隨著互聯(lián)網(wǎng)在各行各業(yè)的不斷滲透,房地產(chǎn)中介行業(yè)中出現(xiàn)了大量房源網(wǎng)站,并逐步成為了房地產(chǎn)經(jīng)紀人房源招攬客戶的主要渠道。一個房源網(wǎng)站中可以搜索的房源數(shù)量多達數(shù)十萬甚至上百萬條,并且每天都有數(shù)萬條以上的數(shù)據(jù)更新。這樣的網(wǎng)站有好幾家,為房地產(chǎn)的數(shù)據(jù)挖掘提供了可行的前提。其次,結(jié)構(gòu)化的數(shù)據(jù)為數(shù)據(jù)的采集提供了便利。在房源網(wǎng)站中,房源已經(jīng)按小區(qū)進行了分類,經(jīng)紀人哪個小區(qū)的房源,則該房源將展現(xiàn)在該小區(qū)的搜索項下。至于面積、房型、價格、樓層以及裝修等參數(shù),也都以格式化的方式來展現(xiàn)。因此,利用互聯(lián)網(wǎng)爬蟲等抓取技術(shù),可以方便的將這些網(wǎng)站的房源抓取下來,并建立房源案例數(shù)據(jù)庫。最后,是數(shù)據(jù)挖掘工作。數(shù)據(jù)挖掘一般是指從大量的數(shù)據(jù)中通過算法搜索隱藏于其中信息的過程。數(shù)據(jù)挖掘通常與計算機科學(xué)有關(guān),并通過統(tǒng)計、在線分析處理、情報檢索、機器學(xué)習(xí)、專家系統(tǒng)(依靠過去的經(jīng)驗法則)和模式識別等諸多方法來實現(xiàn)上述目標。根據(jù)上述定義和描述可以發(fā)現(xiàn),數(shù)據(jù)挖掘的核心是算法,而這個算法在不同的批量評估系數(shù)或產(chǎn)品中都不相同,算法的優(yōu)劣也決定了不同系統(tǒng)或產(chǎn)品的優(yōu)劣。
3.2數(shù)據(jù)挖掘方法的優(yōu)點①高效無疑是數(shù)據(jù)挖掘方法的最大優(yōu)點。一旦完成對算法的研究,價格估算的工作都可以交由計算機來完成。②對整體市場價格運行的反映具有較高的準確度。
3.3數(shù)據(jù)挖掘方法的缺點①對微觀市場價格運行的反映可能存在較大偏差。微觀市場中,例如一個住宅小區(qū),其掛牌房源的數(shù)量就很有限了,即使規(guī)模最大的小區(qū),也就是幾百的數(shù)量級。這樣大數(shù)據(jù)挖掘的數(shù)據(jù)數(shù)量前提已不滿足,從而影響了對微觀市場的價格估計。②批量評估的覆蓋面不完整?;ヂ?lián)網(wǎng)數(shù)據(jù)雖然總量巨大,但并非面面俱到。以住宅小區(qū)為例,一些體量較小的小區(qū),或者一些遠郊區(qū)域,可能無法在互聯(lián)網(wǎng)上被搜索到。因此,基于互聯(lián)網(wǎng)數(shù)據(jù)挖掘的批量評估勢必在覆蓋面上存在缺陷。
4以人工與計算機技術(shù)相結(jié)合的技術(shù)方法
房地產(chǎn)批量評估,尤其是涉稅的批量評估對評估系統(tǒng)的要求主要有:全面覆蓋所有物業(yè)、估價結(jié)果準確以及系統(tǒng)維護成本適中。根據(jù)前文對各方法的論述,單一方法很難實現(xiàn)上述要求。如標準價調(diào)整法若在大型或超大型城市中應(yīng)用,將面臨很高的運營成本;多元回歸建模的更新維護周期較長,當市場出現(xiàn)快速波動時可能無法及時調(diào)整;基于大數(shù)據(jù)的數(shù)據(jù)挖掘在估價精度與覆蓋面上都有所欠缺??傊?,無論從技術(shù)上論證還是從實施效果來看,多種方法的有效結(jié)合是較為理想的,也是房地產(chǎn)批量評估技術(shù)的發(fā)展趨勢。實踐中各方法的結(jié)合已有普遍應(yīng)用,并且各有巧妙,方法不盡相同。下面就幾種簡單的組合方式進行討論。
4.1標準價調(diào)整法與大數(shù)據(jù)挖掘技術(shù)的組合大數(shù)據(jù)挖掘可以滿足一些活躍小區(qū)的價格估算,因為活躍小區(qū)的掛牌房源較多,能滿足算法所要求的數(shù)據(jù)量前提,而不活躍的小區(qū)則無法為算法提供足夠的“原材料”,因此不適用數(shù)據(jù)挖掘的方法。這時就可以運用標準價調(diào)整法來彌補。按照標準價調(diào)整法的原理,在不活躍小區(qū)的臨近或相似區(qū)域內(nèi)設(shè)置一個標準房,經(jīng)人工調(diào)研后設(shè)置標準房與不活躍小區(qū)價格的調(diào)整系數(shù)。這樣在算法得出活躍小區(qū)價格的同時,可以利用預(yù)先設(shè)置好的系數(shù)一并計算不活躍小區(qū)的價格。此外,在算法可以計算的活躍小區(qū)的價格中,也有可能存在價格偏差。這時也可以應(yīng)用標準價調(diào)整法的思路,設(shè)置活躍小區(qū)間的價格調(diào)整系數(shù),來檢驗算法所得結(jié)果的合理性。這一組合的應(yīng)用前提主要是看大數(shù)據(jù)挖掘的應(yīng)用前提是否存在,即是否存在大量數(shù)據(jù)可供挖掘,因此適合房地產(chǎn)市場規(guī)模較大,“互聯(lián)網(wǎng)+”比較發(fā)達的城市和地區(qū)。此外,在結(jié)合了大數(shù)據(jù)挖掘技術(shù)后,標準價調(diào)整法可以應(yīng)用到大中型及以上城市,克服了其原有的一大弊端。
4.2多元回歸模型與大數(shù)據(jù)挖掘技術(shù)的組合除了對人員的能力要求以及對樣本數(shù)據(jù)的質(zhì)量要求較高以外,多元回歸模型最大的弱點在于迭代問題。市場不斷變化,模型不可能一成不變,當市場發(fā)生變化并導(dǎo)致變量之間的關(guān)系也發(fā)生改變時,原有模型的價格預(yù)計精度必然下降,此時必須對模型進行重新構(gòu)建。問題在于市場價格變化未必會導(dǎo)致變量間的關(guān)系也發(fā)生變化(或變化很?。?,或者當變量間關(guān)系發(fā)生變化時,人員主觀上可能無法及時發(fā)現(xiàn)。當主觀能夠感受到變量間的關(guān)系出現(xiàn)變化時,往往已經(jīng)有了很大的變化。此時再進行模型的迭代就已近晚了,之前的價格估算可能已經(jīng)出現(xiàn)了錯誤。大數(shù)據(jù)挖掘技術(shù)可以很好地彌補上述的缺陷。大數(shù)據(jù)挖掘不僅可以直接計算某些具體變量,任何數(shù)據(jù)內(nèi)在的規(guī)律和關(guān)聯(lián)都可能應(yīng)用大數(shù)據(jù)挖掘的方式進行探索和發(fā)現(xiàn),并且能對極為細小的數(shù)值波動進行反應(yīng)。利用數(shù)據(jù)挖掘的這一特性,可以建立對變量的波動監(jiān)控,當波動超過一定的預(yù)設(shè)閥值即可啟動模型的迭代更新。這一組合的應(yīng)用前提同樣取決于大數(shù)據(jù)挖掘的應(yīng)用前提,除了城市規(guī)模等情況限制外,如商業(yè)物業(yè)、工業(yè)廠房等物業(yè)市場也不適用。
4.3標準價調(diào)整法與多元回歸模型的組合標準價調(diào)整法往往適用于特性相近的物業(yè),如在一個小區(qū)中設(shè)定一個標準房,再設(shè)定標準房與其他房屋的價格修正系數(shù)。在價格更新時,求取標準房價格后,即可得到小區(qū)內(nèi)所有房屋的價格。但當城市規(guī)模很大時,也就是有很多小區(qū)時,必須要求取所有小區(qū)的標準房價格,如僅以人工來評估得出的話,成本非常高。此時在求取小區(qū)標準房價格方面,采用多元回歸模型的方法可以極大地減少人工和時間成本。由于標準價調(diào)整法和多元回歸模型都屬于以人工為主的技術(shù)方法,因此理論上的應(yīng)用幾乎不受限制。在結(jié)合多元回歸模型后,標準價調(diào)整法也可擴展應(yīng)用到大中及以上城市。從上述三個組合中可以看到,原單一技術(shù)的某些弊端可以被克服,整體技術(shù)方案的適用范圍和效果可獲得較大提升和改進。實際研究和應(yīng)用中可能有更多種的技術(shù)組合,且并不限于本文論述的主流技術(shù)方法。多種技術(shù)組合應(yīng)用是房地產(chǎn)批量評估技術(shù)探索和創(chuàng)新的主要方向。
5房地產(chǎn)批量評估技術(shù)的選用
無論是單一技術(shù)還是多種技術(shù)方法的結(jié)合應(yīng)用,房地產(chǎn)批量評估技術(shù)的選用依據(jù)主要是數(shù)據(jù)狀況、結(jié)果的質(zhì)量狀況以及運行成本。數(shù)據(jù)狀況主要指數(shù)據(jù)的數(shù)量和質(zhì)量。就技術(shù)方案來說,側(cè)重點有所不同。例如在多元回歸模型中,對于樣本案例的參數(shù)質(zhì)量要求是所有技術(shù)方案中最高的;而大數(shù)據(jù)挖掘技術(shù)則對數(shù)據(jù)的數(shù)量要求最高。現(xiàn)實中不太會碰到數(shù)量又多質(zhì)量又好的數(shù)據(jù)狀況,因此在技術(shù)選用時首先需要考慮是否可以穩(wěn)定獲得所需要的數(shù)據(jù)。至于結(jié)果的質(zhì)量狀況和運行成本,很難設(shè)定一個標準線。只能根據(jù)不同的需求目的來設(shè)定質(zhì)量目標,以及根據(jù)組織的投入產(chǎn)出效益來選擇可行的技術(shù)方案。以上海城市房地產(chǎn)估價有限公司開發(fā)的VISS系統(tǒng)的運行情況來看,其在住宅物業(yè)批量評估方案中采用了標準價調(diào)整法與大數(shù)據(jù)挖掘相結(jié)合的方法,使其系統(tǒng)的評估精度基本控制在正負6%的誤差范圍,極端誤差范圍為正負10%。對于上海12000多個住宅小區(qū),其價格更新周期為每月,其數(shù)據(jù)維護人員僅8-10人,每次價格更新的工作周期僅為兩周。在其新研發(fā)的辦公物業(yè)批量評估方案中,更是結(jié)合了標準價調(diào)整法、多元回歸模型以及大數(shù)據(jù)挖掘三種方法,使其系統(tǒng)的評估精度可以控制在正負10%的誤差范圍,極端誤差范圍為正負15%。對于上海3000多棟寫字樓物業(yè),可以實現(xiàn)3個月的價格更新周期,而數(shù)據(jù)維護人員僅3人。因此,在選用何種技術(shù)方案時,主要有四個評價因素。一是技術(shù)方案所需的數(shù)據(jù)是否可以穩(wěn)定獲得;二是批量評估的價格精度是否滿足目標需求;三是批量評估的物業(yè)覆蓋面是否完整;四是批量評估的運行維護成本企業(yè)(或組織)是否可以承受。以此為標準,運用多方法結(jié)合的思路進行技術(shù)的研發(fā)和創(chuàng)新才是房地產(chǎn)批量評估技術(shù)發(fā)展的正確道路。
6結(jié)語