前言:想要寫(xiě)出一篇引人入勝的文章?我們特意為您整理了多源數(shù)據(jù)下多維企業(yè)信用風(fēng)險(xiǎn)評(píng)估范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。
[提要]本研究針對(duì)多源數(shù)據(jù)融合場(chǎng)景下多維的企業(yè)信用風(fēng)險(xiǎn)評(píng)估,探索有效的模型學(xué)習(xí)方法。根據(jù)實(shí)驗(yàn)結(jié)果與分析,可以得出結(jié)論:XGBOOST能夠較好適應(yīng)多源數(shù)據(jù)分布不一致性和多維場(chǎng)景指標(biāo)數(shù)量繁多的特點(diǎn),同時(shí)該方法不需要對(duì)數(shù)據(jù)細(xì)節(jié)進(jìn)行較深入的處理,因此能夠快速調(diào)整模型,適應(yīng)市場(chǎng)監(jiān)管動(dòng)態(tài)變化的特點(diǎn)。
關(guān)鍵詞:企業(yè)信用風(fēng)險(xiǎn);多源多維;XGBOOST
政府部門(mén)作為社會(huì)企業(yè)的主要監(jiān)管機(jī)構(gòu),職責(zé)涉及海量企業(yè)的大量信用指標(biāo)、安全指標(biāo)、合法合規(guī)指標(biāo)的監(jiān)督和抽查,為企業(yè)的公平穩(wěn)健發(fā)展和社會(huì)的和諧文明與穩(wěn)定提供了最堅(jiān)實(shí)的保障。此外,將各部門(mén)負(fù)責(zé)的不同指標(biāo)聯(lián)合用于對(duì)企業(yè)整體風(fēng)險(xiǎn)的考察,不僅有利于對(duì)部門(mén)工作任務(wù)和工作流程的優(yōu)化,而且能起到及時(shí)預(yù)警作用,防患于未然?,F(xiàn)有對(duì)于企業(yè)信用風(fēng)險(xiǎn)評(píng)估的研究工作多從開(kāi)展評(píng)估的主體的不同業(yè)務(wù)角度出發(fā),如信貸業(yè)務(wù)、電力業(yè)務(wù)、供應(yīng)鏈金融、醫(yī)藥等角度,相關(guān)研究所使用的評(píng)估指標(biāo)具有較高針對(duì)性、專業(yè)性,指標(biāo)數(shù)量有限。從開(kāi)展評(píng)估所用到的評(píng)估模型或算法進(jìn)行劃分:統(tǒng)計(jì)學(xué)習(xí)方法,如Logistic回歸模型、結(jié)構(gòu)方程模型;現(xiàn)代機(jī)器學(xué)習(xí)方法,如SVM、隨機(jī)森林、XGBOOST;深度學(xué)習(xí)算法,如CNN模型。其中,現(xiàn)代機(jī)器學(xué)習(xí)方法由于模型性能較好、便于進(jìn)行適應(yīng)性算法優(yōu)化與集成,成為目前信用風(fēng)險(xiǎn)評(píng)估的主流方法;回歸模型結(jié)果可解釋性強(qiáng),但該算法對(duì)數(shù)據(jù)分布有一定要求;深度學(xué)習(xí)方法在其他領(lǐng)域應(yīng)用廣泛,但信用風(fēng)險(xiǎn)評(píng)估數(shù)據(jù)集通常呈現(xiàn)極大的類別不平衡、缺失值現(xiàn)象,難以直接應(yīng)用深度學(xué)習(xí)算法,但也有學(xué)者組合其他算法來(lái)解決類別不平衡現(xiàn)象,從而促進(jìn)深度學(xué)習(xí)算法的應(yīng)用。本文從多業(yè)務(wù)多維度指標(biāo)出發(fā)進(jìn)行企業(yè)信用風(fēng)險(xiǎn)評(píng)估,模型所覆蓋的指標(biāo)種類較多,類別不平衡與缺失值現(xiàn)象更為嚴(yán)重,難以保證多源數(shù)據(jù)分布的一致性。因此,本文重點(diǎn)觀察數(shù)據(jù)整體對(duì)評(píng)估性能的影響,提升模型泛化性;模型具有目標(biāo)傾向性,減少“第Ⅱ類錯(cuò)誤”(高風(fēng)險(xiǎn)公司未被識(shí)別)。本研究減少對(duì)各指標(biāo)下數(shù)據(jù)細(xì)節(jié)的考慮,重點(diǎn)研究對(duì)比了不同機(jī)器學(xué)習(xí)算法,從中選出針對(duì)當(dāng)前數(shù)據(jù)特點(diǎn)與任務(wù)場(chǎng)景效果最優(yōu)、方法最適合的模型。針對(duì)多源多維度企業(yè)信用風(fēng)險(xiǎn)評(píng)估,借鑒大數(shù)據(jù)場(chǎng)景數(shù)據(jù)挖掘思想,考察數(shù)據(jù)整體特點(diǎn),便于發(fā)現(xiàn)數(shù)據(jù)隱藏的關(guān)聯(lián)與規(guī)律,同時(shí)能夠提升評(píng)估模型的泛化性。此外,應(yīng)用現(xiàn)代機(jī)器學(xué)習(xí)算法,有利于提升信用風(fēng)險(xiǎn)評(píng)估的客觀性,提高信用風(fēng)險(xiǎn)評(píng)估業(yè)務(wù)的效率。
一、數(shù)據(jù)介紹
選擇深圳市市監(jiān)局“雙隨機(jī)、一公開(kāi)”結(jié)果公示的191,824條餐飲服務(wù)食品安全量化雙隨機(jī)檢查結(jié)果數(shù)據(jù),進(jìn)行統(tǒng)計(jì)分析。通過(guò)數(shù)據(jù)去重和數(shù)據(jù)清洗,獲得3,827家商事主體,其中291家有違法違規(guī)記錄,2,736家沒(méi)有違法違規(guī)記錄。利用當(dāng)下前沿技術(shù)多維度采集3,827家商事主體包括工商登記信息、欠稅記錄等在內(nèi)的52個(gè)維度的公共信息,整合成為模型建設(shè)的樣本數(shù)據(jù),依據(jù)正負(fù)性樣本比例,從中隨機(jī)選取3,027家上市主體數(shù)據(jù)作為模型訓(xùn)練數(shù)據(jù),其余800家商事主體作為模型測(cè)試數(shù)據(jù)。
二、設(shè)計(jì)方案
(一)系統(tǒng)設(shè)計(jì)。本產(chǎn)品按照功能分為三個(gè)模塊,數(shù)據(jù)預(yù)處理模塊、指標(biāo)篩選模塊和模型訓(xùn)練與選擇模塊。預(yù)處理模塊對(duì)多維企業(yè)數(shù)據(jù)進(jìn)行數(shù)據(jù)離散化、歸一化、獨(dú)熱編碼等預(yù)處理;指標(biāo)篩選模塊通過(guò)IV值、相關(guān)性、正則化等不同篩選方式為各指標(biāo)打分,保留有效特征供后續(xù)模型使用;模型訓(xùn)練與選擇模塊采用不同機(jī)器學(xué)習(xí)及深度學(xué)習(xí)的方法,建立企業(yè)基本信息和企業(yè)信用間的映射模型,訓(xùn)練后的模型可用于對(duì)新企業(yè)信用的風(fēng)險(xiǎn)評(píng)估。
(二)數(shù)據(jù)預(yù)處理模塊。數(shù)值形式轉(zhuǎn)換。以日期、貨幣、文本格式數(shù)據(jù)為例的數(shù)值形式轉(zhuǎn)換:(1)從文本型描述中抽取貨幣信息,文本型描述中噪音類型包括貨幣國(guó)別種類不同(美元、人民幣等)、貨幣單位不同(元、萬(wàn)元、百萬(wàn)元等)、文本型數(shù)值字符混用等,觀察分析并匯總各類型噪音,分類進(jìn)行貨幣換算與貨幣轉(zhuǎn)換;(2)對(duì)不同日期格式進(jìn)行轉(zhuǎn)化,進(jìn)行天數(shù)、月份數(shù)、年數(shù)等粒度的絕對(duì)值或相對(duì)值獲取,最終統(tǒng)一為以月為單位的時(shí)間跨度;(3)將具有有限類別的文本數(shù)據(jù)進(jìn)行判定,轉(zhuǎn)換為分類數(shù)值標(biāo)簽,如風(fēng)險(xiǎn)等級(jí)判定。異常值、缺失處理。對(duì)于空值處理,實(shí)現(xiàn)高頻值、指定固定值、相似數(shù)據(jù)預(yù)測(cè)值三種方式,綜合考慮后采用固定值處理方式。異常值處理,根據(jù)數(shù)據(jù)量統(tǒng)計(jì),判定出異常值(極大極小值或罕見(jiàn)文本類別),按空值情況處理。特征轉(zhuǎn)化。各指標(biāo)的數(shù)值分組、各分組分值計(jì)算?;谥髁黜?xiàng)目Toad進(jìn)行數(shù)值區(qū)間劃分,Toad是針對(duì)工業(yè)屆建模而開(kāi)發(fā)的工具包,針對(duì)風(fēng)險(xiǎn)評(píng)分卡的建模有針對(duì)性功能;基于信用風(fēng)險(xiǎn)領(lǐng)域的WOE分值計(jì)算方法進(jìn)行數(shù)值對(duì)應(yīng)的組別分值計(jì)算。進(jìn)行數(shù)值分組能夠提升模型泛化性,降低數(shù)據(jù)誤差的影響。
(三)指標(biāo)篩選。大數(shù)據(jù)場(chǎng)景下的數(shù)據(jù)挖掘需要處理的是海量、多渠道的數(shù)據(jù)集,且指標(biāo)(或因變量)數(shù)量較多(一般都在50個(gè)以上,通常稱之為高維空間),由于難以預(yù)先得知相應(yīng)的規(guī)則或模式,且場(chǎng)景復(fù)雜,單一規(guī)則或模型對(duì)海量樣本的覆蓋與解釋能力有限,應(yīng)盡可能收集更多的樣品指標(biāo)以防止遺漏重要解釋變量。但是這不等于把全部指標(biāo)都應(yīng)用到數(shù)據(jù)建模過(guò)程中,這樣會(huì)嚴(yán)重影響建模的效率與對(duì)挖掘結(jié)果的解釋,同時(shí)過(guò)于依賴部分指標(biāo),將降低模型的泛化性能,少量的指標(biāo)有利于模型的因果分析,提升模型魯棒性。因此,在建模之前必須對(duì)指標(biāo)進(jìn)行必要篩選,以挑選出對(duì)目標(biāo)變量或模式有重要影響的變量。指標(biāo)篩選即指標(biāo)歸約,是指用部分指標(biāo)來(lái)代替原有的指標(biāo)集合,即進(jìn)行適當(dāng)降維。降維的方法主要有兩類:一是選擇指標(biāo)的子集來(lái)代替原有的指標(biāo)集合,如相關(guān)分析、回歸分析、信息增益與模糊集等;二是對(duì)原有指標(biāo)進(jìn)行變換,合成新的綜合性指標(biāo),如主成分分析。本文所述的指標(biāo)篩選是子集的選擇。指標(biāo)選取的方法有多種,常用的有相關(guān)分析、回歸分析、信息增益、正則化等。本文選擇相關(guān)分析、信息增益、正則化方法?;诨貧w分析篩選方法包括前進(jìn)、后退法以及步進(jìn)法,試圖從線性因果關(guān)系來(lái)說(shuō)明各個(gè)自變量對(duì)因變量的影響大小,該類方法避免了模型受部分指標(biāo)影響從而帶來(lái)偏頗,但由于本文重點(diǎn)考察不同分類方法對(duì)于復(fù)雜指標(biāo)、高維空間的柔性,此外本文數(shù)據(jù)稀疏程度較高,部分指標(biāo)直接影響樣本評(píng)估結(jié)果,應(yīng)用該類方法淘汰掉該類指標(biāo)將導(dǎo)致生成大量無(wú)效數(shù)據(jù)。因此,未對(duì)該類方法進(jìn)行嘗試。相關(guān)性方法僅從各指標(biāo)數(shù)值分布向量之間的相似程度出發(fā)進(jìn)行考慮,易于使用和解釋。信息增益方法源于熵理論,即熱力學(xué)第二定律,目前在社會(huì)學(xué)科、管理科學(xué)以及空間科學(xué)上取得了相當(dāng)多的成功應(yīng)用,其基本思想是以指標(biāo)的信息含量(對(duì)分類準(zhǔn)確性提升的增益、貢獻(xiàn))來(lái)評(píng)價(jià)指標(biāo)的重要程度,進(jìn)而篩選指標(biāo)。正則化方法是機(jī)器學(xué)習(xí)領(lǐng)域中的常用方法,可以在降低模型復(fù)雜度的同時(shí),保證模型的有效分類性能,并且提升模型的泛化性能。上述三類方法結(jié)合使用,實(shí)現(xiàn)IV值、相關(guān)性、正則化等不同篩選方式,完成多層級(jí)的嚴(yán)格指標(biāo)篩選。(1)IV值的作用就是衡量一個(gè)變量整體的預(yù)測(cè)能力,好處在于每個(gè)變量的IV值是可比的。所謂IV值,是指一個(gè)變量對(duì)于判定客戶屬于y1還是y0的信息貢獻(xiàn),貢獻(xiàn)越大,IV值越大。(2)相關(guān)系數(shù)越大,兩個(gè)指標(biāo)相關(guān)性越高,從而導(dǎo)致評(píng)價(jià)指標(biāo)所反映的信息重復(fù)。通過(guò)相關(guān)性分析,刪除相關(guān)系數(shù)較大的指標(biāo),簡(jiǎn)化了指標(biāo)體系,保證了指標(biāo)體系的簡(jiǎn)潔有效。(3)正則化通過(guò)在擬合模型時(shí)的代價(jià)函數(shù)中加入范數(shù),其中范數(shù)表示模型參數(shù)的復(fù)雜程度,擬合結(jié)束,部分維度參數(shù)變?yōu)榱?,從而能夠有效剔除評(píng)價(jià)體系的無(wú)用指標(biāo)。篩選前指標(biāo)總數(shù)52項(xiàng),最終保留指標(biāo)15項(xiàng),如表1所示。(表1)
(四)模型算法選擇。1、Logistic邏輯回歸。Logistic邏輯回歸是線性回歸的拓展,由于模型可解釋性強(qiáng)、模型簡(jiǎn)單等優(yōu)點(diǎn),在信用評(píng)分模型中應(yīng)用廣泛。以信貸風(fēng)險(xiǎn)管理為例,信用卡申請(qǐng)人的基本信息如文化程度、月薪、婚姻狀況以及過(guò)去是否存在違約記錄等情況和未來(lái)出現(xiàn)違約的概率之間存在何種關(guān)系。邏輯回歸是線性回歸的拓展,但不像線性回歸那樣對(duì)數(shù)據(jù)分布有較高要求,只需要自變量之間不存在高度相關(guān)的多重共線性關(guān)系即可。在金融行業(yè)中,邏輯回歸應(yīng)用于對(duì)個(gè)人信用風(fēng)險(xiǎn)進(jìn)行評(píng)級(jí)具有三個(gè)優(yōu)點(diǎn):其一,不需要對(duì)自變量分布做假設(shè),不要求同方差性;其二,生成的回歸方程易于理解,方便解釋各個(gè)變量對(duì)模型的影響;其三,可求出一個(gè)發(fā)生比,更直觀判斷分類的準(zhǔn)確性。2、XGBOOST。XGBOOST是基于決策樹(shù)模型的集成分類方法。決策樹(shù)模型根據(jù)數(shù)據(jù)特征進(jìn)行樹(shù)狀層級(jí)劃分,具有易于解釋、識(shí)別效率高、產(chǎn)生判別規(guī)則等優(yōu)勢(shì);但其仍具有不少缺點(diǎn),比如決策規(guī)則復(fù)雜、易產(chǎn)生過(guò)度擬合、分類非全局最優(yōu)解而是局部最優(yōu)解等?;谶@些特點(diǎn),產(chǎn)生了隨機(jī)森林方法,集成多棵決策樹(shù),根據(jù)投票決策思想,提升了模型分類的準(zhǔn)確度。XG-BOOST在其基礎(chǔ)上進(jìn)一步優(yōu)化,加入正則化技術(shù),提高模型泛化性,其特點(diǎn)有:高效處理大型數(shù)據(jù)集,甚至在輸入變量龐大的情況下;能夠估計(jì)變量的重要性并排序,并計(jì)算其相似性;能夠泛化誤差;具備高精度,甚至在數(shù)據(jù)中存在大規(guī)??罩禃r(shí)仍保持較高精度;計(jì)算效率高,不會(huì)過(guò)度擬合。3、CNN。本文同樣將深度學(xué)習(xí)算法用于企業(yè)信用風(fēng)險(xiǎn)預(yù)測(cè),卷積神經(jīng)網(wǎng)絡(luò)(CNN)是其中主流算法之一,被廣泛運(yùn)用于計(jì)算機(jī)視覺(jué)、自然語(yǔ)言處理、數(shù)據(jù)挖掘等領(lǐng)域,本文訓(xùn)練CNN模型作為風(fēng)險(xiǎn)評(píng)估的分類模型。采用CNN進(jìn)行多維數(shù)據(jù)的特征提取與分類。CNN是一種包含卷積計(jì)算并具有深層結(jié)構(gòu)的前饋神經(jīng)網(wǎng)絡(luò),基本結(jié)構(gòu)通常由三層神經(jīng)網(wǎng)絡(luò)組成,分別是卷積層、池化層和全連接層。其能夠在大量數(shù)據(jù)樣本中自動(dòng)學(xué)習(xí)原始數(shù)據(jù)的特征表示,因此能夠適用于對(duì)多維數(shù)據(jù)的復(fù)雜特征進(jìn)行有效提取。由于深層神經(jīng)網(wǎng)絡(luò)強(qiáng)大的擬合性能,能夠充分對(duì)語(yǔ)料進(jìn)行學(xué)習(xí),進(jìn)而具備較好分類性能。
三、實(shí)驗(yàn)結(jié)果與分析
實(shí)驗(yàn)主要探討多源多維數(shù)據(jù)場(chǎng)景下模型的分類擬合性能與泛化性,因此將“高低風(fēng)險(xiǎn)”作為信用風(fēng)險(xiǎn)評(píng)估的學(xué)習(xí)目標(biāo),即二分類學(xué)習(xí)。實(shí)驗(yàn)從訓(xùn)練語(yǔ)料隨機(jī)劃分20%的數(shù)據(jù)作為模型學(xué)習(xí)的驗(yàn)證集,保證測(cè)試語(yǔ)料不在訓(xùn)練集和驗(yàn)證集中泄露。所用到的評(píng)估指標(biāo)包括準(zhǔn)確率,即高風(fēng)險(xiǎn)公司“準(zhǔn)確預(yù)測(cè)的公司數(shù)量(高低風(fēng)險(xiǎn))/公司總數(shù)量”的比率。實(shí)驗(yàn)證明,回歸方法與CNN方法準(zhǔn)確率分別為82%與87%,XGBOOST準(zhǔn)確率為96%,達(dá)到最優(yōu)效果。分析認(rèn)為,XGBOOST由于集成學(xué)習(xí)具備良好分類性能,適用于具有較多細(xì)分指標(biāo)的復(fù)雜評(píng)估任務(wù)場(chǎng)景,即對(duì)多維數(shù)據(jù)的學(xué)習(xí);同時(shí),該算法基分類器為多個(gè)決策樹(shù)模型,對(duì)數(shù)據(jù)分布無(wú)任何要求,且能夠?qū)σ蕾嚲植恐笜?biāo)的特殊樣本進(jìn)行有效劃分,因此能夠適用于多源數(shù)據(jù),無(wú)需做復(fù)雜的特征篩選、特征映射及特征表示的轉(zhuǎn)換等。此外,在損失函數(shù)計(jì)算過(guò)程中調(diào)整權(quán)重,使其對(duì)指定目標(biāo)(類別)數(shù)據(jù)代價(jià)敏感,一定程度上緩解了數(shù)據(jù)類別不平衡對(duì)模型訓(xùn)練的影響。此外,XGBOOST不需要對(duì)原始數(shù)據(jù)做細(xì)致處理及進(jìn)行復(fù)雜的指標(biāo)篩選和特征映射,因此能夠適應(yīng)任務(wù)和數(shù)據(jù)的動(dòng)態(tài)變化,及時(shí)更新、訓(xùn)練,滿足動(dòng)態(tài)調(diào)整的要求。綜上,針對(duì)企業(yè)信用風(fēng)險(xiǎn)評(píng)估,基于大數(shù)據(jù)場(chǎng)景數(shù)據(jù)挖掘思想,能夠發(fā)現(xiàn)細(xì)分場(chǎng)景所未能表現(xiàn)出的隱含規(guī)律與特征關(guān)聯(lián)現(xiàn)象。從行政機(jī)構(gòu)對(duì)市場(chǎng)監(jiān)管的場(chǎng)景考慮,對(duì)多源多維度的歷史監(jiān)管數(shù)據(jù)進(jìn)行聯(lián)合學(xué)習(xí),有利于對(duì)監(jiān)管條目進(jìn)行整合,優(yōu)化業(yè)務(wù)流程;同時(shí),引入自動(dòng)化評(píng)估預(yù)警方法,能夠提升監(jiān)管的效率和有效性。本文考慮到企業(yè)風(fēng)險(xiǎn)評(píng)估多源多維數(shù)據(jù)特點(diǎn),對(duì)企業(yè)信用評(píng)估用到的各類主流方法:統(tǒng)計(jì)學(xué)習(xí)、機(jī)器學(xué)習(xí)、深度學(xué)習(xí)等進(jìn)行實(shí)際效果比較,發(fā)現(xiàn)現(xiàn)階段機(jī)器學(xué)習(xí)類型下的XGBOOST分類方法具備最佳性能,并詳細(xì)分析了其在本文任務(wù)場(chǎng)景下的實(shí)用性。在未來(lái)研究中,將納入更多機(jī)器學(xué)習(xí)與深度學(xué)習(xí)方法及模型解釋機(jī)制,提升大數(shù)據(jù)視角下基于多源數(shù)據(jù)融合的企業(yè)信用風(fēng)險(xiǎn)多維度評(píng)估的有效性和可解釋性。
作者:張喜會(huì) 單位:深圳市標(biāo)準(zhǔn)技術(shù)研究院
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:統(tǒng)計(jì)源期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)