前言:想要寫出一篇引人入勝的文章?我們特意為您整理了電商企業(yè)信用風(fēng)險(xiǎn)預(yù)警模型缺失值探究范文,希望能給你帶來(lái)靈感和參考,敬請(qǐng)閱讀。
摘要:電子商務(wù)信用風(fēng)險(xiǎn)評(píng)估是建設(shè)信用體系的重要環(huán)節(jié)。在企業(yè)電子商務(wù)數(shù)據(jù)采集存在缺失值的情況下,本文比較了BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹(shù)、極限學(xué)習(xí)機(jī)以及對(duì)應(yīng)的集成模型在含缺失值預(yù)測(cè)樣本的魯棒性。實(shí)證數(shù)據(jù)分析結(jié)果顯示,極限學(xué)習(xí)機(jī)及其集成模型在上述情況下優(yōu)于其他模型。
關(guān)鍵詞:信用風(fēng)險(xiǎn)預(yù)警;缺失值;機(jī)器學(xué)習(xí)
1引言
2019年中國(guó)電子商務(wù)報(bào)告數(shù)據(jù)顯示,我國(guó)的電子商務(wù)逐年穩(wěn)步增長(zhǎng),在國(guó)民經(jīng)濟(jì)中的比重越來(lái)越大,發(fā)揮著重要的經(jīng)濟(jì)和社會(huì)作用[1]。但是另一份報(bào)告指出信用風(fēng)險(xiǎn)破壞著健康的電子商務(wù)交易環(huán)境[2],阻礙了電子商務(wù)的進(jìn)一步快速發(fā)展。構(gòu)建信用管理體系,將信用風(fēng)險(xiǎn)納入體系有助于規(guī)范和推動(dòng)電子商務(wù)市場(chǎng)。有效的信用風(fēng)險(xiǎn)評(píng)估可以提升交易主體的信心,加速商務(wù)活動(dòng)的過(guò)程,從而為電商創(chuàng)造更有利的發(fā)展環(huán)境。電商信用評(píng)估模型的建立一般通過(guò)指標(biāo)設(shè)計(jì)及數(shù)據(jù)采集、指標(biāo)篩選以及模型訓(xùn)練和評(píng)估3個(gè)基本步驟。目前國(guó)內(nèi)外已有研究顯示[2-7],在電商數(shù)據(jù)樣本少、維度高以及類別不平衡的情況下,基于機(jī)器學(xué)習(xí)方法的電商信用風(fēng)險(xiǎn)評(píng)估模型效果優(yōu)于傳統(tǒng)的統(tǒng)計(jì)方法,能夠有效地評(píng)估信用風(fēng)險(xiǎn)。然而建立好的模型僅能在待測(cè)樣本所有指標(biāo)數(shù)據(jù)完整的情況下工作。在實(shí)際情況中,由于數(shù)據(jù)采集受到企業(yè)制度、隱私規(guī)范等情況的限制,難以為待評(píng)估的企業(yè)收集到完整指標(biāo)數(shù)據(jù)。此時(shí)模型的應(yīng)用就受到了極大的限制。一個(gè)很自然的解決方法就是為含缺失值的樣本補(bǔ)全缺失數(shù)據(jù),然后再進(jìn)行評(píng)估。因此,研究待測(cè)樣本在常規(guī)的缺失值補(bǔ)全方式下模型的魯棒性可以為模型的應(yīng)用提供有價(jià)值的參考,具有重要的實(shí)踐意義?,F(xiàn)有研究在電商信用風(fēng)險(xiǎn)預(yù)測(cè)模型中常用的機(jī)器學(xué)習(xí)技術(shù)包括反向傳播神經(jīng)網(wǎng)絡(luò)(BPNN)、支持向量機(jī)(SVM)、決策樹(shù)(DT)以及上述模型的同質(zhì)集成和異質(zhì)集成模型。一些研究人員使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行信用風(fēng)險(xiǎn)預(yù)警等級(jí)的預(yù)測(cè)[2-4],不同的是王新輝使用誤差反向傳播來(lái)進(jìn)行優(yōu)化[2],ZhangX使用粒子群算法進(jìn)行優(yōu)化[3],HuangXB使用廣義回歸神經(jīng)網(wǎng)絡(luò)(GRNN)和概率神經(jīng)網(wǎng)絡(luò)(PNN)[4]。一些研究人員使用SVM作為同質(zhì)集成模型的基分類器[5-6],不同的是陳云等通過(guò)隨機(jī)子集模型(RSM)方法集成[5],而周可瀅通過(guò)Bagging方法來(lái)集成[6]。XuYZ等綜合評(píng)估了DT分別與邏輯回歸(LR)、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)(DBN)及神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型性能[7],提出了決策樹(shù)-神經(jīng)網(wǎng)絡(luò)的組合模型。對(duì)樣本缺失數(shù)據(jù)的填補(bǔ)除了傳統(tǒng)方法外,還有基于統(tǒng)計(jì)學(xué)習(xí)和深度學(xué)習(xí)的方法。金勇進(jìn)歸納和介紹了均值填補(bǔ)、回歸填補(bǔ)、多重填補(bǔ)、隨機(jī)估計(jì)填補(bǔ)和演繹估計(jì)填補(bǔ)等傳統(tǒng)的缺失數(shù)據(jù)填補(bǔ)方法[8]。樸范玉使用自動(dòng)編碼器通過(guò)完整數(shù)據(jù)學(xué)習(xí)了待填補(bǔ)的數(shù)據(jù)特征[9],再通過(guò)學(xué)習(xí)好的自動(dòng)編碼器完成數(shù)據(jù)的填補(bǔ)。孟杰使用隨機(jī)森林模型來(lái)完成調(diào)查問(wèn)卷缺失數(shù)據(jù)的填補(bǔ)[10]。曹衛(wèi)權(quán)研究了機(jī)器學(xué)習(xí)中的數(shù)據(jù)特征[11],提出了一種近似填補(bǔ)方法。張網(wǎng)娟則在卷積神經(jīng)網(wǎng)絡(luò)模型的背景下研究了缺失數(shù)據(jù)的填補(bǔ)方法[12]。由于基于統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)的方法需要獲得數(shù)據(jù)分布的先驗(yàn)假設(shè),直接應(yīng)用在電商數(shù)據(jù)少量樣本的場(chǎng)景下容易造成嚴(yán)重的數(shù)據(jù)偏差,因此本文擬采用最常用和傳統(tǒng)的均值填補(bǔ)方法。與以往為了改善模型性能的缺失數(shù)據(jù)填補(bǔ)不同,本文研究訓(xùn)練好的模型對(duì)含缺失值待測(cè)樣本的影響?,F(xiàn)有的機(jī)器學(xué)習(xí)算法在超參數(shù)的選擇下幾乎都可以達(dá)到良好的一致的效果,但是在預(yù)測(cè)樣本含缺失值的情況下可能造成不同的性能下降,即對(duì)含缺失值樣本有不同的魯棒性。本文研究在電商模型中不同的機(jī)器學(xué)習(xí)模型,使用常規(guī)均值填補(bǔ)的缺失值預(yù)測(cè)樣本情況下的魯棒性。
2對(duì)比模型及缺失值填補(bǔ)方法
2.1對(duì)比模型
在電商信用評(píng)估中常用的機(jī)器學(xué)習(xí)模型有BPNN、SVM和DT。為了進(jìn)一步評(píng)估不同的模型,本文將極限學(xué)習(xí)機(jī)(ELM)加入對(duì)比模型。除了以上四種模型以外,考慮到集成學(xué)習(xí)可以降低模型的偏差,進(jìn)一步增強(qiáng)模型在不同場(chǎng)景下的泛化能力,更加準(zhǔn)確和公正地評(píng)估模型的性能[13],本文將以上四個(gè)模型作為基分類器進(jìn)行同質(zhì)的集成學(xué)習(xí),對(duì)多個(gè)基分類器的結(jié)果使用相對(duì)多數(shù)投票法的結(jié)合策略,然后進(jìn)一步比較性能。BPNN是一種分層的非線性映射網(wǎng)絡(luò)結(jié)構(gòu)[14]。其輸入數(shù)據(jù)通過(guò)網(wǎng)絡(luò)權(quán)重的線性變換后,再由具備非線性能力的激活函數(shù)映射后輸出,根據(jù)輸出預(yù)測(cè)值與真值之間的誤差逆向傳播來(lái)更新網(wǎng)絡(luò)權(quán)重達(dá)到優(yōu)化模型的目的。BPNN可用于回歸和分類,在分類任務(wù)中通常在輸出層使用Softmax函數(shù)進(jìn)行歸一化,誤差由交叉熵來(lái)表達(dá)。SVM通過(guò)尋找能使二類樣本間的最大間隔超平面來(lái)建立模型[15],一般通過(guò)SMO等優(yōu)化技術(shù)來(lái)求解。SVM可以將樣本經(jīng)過(guò)核函數(shù)映射到希爾伯特空間后再計(jì)算超平面以獲得非線性的類決策邊界。SVM經(jīng)過(guò)“一對(duì)多”、“一對(duì)一”等訓(xùn)練方式拓展后可以應(yīng)用于多分類任務(wù)。DT依據(jù)屬性值的不同來(lái)以樹(shù)狀結(jié)構(gòu)按樣本屬性劃分樣本類別[16]。劃分屬性的選擇基準(zhǔn)為信息熵、基尼系數(shù)等信息度量。當(dāng)樹(shù)狀結(jié)構(gòu)的葉子結(jié)點(diǎn)類別一致或?qū)傩灾狄恢聲r(shí)停止算法。ELM使用的結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)相似[17],在求解方法和思想上有較大的區(qū)別。ELM首先通過(guò)線性變換結(jié)合非線性的激活函數(shù)將訓(xùn)練樣本隨機(jī)投影到新的空間,在新的空間內(nèi)直接求解使得投影后的樣本與真值之間最小誤差的線性變換矩陣。由于投影的隨機(jī)性和直接計(jì)算解析解,ELM求解速度快,其泛化能力在一定程度上優(yōu)于BPNN。
2.2無(wú)類別先驗(yàn)均值填補(bǔ)方法
使用類均值補(bǔ)全缺失值,即使用該樣本所屬類別在該屬性值上的均值代替缺失值,并以此參與模型訓(xùn)練和預(yù)測(cè)。但是在本文的場(chǎng)景中缺失值的樣本為待測(cè)樣本,未知其類別,也就無(wú)法使用對(duì)應(yīng)類別的屬性均值代替缺失值。因此,本文使用各個(gè)類別的均值分別替代缺失值后,再對(duì)補(bǔ)全缺失值的樣本進(jìn)行預(yù)測(cè)。即若模型為k分類問(wèn)題,則每一個(gè)待測(cè)樣本需要使用k個(gè)類的均值分別代替補(bǔ)全,每一個(gè)待測(cè)樣本會(huì)產(chǎn)生k個(gè)補(bǔ)全后的樣本。通過(guò)補(bǔ)全后的測(cè)試集樣本數(shù)量為原測(cè)試集樣本的k倍。由于補(bǔ)全缺失值后的樣本受到所填補(bǔ)的非所屬類均值數(shù)據(jù)的干擾,會(huì)造成原有模型在測(cè)試準(zhǔn)確率上的下降,因此可以通過(guò)模型在補(bǔ)全后的樣本測(cè)試集上測(cè)試準(zhǔn)確率來(lái)判斷模型對(duì)缺失值預(yù)測(cè)樣本的魯棒性。
3實(shí)證研究及其分析
3.1數(shù)據(jù)來(lái)源及其指標(biāo)體系
本文采用王新輝建立的指標(biāo)體系及其調(diào)研的18家企業(yè)數(shù)據(jù)[2],使用該體系中的全部19個(gè)指標(biāo)作為研究的數(shù)據(jù)來(lái)源。王新輝首先根據(jù)19個(gè)指標(biāo)間的相關(guān)系[2],使用主成分分析法選擇出13個(gè)重要指標(biāo),然后根據(jù)這些指標(biāo)和專家打分劃分出不同的信用風(fēng)險(xiǎn)等級(jí),最后使用BPNN訓(xùn)練得到模型。本文為了降低類別不平衡問(wèn)題對(duì)模型魯棒性造成的影響,綜合考慮實(shí)踐的信用風(fēng)險(xiǎn)預(yù)警等級(jí)情況,將數(shù)據(jù)集重新劃分為以下3個(gè)等級(jí),對(duì)應(yīng)的預(yù)警等級(jí)和分值范圍為:無(wú)風(fēng)險(xiǎn)預(yù)警A(70-100),低風(fēng)險(xiǎn)預(yù)警B(40-69),風(fēng)險(xiǎn)預(yù)警C(0-39)。此時(shí)原始數(shù)據(jù)中的18家企業(yè)信用風(fēng)險(xiǎn)分值和風(fēng)險(xiǎn)預(yù)警等級(jí)如表1所示。根據(jù)表1,本文取前13家企業(yè)為訓(xùn)練樣本,后5家為測(cè)試樣本。然后對(duì)5個(gè)測(cè)試樣本假設(shè)為缺失值樣本,為了平衡對(duì)比模型各個(gè)屬性上的差異,樣本中的各個(gè)屬性都假設(shè)為缺失值,這樣每一個(gè)待測(cè)樣本都產(chǎn)生19個(gè)測(cè)試樣本。這19個(gè)樣本分別對(duì)應(yīng)著19個(gè)屬性缺失值。按照上述的假設(shè),測(cè)試集共有5*19=95個(gè)樣本,在每一個(gè)屬性上缺失值樣本各5個(gè)。對(duì)這95個(gè)含缺失值的預(yù)測(cè)樣本使用無(wú)先驗(yàn)的類均值填補(bǔ)方法,每一個(gè)預(yù)測(cè)樣本需要分別填補(bǔ)3次,對(duì)應(yīng)3個(gè)類別的預(yù)警級(jí)別,最終在類別上無(wú)先驗(yàn),屬性值上均衡的測(cè)試集樣本數(shù)量共有95*3=285個(gè)測(cè)試樣本。
3.2模型參數(shù)選擇及實(shí)驗(yàn)設(shè)置
模型中的各個(gè)參數(shù)選擇通過(guò)交叉驗(yàn)證來(lái)選擇。在BPNN模型中,使用單隱層結(jié)構(gòu),隱層的結(jié)點(diǎn)數(shù)量為5個(gè),激活函數(shù)為Sigmoid函數(shù),優(yōu)化方法采用L-BFGS算法,收斂條件為誤差小于0.001或迭代達(dá)到最大次數(shù)。在SVM模型中,使用RBF徑向基函數(shù)為核函數(shù),其核寬度參數(shù)為1/19,懲罰因子C為1,收斂條件為誤差小于0.001或迭代達(dá)到最大次數(shù)。若在集成時(shí),則參數(shù)C和核寬度在一定范圍內(nèi)隨機(jī)抽樣以增加多樣性。在DT模型中,使用信息熵增益。在ELM模型中,隱層結(jié)點(diǎn)數(shù)選擇為7個(gè)結(jié)點(diǎn),激活函數(shù)同樣設(shè)置為Sigmoid函數(shù)。在檢測(cè)基分類器的效果時(shí),每個(gè)模型各運(yùn)行500次取測(cè)試準(zhǔn)確率平均值作為比較;在檢測(cè)集成模型的效果時(shí),使用500個(gè)基學(xué)習(xí)器進(jìn)行相對(duì)多數(shù)投票法來(lái)預(yù)測(cè)最終分類結(jié)果,每個(gè)集成模型運(yùn)行10次,取準(zhǔn)確率均值作為度量比較模型效果。
3.3實(shí)驗(yàn)結(jié)果及分析
不同的基分類器運(yùn)行500次后準(zhǔn)確率的平均值如圖1所示。每組數(shù)據(jù)左邊代表原始數(shù)據(jù)集上的準(zhǔn)確率,右邊代表含缺失值的預(yù)測(cè)樣本準(zhǔn)確率??梢悦黠@地發(fā)現(xiàn),含缺失值的預(yù)測(cè)樣本準(zhǔn)確率明顯低于原始數(shù)據(jù)集。同時(shí)還可以發(fā)現(xiàn)以下結(jié)論:SVM分類器的準(zhǔn)確率明顯高于其他分類器;ELM對(duì)缺失值的魯棒性最好,模型準(zhǔn)確率下降的幅度最少。這說(shuō)明SVM在小規(guī)模的數(shù)據(jù)集上訓(xùn)練得到的模型具備更好的泛化能力,而ELM由于進(jìn)行了隨機(jī)投影,因此更不容易受到缺失值的影響。使用不同數(shù)量的基分類器進(jìn)行集成的模型效果如圖2所示。圖2所展示的是含缺失值預(yù)測(cè)數(shù)據(jù)集的準(zhǔn)確率。從圖中可以明顯看出,ELM為基分類器的集成模型明顯高于其他模型。當(dāng)基分類器的數(shù)量達(dá)到一定程度時(shí),模型的預(yù)測(cè)效果較為穩(wěn)定。根據(jù)圖2的結(jié)論,集成分類器的數(shù)量設(shè)置為500。使用500個(gè)基分類器的集成模型運(yùn)行10次后,以及單個(gè)基分類器運(yùn)行500次后的原始數(shù)據(jù)集準(zhǔn)確率和含缺失值樣本的測(cè)試數(shù)據(jù)集準(zhǔn)確率的平均值如圖3所示。從圖中展示的結(jié)果可以看出:(1)以ELM為基分類器的集成模型無(wú)論在原始測(cè)試集和含缺失值的測(cè)試集中都具備最高的準(zhǔn)確率,表明在小樣本高維度的情況下,ELM的隨機(jī)投影能夠充分挖掘數(shù)據(jù)內(nèi)部聯(lián)系,提高模型的泛化能力。(2)以ELM為基分類器的集成模型在原始測(cè)試集和含缺失值測(cè)試集上的準(zhǔn)確率一致,沒(méi)有下降,表明集成的ELM模型對(duì)含缺失值測(cè)試集具備良好的魯棒性。(3)除了SVM外的其他模型,通過(guò)集成后都提高了其模型在原始測(cè)試集和含缺失值測(cè)試上的準(zhǔn)確率。(4)SVM在集成后幾乎沒(méi)有提高準(zhǔn)確率。這可能是在小樣本情況下,不同基分類器所學(xué)習(xí)到的支持向量幾乎一致,因此難以在集成學(xué)習(xí)下進(jìn)一步提高準(zhǔn)確率。
4結(jié)語(yǔ)
本文以電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)預(yù)警為背景,研究了基于BPNN、SVM、DT以及ELM模型的分類器在含缺失值的預(yù)測(cè)樣本情況下的魯棒性。實(shí)證分析顯示,ELM在魯棒性方面表現(xiàn)優(yōu)于其他類型的分類器。以ELM為基分類器的集成模型不僅在魯棒性方法同樣優(yōu)于其他模型,在集成后的模型中也達(dá)到了最好的準(zhǔn)確率。本文所設(shè)計(jì)的無(wú)類別先驗(yàn)的均值補(bǔ)全方法所生成的測(cè)試集與實(shí)際情況下的含缺失值樣本還存在著差異,今后考將慮從實(shí)際情況出發(fā)進(jìn)一步驗(yàn)證不同模型的魯棒性。
作者:陳艷 蔣偉杰 單位:福州大學(xué)至誠(chéng)學(xué)院經(jīng)濟(jì)管理系 福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:部級(jí)期刊
榮譽(yù):中國(guó)期刊全文數(shù)據(jù)庫(kù)(CJFD)
級(jí)別:省級(jí)期刊
榮譽(yù):--
級(jí)別:省級(jí)期刊
榮譽(yù):中國(guó)優(yōu)秀期刊遴選數(shù)據(jù)庫(kù)