&

前言：想要寫出一篇引人入勝的文章？我們特意為您整理了電商企業(yè)信用風(fēng)險(xiǎn)預(yù)警模型缺失值探究范文，希望能給你帶來(lái)靈感和參考，敬請(qǐng)閱讀。

電商企業(yè)信用風(fēng)險(xiǎn)預(yù)警模型缺失值探究

摘要：電子商務(wù)信用風(fēng)險(xiǎn)評(píng)估是建設(shè)信用體系的重要環(huán)節(jié)。在企業(yè)電子商務(wù)數(shù)據(jù)采集存在缺失值的情況下，本文比較了BP神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)、決策樹(shù)、極限學(xué)習(xí)機(jī)以及對(duì)應(yīng)的集成模型在含缺失值預(yù)測(cè)樣本的魯棒性。實(shí)證數(shù)據(jù)分析結(jié)果顯示，極限學(xué)習(xí)機(jī)及其集成模型在上述情況下優(yōu)于其他模型。

關(guān)鍵詞：信用風(fēng)險(xiǎn)預(yù)警；缺失值；機(jī)器學(xué)習(xí)

1引言

2019年中國(guó)電子商務(wù)報(bào)告數(shù)據(jù)顯示，我國(guó)的電子商務(wù)逐年穩(wěn)步增長(zhǎng)，在國(guó)民經(jīng)濟(jì)中的比重越來(lái)越大，發(fā)揮著重要的經(jīng)濟(jì)和社會(huì)作用[1]。但是另一份報(bào)告指出信用風(fēng)險(xiǎn)破壞著健康的電子商務(wù)交易環(huán)境[2]，阻礙了電子商務(wù)的進(jìn)一步快速發(fā)展。構(gòu)建信用管理體系，將信用風(fēng)險(xiǎn)納入體系有助于規(guī)范和推動(dòng)電子商務(wù)市場(chǎng)。有效的信用風(fēng)險(xiǎn)評(píng)估可以提升交易主體的信心，加速商務(wù)活動(dòng)的過(guò)程，從而為電商創(chuàng)造更有利的發(fā)展環(huán)境。電商信用評(píng)估模型的建立一般通過(guò)指標(biāo)設(shè)計(jì)及數(shù)據(jù)采集、指標(biāo)篩選以及模型訓(xùn)練和評(píng)估3個(gè)基本步驟。目前國(guó)內(nèi)外已有研究顯示[2-7]，在電商數(shù)據(jù)樣本少、維度高以及類別不平衡的情況下，基于機(jī)器學(xué)習(xí)方法的電商信用風(fēng)險(xiǎn)評(píng)估模型效果優(yōu)于傳統(tǒng)的統(tǒng)計(jì)方法，能夠有效地評(píng)估信用風(fēng)險(xiǎn)。然而建立好的模型僅能在待測(cè)樣本所有指標(biāo)數(shù)據(jù)完整的情況下工作。在實(shí)際情況中，由于數(shù)據(jù)采集受到企業(yè)制度、隱私規(guī)范等情況的限制，難以為待評(píng)估的企業(yè)收集到完整指標(biāo)數(shù)據(jù)。此時(shí)模型的應(yīng)用就受到了極大的限制。一個(gè)很自然的解決方法就是為含缺失值的樣本補(bǔ)全缺失數(shù)據(jù)，然后再進(jìn)行評(píng)估。因此，研究待測(cè)樣本在常規(guī)的缺失值補(bǔ)全方式下模型的魯棒性可以為模型的應(yīng)用提供有價(jià)值的參考，具有重要的實(shí)踐意義?，F(xiàn)有研究在電商信用風(fēng)險(xiǎn)預(yù)測(cè)模型中常用的機(jī)器學(xué)習(xí)技術(shù)包括反向傳播神經(jīng)網(wǎng)絡(luò)（BPNN）、支持向量機(jī)（SVM）、決策樹(shù)（DT）以及上述模型的同質(zhì)集成和異質(zhì)集成模型。一些研究人員使用神經(jīng)網(wǎng)絡(luò)模型進(jìn)行信用風(fēng)險(xiǎn)預(yù)警等級(jí)的預(yù)測(cè)[2-4]，不同的是王新輝使用誤差反向傳播來(lái)進(jìn)行優(yōu)化[2]，ZhangX使用粒子群算法進(jìn)行優(yōu)化[3]，HuangXB使用廣義回歸神經(jīng)網(wǎng)絡(luò)（GRNN）和概率神經(jīng)網(wǎng)絡(luò)（PNN）[4]。一些研究人員使用SVM作為同質(zhì)集成模型的基分類器[5-6]，不同的是陳云等通過(guò)隨機(jī)子集模型（RSM）方法集成[5]，而周可瀅通過(guò)Bagging方法來(lái)集成[6]。XuYZ等綜合評(píng)估了DT分別與邏輯回歸（LR）、動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)（DBN）及神經(jīng)網(wǎng)絡(luò)相結(jié)合的模型性能[7]，提出了決策樹(shù)-神經(jīng)網(wǎng)絡(luò)的組合模型。對(duì)樣本缺失數(shù)據(jù)的填補(bǔ)除了傳統(tǒng)方法外，還有基于統(tǒng)計(jì)學(xué)習(xí)和深度學(xué)習(xí)的方法。金勇進(jìn)歸納和介紹了均值填補(bǔ)、回歸填補(bǔ)、多重填補(bǔ)、隨機(jī)估計(jì)填補(bǔ)和演繹估計(jì)填補(bǔ)等傳統(tǒng)的缺失數(shù)據(jù)填補(bǔ)方法[8]。樸范玉使用自動(dòng)編碼器通過(guò)完整數(shù)據(jù)學(xué)習(xí)了待填補(bǔ)的數(shù)據(jù)特征[9]，再通過(guò)學(xué)習(xí)好的自動(dòng)編碼器完成數(shù)據(jù)的填補(bǔ)。孟杰使用隨機(jī)森林模型來(lái)完成調(diào)查問(wèn)卷缺失數(shù)據(jù)的填補(bǔ)[10]。曹衛(wèi)權(quán)研究了機(jī)器學(xué)習(xí)中的數(shù)據(jù)特征[11]，提出了一種近似填補(bǔ)方法。張網(wǎng)娟則在卷積神經(jīng)網(wǎng)絡(luò)模型的背景下研究了缺失數(shù)據(jù)的填補(bǔ)方法[12]。由于基于統(tǒng)計(jì)學(xué)習(xí)和機(jī)器學(xué)習(xí)的方法需要獲得數(shù)據(jù)分布的先驗(yàn)假設(shè)，直接應(yīng)用在電商數(shù)據(jù)少量樣本的場(chǎng)景下容易造成嚴(yán)重的數(shù)據(jù)偏差，因此本文擬采用最常用和傳統(tǒng)的均值填補(bǔ)方法。與以往為了改善模型性能的缺失數(shù)據(jù)填補(bǔ)不同，本文研究訓(xùn)練好的模型對(duì)含缺失值待測(cè)樣本的影響?，F(xiàn)有的機(jī)器學(xué)習(xí)算法在超參數(shù)的選擇下幾乎都可以達(dá)到良好的一致的效果，但是在預(yù)測(cè)樣本含缺失值的情況下可能造成不同的性能下降，即對(duì)含缺失值樣本有不同的魯棒性。本文研究在電商模型中不同的機(jī)器學(xué)習(xí)模型，使用常規(guī)均值填補(bǔ)的缺失值預(yù)測(cè)樣本情況下的魯棒性。

2對(duì)比模型及缺失值填補(bǔ)方法

2.1對(duì)比模型

在電商信用評(píng)估中常用的機(jī)器學(xué)習(xí)模型有BPNN、SVM和DT。為了進(jìn)一步評(píng)估不同的模型，本文將極限學(xué)習(xí)機(jī)（ELM）加入對(duì)比模型。除了以上四種模型以外，考慮到集成學(xué)習(xí)可以降低模型的偏差，進(jìn)一步增強(qiáng)模型在不同場(chǎng)景下的泛化能力，更加準(zhǔn)確和公正地評(píng)估模型的性能[13]，本文將以上四個(gè)模型作為基分類器進(jìn)行同質(zhì)的集成學(xué)習(xí)，對(duì)多個(gè)基分類器的結(jié)果使用相對(duì)多數(shù)投票法的結(jié)合策略，然后進(jìn)一步比較性能。BPNN是一種分層的非線性映射網(wǎng)絡(luò)結(jié)構(gòu)[14]。其輸入數(shù)據(jù)通過(guò)網(wǎng)絡(luò)權(quán)重的線性變換后，再由具備非線性能力的激活函數(shù)映射后輸出，根據(jù)輸出預(yù)測(cè)值與真值之間的誤差逆向傳播來(lái)更新網(wǎng)絡(luò)權(quán)重達(dá)到優(yōu)化模型的目的。BPNN可用于回歸和分類，在分類任務(wù)中通常在輸出層使用Softmax函數(shù)進(jìn)行歸一化，誤差由交叉熵來(lái)表達(dá)。SVM通過(guò)尋找能使二類樣本間的最大間隔超平面來(lái)建立模型[15]，一般通過(guò)SMO等優(yōu)化技術(shù)來(lái)求解。SVM可以將樣本經(jīng)過(guò)核函數(shù)映射到希爾伯特空間后再計(jì)算超平面以獲得非線性的類決策邊界。SVM經(jīng)過(guò)“一對(duì)多”、“一對(duì)一”等訓(xùn)練方式拓展后可以應(yīng)用于多分類任務(wù)。DT依據(jù)屬性值的不同來(lái)以樹(shù)狀結(jié)構(gòu)按樣本屬性劃分樣本類別[16]。劃分屬性的選擇基準(zhǔn)為信息熵、基尼系數(shù)等信息度量。當(dāng)樹(shù)狀結(jié)構(gòu)的葉子結(jié)點(diǎn)類別一致或?qū)傩灾狄恢聲r(shí)停止算法。ELM使用的結(jié)構(gòu)與神經(jīng)網(wǎng)絡(luò)相似[17]，在求解方法和思想上有較大的區(qū)別。ELM首先通過(guò)線性變換結(jié)合非線性的激活函數(shù)將訓(xùn)練樣本隨機(jī)投影到新的空間，在新的空間內(nèi)直接求解使得投影后的樣本與真值之間最小誤差的線性變換矩陣。由于投影的隨機(jī)性和直接計(jì)算解析解，ELM求解速度快，其泛化能力在一定程度上優(yōu)于BPNN。

2.2無(wú)類別先驗(yàn)均值填補(bǔ)方法

使用類均值補(bǔ)全缺失值，即使用該樣本所屬類別在該屬性值上的均值代替缺失值，并以此參與模型訓(xùn)練和預(yù)測(cè)。但是在本文的場(chǎng)景中缺失值的樣本為待測(cè)樣本，未知其類別，也就無(wú)法使用對(duì)應(yīng)類別的屬性均值代替缺失值。因此，本文使用各個(gè)類別的均值分別替代缺失值后，再對(duì)補(bǔ)全缺失值的樣本進(jìn)行預(yù)測(cè)。即若模型為k分類問(wèn)題，則每一個(gè)待測(cè)樣本需要使用k個(gè)類的均值分別代替補(bǔ)全，每一個(gè)待測(cè)樣本會(huì)產(chǎn)生k個(gè)補(bǔ)全后的樣本。通過(guò)補(bǔ)全后的測(cè)試集樣本數(shù)量為原測(cè)試集樣本的k倍。由于補(bǔ)全缺失值后的樣本受到所填補(bǔ)的非所屬類均值數(shù)據(jù)的干擾，會(huì)造成原有模型在測(cè)試準(zhǔn)確率上的下降，因此可以通過(guò)模型在補(bǔ)全后的樣本測(cè)試集上測(cè)試準(zhǔn)確率來(lái)判斷模型對(duì)缺失值預(yù)測(cè)樣本的魯棒性。

3實(shí)證研究及其分析

3.1數(shù)據(jù)來(lái)源及其指標(biāo)體系

本文采用王新輝建立的指標(biāo)體系及其調(diào)研的18家企業(yè)數(shù)據(jù)[2]，使用該體系中的全部19個(gè)指標(biāo)作為研究的數(shù)據(jù)來(lái)源。王新輝首先根據(jù)19個(gè)指標(biāo)間的相關(guān)系[2]，使用主成分分析法選擇出13個(gè)重要指標(biāo)，然后根據(jù)這些指標(biāo)和專家打分劃分出不同的信用風(fēng)險(xiǎn)等級(jí)，最后使用BPNN訓(xùn)練得到模型。本文為了降低類別不平衡問(wèn)題對(duì)模型魯棒性造成的影響，綜合考慮實(shí)踐的信用風(fēng)險(xiǎn)預(yù)警等級(jí)情況，將數(shù)據(jù)集重新劃分為以下3個(gè)等級(jí)，對(duì)應(yīng)的預(yù)警等級(jí)和分值范圍為：無(wú)風(fēng)險(xiǎn)預(yù)警A（70-100），低風(fēng)險(xiǎn)預(yù)警B（40-69），風(fēng)險(xiǎn)預(yù)警C（0-39）。此時(shí)原始數(shù)據(jù)中的18家企業(yè)信用風(fēng)險(xiǎn)分值和風(fēng)險(xiǎn)預(yù)警等級(jí)如表1所示。根據(jù)表1，本文取前13家企業(yè)為訓(xùn)練樣本，后5家為測(cè)試樣本。然后對(duì)5個(gè)測(cè)試樣本假設(shè)為缺失值樣本，為了平衡對(duì)比模型各個(gè)屬性上的差異，樣本中的各個(gè)屬性都假設(shè)為缺失值，這樣每一個(gè)待測(cè)樣本都產(chǎn)生19個(gè)測(cè)試樣本。這19個(gè)樣本分別對(duì)應(yīng)著19個(gè)屬性缺失值。按照上述的假設(shè)，測(cè)試集共有5*19=95個(gè)樣本，在每一個(gè)屬性上缺失值樣本各5個(gè)。對(duì)這95個(gè)含缺失值的預(yù)測(cè)樣本使用無(wú)先驗(yàn)的類均值填補(bǔ)方法，每一個(gè)預(yù)測(cè)樣本需要分別填補(bǔ)3次，對(duì)應(yīng)3個(gè)類別的預(yù)警級(jí)別，最終在類別上無(wú)先驗(yàn)，屬性值上均衡的測(cè)試集樣本數(shù)量共有95*3=285個(gè)測(cè)試樣本。

3.2模型參數(shù)選擇及實(shí)驗(yàn)設(shè)置

模型中的各個(gè)參數(shù)選擇通過(guò)交叉驗(yàn)證來(lái)選擇。在BPNN模型中，使用單隱層結(jié)構(gòu)，隱層的結(jié)點(diǎn)數(shù)量為5個(gè)，激活函數(shù)為Sigmoid函數(shù)，優(yōu)化方法采用L-BFGS算法，收斂條件為誤差小于0.001或迭代達(dá)到最大次數(shù)。在SVM模型中，使用RBF徑向基函數(shù)為核函數(shù)，其核寬度參數(shù)為1/19，懲罰因子C為1，收斂條件為誤差小于0.001或迭代達(dá)到最大次數(shù)。若在集成時(shí)，則參數(shù)C和核寬度在一定范圍內(nèi)隨機(jī)抽樣以增加多樣性。在DT模型中，使用信息熵增益。在ELM模型中，隱層結(jié)點(diǎn)數(shù)選擇為7個(gè)結(jié)點(diǎn)，激活函數(shù)同樣設(shè)置為Sigmoid函數(shù)。在檢測(cè)基分類器的效果時(shí)，每個(gè)模型各運(yùn)行500次取測(cè)試準(zhǔn)確率平均值作為比較；在檢測(cè)集成模型的效果時(shí)，使用500個(gè)基學(xué)習(xí)器進(jìn)行相對(duì)多數(shù)投票法來(lái)預(yù)測(cè)最終分類結(jié)果，每個(gè)集成模型運(yùn)行10次，取準(zhǔn)確率均值作為度量比較模型效果。

3.3實(shí)驗(yàn)結(jié)果及分析

不同的基分類器運(yùn)行500次后準(zhǔn)確率的平均值如圖1所示。每組數(shù)據(jù)左邊代表原始數(shù)據(jù)集上的準(zhǔn)確率，右邊代表含缺失值的預(yù)測(cè)樣本準(zhǔn)確率?？梢悦黠@地發(fā)現(xiàn)，含缺失值的預(yù)測(cè)樣本準(zhǔn)確率明顯低于原始數(shù)據(jù)集。同時(shí)還可以發(fā)現(xiàn)以下結(jié)論：SVM分類器的準(zhǔn)確率明顯高于其他分類器；ELM對(duì)缺失值的魯棒性最好，模型準(zhǔn)確率下降的幅度最少。這說(shuō)明SVM在小規(guī)模的數(shù)據(jù)集上訓(xùn)練得到的模型具備更好的泛化能力，而ELM由于進(jìn)行了隨機(jī)投影，因此更不容易受到缺失值的影響。使用不同數(shù)量的基分類器進(jìn)行集成的模型效果如圖2所示。圖2所展示的是含缺失值預(yù)測(cè)數(shù)據(jù)集的準(zhǔn)確率。從圖中可以明顯看出，ELM為基分類器的集成模型明顯高于其他模型。當(dāng)基分類器的數(shù)量達(dá)到一定程度時(shí)，模型的預(yù)測(cè)效果較為穩(wěn)定。根據(jù)圖2的結(jié)論，集成分類器的數(shù)量設(shè)置為500。使用500個(gè)基分類器的集成模型運(yùn)行10次后，以及單個(gè)基分類器運(yùn)行500次后的原始數(shù)據(jù)集準(zhǔn)確率和含缺失值樣本的測(cè)試數(shù)據(jù)集準(zhǔn)確率的平均值如圖3所示。從圖中展示的結(jié)果可以看出：（1）以ELM為基分類器的集成模型無(wú)論在原始測(cè)試集和含缺失值的測(cè)試集中都具備最高的準(zhǔn)確率，表明在小樣本高維度的情況下，ELM的隨機(jī)投影能夠充分挖掘數(shù)據(jù)內(nèi)部聯(lián)系，提高模型的泛化能力。（2）以ELM為基分類器的集成模型在原始測(cè)試集和含缺失值測(cè)試集上的準(zhǔn)確率一致，沒(méi)有下降，表明集成的ELM模型對(duì)含缺失值測(cè)試集具備良好的魯棒性。（3）除了SVM外的其他模型，通過(guò)集成后都提高了其模型在原始測(cè)試集和含缺失值測(cè)試上的準(zhǔn)確率。（4）SVM在集成后幾乎沒(méi)有提高準(zhǔn)確率。這可能是在小樣本情況下，不同基分類器所學(xué)習(xí)到的支持向量幾乎一致，因此難以在集成學(xué)習(xí)下進(jìn)一步提高準(zhǔn)確率。

4結(jié)語(yǔ)

本文以電子商務(wù)企業(yè)信用風(fēng)險(xiǎn)預(yù)警為背景，研究了基于BPNN、SVM、DT以及ELM模型的分類器在含缺失值的預(yù)測(cè)樣本情況下的魯棒性。實(shí)證分析顯示，ELM在魯棒性方面表現(xiàn)優(yōu)于其他類型的分類器。以ELM為基分類器的集成模型不僅在魯棒性方法同樣優(yōu)于其他模型，在集成后的模型中也達(dá)到了最好的準(zhǔn)確率。本文所設(shè)計(jì)的無(wú)類別先驗(yàn)的均值補(bǔ)全方法所生成的測(cè)試集與實(shí)際情況下的含缺失值樣本還存在著差異，今后考將慮從實(shí)際情況出發(fā)進(jìn)一步驗(yàn)證不同模型的魯棒性。

作者:陳艷蔣偉杰單位:福州大學(xué)至誠(chéng)學(xué)院經(jīng)濟(jì)管理系福州大學(xué)數(shù)學(xué)與計(jì)算機(jī)科學(xué)學(xué)院

電商企業(yè)信用風(fēng)險(xiǎn)預(yù)警模型缺失值探究

相關(guān)熱門標(biāo)簽

相關(guān)文章閱讀

相關(guān)期刊推薦

企業(yè)科協(xié)

企業(yè)研究

企業(yè)家

企業(yè)與文化

企業(yè)黨建

精選范文推薦