正文 基於Group MCP Logistic模型的個人信用評價分析(2 / 2)

從模型複雜度上來比較:Group Lasso保留了13組共31個變量;Group Bridge保留了7組共17個解釋變量;Group MCP保留了11組共18個變量。Group MCP與Group Lasso相比,保留變量的組數差不多,但變量個數前者比後者大大減少,Group MCP在組內選擇變量的優勢得到體現。Group MCP與Group Bridge相比,保留的變量個數隻差1個,但前者比後者保留的組數多了4個,表明Group MCP保留了更多的組信息。

從模型預測正確率上來比較,表3說明,基於Group MCP建立的Logistic模型,在訓練集和測試集上的預測正確率要優於Group Bridge;在訓練集上預測的正確率,Group Lasso要高於Group MCP和Group Bridge,而測試集上的預測正確率,Group MCP要優於Group Lasso,尤其是“差客戶”的預測正確率上提升很大,這可能是由於Group Lasso沒有進行組內變量選擇,從而保留了過多的解釋變量,有一定的過擬合現象。因此,綜合考慮,Group MCP的Logistic模型效果最好。

四、 結論

建立Logistic模型是個人信用評價分析中應用最為廣泛的方法。當解釋變量尤其是虛擬變量過多時,需要進行以組為單位的變量選擇。Group Lasso可以解決組變量的選擇問題,將相關的變量作為組進行整體剔除或保留在模型中,但在組內,不能夠進行變量選擇。Group MCP改進了Group Lasso算法,不僅僅能夠進行組變量選擇,也能在組內淘汰掉不顯著的解釋變量。

本文利用具體的個人信貸數據,建立了Group MCP Logistic模型,與Group Lasso和Group Bridge方法進行比較,綜合考慮模型複雜度和預測正確率,發現Group MCP方法是最優的。

因此,基於Group MCP方法建立的Logistic模型,能夠很好地應用在個人信用評價問題研究中。銀行可以結合自己積累的數據,運用Group MCP Logistic模型,選擇出對信用評分影響顯著的變量,對信貸申請人進行信用評分後再決定是否給予貸款,可以很大程度上降低個人信貸風險。

參考文獻:

[1] 方匡南,章貴軍,張惠穎.基於Lasso-logistic模型的個人信用風險預警方法[J].數量經濟技術經濟研究, 2014,(2):125-136.

[2] 朱曉明,劉治國.信用評分模型綜述[J].統計與決策,2007,(1):103-105.

[3] 石慶焱.一個基於神經網絡-logistic回歸的混合兩階段個人信用評分模型研究[J].統計研究,2005,22(5):45-49.

[4] 胡心瀚,葉五一,繆柏其.上市公司信用風險分析模型中的變量選擇[J].數理統計與管理,2012,31(6):1117-1124.

[5] 何曉群,劉文卿.應用回歸分析(第三版)[M].北京:中國人民大學出版社,2011.

[6] 張景肖,劉燕平.函數性廣義線性模型曲線選擇的正則化方法[J].統計研究,2012,29(9):95-102.

[7] 龐素琳,鞏吉璋.C5.0分類算法及在銀行個人信用評級中的應用[J].係統工程理論與實踐,2009,29(12):94-104.

基金項目:國家社科基金項目“個人信用評級的統計建模研究與應用”(項目號:13BTJ004)。

作者簡介:何曉群(1954-),男,漢族,陝西省西安市人,中國人民大學應用統計科學研究中心、中國人民大學統計學院教授、博士生導師,研究方向為統計模型、六西格瑪管理;胡小寧(1986-),男,漢族,河南省濮陽市人,中國人民大學統計學院博士生,研究方向為應用數理統計;馬學俊(1986-),男,漢族,安徽省潁上縣人,中國人民大學統計學院博士生,研究方向為應用數理統計。

收稿日期:2015-06-16。