正文 基於Group MCP Logistic模型的個人信用評價分析(1 / 2)

基於Group MCP Logistic模型的個人信用評價分析

名家觀察

作者:胡小寧 何曉群 馬學俊

摘要:在利用Logistic模型分析個人信用評價問題時,需要進行變量選擇。Group MCP不僅可以將相關變量以組為單位進行變量選擇,還可以對組內變量進行選擇。文章根據個人信貸數據,建立了Group MCP Logistic模型,並與Group Lasso、Group Bridge所得的結果進行比較,綜合考慮模型複雜度和預測正確率,發現根據Group MCP建立的模型效果是最優的。

關鍵詞:Group MCP;Logistic模型;個人信用評價;變量選擇

一、 引言

個人消費信貸在我國迅速發展,對拉動經濟增長起到了一定的促進作用。但其中也隱藏著很大的潛在風險,即信貸資產不能及時有效地收回。因此,急需建立完善的個人信用評價體係,從而降低信貸風險。個人信用評價的核心是建立不同客戶的信用評價模型,根據信用評價模型對信貸申請人進行評分,從而決定是否給予貸款。

個人信用評價分析中,應用最廣泛的方法有統計分析和機器學習兩類,前者在模型穩健性和可解釋性上有很大的優勢。統計分析方法中,學者最關注的是Logistic模型,其計算方法簡單、預測準確率高、變量解釋能力強。但當Logistic模型涉及的變量很多時,直接使用也存在多重共線性和計算複雜度等問題。因此,變量選擇是個人信用評價問題的重點和難點。

傳統的變量選擇方法有最優子集法和逐步回歸法,但這些方法計算量大,且不穩定,當數據有微小變化時,可能得到完全不同的模型,其結果往往是局部最優解,並非全局最優解,尤其當變量個數大於樣本量時,方法失效。Lasso是目前應用廣泛的變量選擇方法,但在個人信用評價問題研究中,許多解釋變量是定性變量,對其進行數量化後引入大量的虛擬變量。在利用最優子集、逐步回歸或Lasso進行變量選擇時,隻能選擇某個虛擬變量,而不是將相關的虛擬變量作為整體進行選擇。Group Lasso將相關虛擬變量作為整體進行選擇,使其能夠整體剔除或保留在模型中,但並不能實現對群組內變量的選擇。Group Bridge既可以實現選擇重要的組,也可以選擇這些組裏麵的重要變量,但其懲罰函數在某些點不可微。Group MCP(Group Minimax Concavepenalty)解決了Group Bridge不可微的問題。

本文將建立基於Group MCP的Logistic模型,對個人信用評價的影響因素進行選擇和分析,並將其與基於Group Lasso、Group Bridge所得的結果進行比較。

二、 Group MCP Logistic模型

三、 實例分析

1. 數據來源。本文數據選用的是德國某銀行的個人信貸數據集合。該數據集中有1 000條記錄,包括21個字段,其中前20個字段為信貸申請人的個人特征描述,最後1個字段是銀行對客戶信用級別的定義:0為“差客戶”,1為“好客戶”。

本文所用數據包括21個字段,將其進行處理、編碼後的結果(解釋變量20組共52個,因變量1個)。

原始數據中,信貸期限(x2)、貸款金額(x5)、當前居住地居住時間(x11)、年齡(x13)為連續型數據,為克服量綱的影響,將其標準化處理後再進行分析。

本文所用數據集中,包括700條信用“好客戶”和300條信用“差客戶”,分別從中隨機抽取80%用作訓練集,剩餘20%用作測試集。訓練集中信用“差客戶”與“好客戶”的數量比為3:7,數據不平衡比較明顯,為了降低數據不平衡對分析結果造成的影響。采用Random Oversampling方法在信用差客戶中生成120條記錄參與建立模型。

2. Group MCP Logistic模型的建立。本文數據分析通過R軟件的grpreg程序包完成,得到非零解釋變量11組共18個,係數壓縮為零的解釋變量9組共34個。

由表2可以看出:現有支票賬戶(x1組)額度越高的客戶,違約的概率越小(x1_1

3. 模型比較。本文還建立了基於Group Lasso和GroupBridge的Logistic模型,其參數估計的結果。