社會工程研究第四輯-四、數據和方法

1.模型設計Ⅰ：多元Logistic 回歸模型

為驗證假設1和假設2，本研究將分別構建兩個多元選擇變量的Logistic回歸模型（Multinomial Logistic Regression）。

以上包含i個方程的連立方程組，其中被解釋變量由就業單位、就業地區的多元選擇變量組成。其中p_i表示選擇某就業單位、地區獲得的概率。β是回歸係數，表示當其他自變量取值保持不變的情況下，該自變量取值增加一個單位引起比數（OR）自然對數值的變化量。α是常數項，μ為幹擾項。

下標i對就業單位而言，分別與就業單位“政府部門”、“事業單位”、“國有集體企業”、“私營/民營/個體企業”和“外資/合資機構”等單位就業的概率相對應。模型中的j5，以“外資/合資機構”為參照項。下標i對就業地區而言分別與“東部沿海開放城市”、“省會城市”和“地級城市/縣鎮農村”的概率相對應。模型中的j3，以“地級城市/縣鎮農村”為參照項。Х_k是影響就業單位選擇、地區選擇和職業地位獲得的自變量和控製變量。各分類變量的賦值情況詳。

2.模型設計Ⅱ：多元線性回歸模型

用線性回歸模型來考察多個自變量（人力資本、社會資本等）對大學生期望的月薪收入（因變量）所產生的影響。由於對人力資本收入決定因素的研究已比較成熟，我們將在此基礎上進一步加入社會資本變量和控製變量，使之適用於本研究。本模型采用單對數回歸模型（Linear Regression）來驗證假設3。

Ln（Y）B₀+B₁X₁+B₂X₂+……+B_iX_i+ε（2）

其中Y代表因變量，即個人的期望月薪收入，X₁、X₂……X_i分別代表自變量，B₀、B₁、B₂……B_i分別代表各變量的偏回歸係數，偏回歸係數指在控製了其他自變量的作用後，某一自變量對因變量的“淨影響”。B₀和ε分別代表常數項和隨機誤差。在回歸分析中，分類變量全部轉化為虛擬變量（啞變量）進入回歸方程，並且以每組變量中最後一個變量為參照項。

回歸係數及發生比率在回歸結果報告中給出，同時用回歸結果報告中給出的預測準確率來評價模型對數據的解釋力，用卡方檢驗來評價總體模型的統計顯著性，用對數似然比（-21ogL）來比較不同的模型。為了排除變量中可能出現多重共線性問題，同時又要考察這些因素對大學生職業選擇的影響，我們將影響顯著的自變量放在一起，采取逐步回歸的方法予以解決。