正文 基於聚類分析和判別分析的我國主要省市綜合實力狀況評價(1 / 2)

學術爭鳴

作者:祝新亞 李許堅

摘要:本文選取了國家統計局出版的2008年中國統計年鑒中的一組數據,采用了可以大致代表各省市綜合實力狀況的13個指標,然後使用係統聚類的Ward's Method: Ward(最小離差平方和法)的Squared Euclidean distance(歐氏距離的平方)量來對2008年全國主要省市綜合實力狀況主要指標進行聚類分析,確定了全國的4類社會發展區域,並給出了各類發展區域的優勢和特點。再對其中幾個沒有參加聚類分析的省份(甘肅、青海、寧夏、新疆)進行判別分析,並利用判別分析方法對聚類分析的評價結果進行校驗,最終確定全國的4類社會發展區域,希望可以為政府決策部門對社會發展的規劃提供一定的依據。

關鍵詞:主要省份 綜合實力 聚類分析 判別分析

一、引言

本文根據各省的綜合實力發展指標,將全國主要省份綜合實力發展分為4個等級,從而可以為政府決策部門對社會發展的規劃提供一定的依據。日後通過政府政策的調整,各省再發揮各自優勢力量,抓住機遇,社會全麵發展和可持續發展能力一定會進一步提高。

而綜合實力發展狀況評價的難點在於反映綜合實力發展的指標眾多,每項指標又會從不同角度反映綜合實力發展狀況。所以,依據它們作綜合評價有一定難度。但我們可以看到,多元統計分析正是將多維因子納入同一體係加以綜合研究的定量化方法,從而很好解決了這一問題。為了更好地分析綜合實力發展狀況,本文對樣品進行了分類。

在多元統計分析中,常常會使用聚類分析和判別分析來解決樣本的分類問題。在事先並不知道應將樣品或指標分為幾類的情況下,可以使用聚類分析根據樣本或指標的相似程度,將樣本或指標歸組分類;而在事先已經建立了樣品分類,需要將新樣本歸入到已知分類的樣本組中時,就可以使用判別分析。

中國作為全世界最大的發展中國家,經過這些年不斷的發展,在整體綜合實力發展上取得了長足的進步。但由於曆史和現實的原因,全國的發展存在地區不均衡狀況。所以,根據社會發展狀況和區域特點,可將全國規劃為4個社會發展圈。

而這種根據區域規劃劃分的社會發展圈,雖對全國各省的社會發展有著重要的意義,但一個不容忽視的問題是:4種社會發展圈內不同的省由於各種原因,其在社會發展上存在不均衡和發展水平不相同的情況。因此,本研究的目的是根據各省的綜合實力發展指標,將全國主要省份綜合實力發展程度分為4個等級,為政府決策部門對今後發展的規劃提供一定的依據。

二、指標體係的選取

文中將根據中國統計年鑒中反映2008年全國主要省市綜合實力發展的主要指標: 人均GDP(X1)、人均新增固定資產(X2)、人均居民消費支出(X3)、人均高等學校數(X4)、人均衛生機構數(X5)、參加城鎮職工基本醫療保險人數與人口數的比例(X6)、人均全社會建設總規模(X7)、城鎮單位就業人員數與人口數的比例(X8)、人財政收入(X9)、人均城市綠地麵積(X10)、城鎮居民人均家庭可支配收入(X11)、國際旅遊(外彙)人均收入(X12)、教育經費人均情況(X13)等13項主要指標對全國29個省(自治區)和直轄市進行聚類分析和判別分析,並根據分析結果對各省市的綜合實力發展狀況進行研究。

三、聚類分析的具體應用和結果

本文采用係統聚類的Ward’s Method: Ward(最小離差平方和法)的Squared Euclidean distance(歐氏距離的平方)量來對全國各省社會發展主要指標進行聚類分析,使用的是SPSS13.0的Classify->Hierarchical Cluster程序。

需要說明的是,在通常的分析中,由於各個指標的量綱差異,通常需要先使用SPSS的Discriptives Statistics->Discriptives程序將各變量進行量綱標準化處理,然後將處理結果存儲到新的變量中,最後在進行聚類分析時使用標準化後的變量進行聚類分析。具體的指標數據見表1。

分析得到的結果見以下的分類表和龍骨圖:

通過分類表和龍骨圖可以清楚地看到,2008年各省綜合實力發展的層次是:

Ⅰ類區:北京、上海。