8.2.1 統計數據特征的描述
對調研數據或結果的描述可以采用描述性統計方法。描述性統計(discriptivestatistics)的目的就是更有效地概括大量調查統計數據的特征。調研人員應當從一組調查數據中計算出最能反映這組數據特征的一個或幾個數量指標。這些指標主要的就是:反映集中趨勢的一些指標、反映離散趨勢的一些指標,以及頻數分布和百分比分布。
1.集中化趨勢的描述
反映集中化趨勢的指標主要包括均值(mean)、中位數(median)和眾數(mode)三種。其中,均值屬於數值平均數,而中位數與眾數屬於位置平均數。當分析的目的是確定一個變量的典型數值或一組調查數據的最一般特征時,這些指標是非常有用的。
(1)數值平均數。均值,或算術平均數,隻適用於采用比例或等距尺度度量得到的數據。用均值來反映一組數據的平均趨勢時,所遇到的最大問題是容易受到一些極端值的影響,從而不能準確地反映一組變量的集中化趨勢。
(2)位置平均數。中位數適用於除了用類別尺度度量所得到數據以外的各種數據。中位數是一種位置平均數,其特點是有一半的調查數據小於它,另一半調查數據大於它。用中位數來反映一組數據的平均趨勢具有穩定性,不會受個別極端值的影響。因此,用中位數來反映收入差異比較大的情形下的收入變量的平均趨勢就比均值要合理得多。眾數就是出現次數最多的數值,適用於采用各種尺度度量得到的數據。
2.分散化趨勢的描述
集中化趨勢所研究的實際上是一組數據的共同特征,但有時市場調研還需要研究所得到的數據之間的分散程度,即差異大小。用來衡量一組數據分散化趨勢的指標首先是極差R。極差表示一組數據中最大值與最小值之差。由於極差所反映的是一種極端的情形,因此,應用並不廣泛。
實際上應用得最廣泛的是方差S2或標準差S。根據一組調查數據,利用下列公式就可以計算出標準差S:
∑(xS=i-珋x)2槡n-1
標準差越小,調查數據落在均值附近的概率就越大,數據之間的差異也就越小,均值反映數據集中化趨勢的效果也越好。另一方麵,如果標準差越大,就說明調查數據越分散,數據之間的差異也越大,用均值反映數據集中化趨勢的效果也受到影響。
3.頻數分布和百分比分布
集中化趨勢和分散化趨勢的度量指標都僅僅反映了總體的大致信息,並沒有提供關於總體內部分布情況的足夠詳細的信息。市場調研中經常需要分析變量取值或數據的分布情況。反映數據分布情況的最簡單方法就是計算各個分組的頻數分布和百分比分布。
8.2.2 對總體參數的推斷
市場調研的最終目的是了解總體的情形,因此,計算出樣本統計量或數字特征以後,還需要據此來推算總體的參數。依據一組調查數據來推斷總體參數的方法稱做統計推斷(inferentialstatistics),或統計估計。市場調研中最經常遇到的問題是根據樣本數據來估計總體的均值和比例。統計推斷或估計根據所采用的方法不同又分為兩種方法:點估計和區間估計。
1.點估計
點估計的基本思路是直接用樣本均值來估計總體均值。對於簡單隨機抽樣,不會產生偏差的不分層非隨機抽樣,或者是按比例的分層抽樣來說,樣本的均值就是總體均值的無偏估計。但是,在按比例的分層抽樣情形,如果樣本回收情況不理想,原來的按比例分層抽樣變成了不按比例的分層抽樣,那麼,再用樣本均值來估計總體均值就會產生較大的偏差。這就意味著,在計算用於估計總體均值的樣本均值時,要注意防止產生偏差。
上述想法如果從純粹的數據分析角度看,就是對於一組未經分組的調查數據來說,根據眾所周知的計算樣本均值珚X的公式,隻要樣本數足夠大就可以得到總體均值的無偏估計。但是對於分組數據而言,在計算均值時,特別要注意對於不同組別所加的權數要合適。事實上,很多調研人員在計算分組數據的均值時,由於采用的權數不合理,由此所產生的誤差可能是很嚴重的。