丟丟學會了回歸分析、因子分析、中介與調節、結構方程建模及多層線性模型等不同的分析方法,基本上所有的文獻都可以看懂了。隻是還有一類文章是丟丟常常看到,卻又不知道它是什麼。這個分析的方法稱為“元分析(metaanalysis)”。
它看起來好像是很簡單的東西,但是卻又好像與丟丟所學過的所有分析工具都不同。因此,丟丟這天就來請教李老師。丟丟:“老師,我常常看見一些文章,提到一個分析的方法,稱為元分析。這好像是一個很強的分析工具,但是我看見用元分析的研究人員,在表達分析結果時,往往就是一些簡單的相關分析。這個看起來既複雜卻又像很簡單的東西到底是什麼呢?”老師:“丟丟,在一個樣本中研究個體(如員工、企業、產業等)的特征的,稱為一般性的研究分析(primaryanalysis)。把別人的很多個研究結果用量化的方法再整合的,就稱為元分析。元分析(metaanalysis)的元字(meta),是從希臘文μετα而來的,是‘在……以上’的意思。因此,元分析是‘在分析以上的分析(secondaryanalysis)’,也是把‘原有的分析再分析(analysisofanalysis)’的意思。”
丟丟:“老師,我不明白。第一,什麼叫把別人的分析再分析?第二,為什麼要把別人的分析再分析呢?”老師:“丟丟,我取一個最簡單的例子,來說明何謂‘再分析’。例如,我們在文獻中發現有兩個不同的研究,都是研究智能(x)與員工的工作表現(y)的關係的。兩個研究用的測量工具是一樣的;樣本的大小也是一樣的。第一個研究的數據是在浙江一家電子廠收集的,作者找到的rxy=0.39。第二個研究的數據是在廣東一家玩具廠收集的,作者找到的rxy=0.15。現在我問,到底智能與工作表現(y)的相關是多少?”丟丟:“兩個研究的構念完全相同,作者用的測量是一樣的,樣本大小也一樣。如果要我猜,我會相信觀察到的兩個不同的相關,是抽樣誤差引起的。因此,兩個觀察到的相關係數的平均,也就是rxy=0.27,可能是一個更合理的估計。”
老師:“丟丟果然聰明。我同意你的看法。可是,你有沒有發現,當你估計rxy=0.27時,你隻是看了兩個研究的結果,自己卻一點數據也沒有收集啊!你就是利用兩個發表了的研究結果,用量化的方法重新分析,再得到一個你認為更可信的結論。因此,你就是在做一個最簡單的‘元分析’了。”
丟丟:“老師,我明白了!做元分析的目的也正是如此。因為我們是總結了不同的研究結果,經過處理,在重新對參數作估計,所以元分析的結果,可能比原來的分析的結果更有效力、更可信。”
老師:“對了,丟丟。你自己已經回答了你的第二個問題:為什麼我們要做元分析了。”
丟丟:“可是老師,我們在文獻中很少會看見自變量和因變量都是用同一個測量方法的。而且每個研究的樣本數也不一樣,應該有一些研究比較嚴謹,樣本比較大,所以結果更可信。更何況,樣本本身就有可能是一個調節變量。我們如何知道一個關係在浙江的電子廠和廣東的玩具廠中是否一樣呢?”老師:“丟丟,你是越來越聰明、越來越善於思考了。因此,當我們做元分析的時候,就要問到底樣本是不是可以混起來分析,哪一個樣本比較可信,有沒有跨樣本的調節變量等問題了。”
丟丟:“哦,明白了。考慮了這些因素,再把不同的研究結果用量化的方法整合起來的工具,就稱為‘元分析’了。”
老師:“簡單來說,你說的是對的。”
丟丟:“老師,這個研究工具看來很有用啊!我想多了解一些。”
老師:“好啊,我們現在就開始吧。”
15.1元分析的基本知識在研究中,通常會發現不同人做的研究結論有矛盾的現象。例如,研究A可能發現智能測驗結果(GeneralMentalAbility)與員工的工作表現的相關是0.39(p
0,就代表單單用抽樣這個原因不足以解釋不同研究樣本的觀察相關係數的相異。不同的樣本的背後,可能有幾個不同的總體,不同的總體有不同的相關係數。換句話說,我們看見不同樣本的相關係數的差異,有部分原因是因為抽樣的誤差,但是也有部分原因是這些樣本本來就是從不同的總體抽出來,而不同的總體的總體相關係數是不一樣的。因為方差(variance)與統計項的單位不一樣,統計學家設計了標準差(standarddeviation)這個觀念。標準差是方差的平方根。同樣的,S2ρ是總體中的相關係數的方差,“真實標準差(SDρ)”就是S2ρ的平方根。SDρ是總體中不同的相關係數的標準差。與方差一樣,SDρ≤0代表總體中隻有一個相關係數;SDρ>0代表不同的樣本背後存在著不同的總體,每個總體有著不同的相關係數。不同的樣本可能是從不同總體中抽出來的。用上例中10個研究的數據,則r=nirini=0.2291S2r=ni(ri-r)2ni=0.0349S2e=ni(1-r2)2ni-1ni=0.0020S2ρ=S2r-S2e=0.0330SDρ=0.033=0.1817我們應該如何理解0.033這個數值呢?上麵的計算表明,在這10個研究中,我們觀察到的相關係數的方差是0.0349。因為10個研究有不同的樣本數,由抽樣而引起的“假”方差有0.002。這代表剩下了0.033是真實的總體方差了。換句話說,這10個樣本真有可能由不同的總體抽出來的。至於是從幾個不同的總體?每個總體的相關係數是什麼?無從得知。這個0.033的數值唯一能告訴我們的是10個樣本背後有多於一個總體。用元分析的術語就是10個研究的背後存在著調節變量。這個調節變量調節了不同樣本的總體相關係數。換句話說,這10個研究的數據反映了組織承諾與員工離職的相關不是一個常數,而是受著一個調節變量的影響,所以總體的相關才會不一樣。我們還可以說觀察方差0.034中,隻有0.002(5.67%)是源於抽樣的,剩下的94%都是因為不同的樣本,是從不同的總體中抽出來的。與上麵的結果相反,如果抽樣方差大於觀察方差,則可判定所有的10個樣本都是從同一個總體抽出來的,所以就沒有假設調節變量的必要了。Schmidt和Hunter(1980)解釋說,因為我們在這裏隻考慮了抽樣引起的方差。其他的問題,如信度引起的方差和範圍限製引起的方差,我們都沒有考慮。他們研究了管理學中的很多數據,建議:如果抽樣方差能夠解釋觀察方差的75%,就可以判斷樣本都是從同一個總體抽出來的,沒有必要尋找調節變量。如果抽樣方差少於解釋觀察方差的75%,就要開始尋找調節變量。在上麵的分析中,抽樣方差隻是觀察方差的5.67%。這就代表10個樣本背後存在著調節變量,造成了他們的總體相關有差異。發現了調節變量的存在後,元分析的下一步就是找出這些調節變量,並驗證它們是不是真正的調節變量。找出調節變量是研究人員的責任。基於理論或者是種種原因,研究人員可能認為“企業擁有權”(國有企業vs.民營企業)是一個可能的調節變量。也就是說,在國有企業中,組織承諾與員工離職可能沒有很密切的關係,因為國有企業的員工可能是因為很多工作以外的原因(如福利、網絡、穩定性等)而加入該企業的。組織承諾可能隻是其中一個不太重要的因素。要驗證這個假設,我們隻要把10個相關係數的樣本分成兩組。從國有企業收集的樣本為一組,民營企業收集的樣本為另一組。假設10個樣本中,樣本1,3,4,5是民營企業中所收集的樣本;樣本2,6,7,8,9,10是從國有企業中收集的。於是我們用1,3,4,5這4個樣本再重複上麵的分析。剩下的6個樣本再做另一個元分析,則可發現,在頭4個樣本中r=0.4259S2r=0.0008S2e=0.0009S2ρ=-0.0002S2e/S2r=126%在餘下的6個樣本中r=0.0603S2r=0.0026S2e=0.0033S2ρ=-0.0007S2e/S2r=128%根據定義,方差是不可能有負數的。因此Schmidt和Hunter建議,凡是真實方差少於零,則可把它看成是零。真實方差少於零是什麼意思呢?就是我們看見的研究中的相關係數的方差,其實是少於因為抽樣而造成的方差。換句話說,因為抽樣而來的方差(抽樣方差),已經可以完全解釋觀察中研究的不同方差(觀察方差)。我們不需要用總體的相關的差異來解釋觀察到的相關的方差,因此可判斷,研究是從相同的總體中抽樣出來的。上麵兩個分組的分析中,S2e/S2r都遠超於75%。這代表企業擁有權確實是一個調節觀察相關的變量。除去了這個因素以後,觀察方差就可以完全用抽樣方差來解釋了。於是,我們的結論是,組織承諾與員工離職在民營企業中的相關是0.4259;組織承諾與員工離職在國有企業中的相關是0.0603。
15.3置信區間與可信區間15.3.1置信區間對於上麵的元分析,可以做如下的總結:就所有的10個研究而言,r=0.2291,S2r=0.0349,S2e=0.0020,S2ρ=0.0330。就民營企業的4個研究而言,r=0.4259,S2r=0.0008,S2e=0.0009,S2ρ=-0.0002。就國有企業的6個研究而言,r=0.0603,S2r=0.0026,S2e=0.0033,S2ρ=-0.0007。對於所有的10個研究而言,我們估計的總體相關(estimatedpopulationcorrelation)是0.2291。雖然這一個元分析的結果是集合了10個不同的樣本得到的結論,但是無可否認,這個總體相關(ρ∧=0.2291)仍然是一個基於抽樣的結果,而對總體的相關的一個估計。因為就算我們是總合了10個研究的結果,那還是10個樣本而已,我們還是不知道總體的相關是什麼。既然是在抽樣中的觀察,而對總體的估計,自然就存在著因為抽樣而產生的置信區間(confidenceinterval)。這就好比我們從總體抽出一個樣本,計算到相關係數是rxy,可以建立一個以rxy為中心的置信區間一樣。如果是從一個樣本抽樣,暫時假設相關係數的抽樣分布是正態的。那麼,這個95%的置信區間就是rxy±1.96Se(Se是相關係數的標準誤)。可是,我們現在這個ρ∧=0.2291,不是單一樣本的估計結果,而是一個元分析的總體相關估計,那麼置信區間應該如何建立呢?一般的做法就是用兩個簡單假設:①這個總體相關係數的抽樣分布的標準誤,就是元分析中的S2e的平方根(為了簡化起見,我們還是用Se代表)。②這個總體相關係數的抽樣分布是正態的。有了這兩個假設,就可用ρ∧±ZSe來建立這個元分析估計的置信區間了[注意:Z是正態分布的,95%的Z值是1.96,99%的Z值是2.33]。如一般的置信區間的理解一樣,如果這個置信區間包括了0在裏麵,那總體的相關就可以視為0。15.3.2可信區間置信區間是根據樣本觀察到的相關,對總體相關基於抽樣的誤差的估計的一個不確定範圍。如果抽樣分布是正態分布,95%置信區間是樣本的統計項,加減1.96乘以抽樣分布的標準差(也就是標準誤)。置信區間是我們做統計抽樣時的習慣估計,但是可信區間(credibilityinterval)卻是元分析特有的一個不確定範圍的估計。做元分析時,基於不同的樣本的相關係數,可找到一個平均總體相關係數的估計(ρ∧)[注意:這個“平均總體相關係數的估計”與上麵置信區間用的,是一樣的估計]。和一個估計的總體的相關係數的標準差(SDρ)[注意:這個“標準差”卻與上麵置信區間用的,不是一樣的標準差。上麵用的是抽樣的標準誤,這裏用的卻是總體中不同的相關係數的標準差]。因此,當估計的平均總體相關係數是ρ∧時,這個平均的總體相關係數是有一定的不確定性的。可以為這個估計的平均總體相關係數設定一個可信的區間。這個可信區間代表了:用ρ∧來代表總體的相關係數時,其實是有一定的不確定性。但是這個不確定性卻不是抽樣誤差的結果,而是因為不同的樣本其實是從不同的總體中抽出來的。應用置信區間的同樣原理,如果假設:①在總體中有著不同的總體相關係數,而這個不同的相關係數的分布是正態的;②這個正態的總體分布的平均是ρ∧,標準差是SDρ。因此,95%的可信區間就是ρ∧±1.96SDρ了。這裏有幾點需要澄清一下:“可信區間”與“置信區間”所用的ρ∧是一樣的ρ∧,也就是樣本的加權平均相關係數。不過在不同的情形下,它的意義可能有點不一樣。當SDρ≤0時,在總體中隻有一個“總體的相關係數”。
在這個情形下,“可信區間”與“置信區間”所用的ρ∧就是這個“總體的相關係數”的估計。但是當SDρ>0時,在總體中就有多於一個“總體的相關係數”。
元分析給我們的加權平均相關係數隻是這些不同的相關係數的一個平均值。在這個情形下,“可信區間”與“置信區間”所用的ρ∧就是這個“平均的相關係數”的估計。上麵說,“可信區間”與“置信區間”所用的ρ∧是一樣的。但是“可信區間”與“置信區間”所用的標準差卻是完全不同的。“置信區間”所用的標準差是抽樣的誤差,所以是抽樣的“標準誤(standarderrorofthecorrelation)”,Se。但是“可信區間”所用的標準差卻是“總體中不同的相關係數的標準差”SDρ。第一,這不是誤差,是真實的相關係數的不同。第二,這與抽樣一點關係都沒有。就算我們把整個總體都研究了,這個真實的標準差還是會存在。民營企業的相關係數ρ1=0.43與國有企業的相關係數ρ2=0.06是不同的,這就自然產生了一個方差(標準差)。這是“上麵的那個方差”SDρ,與抽樣的過程一點關係都沒有。但是,對於每一個總體中的真實相關係數來說,如國有企業的ρ2=0.06,在抽樣的過程中,我們會觀察到不同的樣本的相關係數是不同的。這是因為抽樣的過程產生了抽樣的誤差,也就是“下麵的那個方差”Se。隻要樣本數越大,這個方差(或標準差)就會越少。
下表是一個典型的元分析結果。研究的構念是員工的公民行為(OCB)。rrρVρ95%CI%var滿足感220.2260.2590.0020.23~0.2966Fairness200.1850.2380.0060.20~0.2862OC110.2000.2470.0020.20~0.3073Conscientiousness70.0410.0430.003-0.02~0.1176Agreeableness60.0980.1270.0030.05~0.2180NA6-0.051-0.0640.002-0.13~0.0076PA50.0770.0800.007-0.00~0.1655Tenure40.060.060.001-0.02~0.1492Gender50.0240.0260.004-0.04~0.0960第1列是與公民行為有關的變量,如第一個是員工的滿足感與公民行為的關係。第2列(r)是在這個元分析中,牽涉(比如)滿足感與公民行為的有多少個相關係數。第3列(r)是元分析的初步結果,也就是加權的平均相關係數。有時候,研究人員會把這個初步的分析結果(r),用自變量與因變量的信度進行糾正。糾正公式以前在測量學一章已經談過了,就是ρ=r/rxxryy。這就是第4列。第5列(V∧ρ)是稱為S2ρ的參數(SDρ的平方),也就是觀察方差減去抽樣方差的剩餘方差。第6列(95%CI)是ρ∧或者在這裏稱ρ的置信區間。最後一列(%var)就是“抽樣方差”與“觀察方差”的百分比。根據Schmidt和Hunter的建議,如果這個百分比大於75%,就沒有尋找調節變量的必要了。15.4關於元分析的幾個問題關於元分析的問題如下:①除了Schmidt和Hunter的75%原則外,Hedge和Olkin(1985:235)曾經提出了另外一個方法來檢查在元分析中到底有沒有調節變量的存在。他們提出了以下的方程,以檢驗到底有沒有調節變量,即Q=ki=1(ni-3)(zi-z+)2式中,zi是個別研究的相關係數,用FisherZ轉換成的Z值。我們已介紹過相關係數的FisherZ轉換,即FisherZ=12ln1+r1-rln是自然對數式中,z+是整個元分析的加權平均相關係數,用FisherZ轉換成的Z值。ni是每個研究的樣本數。我們應用這個方程時,虛擬假設是總體中隻有一個相關係數(H0:總體的SDρ=0)。這個一般稱為“Q統計量(Qstatistics)”的統計量服從一個χ2分布。如果Q統計量不顯著,就代表在總體中隻有一個相關係數,沒有必要再去找調節變量了。②另一個關於元分析的常見問題,就是什麼相關係數可以放在同一個元分析裏麵分析。如果自變量x與因變量y都是一樣的,而兩個研究都是用同樣的測量方法,那把它們放在同一個元分析是很自然的。但是,如果構念一樣,可是測量不一樣,可以做元分析嗎?如果再退一步,當構念的意義相同,但是取名不一樣,可以一塊做元分析嗎?如果再退一步,若構念的意義非常接近,但是卻不完全相同,可以一塊做元分析嗎?這樣一步一步地問下去,我們終於會要求一個定義,到底兩個研究的相關係數,在相近到什麼程度時,才可以放在同一個元分析中呢?用英文的一句常用語,到底在元分析中,是否把蘋果與橙子混在一起呢(arewemixingapplesandorangesinametaanalysis)?從上麵的討論,讀者大概可以明白,到底是否“把蘋果與橙子混在一起”,是研究者的一個主觀判斷。隻有在這個領域的研究者,才能做這個決定。舉個例子,管理學有一個領域,稱為“未充分就業(underemployment)”。