那麼,什麼是剛才提到的在使用微觀數據進行研究時會產生的有一些問題呢?
在使用數據進行定量研究時,首先要采集數據。當樣本空間太大,無法對其整體進行研究時,就要進行抽樣。從統計學角度講,為了不使研究得出偏頗的結論,最好是隨機抽樣。但有時由於某種原因而無法做到隨機抽樣。例如,現在想研究一下工資收入水平與受教育程度之間的關係,用數據驗證一下是否像很多人聲稱的工資收入真地隨著教育程度的提高而提高。於是,就開始采樣收集數據。但在這個過程中卻產生一個問題,即對於有工作的人,可以采集到他的工資數字;但對於沒有工作的人,就無法采集到他的工資數字。因此,這樣的樣本就不是一個完全的隨即機本,而是被稱之為選擇性樣本,而用這種選擇性樣本進行研究所產生的偏差叫做選擇偏差。
在上述例子中,選擇偏差產生的主要原因是,教育程度高的人群失業人數相對較少,因此他們有工資收入,所以這些人的工資數據容易得到;而在失業大軍中,教育程度低的占的比例相對較大,這些人的工資數據就無法得到。如果這些人就業,他們的工資很可能較低,因此他們寧可選擇不工作而呆在家裏。換句話說,在無法采集到的數據裏,因受教育程度低而工資低的占了大部分。但是,在現實中也有一些受教育程度低的人,由於種種原因,如並不低的能力等,而獲得不錯的工資收入。如果用這樣所搜集到的數據進行分析處理,我們就很容易做出這樣的判斷,即教育程度高的人其工資也高,教育程度低的人其工資也低,但卻低不了多少(因為受教育程度低而導致工資很低的人群因無法被觀察到而不包括在數據樣本裏)。因此,似乎受教育程度對工資收入的影響就比較小。這樣一來,受教育程度對個人收入的影響就會被低估。針對這一問題,赫克曼提出了著名的赫克曼修正法。這個方法由兩步所組成。第一步先構造一個基於經濟理論的概率模型,利用這一模型預測出每個人參加工作的可能性大小,即概率。第二步再把這些預測出的概率作為一個新的自變量加到原來的模型中去。那些不工作(或者說失業)的人,其就業的平均概率必然比較小。因此,當把由第一步所預測出的概率作為一個新的自變量加到原來的模型裏時,這些因為教育程度低而導致工資低的人就在第二步的模型裏被考慮進去了,由此就得到更準確的受教育程度與個人工資收入之間的關係。至此,赫克曼就解決了上述問題。
上述受教育程度與工資收入之間的關係僅僅是無數應用實例之一。赫克曼的方法還可用於處理許多類似的問題。例如,移民的移民行為與導致移民的因素之間的關係。是什麼因素促使人們做出移民的決定?是教育,是工資待遇,是住房,還是社會政治因素?如果我們用傳統方法進行統計分析,就會隻考慮那些已經移民的人們而忽略那些尚未移民的人們。
赫克曼方法的一個重要應用領域是勞動經濟學。例如,研究一個人平均花費多長時間才能找到一份工作,這是一個很有實際意義的課題。找到一份工作所花費的時間可能與很多因素有關係,如學曆、口頭表達能力、書寫能力、儀表等。如果用傳統方法,我們可以調查了解那些已經找到工作的人,詢問他們花費了多長時間找到那份工作。但對於那些尚未找到工作的人,怎樣進行分析處理?如果忽略了這部分人群,則分析結果就會產生偏差。由這類問題所引出的一類模型叫做持久模型。這類模型在其他領域的應用由來已久。例如,在工程領域研究一部機器多長時間以後失效;在醫學領域研究某種病人在接受某種治療後可以存活多長時間等。在社會科學領域,赫克曼與他的長期合作夥伴,普林斯頓大學的伯頓-辛格教授合作創立的使用這一模型的經濟計量方法已被廣泛應用。但赫克曼在勞動經濟學領域的某些研究成果卻不得不讓人感到悲觀。例如,傳統上,政府為了提高就業率,總是想投資辦一些職業培訓班,但赫克曼卻指出投資辦這些培訓班的經濟效益非常低,有時甚至為負效益!但在另一方麵,這些不同培訓班的效果卻因參與者以及培訓內容的不同而大相徑庭。看來,這一問題的回答還需要進一步的研究。