怎樣做到既“隨機”又“一半對一半”地出牌呢?一種簡便的辦法是:每次出牌以前,先背過臉去扔一個硬幣,不要讓對方看到。如果硬幣扔下來得正麵,出紅;如果得背麵,出黑。這樣子把具體每次出什麼牌的決策交給老天爺,對方就摸不著你出牌的規律了。但是,雖然具體哪一次出什麼牌,你在扔硬幣之前並不知道,但是一直這麼玩下去,老天爺又會非常忠實地為你維護“出紅牌和出黑牌的概率一半對一半”的根本性要求。“隨機”又“一半對一半”地出牌,“隨機”是就每次出牌說的,“一半對一半”則是博弈多次重複條件下策略選擇的統計要求。
現在我們計算情侶博弈的納什均衡。
讀者可能會問,情侶博弈的納什均衡不是早就知道了嗎:要麼一起看球,要麼一起看芭蕾。為什麼現在又要計算呢?
實際上,以前我們用劣勢策略消去法或者相對優勢策略下劃線法來求博弈的納什均衡,隻能求出純策略的納什均衡。混合策略的納什均衡,用劣勢策略消去法和相對優勢策略下劃線法是求不出來的,要用現在講的反應函數法,或者說得更詳細一些,要用最佳反應函數曲線交叉的方法來做。
我們知道情侶博弈有好幾個版本,現在我們采用選修第二外語的那個版本:陳明和鍾信麵臨的抉擇,可以表示為下麵的博弈:
這個博弈的純策略納什均衡我們已經知道,就是左上方一起選德語的策略組合和右下方一起選法語的策略組合。為了計算混合策略納什均衡,我們假設陳明選德語的概率是p,選法語的概率是1–p;鍾信選德語的概率是q,選法語的概率是1–q。和上麵一樣,我們可以把陳明的期望支付整理出來:
UC(p,q)=3pq+1p(1–q)+0(1–p)q+2(1–p)(1–q)
據此,他的最佳反應函數是:
同樣,把鍾信的期望支付整理出來:
UZ(p,q)=2pq+1p(1–q)+0(1–p)q+3(1–p)(1–q)
據此,他的最佳反應函數是:
現在,把兩人的最佳反應函數如下圖那樣畫在一起,得到三個交點:(p*,q*)=(0,0),(p*,q*)=(3/4,1/4)和(p*,q*)=(1,1)。
反應函數曲線相交方法
其中,(p*,q*)=(0,0)和(p*,q*)=(1,1)這兩個納什均衡,是原來我們用相對優勢策略下劃線法已經做出來的,就是兩人一起選德語的納什均衡和兩人一起選法語的納什均衡。可見,反應函數曲線交叉法也可以把純策略納什均衡找出來,隻不過要計算期望支付或期望得益,要計算反應函數,工作量要大一些。但是,這個博弈的另外一個納什均衡,即混合策略納什均衡(p*,q*)=(3/4,1/4),以前用劣勢策略消去法和相對優勢策略下劃線法就做不出來,現在可以用反應函數曲線相交的方法做出來。這就是反應函數法的價值。
算出(p*,q*)=(3/4,1/4)這個納什均衡,看看它有什麼含義。這個納什均衡是說,既然陳明偏向德語,他最好以3/4即75%的概率選德語,既然鍾信偏向法語,他最好以1/4即25%的概率選德語。
這有什麼意思呢?如果陳明以3/4的概率選德語,鍾信以1/4的概率選德語,那麼陳明的期望支付是:
而鍾信的期望支付是:
都沒有(p*,q*)=(0,0)大家一起選德語UC(p*,q*)=3,UZ(p*,q*)=2
和(p*,q*)=(1,1)大家一起選法語UC(p*,q*)=2,UZ(p*,q*)=3來得好。可見,純策略納什均衡比混合策略納什均衡具有支付優勢,得益優勢,即帕累托優勢。局中人的境況,處於純策略納什均衡的時候比處於混合策略納什均衡的時候要好。
由此可以體會,在這種純策略納什均衡和混合策略納什均衡都存在的情況下,博弈論往往把“優先權”給予純策略納什均衡。所以,就陳明和鍾信這兩位好朋友決定選德語還是選法語的博弈中,結局不是一起選德語,就是一起選法語,這兩個納什均衡都具有絕對的支付優勢、帕累托優勢。絕對優勢指的是兩人的情況都變好,而不僅是兩人的情況加起來變好。現在,在純策略納什均衡雙方無論是得3還是得2,都比在混合策略納什均衡各人都隻得2/3要好,所以是絕對的帕累托優勢。
陳明和鍾信選修第二外語的博弈隻進行一次,所以既然有純策略納什均衡,實際結局就不會是混合策略納什均衡,何況純策略納什均衡還有絕對的帕累托優勢。但是情侶博弈有別的版本,如果真是戀人周末節目選擇的博弈,那麼這種博弈在許多周末都要進行,這樣,情侶博弈就變成重複多次的博弈。這個時候,混合策略納什均衡中的概率,就有多次博弈采取什麼純策略的概率討論的意義。
有興趣的讀者可以把前麵幾章講過的各種博弈拿來試試,看看能否掌握計混合策略納什均衡的反應函數曲線相交方法。算完以後驗算的時候,我告訴你一個竅門:如果這個博弈原來就有純策略的納什均衡,那麼隻要你算得正確,你算出來的結果一定包含原來知道的那些純策略納什均衡。