(第一節 警察抓小偷的故事
在我們兒時玩的“剪刀、石頭、布”的遊戲中,每個小孩選擇出剪刀、布還是石頭應該是隨機的,不能讓對方知道自己的策略,甚至是策略的傾向性。因為在這種警察與小偷的博弈中,並沒有一種純策略均衡,隻有混合策略均衡,而混合策略是參與者在各種備選策略中采取隨機方式選取的。
在西部片裏,我們常能看到這樣的故事:
某個村莊隻有一名警察,他要負責整個村的治安。村子的兩頭住著全村最富有的村民A和B,A和B需要保護的財產分別為2萬元、1萬元。某一天村子來了個小偷,要在村中偷盜A和B的財產,這個消息被警察得知了。
因為分身乏術,警察一次隻能在一個地方巡邏;而小偷也隻能偷盜其中一家。若警察在A家看守財產,而小偷也選擇了去A家,小偷就會被警察抓住;若小偷去了警察沒有看守財產的B家,則小偷偷盜成功。
一種最容易被警察采用而且也更為常見的做法是,警察選擇看守富戶A家,因為A有2萬元的財產,而B隻有1萬元的財產。
這種做法是警察的最好策略嗎?答案是否定的,因為我們完全可以通過博弈論的知識,對這種策略加以改進。
實際上,警察的一個最好的策略是抽簽決定去A家還是B家。因為A家的財產是B家的2倍,小偷光顧A家的概率自然要高於B家,不妨用兩個簽代表A家,抽到1號簽或2號簽去A家,抽到3號簽去B家。這樣警察有2/3的機會去A家做看守,1/3的機會去B家做看守。
而小偷的最優選擇是:以同樣抽簽的辦法決定去A家還是去B家實施偷盜,即抽到1號簽或2號簽去A家,抽到3號簽去B家。那麼,小偷有2/3的機會去A家,1/3的機會去B家。這些數值可以通過聯立方程準確計算出。
此時警察和小偷所采取的便是混合策略。所謂混合策略,是指參與者采取的不是唯一的策略,而是其策略空間上的概率分布。最常見的混合策略就是猜硬幣遊戲。比如足球比賽開場時,裁判將手中的硬幣拋擲到空中,讓雙方隊長猜硬幣落下時朝上的一麵是正麵還是反麵。由於硬幣落下是正是反是隨機的,概率都是1/2,因此猜硬幣遊戲的參與者選擇正和反的概率都是1/2,這時博弈達到混合策略納什均衡。
再比如我們兒時玩的“剪刀、布、石頭”遊戲,對每個小孩來說,自己采取出“剪刀”“布”“石頭”的策略應當是隨機的,不能讓對方知道自己的策略,甚至是策略的傾向性。一旦對方知道你出其中某個策略的可能性增大,你在遊戲中輸的可能性就增大。因此,每個小孩的最優混合策略是采取每個策略的可能性是l/3。在這樣的博弈中,每個小孩各取三個策略的1/3是納什均衡。
明顯可以看出,這類博弈與我們之前談到的囚徒困境博弈有一個很大的差別,就是沒有純策略均衡,隻有混合策略均衡。所謂純策略,是參與者一次性選取的,並且堅持他選取的策略。而混合策略是參與者在各種備選策略中采取隨機方式選取的。
當每個博弈參與者都有優勢策略時,純策略均衡是非常合乎邏輯的。你有一個優勢策略,你可以采用;假如你有一個劣勢策略,你應該避免采用。同樣,你的對手也會采取這樣的措施。但是通過上麵警察抓小偷博弈我們看到,並非所有的博弈都有這樣的優勢策略,哪怕這個博弈隻有兩個參與者。在博弈中,參與者可以改變他的策略,而使得他的策略選取滿足一定的概率。當博弈是零和博弈時,即一方所得是另外一方的所失時,隻能采取混合策略加以均衡。對於任何一方來說,此時不可能有純策略的占優策略。
這就是納什於1950年證明了的納什定理。而零和博弈中沒有純策略納什均衡點,而隻有混合策略均衡點,混合策略均衡點下的策略選擇是每個參與者的混合策略選擇。
博弈大智慧