博弈智慧-正文第4章極小極大原理和納什均衡

納什均衡可以成為我們指導同時行動博弈的最後一個法則：走完尋找優勢策略和剔除劣勢策略的捷徑之後，下一步就是尋找這個博弈的均衡。

我們還要解釋一下這個法則，為什麼一個博弈的參與者非得達到這麼一個結局呢？我們可以說出好幾個理由。

首先，存在避免循環推理的必要，因為循環推理幫不上忙。均衡在沒完沒了的“我知道他知道我知道……”的循環裏是穩定不變的，這使參與者對其他人的行動的估計能保持連貫性。各方正確預計別人的行動，並且確定自己的最佳對策。

均衡策略的第二個好處出現在零和博弈中。在這種博弈裏，參與者的利益嚴格相悖。你的對手不能通過引誘你采取一個均衡策略而得到任何好處，你已經充分考慮到他們對你正在做的事情會有什麼樣的最佳對策。

可能存在一個對均衡概念的誤解，當我們說博弈的結果是均衡時，並不一定是對參與者最有利的結果，更不意味著對整個社會作為一個整體而言是最有利的結果。有利或者不利的評價永遠屬於另外一個問題，答案視各個案例的具體情況而各有不同。

在經濟學中，均衡意即相關量處於穩定值。在供求關係中，市場上的某一種商品如果在某一價格下，想以此價格買此商品的人均能買到，而想賣的人均能將該商品賣出去，此時我們就說，該商品的供求達到了均衡。此時的價格可稱之為均衡價格，產量稱之為均衡產量。均衡分析是經濟學中的重要分析。

那麼什麼是博弈論的均衡呢？所謂博弈均衡，它是一種穩定的博弈結果。均衡是博弈的一種結果，但不是說博弈的結果都能成為均衡。博弈的均衡是穩定的，因而是可以預測的。

納什均衡是一種最常見的均衡。它的含義是，在對方策略確定的情況下，每個參與者的策略都是最好的，此時沒有人願意先改變自己的策略。

在上麵的“買，賣”博弈中，（賣出，買進）是一個納什均衡，這個博弈可以解釋在現實中，討價還價後買賣能做成的原因，因為這對雙方來說都是最優選擇。同時在“買，賣”博弈中，其均衡對雙方來說是結局最優的。

警察與小偷是不是所有的博弈均存在納什均衡點呢？不一定存在純策略納什均衡點，所謂純策略是指參與者在他的策略空間中選取唯一確定的策略，但至少存在一個混合策略均衡點——所謂混合策略是指參與者采取的不是唯一的策略，而是其策略空間上的一個概率分布。這就是納什於1950年證明了的納什定理。我們在下麵“警察與小偷”的博弈中給出混合策略的說明。

在西部片裏，我們常能看到這樣的故事：某個小鎮上隻有一名警察，他要負責整個鎮的治安。現在我們假定，小鎮的一頭有一家酒館，另一頭有一家銀行。再假定該地有一個小偷，要實施偷盜。因為分身乏術，警察一次隻能在一個地方巡邏，而小偷也隻能去一個地方。假定銀行需要保護的財產為2萬元，酒館的財產價格為1萬元。若警察在某地進行巡邏，而小偷也選擇了去該地，就會被警察抓住；若小偷去了警察沒有巡邏的地方，則小偷偷盜成功。警察該怎麼巡邏才能取得最好的效果呢？

一個明顯的做法是，警察對銀行進行巡邏，這樣，警察可以保住2萬元的財產不被偷竊。可是如此，假如小偷去了酒館，偷竊就一定會成功。那麼，警察的這種做法是最好的嗎？有沒有改進的措施？

這個博弈沒有純策略納什均衡點，而有混合策略均衡點。這個混合策略均衡點下的策略選擇是每個參與者的最優（混合）策略選擇。

在這個例子中，警察最好的做法是，抽簽決定去銀行還是酒館。因為銀行的價值是酒館的兩倍，所以用2個簽代表銀行，比如如果抽到1、2號簽去銀行，抽到3號簽就去酒館。這樣警察有2/3的可能性去銀行進行巡邏，1/3的可能性去酒館。而小偷的最優選擇是，以同樣抽簽的辦法決定去銀行還是去酒館偷盜，抽到1、2號簽去酒館，抽到3號簽去銀行，那麼，小偷有1/3的可能性去銀行，2/3的可能性去酒館。

警察與小偷之間的博弈，如同小孩子之間玩“剪刀石頭布”的遊戲，在這樣一個遊戲中，不存在純策略均衡，對每個小孩來說，自己出“剪刀”、“布”還是“石頭”應當是隨機的，不能讓對方知道自己的策略，哪怕是“傾向性”的策略。如果對方知道你采取其中一個策略的“可能性”大，那麼你在遊戲中輸的可能性就大。

因此，每個小孩的最優混合策略是采取每個策略的可能性都是1/3。在這樣的博弈中，每個小孩各采取三個策略的1/3是納什均衡。由此可見：純策略是參與者一次性選取的，並且堅持他選取的策略；而混合策略是參與者在各種備選策略中采取隨機選取的策略。在博弈中，參與者可以改變他的策略，而使得他的策略選取滿足一定的概率。當博弈是零和博弈時，即一方所得是另外一方的所失時，此時隻有混合策略均衡。對於任何一方來說，此時不可能有純策略的占優策略。

誰打電話均衡的概念是不是同時行動的博弈中循環推理問題的一個完全解？不是的。有些博弈存在好幾個均衡，有些博弈卻一個均衡也沒有，而在另外一些博弈裏，均衡的概念還會由於接納新型策略而變得更加微妙。

假如你正在和女友通話，電話斷了，而話還沒說完。這時有兩個選擇，馬上打給對方，或等待對方打來。注意：如果你打過去，她就應該等在電話旁，好把自家電話的線路空出來。如果她也在打給你，你們隻能聽到忙音；另一方麵，假如你等待對方打電話，而她也在等待，那麼你們的聊天就沒有機會繼續下去。

一方的最佳策略取決於另一方會采取什麼行動。

這裏又有兩個均衡：一個是你打電話而她等在一邊，另一個則是恰好相反。

我們可以把所謂“納什均衡點如果有兩個或兩個以上，結果就難以預料”的意思，理解為“沒有正確（或者固定）答案”，也就是說，博弈論無法告訴我們到底該怎麼做。事實上，博弈論在這個打電話問題上的解決辦法看起來笨得很，這就是“混合策略”：設想雙方都投硬幣決定自己是不是應該給對方打電話，根據前麵給出的條件，兩人這種隨機行動的組合成為第三個均衡：假如甲打算給乙打電話，有一半機會可以打通（因為這時乙恰巧在等甲打電話），還有一半機會發現電話占線；假如甲等乙打來電話，那麼，同樣會有一半機會接到電話，因為乙有一半機會主動給甲打電話。每一個回合雙方完全不知道對方將會采取什麼行動，他們的做法實際上對彼此都最理想。因為雙方各有50%的可能性主動撥打電話，所以平均來說要嚐試兩次才能成功接通。當然，這個“笨辦法”並不是博弈論的錯，而是就策略而言隻好如此。

所以在生活中，對這類問題我們隻能按照慣例或者隨機應變。一個解決方案是，原來打電話的一方再次負責打電話，而原來接電話的一方則繼續等待電話鈴響。這麼做有個顯而易見的理由：原來打電話的一方知道另一方的電話號碼，反過來卻未必是這樣。另一種可能性是，假如一方可以免費打電話，而另一方不可以（比如你是在辦公室而她用的是住宅電話），那麼，解決方案是可以免費打電話的一方應該負責第二次打電話。

通常還有一種解決方法，即由較熱切的一方主動再打電話，如一個“煲電話粥”成癮的家庭主婦對談話的熱情很高，而她的同伴就未必這樣，這種情況下通常是她再打過去。再如戀愛中的男女遇到這種情況，通常也是由主動追求者再打電話。

現在我們簡要回顧一下。在同時行動的博弈中，我們有三個行動法則：一是尋找和運用優勢策略；二是尋找並避免劣勢策略，與此同時假定你的對手也在這麼做；三是尋找和運用均衡。

需要再次強調：均衡不一定是博弈的最優結果。在“囚犯困境”中，唯一的均衡是一起招認，站在群體的角度，這是最壞的結果。所以均衡隻是博弈的最“穩定”結果，或者說是最可能出現的結果。那麼，這就需要我們思考一個問題：如果這個“穩定”結果效果不佳，我們能否找到合理的策略打破這個“均衡”？