博弈智慧-正文第5章如何走出“囚徒困境”

麵對“囚徒困境”，我們是否可以通過好的策略促進合作，擺脫“困境”的詛咒？這個複雜的局麵其實有一個簡單的答案，這就是“以眼還眼，以牙還牙”。

為什麼我們沒有成為“囚徒。”

“囚徒困境”是否宣判了合作可能性的死刑？如果是這樣，現實生活中人們的相互合作又如何解釋？人們在現實中的博弈，與在遊戲模型中有何不同？在囚徒困境一章中，我們談到了社會人與“理性人”是有區別的，那麼區別又在哪裏呢？換言之，為什麼可以在邏輯上得到完美證明的“囚徒困境”，並不能成為人們普遍遵循的選擇？

於是，問題變成了去發現合作出現的充分和必要條件了。顯然，生活中的人們打交道通常不是一次性的，那麼，增加博弈次數又會怎樣？如果兩位自私者玩一次這個遊戲，他們的選擇會是背叛。這樣，每一方所得到的將少於雙方合作所能得到的。

設想這個遊戲要進行多次，而且雙方知道具體次數，但是雙方仍然沒有合作的動機，為什麼呢？首先，最後一次大家顯然是不合作。在倒數第二次時，雙方還是沒有合作的動機，因為他們都預知對方在最後一次將會背叛。如此推理下去，對兩位自私者任何已知次數的遊戲來說，從第一步開始就是雙方的背叛。

然而，這個推理並不適用於遊戲要進行無限多次的情況。在大多數實際情況下，對策者不能肯定什麼時候是他們的最後一次對局。就像稍後要說明的一樣，當遊戲次數無限多時，合作有出現的可能。

對未來的預期，是影響我們行為的重要因素。一種是預期收益：我這樣做，將來會有什麼好處；一種是預期風險：這樣做可能麵臨的問題。這兩種預期會影響個人選擇的策略，如學生讀書，為了將來考上好學校，獲得更高的地位和收入。如果文憑不值錢，那麼就會影響學生的學習熱情。

地攤、車站、旅遊點，這些人群流動性大的地方，不但商品和服務質量最差，而且假貨橫行，因為在商家和顧客之間“沒有明天”——一個旅客不大可能因為你的飯菜可口而再次光臨。

在公共汽車上，兩個陌生人會為一個座位爭吵，可如果他們認識，就會相互謙讓。在相互聯係緊密的人際關係中，人們普遍比較注意禮節、道德，因為都需要這個環境。

道德、法律、權力、利益的劃分，都與“還要見麵”有關。從消極的層麵看，我們互不侵犯，是為了避免沒完沒了、兩敗俱傷的循環報應。比如：兩個原始人見麵，一個拿著獸皮，一個拿著野果，他們都想把對方的東西據為己有。如果他們的見麵是偶然的，可能相互搶劫；可是如果他們都生活在附近，考慮到對方家族的報複，搶劫的風險就大了，所以他們不去打對方的主意——所有權就這樣產生了。如果他們確實想得到對方的東西，他們可以選擇合作——以物易物，交易就這樣產生了。

還有一點不同是，在生活中，人與人的博弈不是孤立的，你可能一輩子都把另一個人踩在腳下，但是如果這導致你們都生活得很糟的話，那麼，把他踩在腳下就不是什麼明智的選擇了。

兩個相鄰的國家，如果相互敵對，是一件非常不幸的事。它們不可能“搬家”，又不可能消滅對方（這是現代國際關係準則所不允許的關係），這個死結就可能困擾它們許多年。遺憾的是，當今的國際政治關係中這樣的鄰國關係還不少，如巴以、印巴、兩伊等，這樣的相互糾纏，對於雙方來說都是沉重的負擔。

重複“囚徒困境。”

為了驗證麵對“囚徒困境”時人們可選擇的策略以及這些策略的有效程度，美國的國際關係學者羅伯特·愛克斯羅德組織了一次以此為主題的計算機競賽。競賽要求參加者根據這一“困境”設計程序，並將程序輸入計算機，通過各種程序的相互對局的最後得分評判優劣。

“囚徒困境”的遊戲方法是：遊戲雙方都在不知對方將如何選擇的情況下，選擇合作或背叛。這些選擇放在一起就產生了四個可能的結果，即：合作，合作；合作，背叛；背叛，合作；背叛，背叛。在這個遊戲中，如果雙方選擇合作，雙方都能得到較好的結果R，即“對雙方合作的獎勵”。在這個例子中R為3分，3也可以代表參賽者得到的獎金數。如果一方合作而另一方背叛，那麼，背叛者得到“對背叛的誘惑”T=5。而合作者則得到“給笨蛋的報酬”S=0。如果雙方都背叛，那麼雙方都得到P=1，即“對雙方背叛的懲罰”。當然，最後以得分多少判定名次。

你可能忍不住要問：“什麼是最好的策略？”換句話說，什麼策略能使對策者得到可能的最高分？這個問題問得很好。但是就像以後要說明的一樣，獨立於對方所用策略之外的最好決策規則是不存在的。在這裏，遊戲者的利益並不是完全衝突的。雙方可以通過合作而得到“對雙方合作的獎勵”R，也可以通過背叛而得到“對雙方背叛的懲罰”P。如果你假定對方總是走你最擔憂的一步，那麼，你就會認為其他人總是不合作，這就會使你也不合作，最後招來無休止的懲罰。所以與下棋不同，在“囚徒困境”中假定對方一心要贏你是不可靠的。

事實上，在“囚徒困境”中表現最好的策略直接取決於對方采用的策略，特別是取決於這個策略為發展雙方的合作留出多大的餘地。這個原則的基礎是下一步相對於當前一步的權重足夠大，即未來是重要的。總的來說，如果你認為今後將難以與對方相遇，如果你不太關心自己未來的利益，那麼，你現在最好是背叛，而不用擔心未來的後果。

這樣，我們得到了第一個正式的結論，但卻是一個令人傷心的結論，即：如果未來是重要的，就不存在最優策略。

“一報還一報”的偉大勝利參賽者提出了各種程序，但是大致可分為“善良的”“邪惡的”和“隨意的”三類，競賽的結果也許出人意料：“善良”即“以合作為主”的策略大獲全勝，而“邪惡”即“以占便宜為主”的策略成績不佳，而最成功的策略是最簡單的：“一報還一報”——即在第一步合作，以後的每一步都重複對方的上一步。

現在考慮一個雙方對局的例子。一個對策者采用的策略是每一步都背叛，即“總是背叛”，另一個對策者采用的策略是“一報還一報”。“一報還一報”意味著在對方每一次背叛之後就背叛一次。當對方采用“一報還一報”時，采用“總是背叛”的對策者，將在第一局得到收益，在而後的對局中都得到相應的回擊。這樣，這個背叛者隻是在第一局得到5分，而在以後的每局都隻能得到1分，最終他可能會“戰勝”對手，但由於總分仍然很低而被淘汰出局。

區分善良規則好壞的一個特征是，看它們如何迅速地和可靠地對來自對方的挑戰作出反應。一個規則可以被稱為“報複性的”，如果它在對方背叛後立即以背叛相報複。除非一個策略能迅速回應來自對方的挑戰，否則，對方將簡單地從這樣一個策略身上獲得越來越多的好處。

在比賽中，有好幾個規則故意使用若幹次背叛，以試試它們能否討到便宜。因此，很大程度上決定善良規則最後名次的，是它們能否很好地應付這些挑戰。

對付這類挑戰性規則的最好辦法是時刻準備報複來自對方的“無緣無故”的背叛。因此，善良能得到好處，報複也能得到好處。“一報還一報”綜合了這些優點，它是善良的、寬容的和具有報複性的。它從不首先背叛，但是不管過去相處的關係如何好，它總能被一個背叛所激怒，而迅速作出反應。

“一報還一報”的所有記錄是令人難忘的。概括地說，“一報還一報”是62個參賽者中平均得分最高的規則。在競賽的生態模擬中它一直保持領先。加上它在實驗室的對策實驗中的良好表現，“一報還一報”顯然是一個非常成功的策略。

“一報還一報”的成功可以說明的是，它是一個很具適應性的規則，即它在很大範圍的環境中表現極佳。它的成功部分是由於其他規則預料到它的存在並且被設計得與它很好相處，要和“一報還一報”很好相處就要求和它合作，這反過來就幫助了“一報還一報”。即使那些被設計成伺機占便宜而不被懲罰的規則，也很快向“一報還一報”道歉。任何想占“一報還一報”便宜的規則最終將傷害自己。“一報還一報”之所以能從自己的不可欺負性得到好處，是因為以下三個條件得到了滿足：1.遇到“一報還一報”的可能性是顯著的。

2.一旦相遇，“一報還一報”很容易被識別出來。

3.一旦被識別出來，“一報還一報”的不可欺負性就顯示出來。

因此，“一報還一報”從它自己的清晰性中得到好處。

另一方麵，“一報還一報”放棄了占他人便宜的可能性。盡管占他人便宜有時是有利可圖的，但是試圖占便宜而引來的問題也多種多樣。首先，如果一個規則用背叛試探是否可以占便宜，它就得冒被那些可激怒的規則報複的風險。第二，雙方的反擊一旦開始，就很難自行解脫。

“一報還一報”穩定成功的原因是它綜合了善良性、報複性、寬容性和清晰性。它的善良性防止它陷入不必要的麻煩，它的報複性使對方試著背叛一次後就不敢再背叛，它的寬容性有助於重新恢複合作。它的清晰性使它容易被對方理解，從而實現長期的合作。

走出“囚徒困境。”

下麵為那些處於“囚徒困境”的人提供建議，把我們外麵的發現轉化成對參與者的建議。

在持續的“重複囚徒困境”中應如何表現，下麵是四個簡單的建議：1.不要嫉妒。

人們習慣於考慮零和對局，在這種情況下，一個人贏，另一個就輸。

人們傾向於采用相對的標準，這個標準經常把對方的成功與自己的成功對立起來。這種標準導致了嫉妒，嫉妒導致企圖抵消對方已經得到的優勢。在“囚徒困境”的形式下，抵消對方優勢隻能通過背叛來實現，但是背叛又會導致更多的背叛以及對雙方的懲罰。因此嫉妒就是自我毀滅。