博弈智慧-正文第5章如何走出“囚徒困境”

要求自己比對方做得好不是一個很好的標準，除非你的目的是消滅對方。然而在大多數情況下，這個目的是不可能實現的。

“一報還一報”由於與其他多種多樣策略相處得很好而贏得了競賽。平均來說，它比競賽中的其他任何策略都做得更好。但是“一報還一報”從來沒有“贏得”一次比賽——換言之，在遊戲中，它從來沒有比對方得到更多的分！事實上，它不可能比對方多得分，它總是讓對方先背叛，並且它的背叛次數決不比對方背叛的多。因此“一報還一報”不是得到和對方一樣多的分，就是比對方略少。“一報還一報”贏得競賽不是靠打擊對方，而是靠由對方引出對雙方都有好處的行為。“一報還一報”如此堅持引出對雙方有利的結果，從而使它獲得比其他任何策略都高的總分。

因此在一個非零和的世界裏，你沒有必要非得比對方做得更好。特別是當你要和許多不同的對手打交道時更是這樣。隻要你自己能做得好就沒有理由去嫉妒對方的成功。因為在長時間的“重複囚徒困境”中，其他人的成功是你自己成功的前提。

2.不要首先背叛。

決定一個規則表現如何的唯一最好的特征是這個規則是否善良，也就是說這個規則是否不首先背叛。在第一輪競賽中，前8名規則都是善良的，在後7名規則中則沒有一個是善良的；在第二輪競賽中，前15名規則中隻有一個是非善良的，而後15名規則中隻有一個是善良的。

對有些不善良的規則，可以使用相當複雜的方法來試探它是否能逃脫懲罰。例如嚐試在第一步背叛，如果對方報複的話，就馬上撤回。在另一個例子中，在背叛前等待十幾步，看看對方是否能被哄騙和偶爾被占便宜。如果是的話，就更頻繁地增加背叛，直到對方反擊而被迫撤回。但是這些嚐試道德背叛的策略都表現得不怎麼好。

許多專家也沒有意識到善良對避免不必要衝突所具有的價值。在第一輪競賽中，由對策論專家送來的規則中幾乎有一半是不善良的。參考了第一輪的明顯結果，第二輪比賽中大約有1/3規則用不善良的策略，但是，它們都沒有占到便宜。

前麵的競賽結果提供了另一個方式來說明為什麼善良的規則能表現得如此好，這是由於善良的規則相互之間相處得很好，因而善良規則的群體是很難被侵入的，而且能夠阻止單個變異個體侵入的善良規則的群體也能阻止這個變異規則的任何小群體的侵入。

當然，你可以嚐試更保險的方式，即先背叛，直到對方合作才開始合作。然而，競賽的結果表明，這實際上是一個很有風險的策略，因為你的最初的背叛就可能引起對方的報複，並使你處於要麼被占便宜要麼雙方背叛的兩難境地。如果你懲罰對方的報複，這種反應就會一直延續下去。如果你寬恕了對方，你就得冒被欺負的風險。即使你能避免這些長遠問題，對你的最初背叛的當下報複會使你後悔：自己從一開始就應該是善良的。

對競賽的生態分析揭示了為什麼首先背叛是很冒險的另一個道理。第二輪競賽中前15名規則中唯一的非善良策略是名列第八的“哈林頓”，因為它與競賽中的名次較低的規則相遇的得分都很高。在假想的未來生態競賽中，名次較低的規則在群體中的比例越來越小，最終能被這個最初很成功的非善良策略占便宜的策略就越來越少，接著它自己也消亡了。因此，隻會占“傻瓜”的便宜是沒有用的，它隻不過是一個自我毀滅的過程。這個教訓說明，雖然不善良在最初看來似乎是很有希望的，但長期下去它將毀壞使自己成功所必需的環境。

3.對合作與背叛都要給以回報。

“一報還一報”超常的成功給出了一個簡單的但又是很有力量的建議：要回報。在第一步合作之後，“一報還一報”隻是簡單地回報對方在上一步的所為。這個簡單的規則驚人地有效，它贏得了第一輪“囚徒困境”計算機競賽的勝利，並取得比任何其他由對策論專家們送來的規則更高的平均得分。每一個第二輪競賽的參加者都知道這個結果，但“一報還一報”又贏了第二輪競賽。這個勝利顯然是令人驚訝的，因為每一個參賽者是在考慮了“一報還一報”在第一輪競賽中的勝利結果之後，才提交參賽規則的。顯然人們都希望能幹得更好，但是他們錯了。

“一報還一報”不僅贏得了競賽本身，而且在假設的繼續比賽中比其他任何規則表現得都好。這表明“一報還一報”不僅與最初的各種規則相處得很好，而且能與那些可能的未來群體中占較大份額的成功的規則相處得很好，它不毀壞自己成功的基礎，相反它在與其他成功的規則相互交往中繁榮起來。

“一報還一報”所體現的回報在理論上也是很重要的。當未來相對於現在是足夠重要的時候，“一報還一報”是穩定的。這就意味著，如果每個人都使用“一報還一報”策略，那麼對一個特定的個體的最好建議就是也采用“一報還一報”策略。或者這麼說，如果你能肯定對方是采用“一報還一報”，並且這種狀況持續的時間足夠長，那麼，你最好也采用相同的策略。“一報還一報”的回報性的精彩之處在於它能在很大範圍的環境中表現出色。

事實上，“一報還一報”很善於區分哪些規則會回報它的最初合作，哪些不會。這就使得它能夠以一個小群體的形式侵入“小人”的世界。並且，它回報背叛也回報合作。這使得它是可激怒的。而善良的策略要阻止被侵入，就必須是可激怒的。

在回應對方的背叛時，“一報還一報”保持了懲罰和寬恕的平衡。“一報還一報”總是在對方每次背叛之後隻背叛一次。那麼，是否總是嚴格的一對一回報才是最有效的平衡？這就很難說了，但有一點是清楚的，即用多於一次的背叛來回報對方的背叛將有可能使衝突升級。另一方麵，少於一對一的回報將存在被占便宜的危險。

以上分析的啟示是，最優的寬恕水平與環境有關，特別是當主要的危險來自那些善於占“好說話”的規則便宜的策略，那麼，太多的寬恕就要付出代價。因此，對參與者的一個很好的建議是對合作和背叛都要給予回報。

4.不要耍小聰明。

在“囚徒困境”中，我們已經了解了這樣一個道理：如果你總是想贏對方，結果可能得不償失。因為對方也會全力反擊，造成“兩敗俱傷”的局麵。

競賽結果表明在“囚徒困境”的情況下人們容易耍小聰明，然而複雜的規則並不比簡單的規則做得更好。事實上，這些規則的共同問題是，使用一些複雜的方法來推斷對方，而這些推斷常常是錯誤的。一部分問題是對方經常用試探性的背叛來表明它不會被引誘而合作，但是問題的關鍵是這些規則沒有考慮到它自己的行為會引起對方的變化。

對方對你的行為是有反應的，在“囚徒困境”中的對方不應該被認為是一心想背叛你的。對方將把你的行為看做你是否回報合作的信號。因此，你的行為將會反射到自己身上。

試圖使得分最大化的規則把對方看做環境的一個不變的部分而忽略了相互的作用，不管他們在有限的假設下所作的計算是多麼的聰明。如果你離開雙方相互適應的簡單原則，那麼你的聰明是不會有好結果的。這是一條艱難的路，顯然在兩次競賽中沒有一個複雜的規則精於此道。

另一個過分聰明的方式是使用“永久報複”的策略。這個策略隻要對方合作它就合作，但是一旦對方背叛一次，它就決不合作。由於這個策略是善良的，它與其他善良的策略相處得很好，並且它與那些完全隨機的規則相遇時幹得也不錯。但它與許多其他規則相遇就幹得很差，因為對於那些偶爾背叛但準備一旦受懲罰就撤回的規則來說，它太快放棄合作了。“永久報複”看起來似乎很聰明，因為它為避免背叛提供了最大的激勵，但是它為了自己的利益顯得太嚴厲了。

參加競賽的規則中還有第三種太聰明的形式是，他們采用的策略如此複雜，以至於其他策略不能把它們與純粹的隨機選擇區分開來。用另一種方式來說，就是太多的複雜性反而顯得雜亂無章了。如果你采用一個看起來是隨機的策略，那麼你也就顯得對對方不反應，如果你是不反應的，對方就受不到與你合作的激勵。因此，複雜到不可理解的程度是非常危險的。

當然，在人類的許多事務中，一個使用複雜規則的人可以向對方解釋每一個選擇的理由。然而，問題又出現了：對方可能懷疑這些所提供的理由，在這個情況下對方將認為不值得有任何反應，對方會把一個顯得不可預測的規則看做不可改造的，結果自然是導致背叛。

“一報還一報”在競賽中得到巨大成功的原因之一是它具有很大的清晰性，即它非常容易被對方理解。當你使用“一報還一報”策略時，對方有很好的機會去理解你在幹什麼。你對任何背叛的一對一的反應是一個很容易被意識到的模式，而且你的未來行為是可以被預測的。一旦這些情況發生了，對方能容易地發現應對“一報還一報”的最好方式就是與它合作。假設這個遊戲有足夠的可能繼續下去，至少還有下一步相遇。那麼當你遇到“一報還一報”策略時隻有馬上和它合作是最好的，這樣你將可以在下一步得到它的合作。

另外，在零和對策（如下棋）和非零和對策（如“重複囚徒困境”）之間有一個重要的不同。在下棋時，讓你的對手猜測你的企圖是很有用的，你的對手越是懷疑，他的策略就越沒效果。但是在非零和情況下，如此聰明不總是有好處的。在“重複囚徒困境”中，你要從對方的合作中得到好處，訣竅在於鼓勵合作，一個好的方式就是清楚地表明你願意回報，這就是“一報還一報”之所以如此有效的原因。