第八章重複博弈:不做一錘子買賣 “一報還一報”的偉大勝利
通常我們把“一報還一報”看做下策,理由是“冤冤相報何時了”。事實上,從博弈的角度來看,有時候“一報還一報”正是一種有效的對策。
提出“一報還一報”策略的是美國密西根大學的學者羅伯特?愛克斯羅德。他是一個政治家,研究方向是人與人之間的合作關係。
在開始研究合作之前,愛克斯羅德設定了兩個前提:一、每個人都是自私的;二、沒有權威幹預個人決策。也就是說,個人可以完全按照自己利益最大化的目標進行決策。在此前提下,要研究的問題是:第一,人為什麼要合作;第二,人什麼時候是合作的,什麼時候是不合作的;第三,如何使別人與你合作。
在研究的過程中,愛克斯羅德組織了一場計算機模擬競賽。其主要內容是:任何參加這個競賽的人都扮演“囚徒困境”案例中一個囚犯的角色,把自己的策略編成計算機程序,進行捉對博弈,在合作與背叛之間作出選擇。但與“囚徒困境”案例的不同之處是:他們不止玩一次這個遊戲,而是以單循環賽的方式玩上200次。
第一輪遊戲有14個程序參加,在捉對廝殺中,程序運轉了十多萬次,最後按照總得分排出名次,勝出的程序是一個被稱為“一報還一報”的策略。
“一報還一報”是人類最古老的行為規則之一。它要求我們最初總以善意待人,在沒有被欺騙之前,永遠不要主動欺騙他人;但一旦發現他人的欺騙,下次交往時要毫不猶豫地報複、懲罰;懲罰過後,又回到起點,繼續善意待人。這種行為規則中,永遠隻需記憶最近一次的對方行為,寬容看待對方的過往行為,除了上一次背叛。
很快,愛克斯羅德又組織了第二輪遊戲。這次有62個程序參加,其中還有不少程序針對上一次的策略專門作了改進。一場混戰的結果是,“一報還一報”再次排名第一。
這兩次遊戲競賽充分證明了“一報還一報”策略的威力。愛克斯羅德後來曾公開征集可能打敗它的策略程序,但二十多年過去,還沒有程序能做到這一點。那麼這個具有相當威力的神奇策略到底是怎樣的呢?
其實很簡單:第一步合作,此後每一步都重複對方上一步的行動:合作或背叛。這個簡單的程序之所以反複獲勝,是因為它奉行了“以其人之道還治其人之身”的原則,並且用如下特征最有效地鼓勵其他程序同它長期合作:善良、可激怒、寬容、簡單、不妒忌別人的成功。
在重複博弈中,過分的忍讓,未必就是一件好事。對於一些失信的不良人等,我們必須以其人之道還治其人之身。
電視劇《亮劍》中,日本的山本特工隊夜襲獨立團團部,擄走了獨立團團長李雲龍的新婚妻子秀芹,重傷獨立團政委趙剛。李雲龍集結隊伍,未經請示,公報私仇,攻打山本特工隊所在的平安縣城,最終全殲山本特工隊,但秀芹也玉石俱焚。這一仗打出了八路軍的威風,更打滅了日本人驕橫、不可一世的氣焰。戰鬥過後,李雲龍去野戰醫院看望趙剛時,二人有了一番推心置腹的交談。一向服從上級領導、守紀律、講原則的趙剛這次沒有埋怨李雲龍擅自調動部隊作戰,反而讚賞地對李雲龍說:“你李雲龍,是有仇就報的性格,那獨立團當然也是如此。君子報仇,十年不晚,這句話不適合獨立團。獨立團是有仇就報,馬上就報,你給我一刀,我反手就是一劍。公平合理,決不欠債。”