正文 第2章 囚徒困境,選擇決定勝敗(1 / 3)

生活中,你總是會遇到博弈論的內容,你也往往會陷入類似“囚徒困境”的兩難境地。如同哈姆雷特一樣,合作還是背叛,是一個很難抉擇的問題。但再難解的問題也並非毫無辦法。而且,如果你能夠巧妙地利用這種棘手的困境,還可以幫助自己化解難題,為自己帶來更多利益。

兩難選擇,合作還是背叛

1950年,由就職於蘭德公司的梅裏爾·弗勒德(Merrill Flood)和梅爾文·德雷希爾(Melvin Dresher)擬定出一種相關困境的理論,後來由顧問艾伯特·塔克(Albert Tucker)以囚徒方式闡述,並命名為“囚徒困境”。這也是關於博弈論流傳最廣的一個故事,在哲學、倫理學、社會學、政治學、經濟學乃至生物學等學科中,獲得了極為廣泛的應用。

故事有很多版本,大意是這樣的:

有一天,一位富翁在家中被殺,財物被盜。警方在此案的偵破過程中,抓到兩個犯罪嫌疑人,並從他們的住處搜出被害人家中丟失的財物。但是,他們矢口否認曾殺過人,辯稱是先發現富翁被殺,然後隻是順手牽羊偷了點兒東西。於是警方將兩人隔離審訊。檢察官說:“你的偷盜罪確鑿,所以可以判你1年刑期。但是,我可以和你做個交易。如果你單獨坦白殺人的罪行,我隻判你3個月的監禁,但你的同夥要被判10年刑。如果你拒不坦白,而被同夥檢舉,那麼你就將被判10年刑,他隻判3個月的監禁。但是,如果你們兩人都坦白交代,那麼,你們都要被判5年刑。”

顯然最好的策略是雙方都抵賴,結果是大家都隻被判1年。但是由於兩人處於隔離的情況下無法串供。那麼,囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方的選擇;而即使他們能交談,還是未必能夠盡信對方不會反悔。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得低。試設想困境中兩名理性囚徒會如何做出選擇:

若對方沉默,背叛會讓我獲釋,所以會選擇背叛。

若對方背叛指控我,我也要指控對方才能得到較低的刑期,所以也是會選擇背叛。

兩人麵對的情況一樣,所以兩人的理性思考都會得出相同的結論———選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的平衡,就是雙方參與者都背叛對方,結果兩人同樣服刑5年。

這樣兩人都選擇坦白的策略以及因此被判5年的結局,被稱為“納什均衡”,也叫非合作均衡。從這裏可以引出一個悖論:從利己的目的出發,結果卻損人不利己。兩個囚徒的命運就是如此。從這個意義上說,我們還可以悟出一條真理:合作是有利的“利己策略”。

但它必須符合以下黃金律:也就是我們常說的“己所不欲,勿施於人”,且前提是“人所不欲,勿施於我”。

納什均衡的貢獻是,證明了在這一類的競爭中,在很廣泛的條件下是有穩定的解存在,隻要是別人的行為確定下來,競爭者就可以有最佳的策略。他的這項理論工作使得博弈論從此成為經濟學家用來分析從商業競爭到貿易談判種種現象的有力工具。

現實中,無論是人類社會或大自然都可以找到類似囚徒困境的例子:

在政治學中,兩國之間的軍備競賽可以用囚徒困境來描述。兩國都可以聲稱有兩種選擇:增加軍備(背叛)、或是達成削減武器協議(合作)。兩國都無法肯定對方會遵守協議,因此兩國最終會傾向增加軍備。似乎自相矛盾的是,雖然增加軍備會是兩國的“理性”行為,但結果卻顯得“非理性”(例如會對經濟造成損害等)。這可視作遏製理論的推論,就是以強大的軍事力量來遏製對方的進攻,以達到和平。

在經濟學中,表現為關稅戰。兩個國家,在關稅上可以有兩個選擇:

提高關稅,以保護自己的商品。(背叛)

與對方達成關稅協定,降低關稅以利各自商品流通。(合作)

當一國因某些因素不遵守關稅協定,獨自提高關稅(背叛),另一國也會做出同樣反應(亦背叛),這就引發了關稅戰,兩國的商品失去了對方的市場,對本身經濟也造成損害(共同背叛的結果)。然後兩國又重新達成關稅協定。(重複博弈的結果是將發現共同合作利益最大)

在商業中,以廣告戰為例:兩個公司互相競爭,它們的廣告互相影響,即一個公司的廣告較被顧客接受則會奪取對方的部分收入。但若兩者同時期發出質量類似的廣告,收入增加很少但成本增加。但若不提高廣告質量,生意又會被對方奪走。

這兩個公司可以有兩個選擇:

互相達成協議,減少廣告的開支。(合作)

增加廣告開支,設法提升廣告的質量,壓倒對方。(背叛)

若兩公司不信任對方,無法合作,背叛成為支配性策略時,兩公司將陷入廣告戰,而廣告成本的增加損害了兩公司的收益,這就是陷入囚徒困境。在現實中,要兩個互相競爭的公司達成合作協議是較為困難的,多數都會陷入囚徒困境中。

除了上述領域,在生活中,往往也有很多囚徒博弈的例子,比如有這樣一個故事:

兩個旅行者麥克和約翰從一個以出產瓷器的著名旅遊勝地回來時,他們各買了一個瓷花瓶。提取行李時,發現花瓶被碰破了,他們向航空公司索賠。

航空公司估計花瓶的價格在80~90元左右,但不知道這兩位旅客購買的準確價格。航空公司要求兩位旅客在100元以內,自己寫下花瓶價格。若兩人寫的相同,說明他們說了真話,就照他們寫的數額賠償;如果兩人寫的不一樣,那就認定寫得低的旅客講的是真話,按這個低的價格賠償,但是對講真話的旅客獎勵2元錢,對講假話的旅客罰款2元。

如果兩人都寫100元,他們都會獲得100元。但是,假定約翰寫100元,麥克改寫99元,則他會獲得101元。約翰又想,若麥克寫99元,他自己寫98元,比寫100元好,因為這樣他獲100元,而自己寫100元當麥克寫99元時自己卻隻獲97元。而給定約翰寫98元,麥克又會寫97元……這樣,最後落得兩個人隻寫1元的境地。

雙輸,這就是囚徒困境帶來的結果。

再有,一個小鎮政府有一個為期一年的采購計劃,每個月采購一批飲料。如果小鎮上的兩家飲料公司的報價一致,那麼政府就把訂單一分為二。否則,政府會把更多的訂單給報價低的那個公司。顯然,這兩家公司都報出同樣的高價,才符合其利益。在這種多次博弈中,他們會聯合起來出高價嗎?如果會,那麼在一年12次的博弈中他們會合作幾次呢?

假如他們開始簽訂了合約,都報出一個比較高的價位。不過,顯然最後一次他們不需要遵守合約,因為反正以後沒有采購計劃了,違約也不會有什麼壞處。如果是這樣,倒數第二次也不需要遵守合約,因為不論怎樣倒數第一次都是要違約的,那就不存在是否有懲罰的問題。所以倒推下來,一次合約都不用遵守。兩家公司最後可能還是兩敗俱傷。

如果你有興趣,還可以做一個實驗:選定幾個人,讓他們都猜一個數字,必須是1或100之間的整數。條件是誰最接近所有實驗者的所猜數字平均值的1/3,誰就可以得到100塊錢。

這個時候,每一個人都會想:如果一開始其他人都是隨機地選擇數字,50就會是所有人的猜測。這個時候,猜50的1/3也就是大約17可能會贏。然而,每一個人都會猜到17這個數字的時候,大家就會猜測17的1/3,也就是6左右。依此類推,這個遊戲中的每一個人最終猜測的結果是唯一最小的數字,那就是1.

我們可以看到,在“囚徒困境”中,每一方在選擇策略時,都隻是選擇對自己最有利的策略,而並不顧及其他對手的利益和社會效益。表麵上看,這種策略組合是由當事雙方各自認為的最佳策略構成。實際上,雙方都選擇拒絕招供才是真正的最佳策略,因為這樣才會使兩個人都無罪釋放,雙方都獲得最大利益。但是,沒有人會主動改變自己的策略以便使自己獲得最大利益,因為,這種改變會給自己帶來不可預料的風險———萬一對方沒有改變策略呢?

這就是“囚徒困境”中的兩難境地,生活中如果遇到類似困境該怎麼辦?有什麼解決的辦法嗎?下麵來談。

遵守遊戲規則

“囚徒困境”這個問題為我們探討合作是怎樣形成的,提供了極為形象的解說方式,產生不良結局的原因是因為囚犯二人都基於自私的角度開始考慮,這最終導致合作沒有產生。

個體的理性導致雙方得到的比可能得到的少,這就是“困境”。當個體都做出有利於自己的“理性”選擇時,結果卻是整體的非理性。當個人理性與集體理性發生衝突的時候,每個人都以利己的目的為出發點,結果既不利己也不利人,導致的最終結果是“納什均衡”,對雙方都不利。

生活中,我們每個人在和別人交往的過程中,都有可能遭遇到這種困境。該怎麼做才能使自己的利益最大化呢?

其實道理很簡單,對大家最合理和有利的做法是大家都遵守遊戲規則,從而達到“雙贏”的目的。

如果你選擇背叛而對方選擇合作,表麵上看起來是你得到了最大利益。但實際生活中,我們會麵臨多次重複的囚徒困境。而在重複的囚徒困境中,博弈被反複地進行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結果出現。欺騙的動機這時可能被受到懲罰的威脅所克服,從而可能導向一個較好的、合作的結果。

所以,與其被迫在得到懲罰之後才選擇合作,不如大家都遵守遊戲規則。

一次,有位中國商人和兩個房地產公司的客戶去澳大利亞的墨爾本,與一家建築設計事務所商談項目設計的事情。這家事務所在墨爾本市中心,澳方谘詢合作夥伴開車接他們去那裏。到達後停車的時候,他發現一個穿製服的管理員拿著一支粉筆,在一些車的右後輪胎的上方劃上一道橫線。他問合作夥伴,這個人為什麼這樣做?他解釋說,墨爾本市中心的停車位非常緊張,所以每輛車在一個位置上隻可以停留40分鍾。停車管理員巡視整個街區,在每一輛新近停留的車上做標記,如果過了40分鍾,某一輛車的輪胎上畫的線還在上方的位置,那他就要抄牌了。

他們在這家事務所談了半個小時後,他的那個合作夥伴跟大家說:抱歉,我要下樓一下。十幾分鍾後,他回來了,輕鬆地說:沒什麼事,隻是挪了一下車,在街上兜了一圈回來,又可以有40分鍾的停車時間了。這位中國商人笑了起來:為什麼要兜一圈車?你把粉筆道兒擦掉不就行了嗎?他愣了一下,很嚴肅地說:你怎麼會這樣想?那不是撒謊嗎?稍後,他可能看出了對方的尷尬,緩和了口氣說:規則是要大家一起遵守的,我們已經習慣了,所以澳大利亞才會很有秩序。

同樣,在新西蘭,報亭既無管理員也不上鎖,買報紙的人自行放下錢後拿走報紙。當然某些人可能取走報紙卻不付錢(背叛),但由於大家認識到如果每個人都偷竊報紙(共同背叛),會造成以後不方便的有害結果,所以這種情形很少發生。

這個例子的特別之處是,新西蘭人並沒有被任何其他因素影響而能夠脫離囚徒困境。並沒有任何人特別去注意報亭,人們守規則是為了避免共同背叛帶來的惡果。

這就是脫離囚徒困境的方法之一,要求每個人都誠實而理智。

羅伯特·阿克塞爾羅德在其著作《合作的進化》中,探索了擺脫囚徒困境、獲得成功的幾個必要條件:

友善。最重要的條件是必須“友善”,這就是說,不要在對手背叛之前先背叛。完全自私的策略僅僅出於自私的原因,也永遠不會首先打擊其對手。

報複。和上麵的條件矛盾是麼?雖然要求友善,但是阿克斯洛德主張,成功者必須不是一個盲目樂觀者,要始終報複。一個非報複策略的例子是始終合作。這是一個非常糟糕的選擇,因為“下流”策略將殘酷地剝削這樣的傻瓜。

寬恕。成功策略的另一個品質是必須要寬恕。雖然它們不報複,但是如果對手不繼續背叛,它們會一再退卻到合作。這阻止了報複和反報複的長期進行,最大化了利益。

不嫉妒。最後一個品質是不嫉妒,就是說不去爭取得到高於對手的利益。

因此,阿克塞爾羅德得到一種給人以烏托邦印象的結論,認為自私的個人為了其自私的利益會趨向友善、寬恕和不嫉妒。

看起來很不可思議,而且太理性化是嗎?事實上也許不是不可能:

1944年的聖誕夜,兩個迷了路的美國大兵拖著一個受了傷的兄弟在風雪中敲響了德國西南邊境亞爾丁森林中的一棟小木屋的門,他的主人,一個善良的德國女人,輕輕地拉開了門上的插銷。

家的溫暖在一瞬間擁抱了三個又冷又餓的美國大兵。女主人開始有條不紊地準備著聖誕晚餐,沒有絲毫的慌亂與不安,沒有絲毫的警惕與敵意。因為她相信自己的直覺:他們隻是戰場上的敵人,而不是生活中的壞人。美國大兵們靜靜地坐在爐邊烤火,除了燃燒的木柴偶爾發出一兩聲脆響外,靜得幾乎可以聽見雪花落地的聲音。

正在這時候,門又一次被敲響了。站在滿心歡喜的女主人麵前的,不是來送禮物和祝福的聖誕老人,而是四個同樣疲憊不堪的德國士兵。女主人同樣用西方人特有的方式告訴她的同胞,這裏有幾個特殊的客人。今夜,在這棟彌漫著聖誕氣息的小木屋裏,要麼發生一場屠殺,要麼一起享用一頓可口的晚餐。在女主人的授意下,德國士兵們垂下槍口,魚貫進入小木屋,並且順從地把槍放在牆角。

於是,1944年的聖誕燭火見證了或許是二戰史上最為奇特的一幕:一名德國士兵慢慢蹲下身去,開始為一名年輕的美國士兵檢查腿上的傷口,爾後扭過頭去向自己的上司急速地訴說著什麼。人性中善良的溫情的一麵決定了他們的感覺是奇妙而美好的,沒有人擔心對方會把自己變成邀功請賞的俘虜。第二天,睡夢中醒來的士兵們在同一張地圖上指點著,尋找著回到己方陣地的最佳路線,然後握手告別,沿著相反的方向,消失在白茫茫的林海雪原中。