警方逮捕甲、乙兩名嫌疑犯,但沒有足夠證據指控二人有罪。於是警方分開囚禁嫌疑犯,分別和二人見麵,並向雙方提供以下相同的選擇:
若一人認罪並作證檢控對方(相關術語稱“背叛”對方),而對方保持沉默,此人將即時獲釋,沉默者將判監10年。
若二人都保持沉默(相關術語稱互相“合作”),則二人同樣判監半年。
若二人都互相檢舉(互相“背叛”),則二人同樣判監兩年。
那麼,囚徒應該怎樣脫離被囚禁的環境?
假定每個參與者(即“囚徒”)都是利己的,即都尋求最大自身利益,而不關心另一參與者的利益。參與者某一策略所得利益,如果在任何情況下都比其他策略要低的話,此策略稱為“嚴格劣勢”,理性的參與者絕不會選擇。另外,沒有任何其他力量幹預個人決策,參與者可完全按照自己意願選擇策略。
囚徒到底應該選擇哪一項策略,才能將自己個人的刑期縮至最短?兩名囚徒由於隔絕監禁,並不知道對方的選擇;而即使他們能交談,還是未必能夠盡信對方不會改口。就個人的理性選擇而言,檢舉背叛對方所得刑期,總比沉默要來得短。試設想困境中兩名理性囚徒會如何作出選擇:
若對方沉默,背叛會讓我獲釋,所以會選擇背叛。
若對方背叛指控我,我也要指控對方才能得到較短的刑期,所以也是會選擇背叛。
二人麵對的情況一樣,所以,二人的理性思考都會得出相同的結論——選擇背叛。背叛是兩種策略之中的支配性策略。因此,這場博弈中唯一可能達到的納什均衡,就是雙方參與者都背叛對方,結果二人同樣服刑兩年。
這場博弈的納什均衡,顯然不是顧及團體利益的帕累托最優解決方案。以全體利益而言,如果兩個參與者都合作保持沉默,兩人都隻會被判刑半年,總體利益更高,結果也比兩人背叛對方、判刑兩年的情況更佳。但根據以上假設,二人均為理性的個人,且隻追求自己個人利益。均衡狀況會是兩個囚徒都選擇背叛,結果二人判決均比合作高,總體利益較合作低。這就是“困境”所在。
囚徒困境(Prison Dilemma)是博弈論的非零博弈中具代表性的例子,反映個人最佳選擇並非團體最佳選擇。雖然困境本身隻屬模型性質,但現實中的價格競爭、環境保護等方麵,也會頻繁出現類似情況。
單次發生的囚徒困境,和多次重複的囚徒困境結果不一樣。
在重複的囚徒困境中,博弈被反複地進行。因而每個參與者都有機會去“懲罰”另一個參與者前一回合的不合作行為。這時,合作可能會作為均衡的結果出現。欺騙的動機這時可能被受到懲罰的威脅所克服,從而可能成為一個較好的、合作的結果。作為反複接近無限的數量,納什均衡趨向於帕累托最優。
囚徒困境的主旨為,囚徒們雖然彼此合作,可為全體帶來最佳利益(無罪開釋),但在信息不明的情況下,因為出賣同夥可為自己帶來利益(縮短刑期),也因為同夥把自己招出來可為他帶來利益,因此,彼此出賣雖違反最佳共同利益,反而是自己最大利益的關鍵。但實際上,執法機構不可能設立如此情境來誘使所有囚徒招供,因為囚徒們必須考慮刑期以外的因素(出賣同夥會受到報複等),而無法完全以執法者所設立的利益(刑期)作考慮。