博弈智慧-正文第4章極小極大原理和納什均衡

在某種情況下，博弈雙方的策略選擇往往是有跡可循的，並形成某種“定式”，即均衡。均衡不一定是博弈的最優結果，而隻是最“穩定”的結果，或者說是最可能出現的結果。

極小極大原理諾伊曼認為：在一個二人零和遊戲中，總會找到一種有一個明確而合乎理性的方法以獲得個人的最佳收益，而這個“明確而合乎理性的方法”就是“極小極大原理”。諾伊曼的這一發現可能是博弈論最重要的核心內容。

什麼是“極小極大原理”呢？就是用通俗一點兒的話說就是，你想贏得競爭，可能有幾種選擇，你當然願意選擇受益最大的一種；但是你的選擇不能不考慮對方的對策，因為他跟你一樣，也是這樣想的，所以你就必須把對方的選擇也考慮清楚。比如你有兩種選擇，對方也有兩種對策，如果你的一種選擇無論在對手作出何種對策時效果都比另外一個好，這通常被稱為“優勢策略”；另一方麵，對手也明白你的優勢策略所在，知道你會照此實行，所以也會在自己的兩個對策中選擇效果最好的一種——這也是他的優勢策略。顯然，如果雙方都選擇優勢策略。那麼這個博弈就是有跡可循、可以預測的，也就是所謂“理性的解”，並形成某種“定式”，即均衡。

比如在“囚徒困境”中，招供就是“理性的解”，因為就單方麵來說，無論對方招不招供，你招供都是最佳策略，於是結果就是雙方招供，這個結果其實並不好，但最可能出現，這就是“均衡”。

為什麼會出現這個不好的結果呢？因為對任何一方來說，這個結果還不是最壞的——總比自己獨自受過要好。著名作家卡爾維諾一語道破：“有時候，你能指望的最佳結果就是避免最壞情況。”

還可以用“分蛋糕”的故事說明這個均衡：給兩個小孩分一塊蛋糕，誰都希望自己分到大的一塊，如何解決這個矛盾呢？

當然，大人可以作為仲裁者，幫助他們分，但是就算你切得再仔細，也不可能做到完全公平；而且，就算你做到完全的公平，恐怕還會有人覺得吃了虧。那麼，有沒有更好的辦法呢？

當然有，這就是你製定一個規則——由一個人來分，而由另一個人先選擇要哪一塊。顯然前者知道，後者的優勢策略就是選擇較大的那一塊，所以盡可能分得公平就是他的優勢策略，隻有這樣才可以把自己的損失降到最小。

新聞大戰與博弈策略當你身處類似“囚徒困境”這樣的同時行動的博弈時，你的最佳策略是什麼？決定勝負的因素又是什麼？雙方的策略選擇往往是有跡可循的，並形成某種“定式”，即均衡。

為了說明博弈如何達到“均衡”的結果，我們可以通過兩份雜誌——美國的《時代》和《新聞周刊》為例來演示這一過程。

每個星期，《時代》和《新聞周刊》都會暗自較勁，要做出最引人注目的封麵故事。一個富有戲劇性或者饒有趣味的封麵，可以吸引潛在買主的目光。因此，每個星期，《時代》的編輯們一定會舉行閉門會議，選擇下一個封麵故事。

他們這麼做的時候，很清楚在此時《新聞周刊》的編輯們也在開會，選擇下一個封麵故事；反過來，《新聞周刊》的編輯們也知道《時代》的編輯們正在做同樣的事情……這兩家新聞雜誌投入了一場博弈。由於《時代》與《新聞周刊》的行動是同時進行的，雙方都在毫不知曉對手的決定的情況下采取行動。不過他們都知道雙方在博弈中的期望是什麼，所以可以預料對方的策略選擇。

要注意，這種同時進行的博弈與相繼（一先一後）行動的博弈所要用到的策略思維和行動是完全不同的。對於像下棋這樣的一人一步的相繼行動的博弈，每個參與者都必須向前展望，估計對手的意圖，決定自己這一步應該怎麼走。這是一條線性的推理鏈：假如我這麼做，他就會那麼做——若是那樣，我會這麼反擊，依此類推。也就是說，你怎麼走，完全取決於對手的上一步行動。

而在同時行動的博弈裏，沒有一個參與者可以在自己行動之前得知另一個參與者的整個計劃。在這種情況下，互動推理不是通過觀察對方的策略進行，而是必須通過看穿對手的策略才能展開。要想做到這一點，單單假設自己處於對手的位置會怎麼做還不夠。即便你那樣做了，你又能發現什麼？你隻會發現，你的對手也在做同樣的事情，即他也在假設自己處於你的位置會怎麼做。因此，每一個人不得不同時扮演兩個角色，一個是自己，一個是對手，從而找出雙方的最佳行動方式。與一條線性的推理鏈不同，這是一個循環——“假如我認為他認為我認為……”。訣竅在於怎樣破解這個循環。

我們可以提供一個單一的、統一的原理，為相繼行動的博弈確定最佳策略，就是“向前展望，倒後推理”。在這裏，事情不會那麼簡單。不過，關於同時行動不可少的思維方式的思考可以總結為指導行動的三個簡單法則。反過來，這些法則又基於兩個簡單概念：優勢策略與均衡。

舉一個簡單的例子，你是一名足球前鋒，你和隊友形成了二打一的局麵，你麵對著對方的後衛，你可以選擇帶球突破，也可以選擇傳球給隊友。一般情況下，傳球過人的成功率更大，那麼傳球就是你的優勢策略，即某些時候它勝於其他策略，且任何時候都不會比其他策略差。假如一個球員擁有這麼一個策略，他的決策就會變得非常簡單，他可以選擇這個優勢策略，完全不必擔心其他對手怎樣行事。因此，尋找優勢策略是每一個人的首要任務。

回到《時代》對《新聞周刊》的例子，假定本周有兩大新聞：一是國會就預算問題吵得不可開交；二是發布了一種據說對艾滋病有特效的新藥。編輯們選擇封麵故事的時候，首先考慮的是哪一條新聞更能吸引報攤前的買主（假投無論采用哪一則新聞封麵故事消費者都會買這本雜誌）。在報攤前的買主當中，假設30%的人對預算問題感興趣，70%的人對艾滋病新藥感興趣，這些人隻會在自己感興趣的新聞變成封麵故事的時候掏錢買雜誌。假如兩本雜誌用了同一則新聞做封麵故事，那麼感興趣的買主就會分為兩組，一組買《時代》，另一組買《新聞周刊》。

現在，《時代》的編輯可以進行如下推理：假如《新聞周刊》采用“艾滋病新藥”作封麵故事，那麼，假如我采用“預算問題”作封麵故事，我就會得到整個“預算問題市場”（即全體讀者的30%），假如我采用“艾滋病新藥”，我們兩家就會平分‘艾滋病新藥市場’（即我得到全體讀者的35%），因此，“艾滋病新藥”為我帶來的收入就會超過“預算問題”。假如采用“預算問題”，那麼，假如我采用同樣的故事，我會得到15%的讀者，假如我采用“艾滋病新藥”，就會得到70%的讀者；這一次，第二個方案同樣會為我帶來更大的收入。因此，我有一個優勢策略，就是采用“艾滋病新藥”作封麵。無論我的對手選擇采用上述兩個新聞當中的哪一個，我采用這一策略都會比我采用其他策略更勝一籌。

當對手有優勢策略時在這個博弈裏，雙方都有一個優勢策略，也就是都選擇“艾滋病新藥”作為封麵新聞。采用這個策略的最佳結果是獲得70%的讀者，最差的結果是35%，都比選擇“預算問題”的30%要好。

從策略觀點來看，各方均有一個優勢策略的博弈是最簡單的一種博弈，雖然其中存在策略互動，卻有一個可以預見的結局：全體參與者都會選擇自己的優勢策略，完全不必理會其他人會怎麼做。但這一點並不會降低參與或者思考這種博弈的趣味性。

在“囚徒困境”中，兩個參與者都有一個優勢策略，隻不過這股壓倒一切的力量最終將他們引向了一起倒黴的結局。這就提出了一個很有意思的問題：參與者怎樣合作才能取得一個更好的結果？

有時候，某參與者有一個優勢策略，其他參與者則沒有。我們隻要略微修改一下《時代》與《新聞周刊》的封麵故事大戰的例子，就可以描述這種情形。假設全體讀者都偏向於選擇《時代》，假如兩個雜誌選擇同樣的新聞做封麵故事，喜歡這個新聞的潛在買主當中有60%的人選擇《時代》，40%的人選擇《新聞周刊》。對於《時代》，“艾滋病新藥”仍然是優勢策略，但對於《新聞周刊》就不再是了，因為《時代》的優勢策略是選擇“艾滋病新藥”這條新聞，如果它也作同樣選擇，那麼隻能得到28%的讀者，小於選擇“預算問題”的30%。