兩個經典例子,揭開博弈論以及納什均衡的神秘面紗

兩個經典例子,揭開博弈論以及納什均衡的神秘面紗

目錄

約翰•納什走了,之後幾天裡他的名字連同有關納什均衡、博弈論的種種名詞、概念引起了人們在網絡搜索上的極大熱衷,儘管這與納什生前平靜單調和鮮有問津的晚年生活反差極大,但仍不失為好的現象。

約翰•納什因博弈論的重要概念「納什均衡」著稱於世,事實上他在幾何學上的成就數倍於前者,但世人皆因博弈論而認識到這位有著悲情曲折人生經歷的傳奇科學家。科學家是人類文明的掌燈者,悼念科學家最好的方式就是重溫其生前的理論和公式,儘管這於常人而言過於複雜,但任何知識都是由淺及深,我們不妨複習一下簡單而又經典的功課。

博弈的思想縱橫古今無時不閃耀在人類智慧的長河中。無論是在田忌賽馬、孫子兵法的古籍里,還是穿越阿爾卑斯的漢尼拔的身影之下,拿破崙坐鎮奧斯特里茨的帷幄之中,我們都能窺以探之博弈的精妙。事實上,博弈論作為一套初步的科學理論體系在20世紀40年代才粉墨登場,其在計算機科學、經濟學等領域有著廣泛應用,從華爾街的分析師到矽谷的職業經理人,都或多或少地知道並運用著這一古老而又年輕的知識。

我們嘗試通過兩個經典例子來幫助初學者揭開博弈論以及納什均衡的神秘面紗:

一、普通範式博弈

GOO公司和SAM公司是某手機產品生態的兩大重量級參與者,雙方在產業鏈的不同位置上各司其職且關係曖昧,有時也往往因商業利益和產品影響力的爭奪而各懷異心。二者的收益也隨著博弈的變化而不斷更替。

上圖表格模擬了兩家公司的博弈現狀,雙方各有兩個可選策略「合作」與「背叛」,格中的四組數據表示四個博弈結局的分數(收益),每組數據的第一個數字表示GOO公司的收益,後一個數字表示SAM公司的收益。

博弈是同時進行的,一方參與者必須站在對方的角度上來思考我方的策略選擇,以追求收益最大化。這在博弈論里稱作Putting yourselves into other people’s shoes。

現在我們以GOO公司為第一人稱視角來思考應對SAM公司的博弈策略。假如SAM公司選擇合作,那麼我方也選擇合作帶來的收益是3,而我方選擇背叛帶來的收益是5,基於理性的收益最大化考慮,我方應該選擇背叛,這叫嚴格優勢策略;假如SAM公司選擇背叛,那麼我方選擇合作帶來的收益是-3,而選擇背叛帶來的收益為-1,為使損失降到最低,我方應該選擇背叛。最後,GOO公司的分析結果是,無論SAM公司選擇合作還是背叛策略,我方都必須選擇背叛策略才能獲得最大化的收益。

同理,當SAM公司也以嚴格優勢策略來應對GOO公司的策略選擇時,我們重複上述分析過程,就能得出結論:無論GOO公司選擇合作還是背叛策略,SAM公司都必須選擇背叛策略才能獲得最大化收益。

最後我們發現,本次博弈的雙方都採取了背叛策略,各自的收益都為-1,這是一個比較糟糕的結局,儘管對任何一方來說都不是最糟糕的那種。這種局面就是著名的「囚徒困境」。

但是,博弈的次數往往不止一次,就像COO與SAM公司雙方的商業往來也許會有很多機會。當二者經歷了多次背叛策略的博弈之後,發現公式上還有一個(3,3)收益的雙贏局面,這比(-1,-1)的收益結果顯然要好很多,因此二者在之後的博弈過程中必然會嘗試互建信任,從而驅使雙方都選擇合作策略。

這裡有一個理想化假設,那就是假設雙方都知道博弈次數是無限的話,也就是說雙方的商業往來是無止盡的,那麼二者的策略都將持續選擇合作,最終的博弈收益將定格在(3,3),這就是一個納什均衡。既然博弈次數是無限的,那麼任何一方都沒有理由選擇背叛策略去冒險追求5點短暫收益,而招致對方在下一輪博弈中的報復(這種報復在博弈論里稱作「以牙還牙」策略)。

還有另一種假設情況是,假使雙方都知道博弈次數是有限的,也許下一次博弈就是最後一次,那麼為了避免對方在最後一輪博弈中選擇背叛策略而使我方遭受-3的收益損失,於是雙方都重新採取了背叛的策略選擇,最後的博弈結果又回到了(-1,-1),這就形成了第二個納什均衡。

由此可見,隨著次數(博弈性質)的變化,納什均衡點也並非唯一,這在下一個例子中有著更明顯的表現。

二、餓獅博弈

題設為A、B、C、D、E、F六隻獅子(強弱從左到右依次排序)和一隻綿羊。假設獅子A吃掉綿羊後就會打盹午睡,這時比A稍弱的獅子B就會趁機吃掉獅子A,接著B也會午睡,然後獅子C就會吃掉獅子B,以此類推。那麼問題來了,獅子A敢不敢吃綿羊?

為簡化說明,我們先給出此題的解法。該題須採用逆向分析法,也就是從最弱的獅子F開始分析,依次前推。假設獅子E睡著了,獅子F敢不敢吃掉獅子E?答案是肯定的,因為在獅子F的後面已沒有其它獅子,所以獅子F可以放心地吃掉午睡中的獅子E。

繼續前推,既然獅子E睡著會被獅子F吃掉,那麼獅子E必然不敢吃在他前面睡著的獅子D。

再往前推,既然獅子E不敢吃掉獅子D,那麼D則可以放心去吃午睡中的獅子C。依次前推,得出C不吃,B吃,A不吃。所以答案是獅子A不敢吃掉綿羊。

細心的人也許會發現,假如增加或減少獅子的總數,博弈的結果會完全不同。我們用下圖來驗證:

我們在獅子F的後面增加了一隻獅子G,總數變成7隻。用逆向分析法按照上題步驟再推一次,很容易得出結論:獅子G吃,獅子F不吃,E吃,D不吃,C吃,B不吃,A吃。這次的答案變成了獅子A敢吃掉綿羊。

對比兩次博弈我們發現,獅子A敢不敢吃綿羊取決於獅子總數的奇偶性,總數為奇數時,A敢吃掉綿羊;總數為偶數時,A則不敢吃。因此,總數為奇數和總數為偶數的獅群博弈結果形成了兩個穩定的納什均衡點。

通過上述兩個案例的多輪博弈,初學者應該能夠隱約發現納什均衡的輪廓。當博弈次數不止一次地進行著時,博弈結果將重複定格在某個狀態,那個狀態即是納什均衡點。公理解釋是如果博弈在某情況下無任一參與者可以通過獨自行動而增加收益,則此時的策略組合被稱為納什均衡。

簡單的博弈案例看上去似乎有趣,但博弈論始終是一門深奧複雜的學問,它的複雜之處就在於博弈分析所用的理想化模型與現實永遠存在差異。比如博弈論要求各方參與者必須是經濟學意義上的「理性人」,而事實上完全的「理性人」並不存在。現實世界存在著太多超出博弈論的變數,這為追求精確預測的博弈模型構建工作帶來難度。

儘管如此,博弈論仍然改變了世界,成為人類理性認識世界的一個重要工具。而納什均衡的提出無疑豐富了博弈論的理論體系,它是人類文明的一片磚瓦。可以肯定的是,百年之後,人們依然不會忘記約翰•納什的名字,亦不會忘記那個神奇的納什均衡。