在某种情况下,博弈双方的策略选择往往是有迹可循的,并形成某种“定式”,即均衡。均衡不一定是博弈的最优结果,而只是最“稳定”的结果,或者说是最可能出现的结果。
极小极大原理诺伊曼认为:在一个二人零和游戏中,总会找到一种有一个明确而合乎理性的方法以获得个人的最佳收益,而这个“明确而合乎理性的方法”就是“极小极大原理”。诺伊曼的这一发现可能是博弈论最重要的核心内容。
什么是“极小极大原理”呢?就是用通俗一点儿的话说就是,你想赢得竞争,可能有几种选择,你当然愿意选择受益最大的一种;但是你的选择不能不考虑对方的对策,因为他跟你一样,也是这样想的,所以你就必须把对方的选择也考虑清楚。比如你有两种选择,对方也有两种对策,如果你的一种选择无论在对手作出何种对策时效果都比另外一个好,这通常被称为“优势策略”;另一方面,对手也明白你的优势策略所在,知道你会照此实行,所以也会在自己的两个对策中选择效果最好的一种——这也是他的优势策略。显然,如果双方都选择优势策略。那么这个博弈就是有迹可循、可以预测的,也就是所谓“理性的解”,并形成某种“定式”,即均衡。
比如在“囚徒困境”中,招供就是“理性的解”,因为就单方面来说,无论对方招不招供,你招供都是最佳策略,于是结果就是双方招供,这个结果其实并不好,但最可能出现,这就是“均衡”。
为什么会出现这个不好的结果呢?因为对任何一方来说,这个结果还不是最坏的——总比自己独自受过要好。著名作家卡尔维诺一语道破:“有时候,你能指望的最佳结果就是避免最坏情况。”
还可以用“分蛋糕”的故事说明这个均衡:给两个小孩分一块蛋糕,谁都希望自己分到大的一块,如何解决这个矛盾呢?
当然,大人可以作为仲裁者,帮助他们分,但是就算你切得再仔细,也不可能做到完全公平;而且,就算你做到完全的公平,恐怕还会有人觉得吃了亏。那么,有没有更好的办法呢?
当然有,这就是你制定一个规则——由一个人来分,而由另一个人先选择要哪一块。显然前者知道,后者的优势策略就是选择较大的那一块,所以尽可能分得公平就是他的优势策略,只有这样才可以把自己的损失降到最小。
新闻大战与博弈策略当你身处类似“囚徒困境”这样的同时行动的博弈时,你的最佳策略是什么?决定胜负的因素又是什么?双方的策略选择往往是有迹可循的,并形成某种“定式”,即均衡。
为了说明博弈如何达到“均衡”的结果,我们可以通过两份杂志——美国的《时代》和《新闻周刊》为例来演示这一过程。
每个星期,《时代》和《新闻周刊》都会暗自较劲,要做出最引人注目的封面故事。一个富有戏剧性或者饶有趣味的封面,可以吸引潜在买主的目光。因此,每个星期,《时代》的编辑们一定会举行闭门会议,选择下一个封面故事。
他们这么做的时候,很清楚在此时《新闻周刊》的编辑们也在开会,选择下一个封面故事;反过来,《新闻周刊》的编辑们也知道《时代》的编辑们正在做同样的事情……这两家新闻杂志投入了一场博弈。由于《时代》与《新闻周刊》的行动是同时进行的,双方都在毫不知晓对手的决定的情况下采取行动。不过他们都知道双方在博弈中的期望是什么,所以可以预料对方的策略选择。
要注意,这种同时进行的博弈与相继(一先一后)行动的博弈所要用到的策略思维和行动是完全不同的。对于像下棋这样的一人一步的相继行动的博弈,每个参与者都必须向前展望,估计对手的意图,决定自己这一步应该怎么走。这是一条线性的推理链:假如我这么做,他就会那么做——若是那样,我会这么反击,依此类推。也就是说,你怎么走,完全取决于对手的上一步行动。
而在同时行动的博弈里,没有一个参与者可以在自己行动之前得知另一个参与者的整个计划。在这种情况下,互动推理不是通过观察对方的策略进行,而是必须通过看穿对手的策略才能展开。要想做到这一点,单单假设自己处于对手的位置会怎么做还不够。即便你那样做了,你又能发现什么?你只会发现,你的对手也在做同样的事情,即他也在假设自己处于你的位置会怎么做。因此,每一个人不得不同时扮演两个角色,一个是自己,一个是对手,从而找出双方的最佳行动方式。与一条线性的推理链不同,这是一个循环——“假如我认为他认为我认为……”。诀窍在于怎样破解这个循环。
我们可以提供一个单一的、统一的原理,为相继行动的博弈确定最佳策略,就是“向前展望,倒后推理”。在这里,事情不会那么简单。不过,关于同时行动不可少的思维方式的思考可以总结为指导行动的三个简单法则。反过来,这些法则又基于两个简单概念:优势策略与均衡。
举一个简单的例子,你是一名足球前锋,你和队友形成了二打一的局面,你面对着对方的后卫,你可以选择带球突破,也可以选择传球给队友。一般情况下,传球过人的成功率更大,那么传球就是你的优势策略,即某些时候它胜于其他策略,且任何时候都不会比其他策略差。假如一个球员拥有这么一个策略,他的决策就会变得非常简单,他可以选择这个优势策略,完全不必担心其他对手怎样行事。因此,寻找优势策略是每一个人的首要任务。
回到《时代》对《新闻周刊》的例子,假定本周有两大新闻:一是国会就预算问题吵得不可开交;二是发布了一种据说对艾滋病有特效的新药。编辑们选择封面故事的时候,首先考虑的是哪一条新闻更能吸引报摊前的买主(假投无论采用哪一则新闻封面故事消费者都会买这本杂志)。在报摊前的买主当中,假设30%的人对预算问题感兴趣,70%的人对艾滋病新药感兴趣,这些人只会在自己感兴趣的新闻变成封面故事的时候掏钱买杂志。假如两本杂志用了同一则新闻做封面故事,那么感兴趣的买主就会分为两组,一组买《时代》,另一组买《新闻周刊》。
现在,《时代》的编辑可以进行如下推理:假如《新闻周刊》采用“艾滋病新药”作封面故事,那么,假如我采用“预算问题”作封面故事,我就会得到整个“预算问题市场”(即全体读者的30%),假如我采用“艾滋病新药”,我们两家就会平分‘艾滋病新药市场’(即我得到全体读者的35%),因此,“艾滋病新药”为我带来的收入就会超过“预算问题”。假如采用“预算问题”,那么,假如我采用同样的故事,我会得到15%的读者,假如我采用“艾滋病新药”,就会得到70%的读者;这一次,第二个方案同样会为我带来更大的收入。因此,我有一个优势策略,就是采用“艾滋病新药”作封面。无论我的对手选择采用上述两个新闻当中的哪一个,我采用这一策略都会比我采用其他策略更胜一筹。
当对手有优势策略时在这个博弈里,双方都有一个优势策略,也就是都选择“艾滋病新药”作为封面新闻。采用这个策略的最佳结果是获得70%的读者,最差的结果是35%,都比选择“预算问题”的30%要好。
从策略观点来看,各方均有一个优势策略的博弈是最简单的一种博弈,虽然其中存在策略互动,却有一个可以预见的结局:全体参与者都会选择自己的优势策略,完全不必理会其他人会怎么做。但这一点并不会降低参与或者思考这种博弈的趣味性。
在“囚徒困境”中,两个参与者都有一个优势策略,只不过这股压倒一切的力量最终将他们引向了一起倒霉的结局。这就提出了一个很有意思的问题:参与者怎样合作才能取得一个更好的结果?
有时候,某参与者有一个优势策略,其他参与者则没有。我们只要略微修改一下《时代》与《新闻周刊》的封面故事大战的例子,就可以描述这种情形。假设全体读者都偏向于选择《时代》,假如两个杂志选择同样的新闻做封面故事,喜欢这个新闻的潜在买主当中有60%的人选择《时代》,40%的人选择《新闻周刊》。对于《时代》,“艾滋病新药”仍然是优势策略,但对于《新闻周刊》就不再是了,因为《时代》的优势策略是选择“艾滋病新药”这条新闻,如果它也作同样选择,那么只能得到28%的读者,小于选择“预算问题”的30%。
换言之,《新闻周刊》的最佳选择不再与《时代》的策略无关。假如《时代》选择“艾滋病新药”,《新闻周刊》选择“预算问题”就能得到更大的销量。
《新闻周刊》的编辑们不会知道《时代》的编辑们将会选择什么,不过他们可以分析出来。因为《时代》有一个优势策略,那一定就是他们的选择。因此,《新闻周刊》的编辑们可以很有把握地假定《时代》已经选了“艾滋病新药”,并据此选择自己的最佳策略,即“预算问题”。
由此可见,只有一方拥有优势策略的博弈其实也非常简单。拥有优势策略的一方将采用其优势策略,另一方则针对这个策略采用自己的最佳策略。
现在,既然我们已经介绍了优势策略的概念,就有必要强调两点特征,这两点特征可用来确定什么不是优势策略。
人们很容易就会弄错,不知道优势策略的优势究竟是对什么而言的。“优势策略”的“优势”是说,无论你的对手采用什么策略,你的这个策略与你的其他策略相比都占有优势,而不是与你的对手的策略相比占有优势。
某个参与者如果采用优势策略,就能使自己获得比采用任何其他策略更好的结果。回顾“封面大战”的例子,《时代》和《新闻周刊》都有一个优势策略,但双方都不可能得到比对方更高的销量。
另一个常见的误解在于,一个优势策略必须满足一个条件,即采用优势策略得到的最坏结果也要比采用另外一个策略得到的最佳结果略好。在前面讲到的例子里,所有优势策略凑巧都满足这个条件。按照最初设定的条件,《时代》假如采用艾滋病新药做封面故事,最坏的结果是得到35%的市场份额;他们若采用“预算问题”作封面故事,可能得到的最佳结果是30%的市场份额。但这并非优势策略的一个普遍特征。
现在让我们想象一下《时代》和《新闻周刊》之间爆发了一场价格战。假设每本杂志的制作成本是1美元,且售价只有两个可能的选择,分别是3美元(意味着每本利润为2美元)和2美元(意味着每本利润为1美元)。假设顾客永远倾向于选择价格较低的杂志,且在杂志价格相同的时候两种杂志各得一半读者。杂志定价3美元的时候,读者总数是500万;如果杂志价格降到2美元,因为价格便宜,市场会有一定扩展,读者总数将升到800万。这时,你可以轻易算出《时代》在四种可能出现的价格组合里将会获得多少利润,即如果双方杂志价格都是3美元,利润都是500万;一方降价至2美元,则独得800万,另一方分文不得;如果双方都降,每一方利润都是400万。
有点像“囚徒困境”是不是?的确,在“囚徒困境”中,双方的优势策略都是招供,在这里则都是降价。
《时代》的优势策略是定价2美元(《新闻周刊》亦如此)。《时代》采用这个优势策略可能得到的最坏结果是赢利400万美元。但是,采用另外一个策略可能得到的最佳结果将超过这一数字,达到500万美元。问题是比较这两个数字毫无意义。500万美元的数字是在两本杂志同时定价3美元的时候出现的;不过,假如这时《时代》把价格降到2美元,利润还会更高,达到800万美元。
我们可以把这些例子归纳为一个指导同时行动的博弈的法则。即:假如你有一个优势策略,请照办,不要担心你的对手会怎么做。
假如你没有一个优势策略,但你的对手有,那么就权当他会采用这个优势策略,相应选择你自己最好的做法。
提醒一句:我们已经确立了同时行动的博弈的优势策略的概念,若是换了相继行动的博弈,采用优势策略的时候就要格外留神。因为策略互动的本质已经改变,优势策略的概念也会完全不同。假设我们说你有一个优势策略,无论你的对手选择怎么做,你按照这个策略做都比采用其他策略更好;若是相继行动,而你的对手先行,你就应该一直选择自己的优势策略。
正如我们已经说过的那样,这是你对你的对手每一个行动的最佳对策,因此也是对现在他选择的这个特定行动的最佳对策。但是,假如你先行,你就不会知道你的对手将会采取什么行动。他会观察你的选择,同时作出自己的决定,因此你有机会影响他的行动。某些情况下,若是采用优势策略以外的策略,你可能更有效地施加这种影响。
追求最佳,避免最差不是所有博弈都有优势策略,哪怕这个博弈只有一个参与者。实际上,优势与其说是一种规律,不如说是一种例外。虽然出现一个优势策略可以大大简化行动的规则,但这些规则却并不适用于大多数现实生活中的博弈。这时候我们必须用到其他原理。
一个优势策略优于任何其他策略,同样,一个劣势策略则劣于任何其他策略。假如你有一个优势策略,你可以选择采用,并且知道你的对手若是有一个优势策略他也会照办;同样,假如你有一个劣势策略,你应该避免采用,并且知道你的对手若是有一个劣势策略他也会规避。
假如你只有两个策略可以选择,其中一个是劣势,那么另一个一定是优势策略。因此,与选择优势策略做法完全不同的规避劣势策略的做法,必须建立在一方拥有至少三个策略的博弈的基础之上。在你没有优势策略的情况下,你要做的就是剔除所有劣势策略,不予考虑,如此一步一步做下去。
假如在这么做的过程当中,在较小的博弈里出现了优势策略,应该一步一步挑选出来。假如这个过程以一个独一无二的结果告终,那就意味着你找到了参与者的行动指南以及这个博弈的结果。即便这个过程不会以一个独一无二的结果告终,它也会缩小整个博弈的规模和的复杂程度。
对利用优势策略方法与规避劣势策略方法进行简化之后,整个博弈的复杂程度已经降到最低限度,不能继续简化,而我们也不得不面对循环推理的问题。你的最佳策略要以对手的最佳策略为基础,反过来从你的对手的角度分析也是一样。接下来我们将会介绍解开这个循环的技巧,最终走出这个循环。
博弈的均衡——纳什均衡我们已经找到了一个策略组合,其中,各方的行动就是针对对方行动而确定的最佳对策。一旦知道对方在做什么,就没人愿意改变自己的做法。博弈论学者把这么一个结果称为“均衡”。这个概念是由普林斯顿大学数学家约翰·纳什提出的,因此被称为“纳什均衡”。
纳什均衡是博弈分析中的重要概念。1950年,还是一名研究生的纳什写了一篇论文,题为《N人博弈的均衡问题》,该文只有短短一页纸,可就这短短一页纸成了博弈论的经典文献。在这篇论文中,纳什给出了博弈均衡的定义,即纳什均衡。
那么,什么是纳什均衡呢?简单说来就是,在一个策略组合中,所有参与者面临这样的一种情况:当其他人改变策略时,他此时的策略是最好的。也就是说,此时如果他改变策略,结果会比现在差。在纳什均衡点上,每一个理性的参与者都不会有单独改变策略的冲动。
在“囚徒困境”中存在唯一的纳什均衡点,即两个囚犯均选择“招认”,这是唯一稳定的结果。
有些博弈的纳什均衡点不止一个,如下述“夫妻博弈”(或称性别之战):丈夫和妻子商量晚上的活动,丈夫喜欢看拳击,而妻子喜欢欣赏歌剧,但两人都希望在一起度过夜晚。
在这个“夫妻博弈”中有两个纳什均衡点:一同去听歌剧,或一起去看拳击。在有两个或两个以上纳什均衡点的博弈中,其最后结果难以预测。在“夫妻博弈”中,我们无法知道,最后结果是一同欣赏歌剧还是一起去看拳击。但不管怎么说,这个结果总算还温情脉脉,以后我们还会说起另外一个有两个均衡点的“胆小鬼博弈”,那就真的是进退两难了。
纳什均衡是博弈论中的重要概念,同时也是经济学中的重要概念。
诺贝尔经济学奖获得者萨缪尔森有一句幽默的话:“你可以将一只鹦鹉训练成经济学家,因为它所需要学习的只有两个词:‘供给’与‘需求’。”博弈论专家坎多瑞引申说:“要成为现代经济学家,这只鹦鹉必须再多学一个词,这个词就是‘纳什均衡’。”由此可见纳什均衡在现代经济学中的重要性。纳什均衡不仅对经济学意义重大,对其他社会科学意义同样重大。
纳什均衡可以成为我们指导同时行动博弈的最后一个法则:走完寻找优势策略和剔除劣势策略的捷径之后,下一步就是寻找这个博弈的均衡。
我们还要解释一下这个法则,为什么一个博弈的参与者非得达到这么一个结局呢?我们可以说出好几个理由。
首先,存在避免循环推理的必要,因为循环推理帮不上忙。均衡在没完没了的“我知道他知道我知道……”的循环里是稳定不变的,这使参与者对其他人的行动的估计能保持连贯性。各方正确预计别人的行动,并且确定自己的最佳对策。
均衡策略的第二个好处出现在零和博弈中。在这种博弈里,参与者的利益严格相悖。你的对手不能通过引诱你采取一个均衡策略而得到任何好处,你已经充分考虑到他们对你正在做的事情会有什么样的最佳对策。
可能存在一个对均衡概念的误解,当我们说博弈的结果是均衡时,并不一定是对参与者最有利的结果,更不意味着对整个社会作为一个整体而言是最有利的结果。有利或者不利的评价永远属于另外一个问题,答案视各个案例的具体情况而各有不同。
在经济学中,均衡意即相关量处于稳定值。在供求关系中,市场上的某一种商品如果在某一价格下,想以此价格买此商品的人均能买到,而想卖的人均能将该商品卖出去,此时我们就说,该商品的供求达到了均衡。此时的价格可称之为均衡价格,产量称之为均衡产量。均衡分析是经济学中的重要分析。
那么什么是博弈论的均衡呢?所谓博弈均衡,它是一种稳定的博弈结果。均衡是博弈的一种结果,但不是说博弈的结果都能成为均衡。博弈的均衡是稳定的,因而是可以预测的。
纳什均衡是一种最常见的均衡。它的含义是,在对方策略确定的情况下,每个参与者的策略都是最好的,此时没有人愿意先改变自己的策略。
在上面的“买,卖”博弈中,(卖出,买进)是一个纳什均衡,这个博弈可以解释在现实中,讨价还价后买卖能做成的原因,因为这对双方来说都是最优选择。同时在“买,卖”博弈中,其均衡对双方来说是结局最优的。
警察与小偷是不是所有的博弈均存在纳什均衡点呢?不一定存在纯策略纳什均衡点,所谓纯策略是指参与者在他的策略空间中选取唯一确定的策略,但至少存在一个混合策略均衡点——所谓混合策略是指参与者采取的不是唯一的策略,而是其策略空间上的一个概率分布。这就是纳什于1950年证明了的纳什定理。我们在下面“警察与小偷”的博弈中给出混合策略的说明。
在西部片里,我们常能看到这样的故事:某个小镇上只有一名警察,他要负责整个镇的治安。现在我们假定,小镇的一头有一家酒馆,另一头有一家银行。再假定该地有一个小偷,要实施偷盗。因为分身乏术,警察一次只能在一个地方巡逻,而小偷也只能去一个地方。假定银行需要保护的财产为2万元,酒馆的财产价格为1万元。若警察在某地进行巡逻,而小偷也选择了去该地,就会被警察抓住;若小偷去了警察没有巡逻的地方,则小偷偷盗成功。警察该怎么巡逻才能取得最好的效果呢?
一个明显的做法是,警察对银行进行巡逻,这样,警察可以保住2万元的财产不被偷窃。可是如此,假如小偷去了酒馆,偷窃就一定会成功。那么,警察的这种做法是最好的吗?有没有改进的措施?
这个博弈没有纯策略纳什均衡点,而有混合策略均衡点。这个混合策略均衡点下的策略选择是每个参与者的最优(混合)策略选择。
在这个例子中,警察最好的做法是,抽签决定去银行还是酒馆。因为银行的价值是酒馆的两倍,所以用2个签代表银行,比如如果抽到1、2号签去银行,抽到3号签就去酒馆。这样警察有2/3的可能性去银行进行巡逻,1/3的可能性去酒馆。而小偷的最优选择是,以同样抽签的办法决定去银行还是去酒馆偷盗,抽到1、2号签去酒馆,抽到3号签去银行,那么,小偷有1/3的可能性去银行,2/3的可能性去酒馆。
警察与小偷之间的博弈,如同小孩子之间玩“剪刀石头布”的游戏,在这样一个游戏中,不存在纯策略均衡,对每个小孩来说,自己出“剪刀”、“布”还是“石头”应当是随机的,不能让对方知道自己的策略,哪怕是“倾向性”的策略。如果对方知道你采取其中一个策略的“可能性”大,那么你在游戏中输的可能性就大。
因此,每个小孩的最优混合策略是采取每个策略的可能性都是1/3。在这样的博弈中,每个小孩各采取三个策略的1/3是纳什均衡。由此可见:纯策略是参与者一次性选取的,并且坚持他选取的策略;而混合策略是参与者在各种备选策略中采取随机选取的策略。在博弈中,参与者可以改变他的策略,而使得他的策略选取满足一定的概率。当博弈是零和博弈时,即一方所得是另外一方的所失时,此时只有混合策略均衡。对于任何一方来说,此时不可能有纯策略的占优策略。
谁打电话均衡的概念是不是同时行动的博弈中循环推理问题的一个完全解?不是的。有些博弈存在好几个均衡,有些博弈却一个均衡也没有,而在另外一些博弈里,均衡的概念还会由于接纳新型策略而变得更加微妙。
假如你正在和女友通话,电话断了,而话还没说完。这时有两个选择,马上打给对方,或等待对方打来。注意:如果你打过去,她就应该等在电话旁,好把自家电话的线路空出来。如果她也在打给你,你们只能听到忙音;另一方面,假如你等待对方打电话,而她也在等待,那么你们的聊天就没有机会继续下去。
一方的最佳策略取决于另一方会采取什么行动。
这里又有两个均衡:一个是你打电话而她等在一边,另一个则是恰好相反。
我们可以把所谓“纳什均衡点如果有两个或两个以上,结果就难以预料”的意思,理解为“没有正确(或者固定)答案”,也就是说,博弈论无法告诉我们到底该怎么做。事实上,博弈论在这个打电话问题上的解决办法看起来笨得很,这就是“混合策略”:设想双方都投硬币决定自己是不是应该给对方打电话,根据前面给出的条件,两人这种随机行动的组合成为第三个均衡:假如甲打算给乙打电话,有一半机会可以打通(因为这时乙恰巧在等甲打电话),还有一半机会发现电话占线;假如甲等乙打来电话,那么,同样会有一半机会接到电话,因为乙有一半机会主动给甲打电话。每一个回合双方完全不知道对方将会采取什么行动,他们的做法实际上对彼此都最理想。因为双方各有50%的可能性主动拨打电话,所以平均来说要尝试两次才能成功接通。当然,这个“笨办法”并不是博弈论的错,而是就策略而言只好如此。
所以在生活中,对这类问题我们只能按照惯例或者随机应变。一个解决方案是,原来打电话的一方再次负责打电话,而原来接电话的一方则继续等待电话铃响。这么做有个显而易见的理由:原来打电话的一方知道另一方的电话号码,反过来却未必是这样。另一种可能性是,假如一方可以免费打电话,而另一方不可以(比如你是在办公室而她用的是住宅电话),那么,解决方案是可以免费打电话的一方应该负责第二次打电话。
通常还有一种解决方法,即由较热切的一方主动再打电话,如一个“煲电话粥”成瘾的家庭主妇对谈话的热情很高,而她的同伴就未必这样,这种情况下通常是她再打过去。再如恋爱中的男女遇到这种情况,通常也是由主动追求者再打电话。
现在我们简要回顾一下。在同时行动的博弈中,我们有三个行动法则:一是寻找和运用优势策略;二是寻找并避免劣势策略,与此同时假定你的对手也在这么做;三是寻找和运用均衡。
需要再次强调:均衡不一定是博弈的最优结果。在“囚犯困境”中,唯一的均衡是一起招认,站在群体的角度,这是最坏的结果。所以均衡只是博弈的最“稳定”结果,或者说是最可能出现的结果。那么,这就需要我们思考一个问题:如果这个“稳定”结果效果不佳,我们能否找到合理的策略打破这个“均衡”?