友情提示:如果本网页打开太慢或显示不完整,请尝试鼠标右键“刷新”本网页!
妙趣横生博弈论-第11部分
快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部! 如果本书没有阅读完,想下次继续接着阅读,可使用上方 "收藏到我的浏览器" 功能 和 "加入书签" 功能!
。对RE而言较好的结果,并不总是意味着对BB而言是较坏的结果,反之亦然。具体地说,它们在左上角的单元格中的赢利,都优于它们在右下角单元格中的赢利。这种博弈无须分出胜者和败者;因为它不是零和博弈。我们在第2章也曾经指出,查理·布朗投资博弈不是零和博弈,我们在现实生活中遇到的大多数博弈也不是零和博弈。在很多博弈中,比如囚徒困境博弈,主要问题在于如何避免出现两败俱伤的结果,或者如何促成双赢的结果。
txt电子书分享平台
困境
现在我们来考虑一下RE经理的推理。“如果BB选择80美元,那么我可以通过把价格降至70美元,得到110 000美元的利润,而不是72 000美元的利润。如果BB选择70美元,那么,若我也定价70美元,我的赢利是70 000美元;但是,若我定价80美元,我只能得到24 000美元的利润。所以,不论在哪种情况下,选择70美元都优于选择80美元。不论BB如何选择,我的更优选择(实际上是我的最优选择,因为我只有两种选择)都是相同的。我根本不需要考虑他的想法;我只管直接把价格定为70美元就好了。”
在一个同时行动博弈中,如果存在这样的特性:对某个参与者而言,无论其他参与者如何选择,他的最佳选择都是一样的,那么这种特性将大大简化参与者的思考过程以及博弈论学家的分析过程。因此,为了简化博弈求解方法,深入探讨并找出这个特性将很有价值。博弈论学者将这种特性命名为优势策略。如果对于某个参与者而言,无论其他参与者选择什么策略或者策略组合,他的同一种策略总是优于所有其他可选策略,我们就说这个参与者拥有优势策略。于是,我们得到了一个简单的同时行动博弈的行为法则。
在第2章中,我们已经提供了一个简明的法则来制定序贯行动博弈的最佳策略。那就是我们的法则1:向前展望,倒后推理。在同时行动的博弈中就不是这么简单了。不过,同时行动所需的想对方之所想,可概括为三个简单的行动法则。这些法则依次依赖于两个简单的思想——优势策略和均衡。此处列出了法则2,法则3和法则4将在第4章介绍。
事实上,80美元是给双方带来最高联合利润的共同价格;若它们能联合起来,组成企业联盟,这也是它们会选择的价格。这个论点的严格证明需要一些数学知识,所以,暂且先记住我们说的话。希望知道该证明过程的读者,可登录本书的网站。
公司降价的获益者当然是顾客,他们并不是此博弈中的积极参与者。因此,社会常常有更大的利益动机阻挠公司解决其价格困境。这就是美国和一些其他国家反垄断政策的作用。法则2:假如你有一个优势策略,请照办。
囚徒困境是一个更为特殊的博弈——不仅一个参与者,而且两个(或者所有)参与者都有优势策略。BB经理的推理与RE经理的推理完全类似,你应该自己练习运用这个法则,来巩固上述思想。你将发现,70美元也是BB公司的优势策略。
博弈结果是如博弈表右下角单元格中所示的结果。即两家公司都选择了70美元的定价,且每家公司均获得70 000美元的利润。正是优势策略使得囚徒困境成为如此重要的一个博弈。当参与者双方都选择他们的优势策略时,他们得到的结果劣于它们联合起来共同选择另一个策略(劣势策略)时得到的结果。在这个博弈中,它们本来都应该定价为80美元,从而得到博弈表左上角的单元格结果,即每家公司获得利润72 000美元。
只有一方定价80美元是不行的;这样的话,这家公司将损失惨重。在某种程度上,它们必须都制定高价,但在每家公司都有动机制定低于对方价格的情况下,这个结果很难达到。每家公司都追求自身的利益,并没有导致对双方都是最好的结果,这与亚当·斯密(Adam Smith)教给我们的传统经济学大相径庭。
由此产生了很多问题。有些问题属于博弈论的更一般的方面。如果只有一个参与者有优势策略会怎样?如果参与者都没有优势策略又会如何?当每个参与者的最佳选择取决于对方的同时选择时,他们是否能看穿彼此的选择,然后解决这个博弈呢?我们将在以后的章节中继续讨论这些问题,那时我们会介绍一个更一般的解决同时行动博弈的概念——约翰·纳什的美丽的均衡。本章我们集中讨论关于囚徒困境博弈本身的问题。
一般情况下,每个参与者可选的两个策略分别被记为“合作”和“背叛”(或者有时候称为“欺骗”),我们将沿用这个用法。对每个参与者而言,背叛都是优势策略,而对双方而言,他们均选择背叛的策略组合得到的结果,比双方均选择合作得到的结果更糟。
书包 网 。 想看书来
解决困境的初步思想(1)
深知囚徒困境危害的参与者,有强烈的动机达成联合协议,避免陷入这种困境。例如,新英格兰的渔民们可以达成协议,限制捕捞,为将来储备鱼类资源。困难在于,当大家都面临欺骗的诱惑时,例如都想得到超过分配限额的鱼,怎样才使这样的协议比较稳固?关于这个问题,博弈论是如何解释的呢?在实际的这种博弈中,又会发生什么?
自从囚徒困境发明50年来,其理论已经有了很大的进展,而且积累了大量证据,这些证据不仅来自对真实世界的观察,还来自实验室中的可控实验。让我们来考察一下这些资料,看看能从中学到什么。
达成合作的另一面就是避免背叛。通过给予参与者一个适当的奖励,将可以激励参与者选择合作而不是选择最初的优势策略“背叛”;或者,通过制造一种适当的惩罚的可能性,亦可以吓阻参与者选择背叛。
基于以下原因,奖励方法可能会有问题。奖励可以是内部的,一方对另一方的合作进行奖励。有时也可以是外部的,可以由从双方合作中获利的第三方对双方的合作进行奖励。不论哪种情形,都不能在参与者做出选择之前给予奖励;否则,参与者一定会把奖励揣入口袋,然后再选择背叛。如果奖励仅仅是一个许诺,那么这个许诺可能是不可信的:在受诺方选择了合作后,许诺方有可能会食言。
尽管困难重重,有时奖励还是可行的、有用的。发挥最大的创造性和想象力,参与者可以同时、相互许诺,然后通过把许诺的奖金存入由第三方控制的托管账户中,使这些许诺显得可信。更切实际的是,参与者可以在多个方面相互作用,一方在一个方面的合作可以换来对方在另一个方面合作的奖励。比如,在雌性黑猩猩群中,分享食物、帮忙照看幼崽,可以换来梳理毛发的帮助。有时候,博弈第三方可能有非常强烈的利益动机促成合作。例如,为了结束世界范围内的各种冲突,美国和欧盟不时地许诺向战争国提供经济援助,作为对它们和平解决争端的奖励。1978年,美国以这种方式奖励了以色列和埃及,因为它们合作签署了戴维营协议。
惩罚是解决囚徒困境的更为常用的方法。它可能即时见效。电影《洛城机密》中有这样一个场景,警官埃德·埃克斯利向他正在审讯的嫌犯之一雷若伊·方丹许诺,如果他为国家作证,就可以比其他两个嫌疑犯少判几年。但雷若伊知道,一旦他出狱,他会发现另两个人的朋友正等着报复他!
然而,在这种背景下自然而然想到的惩罚,产生于这样的事实,即大多数此类博弈都只是一段持续关系的一部分。欺骗可能使一个参与者获得短期利益,但却会损害这种持续关系,产生更长期的成本。如果该成本非常大,这就可能从一开始就起到了阻吓欺骗的作用。
由于发展了重复博弈中隐含合作的一般理论,罗伯特·奥曼(Robert Aumann)于2005年被授予诺贝尔经济学奖。一个引人注目的例子来自棒球比赛。美国联盟队的击球员被投球击中的概率是11%,而国家联盟的击球员被击中的概率是17%。据道格·德林恩(Doug Drinen)和约翰…查尔斯·布拉伯瑞(JohnCharles Bradbury)所说,这种区别的主要原因在于指定的击球手规则。在美国联盟队,投球手不击球。因此,攻击击球手的美国联盟队投球手,不必担心对手队的投球手会直接报复。虽然投球手不太可能被击中,但如果他们刚刚在上半场攻击了某个人,那么,他们被击中的机会就会增加1/4。担心遭到报复是显然的。就像王牌投球手科特·谢林(Curt Schilling)所解释的:“当你面对兰迪·约翰逊(Randy Johnson)时,你还会郑重其事地向某个人投球吗?”
解决困境的初步思想(2)
大多数人在考虑一个参与者如何惩罚对方过去的欺骗行为时,就会想到“以牙还牙”的说法。这的确是关于囚徒困境最有名的实验结果。让我们详细叙述在实验中发生了什么,以及我们能从中学到什么。
以牙还牙
20世纪80年代初,密歇根大学政治科学家罗伯特·阿克谢罗德(Robert Axelrod)邀请了世界各地的博弈论学者以电脑程序形式提交他们的囚徒困境博弈策略。这些程序两两结对,反复进行150次囚徒困境博弈。参赛者按照最后总得分排定名次。
冠军是多伦多大学的数学教授阿纳托·拉普波特(Anatol Rapoport)。他的取胜策略就是以牙还牙。阿克谢罗德对此感到很惊奇。他又举办了一次比赛,这次有更多的学者参赛。拉普波特再次提交了以牙还牙策略,并再次赢得了比赛。
以牙还牙是“以眼还眼”行为法则的一种变形:人家怎么对你,你也怎么对他。说得更准确点,这个策略在开局时选择合作,以后则模仿对手在上一期的行动。
在《旧约·出埃及记》(Exodus,21:22)中,我们看见,“人若彼此争斗,伤害有孕的妇人,甚至坠胎,随后却无别害,那伤害她的,总要按妇人的丈夫所要的,照审判官所断的,受罚。若有别害,就要以命偿命,以眼还眼,以牙还牙,以手还手,以脚还脚,以烙还烙,以伤还伤,以打还打。”《新约》则提倡更具合作精神的行为。在《新约·马太福音》(Matthew,5:38)中,我们读到,“你们听见有话说:‘以眼还眼,以牙还牙。’只是我告诉你们,不要与恶人作对。有人打你的右脸,连左脸也转过来由他打”。我们从“以其人之道,还治其人之身”转到“你们愿意人怎样待你们,你们也要怎样待人”(《新约·路加福音》,Luke,6:31)的金科玉律。假如人们当真遵守这一金科玉律,也就不会存在什么囚徒困境了。此外,只要我们看得更深远一些,不难发现,虽然合作可能在某一特定博弈中降低你的赢利,但是以后可能带来的回报却足以使一个自私的人相信,合作应该算是一个理性策略。你认为不存在以后吗?帕斯卡尔的赌博说明了,在此假设基础上行动的后果可能相当惨烈,所以这就是冒险的原因。
因为每个失败者都必须和一个胜利者组对,所以结果一定是某个参赛者的胜利的次数大于失败的次数,不然就是失败的次数大于胜利的次数。(唯一的例外就是每个单场比赛都打成平局。)阿克谢罗德认为,以牙还牙法则体现了任何一个有效策略应该符合的四个原则:清晰、善意、报复性和宽容性。再也没有什么字眼会比“以牙还牙”更加清晰、简单。这一法则不会引发欺骗,所以是善意的。它也是报复性的——也就是说,它永远不会让欺骗者逍遥法外。它还是宽容的,因为它不会长期怀恨在心,而愿意恢复合作。
以牙还牙一个非常引人注目的特征在于,它在整个比赛中取得了突出的成绩,虽然它实际上并没有(也不能)在一场正面较量中击败任何一个对手。其最好的结果是跟对手打成平手。因此,假如当初阿克谢罗德是按照“赢者通吃”的原则打分,以牙还牙的策略只可能失败或是打成平手,而不可能取得最后的胜利。
不过,阿克谢罗德并没有按照“赢者通吃”的原则给结对比赛的选手打分,只有比赛结束才算数。以牙还牙策略的一大优点在于它总是可以将比赛引向结束。以牙还牙最坏的结果是,以遭到一次背叛重击而告终,也就是说,它让对手占了一次便宜,此后双方打成平局。 。 想看书来
解决困境的初步思想(3)
以牙还牙策略之所以能赢得这次锦标赛,是因为它通常都会竭尽全力促成合作,同时避免互相背叛。其他参赛者则要么太轻信别人,一点也不会防范背叛,要么太咄咄逼人,一心要把对方踢出局。
不过,尽管如此,我们仍然认为以牙还牙策略是一个有缺陷的策略。只要存在一丁点儿出现错误或误解的可能性,以牙还牙策略的胜利就会土崩瓦解。这个缺陷在人工设计的电脑锦标赛中并不可能,因为此种情况下根本不会出现错误和误解。但是,一旦将以牙还牙策略用于解决现实世界的问题,错误和误解就难以避免,结局就可能是灾难性的。
以牙还牙策略的问题在于,任何一个错误都会犹如“回声”一般反复出现。一方对另一方的背叛行为进行惩罚,从而引发连锁反应。对手受到惩罚之后,不甘示弱,进行反击。这一反击又招致第二次惩罚。无论什么时候,这一策略都不会只接受惩罚而不做任何反击。
举个例子:假设弗勒德和德雷希尔都采取以牙还牙策略。没有人先发起背叛,一段时间内,一切都顺利进行。然后,到了第11轮,假设弗勒德错误选择了背叛,或者选择了合作但德雷希尔却误以为他选择了背叛,不论是哪种情况,德雷希尔在第12轮都会选择背叛,而弗勒德却会选择合作,因为德雷希尔在第11轮中选择了合作。到了第13轮,角色就会转换过来。这种一方合作而另一方背叛的模式会继续反复进行下去,直到又一个错误或误解的出现恢复了合作或导致双双背叛。
在西弗吉尼亚与肯塔基的交界处,哈特菲尔德家族(Hatfields)与麦科伊家族(McCoys)家族的长期争斗可谓令人难忘。而在虚构世界中,马克·吐温笔下的格兰杰福特家族与谢泼德森家族的世代仇恨,为我们提供了另外一个生动的例子,说明以牙还牙的行动是怎样导致循环报复的。当赫克·芬恩试图了解格兰杰福特家族与谢泼德森家族世仇的源头究竟是什么时,他却遇到了“鸡生蛋还是蛋生鸡”的难题:“这究竟是为了什么,巴克?——为了土地吗?”
“我估计是——我不知道。”
“那么,究竟是谁开的枪呢?是格兰杰福特家的人还是谢泼德森家的人?”
“天哪,我怎么会知道?那是多久以前的事啊。”
“有没有人知道呢?”
“噢,有的,老爸知道,我估计,还有其他一些老头子,不过现在他们也不晓得当初究竟发生了什么事。”以牙还牙策略缺少的是一个宣布“到此为止”的方法。它实在太容易被激发起来了,而且不会轻易地宽恕。确实,后来的阿克谢罗德比赛的版本考虑了错误和误解的可能性,结果表明,其他那些更宽宏大量的策略优于以牙还牙策略。
2004年,诺丁汉大学的格雷厄姆·肯德尔(Graham Kendall)为了庆祝阿克谢罗德首届比赛的20周年,举行了一次比赛。“胜出”者是来自英格兰南安普敦大学的小组。南安普敦小组总共推
快捷操作: 按键盘上方向键 ← 或 → 可快速上下翻页 按键盘上的 Enter 键可回到本书目录页 按键盘上方向键 ↑ 可回到本页顶部!
温馨提示: 温看小说的同时发表评论,说出自己的看法和其它小伙伴们分享也不错哦!发表书评还可以获得积分和经验奖励,认真写原创书评 被采纳为精评可以获得大量金币、积分和经验奖励哦!