重复博弈
1.什么是重复博弈
顾名思义,重复博弈是指同样结构的博弈重复许多次,其中的每次博弈称为“阶段博弈”(stage games)[1]。重复博弈是动态博弈中的重要内容,它可以是完全信息的重复博弈,也可以是不完全信息的重复博弈。
在重复博弈中,每次博弈的条件、规则和内容都是相同的, 但由于有一个长期利益的存在, 因此各博弈方在当前阶段的博弈中要考虑到不能引起其它博弈方在后面阶段的对抗、报复或恶性竞争, 即不能象在一次性静态博弈中那样毫不顾及其它博弈方的利益。有时, 一方做出一种合作的姿态, 可能使其它博弈方在今后阶段采取合作的态度, 从而实现共同的长期利益。
下面给出两个重要定义:
定义1:可信性是指动态博弈中先行动的博弈方是否该相信后行动的博弈方会采取对自己有利或不利的行为。
定义2:如果动态博弈中各博弈方的策略在动态博弈本身和所有子博弈中都构成均衡, 则称该策略组合具有子博弈完美性。
在重复博弈中, 可信性同样是非常重要的, 也即子博弈完美性仍是判断均衡是否稳定可靠的重要依据, 又由于长期利益对短期行为的制约作用, 因此有一些在一次性博弈中不可行的威胁或诺言在重复博弈中会变为可信的, 从而使博弈的均衡结果出现更多的可能性。
2.重复博弈的特征
1、阶段博弈之间没有物质上的联系,也就是说,前一阶段的博弈不改变后一阶段的结构。
2、所有参与人观察到博弈过去的历史。
3、参与人的总得益是所有阶段博弈得益的贴现值之和。
如果博弈不是一次的,而是重复进行的,参与人过去行动的历史是可以观察到的,参与人就可以将自己的选择依赖于其他人之前的行动,因而有了更多的策略可以选择,均衡结果可能与一次博弈大不相同。
3.重复博弈的例子[1]
以下我们用一个产品定价的例子讨论重复博弈,给出了一次性完全信息静态博弈的收益矩阵。
A、B两个参与人都有两种定价待选择:定高价或定低价。如果两个参与人都定低价,则每个参与人的收益均为20个单位;如果两人都定高价,则每人的收益均为30个单位;如果其中某一参与人定低价,而另一参与人定高价,则定低价的参与人有占有更多的市场份额获得40个单位的收益,定高价的参与人由于失去一部分市场份额而只获得10个单位的收益。显然,在这个一次性完全信息静态博弈中,两个参与人均有占优策略,占优策略均衡为A、B双方都定低价。
如果A、B之间的定价博弈是多次进行的,那么,问题就不是如此简单了。我们先来分析博弈重复次数为无限时的情况。
如果A、B双方都选择合作,都保持定高价,则双方在每个阶段的收益均为30个单位,记为(30,30,30,…);如果A、B中有一方(如A)采取投机行为,在实际定价中选择不与对方合作,在第一阶段就通过选择定价策略使得选择高价策略的对手B受损,则受损的一方B一定会在第二阶段及其以后的定价中也选择低价策略,加以报复,这样一来,首先选择不合作的一方A在个阶段的收益为(40,20,20,…),显然,其总收益远远小于合作、维持高价情况下的总收益。因为,首选选择不合作的一方A,只是在第一阶段获得了“额外”收益,但在以后个阶段的收益将因为对手B的报复性选择而减少,并且,重复若干此后,首先选择不合作的一方A将得不偿失。
在这里,B选择的策略称为“冷酷策略”(grim strategies)。冷酷策略是指重复博弈中的任何参与人的一次性不合作将引起其他参与人的永远不合作,从而导致所有参与人的收益减少。因此,所有参与人具有维持合作的积极性。我们再来讨论博弈重复次数为有限时的情况。
重复次数有限博弈与重复次数无限博弈之间的惟一区别,是所有参与人都可以明确无误地了解重复的次数,即可以准确地预测到最后一个阶段博弈。而在最后阶段的博弈中,任何一个参与人选择不合作,不会导致其他参与人的报复。因此,所有参与人都会在最后阶段的博弈中选择自己的占优策略,那就是不合作。上例中,在最后阶段博弈中选择低价是所有参与人的占优策略。
既然所有参与人都会在最后阶段选择不合作,那么,在倒数第二阶段博弈中任何参与人也就没有必要担心由于自己选择不合作,导致其他参与人在最后阶段博弈中的报复。因此所有参与人在倒数第二阶段博弈中,也都会选择不合作。即在倒数第二阶段博弈中,所有参与人都会选择占优策略。
由此类推,可以得出以下结论:在阶段性博弈存在惟一的纳什均衡时,阶段博弈的纳什均衡解就是重复次数有限博弈的唯一子博弈精炼纳什均衡解。即重复次数有限博弈的每个阶段的均衡解都是一次性博弈的纳什均衡解。注意,上述推论成立的前提条件是阶段性博弈纳什均衡的惟一性。