囚犯问题的博弈论是怎么样的啊?
发布网友
发布时间:2023-07-04 06:49
我来回答
共2个回答
热心网友
时间:2023-10-02 11:51
有100个死囚,关在100个单人牢房,牢房排成一个圆圈。
国王的特赦令是:每个囚犯早上必须在后窗挂起红旗或者黄旗。如果有连续100天,第k天只有第k间牢房挂起红旗,其他全是黄旗,就释放所有死囚。如果三年后还没完成,所有人全部拉出去砍了。
囚犯可以先开一个会,会后所有人会被随机分到一间牢房,而且不知道自己的房间号。为了阻止囚犯们得到特赦,囚犯们并不是同一天被关进自己的牢房,而是先被麻醉,又关进不见天日的小黑屋一段日子,所以每个囚犯都不知道自己到底是哪一天被送进自己的单人牢房。每个囚犯进自己牢房的第一天会得到一个数,范围在0-100之间(可能有人得到相同的数)。囚犯相互之间唯一的交流方法是每天晚饭时每人可以报一个数,这个数与他上一次得到的数差距不能超过10----(数是循环的,0和100的差距是1),由看守在熄灯时给他的左边邻居,如果某间牢房里暂时没有犯人,看守会编一个数传下去,由于囚犯开会是被监视的,所以看守可以利用这个机会进行破坏。请问囚犯们怎么办?注:三年的期限是从所有囚犯都进入自己的牢房开始算。
解答:
现在首先来说,要想要有连续的100天只有第k天第k号房间挂红旗,只需要按照每天只有一个房间挂红旗且下一天下一个房间挂红旗即可,这样过了最多199天之后肯定会有连续的100天是满足条件的;
下面的关键就是确定怎么样进行开始挂旗。
在开始囚犯进行讨论时,实际上他们可以指定一个人并指定一个数,这个人是任意的,这个数也是任意的(因为100个数是循环的)。为了方便我们假设这个人是A,这个数是0;
然后我们约定,对于A囚犯来说当他进入监狱的时候第一天发出来1,以后均发0直到第100天,若是他得到的数字和0差距大于10,那就发送距0最近的一个数;例如若得到20就发10,若得到80就发送90,最终肯定是可以得到1的,他再以他发出去1的那一天为第一天。然后到第101天,重新开始如此计数(我们讨论时可以把这个人定为信号发生器,且此信号每天传递一个位置);
对于其他囚犯来说就很简单了,只要得到的数是0明天就挂黄旗同时往下一间监狱传送的数字也是0;只要得到的是1明天就挂红旗同时往下一间监狱传的数字为1;若是非0且非1,那就发一个尽量往0靠近的数(同样即若得到20就发10,若得到80就发送90,最终必定会得到0的);
这样的话只要人全进了监狱,最多
有100个死囚,关在100个单人牢房,牢房排成一个圆圈。
国王的特赦令是:每个囚犯早上必须在后窗挂起红旗或者黄旗。如果有连续100天,第k天只有第k间牢房挂起红旗,其他全是黄旗,就释放所有死囚。如果三年后还没完成,所有人全部拉出去砍了。
囚犯可以先开一个会,会后所有人会被随机分到一间牢房,而且不知道自己的房间号。为了阻止囚犯们得到特赦,囚犯们并不是同一天被关进自己的牢房,而是先被麻醉,又关进不见天日的小黑屋一段日子,所以每个囚犯都不知道自己到底是哪一天被送进自己的单人牢房。每个囚犯进自己牢房的第一天会得到一个数,范围在0-100之间(可能有人得到相同的数)。囚犯相互之间唯一的交流方法是每天晚饭时每人可以报一个数,这个数与他上一次得到的数差距不能超过10----(数是循环的,0和100的差距是1),由看守在熄灯时给他的左边邻居,如果某间牢房里暂时没有犯人,看守会编一个数传下去,由于囚犯开会是被监视的,所以看守可以利用这个机会进行破坏。请问囚犯们怎么办?注:三年的期限是从所有囚犯都进入自己的牢房开始算。
解答: 5天就可以把所有的数改变到0或1,然后接下来就是得到1就挂红旗就行了;
还有一种关于两个人的囚徒困境的博弈:
在博弈论中有一个经典案例--囚徒困境,非常耐人寻味。“囚徒困境”说的是两个囚犯的故事。这两个囚徒一起做坏事,结果被*发现抓了起来,分别关在两个独立的不能互通信息的牢房里进行审讯。在这种情形下,两个囚犯都可以做出自己的选择:或者供出他的同伙(即与*合作,从而背叛他的同伙),或者保持沉默(也就是与他的同伙合作,而不是与*合作)。这两个囚犯都知道,如果他俩都能保持沉默的话,就都会被释放,因为只要他们拒不承认,警方无法给他们定罪。但警方也明白这一点,所以他们就给了这两个囚犯一点儿刺激:如果他们中的一个人背叛,即告发他的同伙,那么他就可以被无罪释放,同时还可以得到一笔奖金。而他的同伙就会被按照最重的罪来判决,并且为了加重惩罚,还要对他施以罚款,作为对告发者的奖赏。当然,如果这两个囚犯互相背叛的话,两个人都会被按照最重的罪来判决,谁也不会得到奖赏。
那么,这两个囚犯该怎么办呢?是选择互相合作还是互相背叛?从表面上看,他们应该互相合作,保持沉默,因为这样他们俩都能得到最好的结果:自由。但他们不得不仔细考虑对方可能采取什么选择。A犯不是个傻子,他马上意识到,他根本无法相信他的同伙不会向警方提供对他不利的证据,然后带着一笔丰厚的奖赏出狱而去,让他独自坐牢。这种想法的*力实在太大了。但他也意识到,他的同伙也不是傻子,也会这样来设想他。所以A犯的结论是,唯一理性的选择就是背叛同伙,把一切都告诉警方,因为如果他的同伙笨得只会保持沉默,那么他就会是那个带奖出狱的幸运者了。而如果他的同伙也根据这个逻辑向警方交代了,那么,A犯反正也得服刑,起码他不必在这之上再被罚款。所以其结果就是,这两个囚犯按照不顾一切的逻辑得到了最糟糕的报应:坐牢。
企业在信息化过程中需要与咨询企业、软件供应商打交道的。在与这些企业打交道的过程中,我们不可避免地也会遇到类似的两难境地,这个时候需要相互之间有足够的了解与信任,没有起码的信任做基础,切不可贸然合作。在对对方有了足够的信任之后,诚意也是必不可少的,如果没有诚意或者太过贪婪,就可能闹到双方都没有好处的糟糕情况,造成企业之间的双输。
热心网友
时间:2023-10-02 11:51
参见博弈论相关论著,囚徒困境模型,试图以单变量,多次实践,到多变量实践,寻求最终的纳什均衡,注意区别帕累托最优,纳什均衡等的区别!
博弈论是思想,是方法,是数学,也是心理学,大家一起研究,学会运用!