formal stuff(正经事)
博弈的要素
-
参与人(player)
-
表示法(notation):$i, j$
在game2中,每个同学都是参与人
-
-
策略(strategies)
-
表示法(notation)
-
$s_i$表示参与人$i$的某个策略,game2中为选择数字13
-
$s_{-i}$表示除$i$外其他所有人的策略
这个表示是很有必要的,因为很多时候需要考虑i自己的策略和其他人的策略的收益。这是一个有效的思路
-
$S_i$表示参与人$i$所有可能的策略集合,game2中为{1,2,3,…,100}
-
$s$表示某一次博弈
-
-
策略组合(strategy profile/vector/list)
表示每个参与人都有一个对应的策略,game2中为记录所有同学选择的电子表格
-
-
收益(payoffs)
-
表示法(notation)
-
$U_i$表示参与人$i$的收益
他的收益由所有参与人的策略决定,当然也包括他自己的策略,所以$U_i(s_1,s_2,…,s_n)$,简写为$U_i(s)$,它由策略组合决定 \(U_i(s) = \left\{ \begin{aligned} x & = $5 - err & if(win) \\ y & = 0 & if(lose) \end{aligned} \right.\)
-
-
我们现在假设这些都是已知的,我们假设每个人都知道其他人可能选择的策略,每个人都知道其他人的收益
一个帮助理解的小例子
player1\player2 | left | center | right |
---|---|---|---|
top | 5,-1 | 11,3 | 0,0 |
bottom | 6,4 | 0,2 | 2,0 |
简单的分析:
参与人:player1和player2
策略集合:$S_1={T,B}$,$S_2={L,C,R}$
这里值得注意的是,迄今为止我们学习的都是对称博弈,而这是一个非对称博弈
收益:eg:$U_1(T,C)=11$,$U_2(T,C)=3$
更多的讨论
player1没有劣势策略,因为在2选择左时,6>5,在2选择中时,11>0
而对player2来说,选择中总是比右好,中严格优于右
Define. 参与者I的策略$s_i’$严格劣于参与者i的另一个策略$s_i$,if $U_i(s_i,s_{-i}) > U_i(s_i’,s_{-i}) \;for\;all\; s_{-i}$
也就是说,参与者I的策略$s_i’$严格劣于参与者i的另一个策略$s_i$,如果$s_i$总是更好的,也就是总能给i带来更多的收益,而无论其他人怎么选
更有趣的例子
一个侵略者打算入侵一个国家,有两个关口,侵略者必须通过其中一个才能进入,而你是国家的防御者,你必须决定在哪个关口布置你的防线,问题是你只能防守二者之一。一条路非常崎岖,需要翻越阿尔卑斯山;另一条平坦,只需要沿着海岸线走。如果侵略者选择崎岖的路,仅在穿越阿尔卑斯山的途中就要损失一个营的兵力,如果遇到了防线,无论在哪边,都会再损失一个营的兵力。
我们需要搞清楚收益后分析这个博弈。
攻击者的收益是他攻入国家后还剩下多少兵力,他只有两个营的兵力。我们的收益是入侵者损失了多少兵力。
defender\attacker | Easy | Hard |
---|---|---|
Easy | 1,1 | 1,1 |
Hard | 0,2 | 2,0 |
我们可以看到,作为防守方的我们并不存在劣势策略
但是对于攻击方来说,选择easy并不严格优于hard,但是在这种情况下有个弱优势,专业地说,对于攻击者,选择easy略优于hard。意思是,选择easy比hard,至少同样,可能还稍微好些。
Define2. 参与者i的策略$s_i’$,略劣于其他策略$s_i$,当且仅当$U_i(s_i,s_{-i}) >= U_i(s_i’,s_{-i})$ for all $s_-i$
除此之外,$U_i(s_i,s_{-i}) > U_i(s_i’,s_{-i})$ for some $s_-i$
那么,我们认为攻击者会从easy攻击,这种情况下我们该如何设防呢?
当然会想设防在easy,不过历史上的汉尼拔选择的是hard
game2 in last lesson
“从1到100之间选一个数字填到下面的方框内,不要让你的同桌看到,我们会计算全班的平均数,谁选的数字最接近平均数的三分之二,谁就是赢家,赢家的奖金是5美元减去所选数和平均数2/3之差的美分”
- 每个人都想赢,所以每个人都有自己的策略,我们可以先剔除一些策略
- >67的数:每个人都选了100,那么平均数的2/3就是67。这是劣势策略
- 67>s>45,这些策略在原博弈中不是弱劣势的,但在我们剔除了原劣势策略后,考虑到周围人将采用相同策略,那么他们将是新的弱劣势策略。这是换位思考的过程
- 45>s>30,同理剔除,换位再换位的过程
- 30>s>20,三次换位思考
- ……
- ……
- ……
- 1
- 这时,每一步的策略被剔除的同时,都会有一些人停步在这些策略上。我们来讨论下理性对博弈结果的影响
- 如果你是一个理性的参与人,也就是个人利益最大化的策略,你会剔除大于67的策略。只推论到这里的人,他们自己不好说,但是他们认为其他人都是愚蠢的。
- 要剔除45到67的数,不仅自己要理性(R:rational),也要知道别人也是理性的(KR: know rational)
- 剔除30-45,需要R,KR,KKR
- 剔除20-30,需要R,KR,KKR,KKKR
- ……
- ……
- ……
- 1[这在哲学上有个术语叫共同知识(common knowledge),如果所有人都考虑到这一点,1就是最优策略]
- 视频里最后的结果是9
- 在大家都知道以上理论的基础上,再play一遍
- 这次几乎大多数人选的都比上次更小,在1-10的范围内尤其的多
- 我们可以得到结论,我们不仅要站在别人的立场上思考别人的收益;还要站在别人的立场上,思考他们在博弈时有多老练,并且要考虑到他们认为我有多老练,还有他们认为我认为他们认为我有多老练…不同知识层面会导致不同的结果
- 举个例子,一个公司和竞争对手博弈,应当认为对手很老练,但是和客户博弈,就可能假设不是那么完备
- 共同知识:两个人都带着粉色帽子,并彼此对视,他们不知道自己的帽子是粉色的,那么此时说,至少有一个人的帽子是粉色的,这就不是共同知识,因为每个人自己都知道这件事,但是对视的两个人不知道对方知不知道这件事,所以不是共同知识