博弈论——学会换位思考

2022-09-15

formal stuff(正经事)

博弈的要素

  • 参与人(player)

    • 表示法(notation):$i, j$

      ​ 在game2中,每个同学都是参与人

  • 策略(strategies)

    • 表示法(notation)

      • $s_i$表示参与人$i$的某个策略,game2中为选择数字13

      • $s_{-i}$表示除$i$外其他所有人的策略

        ​ 这个表示是很有必要的,因为很多时候需要考虑i自己的策略和其他人的策略的收益。这是一个有效的思路

      • $S_i$表示参与人$i$所有可能的策略集合,game2中为{1,2,3,…,100}

      • $s$表示某一次博弈

    • 策略组合(strategy profile/vector/list)

      ​ 表示每个参与人都有一个对应的策略,game2中为记录所有同学选择的电子表格

  • 收益(payoffs)

    • 表示法(notation)

      • $U_i$表示参与人$i$的收益

        他的收益由所有参与人的策略决定,当然也包括他自己的策略,所以$U_i(s_1,s_2,…,s_n)$,简写为$U_i(s)$,它由策略组合决定 \(U_i(s) = \left\{ \begin{aligned} x & = $5 - err & if(win) \\ y & = 0 & if(lose) \end{aligned} \right.\)

我们现在假设这些都是已知的,我们假设每个人都知道其他人可能选择的策略,每个人都知道其他人的收益

一个帮助理解的小例子

player1\player2 left center right
top 5,-1 11,3 0,0
bottom 6,4 0,2 2,0

简单的分析:

参与人:player1和player2

策略集合:$S_1={T,B}$,$S_2={L,C,R}$

​ 这里值得注意的是,迄今为止我们学习的都是对称博弈,而这是一个非对称博弈

收益:eg:$U_1(T,C)=11$,$U_2(T,C)=3$

更多的讨论

​ player1没有劣势策略,因为在2选择左时,6>5,在2选择中时,11>0

​ 而对player2来说,选择中总是比右好,中严格优于右

Define. 参与者I的策略$s_i’$严格劣于参与者i的另一个策略$s_i$,if $U_i(s_i,s_{-i}) > U_i(s_i’,s_{-i}) \;for\;all\; s_{-i}$

也就是说,参与者I的策略$s_i’$严格劣于参与者i的另一个策略$s_i$,如果$s_i$总是更好的,也就是总能给i带来更多的收益,而无论其他人怎么选

更有趣的例子

​ 一个侵略者打算入侵一个国家,有两个关口,侵略者必须通过其中一个才能进入,而你是国家的防御者,你必须决定在哪个关口布置你的防线,问题是你只能防守二者之一。一条路非常崎岖,需要翻越阿尔卑斯山;另一条平坦,只需要沿着海岸线走。如果侵略者选择崎岖的路,仅在穿越阿尔卑斯山的途中就要损失一个营的兵力,如果遇到了防线,无论在哪边,都会再损失一个营的兵力。

​ 我们需要搞清楚收益后分析这个博弈。

​ 攻击者的收益是他攻入国家后还剩下多少兵力,他只有两个营的兵力。我们的收益是入侵者损失了多少兵力。

defender\attacker Easy Hard
Easy 1,1 1,1
Hard 0,2 2,0

​ 我们可以看到,作为防守方的我们并不存在劣势策略

​ 但是对于攻击方来说,选择easy并不严格优于hard,但是在这种情况下有个弱优势,专业地说,对于攻击者,选择easy略优于hard。意思是,选择easy比hard,至少同样,可能还稍微好些。

Define2. 参与者i的策略$s_i’$,略劣于其他策略$s_i$,当且仅当$U_i(s_i,s_{-i}) >= U_i(s_i’,s_{-i})$ for all $s_-i$

除此之外,$U_i(s_i,s_{-i}) > U_i(s_i’,s_{-i})$ for some $s_-i$

那么,我们认为攻击者会从easy攻击,这种情况下我们该如何设防呢?

当然会想设防在easy,不过历史上的汉尼拔选择的是hard

game2 in last lesson

​ “从1到100之间选一个数字填到下面的方框内,不要让你的同桌看到,我们会计算全班的平均数,谁选的数字最接近平均数的三分之二,谁就是赢家,赢家的奖金是5美元减去所选数和平均数2/3之差的美分”

  • 每个人都想赢,所以每个人都有自己的策略,我们可以先剔除一些策略
    • >67的数:每个人都选了100,那么平均数的2/3就是67。这是劣势策略
    • 67>s>45,这些策略在原博弈中不是弱劣势的,但在我们剔除了原劣势策略后,考虑到周围人将采用相同策略,那么他们将是新的弱劣势策略。这是换位思考的过程
    • 45>s>30,同理剔除,换位再换位的过程
    • 30>s>20,三次换位思考
    • ……
    • ……
    • ……
    • 1
  • 这时,每一步的策略被剔除的同时,都会有一些人停步在这些策略上。我们来讨论下理性对博弈结果的影响
    • 如果你是一个理性的参与人,也就是个人利益最大化的策略,你会剔除大于67的策略。只推论到这里的人,他们自己不好说,但是他们认为其他人都是愚蠢的。
    • 要剔除45到67的数,不仅自己要理性(R:rational),也要知道别人也是理性的(KR: know rational)
    • 剔除30-45,需要R,KR,KKR
    • 剔除20-30,需要R,KR,KKR,KKKR
    • ……
    • ……
    • ……
    • 1[这在哲学上有个术语叫共同知识(common knowledge),如果所有人都考虑到这一点,1就是最优策略]
  • 视频里最后的结果是9
  • 在大家都知道以上理论的基础上,再play一遍
    • 这次几乎大多数人选的都比上次更小,在1-10的范围内尤其的多
    • 我们可以得到结论,我们不仅要站在别人的立场上思考别人的收益;还要站在别人的立场上,思考他们在博弈时有多老练,并且要考虑到他们认为我有多老练,还有他们认为我认为他们认为我有多老练…不同知识层面会导致不同的结果
    • 举个例子,一个公司和竞争对手博弈,应当认为对手很老练,但是和客户博弈,就可能假设不是那么完备
  • 共同知识:两个人都带着粉色帽子,并彼此对视,他们不知道自己的帽子是粉色的,那么此时说,至少有一个人的帽子是粉色的,这就不是共同知识,因为每个人自己都知道这件事,但是对视的两个人不知道对方知不知道这件事,所以不是共同知识