博弈论入门教程——从基本概念到具体案例

引子

　　最近 3 年，俺写过好几篇博文，是与博弈论密切相关的。比如 2017 年的朝核危机，俺写了 2 篇，专门谈 “北韩＆美国” 的博弈策略。
　　近期恰逢美国大选，很多读者在博客评论区讨论相关的话题。有时候俺也参与讨论，并多次提及 “博弈论” 的相关概念。考虑到很多读者（即使是理工科的读者）也非常缺乏这方面的基础知识，今天发一篇博弈论的基础教程，算是扫盲。

概述

　　“博弈论” 洋文称之为 “game theory”。目前它是经济学的一个分支（所以俺网盘上分享的博弈论书籍，都放在【经济类 / 博弈论】这个分类目录下）。
　　该理论专门研究多个独立个体之间的竞争行为（对抗行为）。在某些中文书籍里面，它又被称作 “对策论 or 赛局理论”。

“博弈论” 的起源

　　在这篇扫盲教程的开头，咱们来闲聊一下 “博弈论” 的发展史。
　　要聊这个话题，约翰 · 冯 · 诺伊曼（John von Neumann）当然是个无法绕过的人物。

（约翰 · 冯 · 诺伊曼）

　　这家伙是个【超级跨界牛人】，即使用这么夸张的称呼，依然不足以体现此人的牛逼之处——他同时在 “数学、物理学、经济学、计算机” 等多个领域作出了划时代的贡献，并留下一大堆以他命名的东东，比如程序员应该都听说过“冯诺依曼体系”，比如数学领域有“冯诺依曼代数、冯诺依曼遍历定理...”，理论物理领域有“冯诺依曼量子测量、冯诺依曼熵、冯诺依曼方程...”。另外还有很多东东，虽没有以他命名，也是他先搞出来滴，比如：量子力学的公理化表述、希尔伯特第 5 问题、连续几何（其空间维数不是整数）、蒙特卡洛方法、归并排序算法......
　　1944 年，他与奥斯卡 · 摩根斯坦（Oskar Morgenstern）合作发表了《博弈论与经济行为》（洋文叫做 “Theory of Games and Economic Behavior”），一举奠定博弈论体系的基础，所以他也被称作【博弈论之父】。
　　这个《博弈论与经济行为》一开始是以论文形式写成，长达 1200 页，基本上是冯 · 诺伊曼一个人的手笔。有些同学会纳闷了——那摩根斯坦凭啥当第二作者呀？这里面大致有 2 个原因：
其一，摩根斯坦本人非常看好 “博弈领域的研究”，他认为：该领域的研究可以为一切经济学理论建立正确的基础。当他结识了冯大牛之后，就一直劝说这只大牛写篇该领域的论文。
其二，当冯大牛完成上千页的论文之后，摩根斯坦为这篇论文补了一个非常有煽动性的 “绪论”，使得这篇论文一发表就在数学界＆经济学界产生轰动效果。
　　所以，把摩根斯坦列为第二作者，也算说得过去。
　　另外，这本《博弈论与经济行为》的某些思想源自冯 · 诺伊曼在 1928 年发表的论文《On the Theory of Parlor Games》。因此有些学者认为 1928 年才是真正意义上的博弈论诞生之年。

　　插播一个八卦
　　摩根斯坦的博士生导师就是赫赫有名的路德维希 · 冯 · 米塞斯（俺的网盘上分享过他的好几本著作）。有一种说法是：米塞斯在 20 世纪初就已经意识到 “博弈论对经济学的重要性”，但他因为种种原因没能建立起博弈论的完整理论体系。米塞斯的这个想法影响了他带出来的博士生摩根斯坦。而摩根斯坦去美国做访问学者的时候，又影响了冯 · 诺伊曼。
　　上述这个说法的可信度有多高，俺不敢保证。但米塞斯具有很超前的预见性，这点是得到公认滴。举个例子——
　　2 年前（2018）俺写了那篇《为什么马克思是错的？——全面批判马列主义的知名著作导读》，其中引用了米塞斯的论文《社会主义国家的经济计算》（Economic Calculation in the Socialist Commonwealth）。米塞斯的这篇论文发表于【1920 年】（苏联成立之前）。请注意：苏联是第一个搞【中央计划经济】的国家。在苏联还没有成立的时候，米塞斯就已经在论文中预见了：中央计划经济注定失败（并给出了他的精辟分析）。后来的事实证明他说对了——包括咱们天朝在内，【所有的】中央计划经济，最终都惨淡收场。

博弈的类型

　　“博弈的类型” 是博弈论的基本概念，先来聊这个。

合作博弈（cooperative game） VS 非合作博弈（non-cooperative game）

　　不论是 “合作博弈”or“非合作博弈”，在博弈过程中都可能会出现“合作” 的现象。差别在于——
对于 “合作博弈”，存在某种【外部约束力】，使得“背叛” 的行为会受到这种外部约束力的惩罚。
对于 “非合作博弈”，【没有】上述这种“外部约束力”，对“背叛” 的惩罚只能依靠博弈过程的其它参与者。

　　举例：商业活动中有 “合同法”，就相当于上述所说的【外部约束力】。
　　通常所说的 “博弈” 大都指“【非】合作博弈”。大多数博弈论的研究也是针对后者（非合作），俺这篇教程的大部分内容也是针对后者。

同时博弈（simultaneous game） VS 顺序博弈（sequential game）

同时博弈（静态博弈）
　　“同时博弈” 有时也称作 “静态博弈”，指的是——博弈的【任何一个】参与者在选择自己的行为之前，并【不】知道其它参与者的行为信息。
　　举例：“石头 / 剪刀 / 布”

　　顺序博弈（动态博弈）
　　“顺序博弈” 有时也称作 “动态博弈”。在这类博弈中，参与者的动作有【时间上的先后】，并且后一个执行动作的博弈者可以看到其他博弈者之前的动作，然后根据别人的动作，思考自己的行为。
　　举例：绝大部分棋牌类游戏都属于这种。

零和博弈（zero-sum game） VS 非零和博弈（non-zero-sum game）

零和博弈
　　“零和博弈” 这个名称具有误导性，使得很多人以为各方的收益总和为零。
　　“零和博弈”指的是——在博弈结束之后，参与各方的利益总和为【常量】（可以是零，也可以是 “正值” 或“负值”）。
　　举例：大多数棋类游戏属于这种；“石头 / 剪刀 / 布” 也属于这种。

　　非零和博弈（变和博弈）
　　“非零和博弈” 指的是——在博弈结束之后，参与各方的利益总和为【变量】。所以这类博弈有时候称为【变和博弈】。
　　对于这类博弈，在某些情况下可能会让参与各方的利益总和【变大】，从而使得各方存在【合作】的可能性。
　　举例：在 “非零和博弈” 中，最有名的应该就是“囚徒困境”（Prisoner's Dilemma）了。这个 “困境” 非常有名，这里就不详细解释啦。不太了解的同学，先看俺加注的维基百科链接。因为后续的讨论中，会多次提及这个模型。

非重复博弈（non-repeated game） VS 重复博弈（repeated game）

　　“非重复博弈”有时也称作 “单次博弈”；相应的，“重复博弈” 也被称作“多次博弈”。
　　以 “囚徒困境” 为例。如果困境中的两个嫌疑人只被抓进去一次，那就是“单次博弈”；如果被抓进去不止一次，就是“多次博弈”。

　　“重复博弈” 还可以进一步细分为 “有限重复博弈”（finite repeated game）与 “无限重复博弈”（infinite repeated game）。
　　这 2 个术语容易产生歧义。更严谨的说法是：
“有限重复博弈”——重复次数【确定】的博弈
“无限重复博弈”——重复次数【不确定】的博弈

收益矩阵 VS 决策树

概述

　　这两个玩意儿都是为了更直观地描述博弈过程，并帮你看清各方的利弊得失。
　　“收益矩阵”通常用来描述 “静态博弈”（同时博弈）；由于“动态博弈”（顺序博弈）比较复杂，通常【不】用“收益矩阵” 描述。
　　“决策树” 既可以用来描述 “静态博弈”，也可以用来描述 “动态博弈”。
　　顺便提醒一下：
　　在某些书籍 / 文章中，把 “收益矩阵” 称作 “普通形式”（normal-form）；把“决策树” 称作“扩展形式”（extensive-form）。

收益矩阵（payoff matrix）

　　上一个小节说了：“收益矩阵”通常用来描述【静态博弈】。而且一般是用来描述【双人】的静态博弈。更多人的静态博弈，也可以用 “收益矩阵” 表述，但画起来会麻烦很多。在本文的后续部分，凡是提及 “收益矩阵” 都是指“双人静态博弈”。
　　通常的惯例是把自己这方的策略写在表格【左边】，把对方的策略写在表格【上边】。为了让大伙儿有个直观感受，俺写一个 “石头 / 剪刀 / 布” 的“收益矩阵”。

	石头	剪刀	布
石头	0	1	-1
剪刀	-1	0	1
布	1	-1	0

　　在上述矩阵中，1 表示赢；-1 表示输；0 表示平局。

决策树（decision tree）

（一个简单决策树的示意图）

　　上述是一个决策树的示意图，表示一个简单的 “双人动态博弈”，两个博弈者分别称作 1 ＆ 2；两人的可选策略都只有 2 个（分别是：U ＆ D）。
　　1 先执行某个动作，然后 2 再执行对应的动作，然后博弈就结束了。这个树状图有 4 个叶子节点，表示该博弈最终有 4 种结局。每个叶子节点的括号中各有 2 个数字，分别表示两个博弈者在不同终局的收益。

策略＆策略集合

决策选项（move） VS 策略（strategy）

　　某些资料（比如维基百科）把 “move” 直译为“移动”。这个译法比较怪。在本文中，俺称之为“决策选项”。
　　很多人混淆了 “策略” 与“决策选项”。
　　以象棋为例，完成一局需要经历很多个步骤。对每个步骤，你都有 N 个决策选项（要走哪个棋子，走到哪）。而 “策略” 指的是——从第一步到最后一步的所有决策选项的【总和】。你可以把 “策略” 通俗理解为某种【算法 or 指导思想】，它指导你从第一步走到最后一步。

策略集合（strategy set）

　　所有可能的策略，构成了 “策略集合”。
　　以 “石头 / 剪刀 / 布” 为例，其 “策略集合” 只包含 3 个策略。

有限策略集合 VS 无限策略集合

有限策略集合
　　“石头 / 剪刀 / 布” 就是典型的 “有限策略集合”（该集合只有 3 个元素）。

　　无限策略集合
　　为了说明这种集合，举个 “分蛋糕博弈” 的例子。
　　所谓的 “分蛋糕博弈” 很简单——这是双人博弈，其中一人先把蛋糕分为两块（可以随便分），然后另一个人先挑选其中一块。
　　对于 “负责分蛋糕” 的人而言，其策略集合是无穷大（纯小数有无穷多个）。

关于 “有限 / 无限” 的反直觉

　　很多人凭直觉会认为：具有 “无限策略集合” 的博弈比 “有限策略集合” 的博弈更复杂。其实不然！
　　围棋虽然很复杂，但其 “策略集合” 依然是有限滴（只不过，要想描述这个集合，需要存储的信息量会超出整个宇宙的承受能力）。
　　作为对比，“分蛋糕博弈”比 “围棋” 简单多了（两者的复杂性相差 N 个数量级），但 “分蛋糕博弈” 反而具有【无限】的策略集合。

纯策略 VS 混合策略

纯策略（pure strategy）

　　在实际博弈时，如果你总是【固定选择】“策略集合” 中的某【一个】策略，这种情况称之为 “纯策略”。
　　以 “石头 / 剪刀 / 布” 为例：如果你每次总是出“石头”，这就是【纯策略】。

混合策略（mixed strategy）

　　如果你在博弈时，总是【随机选择】“策略集合” 中的某【几个】策略，这种情况称之为 “混合策略”。
　　以 “石头 / 剪刀 / 布” 为例：如果你一半概率出 “石头” 一半概率出“剪刀”，这就是【混合策略】。

完全混合策略（totally mixed strategy）

　　如果某个 “混合策略” 包含了 “策略集合” 中的【每一个】元素，称之为“完全混合策略”。
　　上一个小节的举例（一半概率出 “石头” 一半概率出“剪刀”）属于“混合策略”，但【不是】“完全混合策略”。
　　作为对比，如果你 1/4 概率出 “石头”，1/4 概率出 “剪刀”，1/2 概率出 “布”——这就是 “完全混合策略”。

支配策略（优势策略）

策略之间的【支配性】

　　假设你有两个策略 A ＆ B。如果在【任何】情况下，A 都比 B 更优，称作 “A 支配 B”（A dominates B）或者 “B 被 A 支配”（B is dominated by A）。

支配策略（dominant strategy）

　　“支配策略” 又称 “优势策略”。如果某个策略能够支配【所有】其它策略，那么它就是 “支配策略 / 优势策略”。
　　通俗地说，不论你的对手采用何种策略，你的 “支配策略” 总是比你的其它策略有更好的结果。
　　在后面的某个小节，俺会举个很简单的例子，帮你理解 “支配策略” 这个概念。

强支配策略（strictly dominant strategy） VS 弱支配策略（weakly dominant strategy）

　　有时候会把 “支配策略” 进一步细分为“强支配”＆“弱支配”。
　　对于前者，它在任何情况下都比其它策略更好；对于后者，它在某些情况下比其它策略更好，某些情况下与其它策略一样好。

支配策略 VS 制胜策略（winning strategy）

　　有些人会把 “支配策略” 与“制胜策略”搞混淆。
　　“制胜策略” 也称 “必胜策略”，它通常只用于 “零和博弈”，指的是——只要你采用这个策略（不论对方如何应对），你总是赢。
　　“制胜策略”肯定是 “支配策略”（最起码是“弱支配策略”）；但“支配策略” 不一定是“制胜策略”。

实例：（二战中）新几内亚的航路作战

　　这是一个很经典的博弈论案例，很多博弈论的科普读物都引用了此案例。比如俺分享的那本《纳什均衡与博弈论——纳什博弈论及对自然法则的研究》就包含了这个案例。
　　话说太平洋战场上，美日双方对新几内亚岛展开争夺战。美方通过截获的情报得知日方有一支补给船队要开往该岛。日军补给船队有两条路线可走（北线 or 南线），两条路线都耗时 3 天。在南线，这 3 天都是晴天；在北线有 2 天是晴天，1 天是阴雨（阴雨天会影响美军轰炸）。
　　美方空军将领手头只有一个飞行队，需要决策：把这个飞行队派到哪一边执行轰炸任务？如果押宝的方向错误，重新部署又会浪费掉 1 天时间。
　　对这个博弈过程，美方的收益矩阵参见下述表格。表格中的数字表示 “可用来轰炸的天数”（对美军而言，这个数字越大越好）。

	日方
美方		北线	南线
	北线	2	2
	南线	1	3

　　从上述收益矩阵来看，美军应该选哪个策略，不那么明显。但如果【换位思考】，看日军的策略，就非常明显啦。

	日方
美方		北线	南线
	北线	2,-2	2,-2
	南线	1,-1	3,-3

　　第 2 个表格补充了日方的收益（以逗号分隔）。由于日方是遭受轰炸，其收益以 “负数” 表示。
　　从日方的角度（表格的【纵向】角度）来看，走北线是其【支配策略】——不论美方如何选择，日方走北线的收益都不比南线差。对应到刚才介绍的概念，日方的这个 “支配策略” 属于“弱支配策略”。
　　知道日军必定走北线之后，美军就很容易选定自己的策略了。

如何发现 “支配策略”？

　　一个比较简单的做法是：逐步删除【被】支配的策略（洋文叫做 “Iterated Elimination of Strictly Dominated Strategies”，简称 IESDS）。
　　下面这一系列示意图，演示了逐步删除的过程。最后剩下的那个单元格，也就是该博弈的 “纳什均衡点”（关于 “纳什均衡”，后面有个章节会专门细聊）。

“支配策略” 的【罕见性】

　　一般来说，只有极其简单的博弈才存在 “支配策略”。只要博弈再稍微复杂那么一丁点，“支配策略” 可能就不存在了。
　　举个栗子：哪怕像 “石头 / 剪刀 / 布” 这么简单的游戏，就已经不存在 “支配策略” 了。

“支配策略” 的【乏味性】

　　当某个博弈存在 “支配策略”，这个博弈通常就显得索然无味。反过来想，你就能理解——为啥绝大部分棋牌类游戏都【没有】“支配策略”。

最小最大定理

概述

　　这个玩意儿洋文叫做 “Minimax”，比较绕口的陈述是：最小化最大损失。更通俗的表述是：在最坏情况下最小化损失。
　　该定理及算法最早由冯 · 诺依曼在《博弈论与经济行为》一书中提出。本文开头部分介绍过——此书是博弈论的奠基性著作。

举例：静态博弈

　　假设你是 A（你有三个策略：A1、A2、A3），你的对手是 B（也有三个策略：B1、B2、B3）。
　　以下是针对 A（你）的收益矩阵：

	B1	B2	B3
A1	+3	-2	+4
A2	-1	0	+2
A3	-4	-3	+1

　　针对上述收益矩阵，基于 Minimax 算法，你应该选择 A2 策略——此时你的最坏情况是 -1。

举例：动态博弈——切蛋糕博弈

　　前面章节已经简单介绍过 “分蛋糕博弈”。这是一个非常简单的动态博弈（步骤很少）。
　　当双方都是足够理性，选蛋糕的人肯定会选大的那块。切蛋糕的人基于 “最小最大原则”，应该在最坏情况下最小化自己的损失，所以他 / 她应该把蛋糕切成同等大小。

思考题

　　给那些爱琢磨的读者留一个思考题 :)
　　“分蛋糕博弈” 的精妙之处在于 “切的人后拿，不切的人先拿”。这就完美地解决【双人】分蛋糕的公平问题。
　　那么，如果是更复杂的【三人】分蛋糕，是否存在某种类似的机制，也可以完美地解决公平问题捏？
　　更一般的情况，对于【N 人】分蛋糕（N ≥ 3），是否有某种类似的机制捏？
　　对于善用搜索引擎的同学，很容易就可以在网上找到这个问题的答案。但俺建议你在上网搜索之前，先自己琢磨一下（就当这是个锻炼脑力的机会）

反向归纳法

概念

　　该方法洋文称之为 “backward induction”。其精髓是【正向展望，反向推理】。
　　在俺分享的那本《策略思维——商界、政界及日常生活中的策略竞争》中，多次提及了这个精髓。具体如何做捏？俺先稍微描述一下，然后再用具体案例加深大伙儿的印象。

　　首先，你需要思考自己的每个决策，以及对方在应对你的决策时，会采用何种决策（这个思维过程类似于【决策树的展开】）
　　这个展开过程要一直推演到【最后一步】（也就是决策树的叶子节点）。此时你就可以看清双方在最后一步各自的最优选择；然后再反向回推到第一步。

局限性

　　当你要用 “反向归纳” 进行展望与推理，前提是——你要获得充分的信息；或者说，如果某个博弈者所知的信息不够充分，就【无法】运用该方法。
　　在本文后续的某个章节，俺会专门谈 “博弈中的【信息】因素”。

重复博弈中的 “囚徒困境”

　　前面提到的 “囚徒困境” 属于【单次】静态博弈。如果把这个局面改为【多次】，并且两个囚徒足够理性且相互认识，并且两人也都知道自己处于【多次】博弈的场景，那么就有可能达成合作。

　　无限重复博弈（次数不确定）
　　在这个博弈场景中，由于两个囚徒都知道未来还会有多次类似的博弈局面，所以他们在第一次被抓的时候，就会选择合作（双方都抵赖），并且未来也会每次都选择合作。
　　他们之所以选择合作，是为了给将来博弈中的合作建立基础。

　　有限重复博弈（次数确定）
　　假设次数确定为【10 次】。这种情况下，是否还可能达成合作捏？很多同学凭直觉认为：还是可以合作。其实不然！
　　对于有限重复的情形，就需要用到本章节的 “反向归纳法” 了。
　　先分析【最后一次】（第 10 次）博弈的情形。因为不再有后续的博弈，此时的局面等价于【单次】博弈（单次囚徒困境）——也就是说，双方会选择背叛。
　　如果两人都足够理性，当他们在进行第 9 次博弈的时候，就应该能想到——下一次博弈是最后一次，不会有合作。既然如此，那么本次博弈，当然也没必要合作了（请注意：合作是为了下次能继续合作）
　　上述反推可以一直持续到第一次。所以，如果双方都足够理性，在第一次就会选择互相背叛。

海盗博弈（海盗分金问题）

　　上述例子太简单啦，再来个稍微复杂的例子。

　　博弈场景描述
　　5 个海盗抢了 100 个金币，讨论如何分赃。
　　这 5 个海盗有等级高低（不妨假设 A＞B＞C＞D＞E）。先由等级最高的海盗提出分赃方案，然后投票。如果半数以上（含半数）同意，就按这个方案分，游戏结束；如果同意的不到半数，把提出方案的海盗扔进海里喂鲨鱼，然后由次一等级的海盗提出新的方案；以此类推。
　　每个海盗的特点是：足够理性（追求个人利益最大化）并且知道别人也足够理性；足够残忍（在个人利益等同的情况下，倾向于把更多同伴扔进海里）。
　　现在，请你思考一下最终的结局（需要用到本章节所说的 “反向归纳法”）。

给

你

一

柱

香

的

时

间

思

考

这

个

问

题

，

先

别

急

着

往

下

翻

页

　　博弈策略分析
　　为了进行反向推理，假设最后只剩下 2 个海盗（D ＆ E）。此时的投票肯定过半（D 肯定投票赞同自己的方案）。在这种局面下，D 可以采用最极端的方案——自己全拿 100 个金币，E 则一个也拿不到。
　　现在回推一步。当只剩下 3 个海盗（C、D、E），由 C 提出方案。他只需要分 1 个金币给 E，E 就会投票支持（否则的话，等到由 D 来提方案，E 啥也拿不到）。所以在 C 的方案中，他自己拿 99 个金币，E 拿 1 个金币。
　　再往前一步。只剩下 4 个海盗（B、C、D、E），B 提方案，他当然也能想到刚才那些推理。他只需给 D 1 个金币，D 就会支持他（如果等到 C 来提方案，D 啥也拿不到）。所以 B 提出的方案是 B：99，C：0，D：1，E：0，同样能得到半数支持。
　　基于上述分析，再看 A 的方案，就很显然了——A：98，B：0，C：1，D：0，E：1

　　有些同学可能会觉得：A 还可以提出另一个等价方案 A：98，B：0，C：0，D：1，E：1（把 C ＆ D 交换）
　　其实这个方案【不】等价。如果是后面这个方案，D 会投反对票，于是 A 去喂鲨鱼，由 B 来提方案，D 还是可以拿到 1 个金币。虽然两种方案，D 都是拿 1 个金币。但基于规则中提到的【残忍性】，D 会对 A 的方案投反对票。

　　海盗分金的推广
　　如果你凭直觉认为：总是最先提出方案的海盗占最大利益，那你就犯了直觉谬误啦。
　　这个博弈游戏还可以推广到更多海盗。当海盗数量达到某个临界点之后，第一个提出方案的海盗必死无疑（必定被丢进海里喂鲨鱼）。
　　更详细的介绍，可以参见维基百科的 “这个链接”。

纳什均衡

　　前面喷了好多口水，终于要聊到大名鼎鼎的 “纳什均衡”（Nash equilibrium）啦。
　　美国数学家纳什在 1951 年发表了一篇小论文（篇幅很短），名叫《非合作博弈》，洋文标题是《Non-Cooperative Games》，其中提出了 “纳什均衡” 的概念并给出了相应的数学证明（该证明基于“不动点定理”）。

（约翰 · 福布斯 · 纳什）

概念

　　所谓的 “纳什均衡”，通俗地说是指——在多人的“非合作博弈” 中，如果每个博弈者都无法【单方面】改善自己的境地，此时的局面称作“纳什均衡”。
　　冯 · 诺伊曼已经在《博弈论与经济行为》一书中证明了：零和博弈必定存在这样的均衡点。
　　纳什的贡献在于——他从 “零和博弈” 推广到“非零和博弈”，并证明了：这样的均衡点依然存在。

　　这里有几个定语需要注意：
　　其一，“纳什均衡”的前提是【非合作博弈】。不要望文生义，把 “非合作博弈” 误解为 “没有合作的博弈”。请参见本文开头章节对“博弈类型” 的解释。
　　其二，【单方面】指的是——在其他博弈者都没有改变策略的情况下，自己改变策略。

“纳什均衡” 的【稳定性】

　　当博弈的局面处于 “纳什均衡”，此时的系统是【稳定】滴——如果每个博弈者都足够理性，他们都【不愿意】主动改变当前的策略。

实例：囚徒困境

　　几乎每一个讲 “纳什均衡” 的资料（书 / 文章）都会拿 “囚徒困境” 来举例，俺也不能免俗 :(
　　以下是 “囚徒困境” 的收益矩阵（被判刑的年数以负数表示，零表示立即释放）：

	囚犯 B
囚犯 A		坦白	抵赖
	坦白	-2,-2	0,-5
	抵赖	-5,0	-1,-1

　　基于上述矩阵，“双方都坦白” 的局面是 “纳什均衡点”（表格中着色的格子）——在这个均衡局面下，任何一个囚犯【单方面】改变策略，只会让自己更不利。
　　作为对比，“双方都抵赖” 虽然是双赢的局面，但这个局面是【不】稳定滴。因为在这个局面下，任何一个囚犯都有动机去改变策略，从而让自己的获益更多。

实例：石头 / 剪刀 / 布

　　对这个游戏，有一个稳定的【混合策略】——其中每个策略各占 1/3 的权重（以相等的概率随机使用这 3 个策略）。
　　当双方都采用这个混合策略，此时博弈处于 “纳什均衡”。
　　对于 “石头 / 剪刀 / 布” 而言，这是【唯一】的“纳什均衡点”。不信的话，你可以试着考虑其它各种局面，会发现其它的局面都不稳定，（只要双方足够理性）最终都会演化到上述的均衡点。

对 “纳什均衡” 的【误解】

误解 1：把 “纳什均衡” 误解为“各方利益总和最大化”。
　　实际情况是：“纳什均衡”与利益最大化没啥关系。甚至可能出现相反的情况——当局面处于 “纳什均衡” 时，对博弈的各方都不利。
　　典型的例子参见 “囚徒困境”——均衡的时候，反而是【双输】的局面。

　　误解 2：认为 “纳什均衡点” 是唯一的。
　　实际情况是：对某些博弈，可以有【多个】“纳什均衡点”（下面聊 “三党博弈” 会提及）

“纳什均衡” 的【局限性】

局限性 1
　　纳什的证明是【非建设性】滴。也就是说，他只是证明了这个均衡点必定存在，但【没有】给出 “如何找到均衡点” 的方法论。
　　那么，如何找到均衡点捏？
　　进入 21 世纪之后，数学家已经证明：即使对于某些比较简单的博弈，找到纳什均衡点所消耗的计算量也会超出整个宇宙的承受力。
　　从这些数学家的成果中，你会再次感受到 “复杂系统” 的魅力与挑战——即使是一些看似简单的系统，其【复杂性】也已经远远超出人们的想象。以下这篇博文，有助于你更全面地理解这点：
《“政治体制”与 “系统健壮性”——基于“复杂性科学” 的思考》

　　局限性 2
　　对于任何一个稍微复杂点的博弈，要想达到 “纳什均衡点”，需要依赖于非常非常多的约束条件；在现实生活中，不太可能达到。
　　上个月（2020 年 10 月）俺写了一篇博文谈美国政党简史。当时有读者在那篇博文留言并问道：为啥 “多党制” 总是演变为“两党制”？然后俺写了一条长篇留言，从【博弈论】的角度进行分析。
　　在那条留言的末尾部分，俺聊了 “三党博弈” 如何才能出现均衡。“三党博弈”确实有可能达成均衡（而且均衡点还不止一个），但每一个均衡点要依赖的约束条件太多了。这么多约束条件同时满足，概率本来就很低（趋向于零）。即使真的出现了，这种局面也很容易被干扰（只要某个约束条件不再满足，局面就被破坏了）。作为对比，“两党博弈”就更容易演变到“纳什均衡点”，也更容易长期维持。
　　如果连 “三个实体的博弈” 都如此难达成均衡。你可以粗略想象一下：在更复杂的博弈中，达成 “纳什均衡” 的可行性有多么低。

博弈中的【信息】因素

　　聊完 “均衡”，重要的概念基本上讲差不多了。下面开始聊博弈中涉及的一些因素，首先是“信息” 因素。

“perfect information” VS “imperfect information”

　　这两个概念通常针对 “顺序博弈”（动态博弈）而言。
　　在博弈过程中，如果每个参与者在做每个决策时，都能知道已经发生的每个事件的信息，称作 “perfect information”；反之则是 “imperfect information”。

　　“perfect information” 举例：
　　大部分棋类游戏（围棋、象棋、跳棋...）属于这类。

　　“imperfect information” 举例：
　　某些军棋游戏只能看到己方的棋子，属于这类；大部分扑克游戏（比如：桥牌、拱猪...）也是这类。

“complete information” VS “incomplete information”

　　在博弈论的讨论中，很多人混淆了 “perfect information” 与“complete information”。
　　“complete VS incomplete” 的讨论主要针对【博弈者】。如果每个博弈者的特征都是公开的（每个人都知道其他人的特征），则称为 “complete”；反之是 “incomplete”。
　　【博弈者的特征】是啥捏？通俗地说包括：博弈目标、效用函数、等等。
　　“博弈目标” 比较好理解，“效用函数” 指的是——为达到不同级别的目标愿意付出多大代价。俺在《聊聊 “核战略的博弈模型” 与“中美新冷战”》一文中花了很大篇幅谈【战争意志】。这个玩意儿所代表的就是：“核战略博弈” 中，博弈者（国家领导人）的 “效用函数”。
　　“核战略博弈”就是典型的 “incomplete information” 类型的博弈，因为博弈的各方【无法】精确评估其它国家领导人的“战争意志”。

　　“complete information” 举例：
　　几乎有所有的【棋牌类游戏】都属于 “complete information”——双方的目标是公开且固定的（比如象棋的目标是干掉对方的王），而且也不用考虑“效用函数” 之类的概念。

　　“incomplete information” 举例：
　　除了刚才所说的 “核战略博弈”，【拍卖】也属于这类博弈——有些人是真的买家，有些人只是为了抬价；即使是真正的买家，各自的底线也不公开。

对翻译的吐槽

　　前面 2 个小节谈 “perfect information”＆“complete information”，俺为啥都用洋文，而不用中文？
　　就是因为这 2 个玩意儿的中文翻译没有统一。有些博弈论的资料，把 “perfect information” 翻译成 “完全信息”；另一些资料则把“complete information” 翻译成“完全信息”。真是坑爹啊！再加上这两个概念本来就很容易搞混（如前所述），所以俺只好全用洋文来称呼之。
　　今后你阅读某些博弈论相关的书籍或文章，一旦看到有中文的 “完全信息”，先得搞清楚它想表达的，到底是“perfect information” 还是“complete information”。

贝叶斯博弈（Bayesian game）＆贝叶斯纳什均衡（Bayesian Nash equilibrium）

　　对于 “incomplete information” 的博弈，由于每个博弈者【无法】精确掌握其它博弈者的特征。对这类博弈，需要引入【贝叶斯定理】（Bayes' rule）进行概率分析，从而猜测其它对手的特征。所以这类博弈也称作 “贝叶斯博弈”。
　　“贝叶斯定理” 是概率论的重要工具。要对它展开讨论，至少又是一个长篇博文。暂且打住。
　　对于 “贝叶斯博弈”，其纳什均衡称之为 “贝叶斯纳什均衡”，洋文简称 BNE（Bayesian Nash equilibrium）。

实例分析：翻墙工具 VS GFW

　　俺写翻墙教程已经有十多年的历史了（最早的一篇写于 2009 年），平时也经常有读者在博客留言，询问相关话题。本小节就拿翻墙来举例。
　　下面这个例子，俺曾经在博客评论区与某读者交流过。考虑到大部分读者平时不逛评论区，今天把这个案例拿出来聊聊。

　　1. 翻墙工具的两大类
　　根据【服务器】的差异，大部分翻墙工具可以分为两类：使用【公共的】翻墙服务器 or 使用【自建的】翻墙服务器。

　　2. “公共服务器” 的翻墙方式
　　这类翻墙工具至少包括：VPNgate、赛风、蓝灯、自由门、无界...
　　对这类翻墙工具，GFW 至少有如下两招来对付：
其一，在国际出口识别翻墙工具的通讯协议，如果发现某个流量被用于翻墙，直接阻断之。
其二，GFW 的研究人员可以去翻墙工具的官网下载翻墙客户端，然后在自己的环境（沙箱环境）运行这个客户端，并分析它会连接哪些公共服务器。最后把收集到的服务器 IP 地址加入 “IP 黑名单”。
　　前面这招叫做【协议识别】，后面这招是【沙箱分析】。

　　3. “自建服务器” 的翻墙方式
　　这类翻墙工具至少包括：ShadowSocks 及其衍生品...
　　由于服务器是翻墙网民【私有】的（比如私人购买的 VPS）。首次运行翻墙客户端之后，通常还需要再配置服务器的 IP 地址（这个信息对 GFW 是【保密】滴）。
　　在这种情况下，GFW【无法】使用 “沙箱分析” 去收集“翻墙服务器的 IP”，而只能动态识别翻墙协议。

　　4. GFW 的封锁成本
　　GFW 要想封锁翻墙工具，比较常见的两招是：“协议识别”＆“IP 黑名单”。
　　（注：为了对付自建服务器的翻墙工具，GFW 近些年开始引入【主动探测】，但这招用得不算多。用得最多的应该还是上述两招）
　　至于 GFW 的其它招数（比如：域名污染、关键字过滤）是用来对付普通上网，对翻墙工具基本无效。
　　在 GFW 对付翻墙工具的这 2 招里，“协议识别” 会消耗很多的 CPU 运算量，导致封锁成本提高；（相对而言）“IP 黑名单” 的成本要低得多。
　　（注：如果只是对单个流量进行协议分析，CPU 的运算量不大；但 GFW 部署在【国际出口】，需要并发处理成千上万的流量，这时候 CPU 的压力就体现出来了）

　　5. 小结
　　综上所述，当 GFW 碰到那些使用【公共服务器】的翻墙工具，更接近于【单向的】“perfect info” 博弈（翻墙工具对于 GFW 而言是 “perfect info”，而 GFW 对于翻墙工具而言是 “imperfect info”）
　　反之，当它碰到那些【自建服务器】的翻墙工具，更接近于 “imperfect info” 博弈。

博弈中的【心理】因素

换位思考

　　在博弈所涉及的诸多心理因素中，俺首先要聊的是【换位思考】。
　　前面聊的很多博弈相关技能（比如：最小最大原则、反向归纳法），都依赖于 “换位思考” 这个能力——你需要站在【对手】的角度进行思考，才能看清局面，从而更好地选择自己的策略。
　　“换位思考” 的好处不仅仅体现在博弈中，还体现在其它很多方面。比如说：俺在博客中不止一次地强调【批判性思维】的重要性（比如 “这篇”），也不止一次地介绍过 “批判性思维” 分两大类：【弱】批判思维＆【强】批判思维。后者比前者更重要。一般来说，那些 “换位思考” 能力越强的人，也越善于进行【强】批判思维。

　　既然 “换位思考” 如此重要，某些同学肯定会问：如何才能提升【换位思考】的能力捏？
　　方法有很多种。其中一个方法，俺在如下博文已经介绍过。
　　《如何【系统性学习】——从 “媒介形态” 聊到“DIKW 模型”》

　　另一个提升【换位思考】能力的方法是——通过某些复杂的博弈游戏，进行练习。
　　在本博客的长期读者中，有些人知道俺是个围棋爱好者（当年 AlphaGo 横扫人类冠军的时候，还专门发过 2 篇博文）。俺会利用下围棋的机会，强迫自己更多地进行换位思考。
　　写到这里，顺便聊聊围棋的几个特点：
　　1. 节奏慢
　　只有那些慢节奏的博弈，才可能深度思考；与之对比，电脑上的即时战略游戏，节奏太快了。
　　2. 复杂性
　　游戏本身足够复杂，才可能深度思考。
　　从 “决策树复杂度” 而言，围棋远远超越所有棋牌类游戏。
　　3. 换位思考
　　你既要思考如何攻击对方，也要思考对方如何攻击你。
　　为了思考 “对方如何攻击你”，你就要站在对方的角度思考自己的布局，并尝试找出【自己】的弱点。
　　4. 把握平衡
　　要想下得好，你需要把握各种平衡，比如：速度与厚味的平衡、大场与急所的平衡......
　　顺便说一下：“速度与厚味的平衡” 跟这篇博文的某个核心观点（系统的均衡性）是相通滴。
　　5. 从简单到复杂
　　大部分棋类游戏（国际象棋、中国象棋、西洋跳棋、军棋......）都是越到后面，局势就越简单明朗；扑克类游戏也是如此。
　　但围棋则完全不同。
　　6. 全局性（全局耦合性）
　　大部分棋类游戏，要么是 “局部性” 的（比如五子棋），要么是“全局弱耦合”（比如国际象棋）；而围棋属于“全局强耦合”。
　　围棋的这个特点，使得棋手要建立很好的【大局观】（完全不懂围棋的同学，很难体会此处所说的 “大局观”）

早期经济学的 “理性人假设” 及其谬误

　　在 “博弈论” 诞生【之前】，微观经济学在进行数学建模的时候，通常都会引入一个 “理性人假设”——假定市场的行为主体（公司 or 个人）是充分理性滴（此处的“充分理性” 还隐含着“掌握充分的信息”）。
　　为啥一定要引入这个假设捏？是为了数学建模的需要（否则没法建模）。但这个假设其实非常扯蛋——
在博文和评论区的交流中，俺多次强调了【平庸的大多数】。对任何一个国家（哪怕是成熟的民主国家），大多数人都很平庸（他们的共同点之一是非常【不】理性）。充分理性（并且掌握了充分信息）的个人，就算有，那也绝对是凤毛麟角。而 “理性人假设” 竟然设定市场的行为主体全都是充分理性的。这不是睁着眼睛说瞎话嘛？

　　有了博弈论之后，这个非常扯蛋的 “理性人假设” 就可以丢到垃圾桶里了 :) 为了帮大伙儿理解，俺用两种不同的理论来解释同一个现象。
　　比如说，市场上存活的大部分公司，他们生产的商品都是能满足市场需求滴。
　　旧的经济学理论（理性人的解释）会说——所有公司的老板都充分理性，也掌握了充分的信息，知道应该生产何种商品，才能满足市场需求。
　　新的经济学理论（博弈论的解释）会说——公司的老板既有聪明的，也有傻逼的。傻逼公司生产的商品没人要，自然会亏损并倒闭。随着时间的推移，经过【自然选择】，活下来的公司当然是那些聪明的（至少不是太笨的）。

　　题外话：幸存者偏见
　　早期的经济学家，为啥会想出扯蛋的 “理性人假设” 捏？其中一个重要原因是【幸存者偏见】。
　　因为这个思维谬误是如此普遍（且影响深远），俺为这个主题专门写过两篇博文：
《思维的误区：幸存者偏见——顺便推荐巴菲特最著名的演讲》
《思维的误区：忽视沉默的大多数》

装疯策略

　　前一个小节谈了 “理性人假设” 及其谬误。这个谬误是把 “不理性的主体” 误当作“理性的主体”。
　　本小节再来说一个相反的情况——“理性的博弈者” 把自己伪装成 “非理性的博弈者”，这么干可以获得某种【虚张声势】的唬人效果。对这种手法，俺称之为 “装疯策略” :)
　　2017 年的时候，朝鲜半岛的【核危机】升级。由于这事儿发生在不久之前，大伙儿应该都有印象吧。
　　当时很多读者问俺对这场危机的看法，于是俺在 2017 年写了两篇博文，分别谈 “北朝鲜＆美国” 的博弈策略（如下）。当年北朝鲜的金三胖，采用的就是这类“装疯策略”。
《聊聊朝鲜半岛核问题——北朝鲜博弈策略分析》
《聊聊朝鲜半岛核问题——美国博弈策略分析》

“博弈论” 对其它领域的影响

　　在本文的末尾，稍微聊一下：博弈论对其它领域 / 学科的影响。

对【经济学理论】的影响

　　谈 “博弈论” 的影响，当然首先要谈它对【经济学】的影响。博弈论的问世堪称“经济学在 20 世纪最重要的革命”。
　　在前面的某个小节，俺已经提到：有了博弈论，就不再需要那个扯蛋的 “理性人假设” 了。这是 “博弈论” 诞生后对微观经济的重大影响。
　　除了这个影响，还有很多其它的影响。比如说：（博弈论诞生前）传统的微观经济学以 “供给 / 需求” 来建立【价格】的数学模型。这个模型只考虑了 “供应量 / 需求量” 的变化对价格的影响，而完全【不】考虑供给双方的【力量对比】。
　　【力量对比】是啥意思捏？如果供给双方中，一方变得强势或另一方变得弱势。即使供应量与需求量都维持不变，价格也会发生变动（朝着对强势方有利的方向移动）。
　　为了帮大伙儿理解上述这句话，拿咱们天朝臭名昭著的【996 工作制】来现身说法。
　　咱们天朝【没有】真正意义上的工会；各个城市的【官方工会】都是替党说话，而不是替工人（白领、蓝领）说话。在工会缺位的情况下，资方自然变得更强势，而劳方变得更弱势。【996 工作制】就是在这个大背景下发展起来滴。通过变相延长工作时间，也就相当于变相压低了劳动力的价格（请注意，劳动力本身也是一种商品）。
　　实际情况不仅于此。因为 996 工作制已经开始普及——今年（2020）深圳开始搞相关的试点，企图把这种工作制【合法化】。当这种工作制逐渐普及之后，会在人力资源市场产生某种【正反馈】，从而导致某种更糟糕的后果（对资方而言则是更美好的后果）。相关的分析参见去年（2019）的博文，其中有一个章节是“996 工作制” 如何影响天朝的人力资源市场？
《“996 工作制” 只不过是【劫贫济富】的缩影——“马云奇葩言论” 随想》

对【金融、投资、营销】的影响

　　这几个领域都与经济密切相关，并且这几个领域的活动都会带有显著的 “对抗性色彩”。所以，博弈论对这些领域的影响也很显著。
　　比如俺网盘上分享过一本《营销战》，其作者杰克 · 特劳特是全球知名的营销理论大牛。书中借用了很多军事领域的概念，来谈市场营销的策略。如果你对博弈论比较熟悉，看这本书会有不一样的感受。

对【军事＆外交】的影响

　　“博弈论”当然也会深刻影响军事和外交领域。尤其是在如今这个 “战略核武器” 的时代，博弈论尤其显得重要。
　　关于这个主题，俺在今年（2020）写过一篇《聊聊 “核战略的博弈模型” 与“中美新冷战”》，这里就不展开了。

对【生物学】的影响

　　生物学有很多分支，受博弈论影响最大的分支估计是 “演化生物学”（也就是俗称的 “进化论”）。
　　借助博弈论的研究成果，“演化生物学家” 可以更好地建立物种演化的数学模型。举个栗子：上世纪 70 年代发展起来的 “演化稳定策略”（Evolutionarily Stable Strategy，简称 ESS）。这个理论可以更好地解释物种的自然选择。
　　俺的网盘上分享的那本《纳什均衡与博弈论——纳什博弈论及对自然法则的研究》，其第 4 章专门聊 “博弈论如何应用到演化论”。
　　顺便说一下：“进化论”这个中文翻译不太恰当，会让人产生一种（下意识的）错觉——似乎进化带有某种方向性＆目的性。为了消除这种错觉，如今越来越多的科普读物开始改用 “演化论” 这个中文翻译。

结尾

　　由于本文定位于【基础性扫盲】，只能蜻蜓点水，简单聊聊。这里面的很多话题，假如要深入细谈，可以再写出好几篇博文。
　　如果你对这方面感兴趣，可以在博客评论区进行反馈。很多时候，俺会根据读者需求，适当调整 “写博文的权重”。
　　另外，也感谢很多热心读者，长期与俺在评论区交流。本文中提到的好几个案例，都是前些年与读者交流时聊到的。

Hi! Welcome

引子

概述