Liberal Arts {Article312}

ようこそ「リベラル・アーツ」へ...

武器になる哲学〔5〕ナッシュ均衡【山口周】



【動作環境】iPhone[○], Android[○], Windows{Microsoft Edge[○], Google Chrome[○]}
◆ナッシュ均衡【ジョン・ナッシュ】

ナッシュ均衡というのはゲーム理論の用語である。

ゲームに参加しているどのグループも、
他の選択肢を取ることで期待値が向上しない、
つまり「均衡」している状態を指す。

ナッシュ均衡を説明するための思考実験として
最もよく知られているのが
「囚人へのジレンマ」である。

「囚人へのジレンマ」とは、
二人組の銀行強盗が警察に捕まって
別々の部屋で取り調べを受けている。

警察官は二人の容疑者に対して次のように迫る。

「もし、両者とも黙秘を続ければ
証拠不十分で刑期は1年。

二人とも自白すれば刑期は5年。

相方が黙秘を続けているとき、
お前が自白すれば捜査協力の礼として
お前は無罪放免、
相手は刑期10年だ」と。

このとき、
二人の囚人はこのように考えるはず。

「もし相方が黙秘する場合、
自分が自白すれば無罪放免、
自分も黙秘すれば刑期1年で、
この場合自白した方がいい。

一方、相方が自白するのであれば、
自分も自白すれば刑期は5年、
自分が黙秘すれば刑期10年で、
こちらの場合もやはり自白した方がいい。

つまり相方が自白しようが黙秘しようが、
こちらにとってはいずれの場合でも
自白が合理的だ」と。

結果的に、
二人の囚人はそろって自白し、
どちらも5年の刑を
受けることになってしまうという話。

利得を最大化するための合理的な戦略を採用した結果、
必ずしもプレイヤー全体での利得は
最大化されないという話で、
専門的には非ゼロ和ゲームという。

何度も繰り返すという面を反映させたのが
「繰り返し囚人のジレンマ」と呼ばれるゲームである。

このゲームでは、
プレイヤーはそれぞれ「協調」と「裏切り」
のカードを持っていて、
合図と共に同時に相手にカードを見せ合う。

もし二人とも裏切る場合、
二人とも1万円の賞金を得る。

もし二人とも協調すれば二人とも3万円の賞金を得る。

もし一方が裏切り、他方が協調すれば裏切った側に
5万円の賞金が与えられ、
協調した側には何も与えられない。

では、最も高い賞金を得るためには、
どのような選択を行うべきか?

この「繰り返しの囚人ジレンマ」の
プログラム・コンテストを行ったところ、
優勝したのが、もっともシンプルなものだった。

具体的には、初回は「協調」を出し、
2回目は前回の相手と同じものを出し、
以下それをひたすら繰り返す、
という極めてシンプルなものだった。

「このプログラムの強さのポイント」
を説明すると次のようになる。

第一に、
このプログラムは自分からは決して裏切らない。

まず協調し、相手が協調する限り協調をし続ける
という「いい奴」の戦略をとる。

その上で、第二に、相手が裏切れば即座に裏切り返す。

協調してばかりだと
相手が裏切った際に損失が膨らむが、
即座にペナルティを向こうに与える。

「いい奴」だけど、売られたケンカは買う、
ということ。

さらに、第三のポイントとして、
裏切った相手が再び協調に戻れば、
こちらも協調に戻るという「寛容さ」を持っている。

終わったことは水に流して握手、
というナイスガイな戦略である。

最後に、このプログラムは、
相手側からすると
「こちらが裏切らない限りいい人だけど、
こっちが裏切ると裏切る」ことが明白で、
非常に単純でわかりやすく、
予測しやすいという特徴がある。

まず協調し、
相手から裏切られない限り
協調し続けるというプログラムが、
「繰り返し囚人ジレンマ」ゲームにおいては
最強の戦略となる、
ということはいろいろ我々に考えさせるものがある。

この戦略を対人関係にも応用してみてはどうか。