囚人のジレンマ

囚人のジレンマ(しゅうじんのジレンマ、: prisoners' dilemma)とは、ゲーム理論におけるゲームの1つ。お互い協力する方が協力しないよりもよい結果になることが分かっていても、協力しない者が利益を得る状況では互いに協力しなくなる、というジレンマである[1]。各個人が合理的に選択した結果(ナッシュ均衡)が社会全体にとって望ましい結果(パレート最適)にならないので、社会的ジレンマとも呼ばれる[2]

1950年に数学者のアルバート・タッカーが考案した[3]ランド研究所メリル・フラッド英語版メルビン・ドレシャー英語版の行った実験をもとに、タッカーがゲームの状況を囚人の黙秘や自白にたとえたため、この名がついている[4]

囚人のジレンマではゲームを無期限に繰り返すことで協力の可能性が生まれる(後述)。囚人のジレンマは、自己の利益を追求する個人の間でいかに協力が可能となるかという社会科学の基本問題であり、経済学政治学社会学社会心理学倫理学哲学などの幅広い分野で研究されているほか、自然科学である生物学においても、生物の協力行動を説明するモデルとして活発に研究されている[5]

ゲームの基本

[編集]

共同で犯罪を行ったと思われる2人の囚人A・Bを自白させるため、検事は囚人A・Bに次のような司法取引をもちかけた[6]

  • 本来ならお前たちは懲役5年なんだが、もし2人とも黙秘したら、証拠不十分として減刑し、2人とも懲役2年だ。
  • もし片方だけが自白したら、そいつはその場で釈放してやろう(つまり懲役0年)。この場合黙秘してた方は懲役10年だ。
  • ただし、2人とも自白したら、判決どおり2人とも懲役5年だ。

このとき、「2人の囚人A・Bはそれぞれ黙秘すべきかそれとも自白すべきか」というのが問題である。なお2人の囚人A・Bは別室に隔離されており、相談することはできない状況に置かれているものとする。

2人の囚人A・Bの行動と懲役の関係を表(利得表と呼ばれる)にまとめると以下のようになる。表内の (○年, △年) は2人の囚人A・Bの懲役がそれぞれ○年、△年であることを意味する。たとえば表の右上の欄(10年,0年)とは,「Aが黙秘・Bが自白」を選択した場合、Aの懲役は10年、Bの懲役は0年であることを意味する。

囚人B 黙秘 囚人B 自白
囚人A 黙秘 (2年, 2年) (10年, 0年)
囚人A 自白 (0年, 10年) (5年, 5年)

2人の囚人A・Bにとって、「互いに自白」して互いに5年の刑を受けるよりは「互いに黙秘」して互いに2年、合計で4年の刑を受ける方が得である。しかし、2人の囚人が「互いに黙秘」が全体の利益で得であると認識した上で2人の囚人A・Bがそれぞれ自分の利益のみを追求している限り、「互いに黙秘」という結果ではなく「互いに自白」という結果となってしまう。これがジレンマと言われる所以である。このようなジレンマが起こるのは以下の理由による。

まず囚人Aの立場では次のように考えるだろう。

  • 囚人Bが「黙秘」を選んだ場合、自分 (=囚人A) の懲役は2年(「黙秘」を選んだ場合)か0年(「自白」を選んだ場合)だ。だから「自白」を選んで0年の懲役になる方が得だ。
  • 囚人Bが「自白」を選んだ場合、自分 (=囚人A) の懲役は10年(「黙秘」を選んだ場合)か5年(「自白」を選んだ場合)だ。だからやはり「自白」を選んで5年の懲役になる方が得だ。

したがって、囚人Aにとっては,囚人Bがどのように行動するかにかかわらず自白することが最適な選択ということになる。これは囚人Bにとっても同じであるため、囚人Bも囚人Aと同じ考えによって自白することが最適な選択である。このような理由で2人の囚人A・Bは結果的に「互いに自白」という行動をとることとなる。

重要なのは、「囚人Bが自白してしまうのではないか」という懸念や恐怖から囚人Aは自白するわけではなく、囚人Bが黙秘しようが自白しようが囚人Aは合理的に自白する、という点である。

2人の囚人A・Bにとって「互いに黙秘」することがパレート最適であるにもかかわらず,2人の囚人A・Bがそれぞれ合理的に自白するという「互いに自白」という結果はナッシュ均衡ではあってもパレート最適ではない。

2人の囚人A・Bが「互いに黙秘」することを「協調」と言い換え,「どちらかが黙秘しているとして自分だけが自白して釈放してもらおう」とすることを「裏切り」と言い換えたとき,結果的に両者は「裏切り」を選択することとなる。

有限繰り返しゲーム

[編集]

囚人のジレンマのゲームを一回しか行わない場合は上で説明したように両者が「裏切り」を選択するが、それに対しゲームを複数回行った場合(繰り返しゲーム)における2人の囚人の行動は、彼らがゲームの繰り返し回数を知っているか否かで異なる。

2人の囚人がゲームの繰り返し回数を知っている場合は有限繰り返しゲームと呼ばれ、この場合には2人の囚人が全てのゲームで「裏切り」を選択することが知られている[7]。証明は、最終回のゲームから逆順に以下の帰納法を行うことで示せる(後退帰納法)。以下ゲームの繰り返し回数をn とする。

  • n 回目のゲームは最終回のゲームであるので、n 回目のゲームの結果が二者関係に与える影響を考慮する必要がない。よってn 回目のゲームの戦略はゲームを一回しかやらない場合の戦略と同様であり、囚人はともに「裏切り」を選択する。
  • n 回目のゲームでは双方とも必ず「裏切り」を選択するのだから、n-1 回目のゲームで自分が「協調」を選択しようが「裏切り」を選択しようがn 回目のゲームには影響しない。よってn-1 回目のゲームにもやはり駆け引き的要素は存在せず、このゲームでも2人の囚人はともに「裏切り」を選択する。
  • 以下同様に考えることで、全てのゲームで2人の囚人がともに「裏切り」を選択することが分かる。

無期限繰り返しゲーム

[編集]

2人の囚人がゲームの繰り返し回数を知らない場合は無期限繰り返しゲームと呼ばれる。有限繰り返しゲームにおいては、最終回のゲームから順に後退帰納法を適用することで全てのゲームで裏切りを選択するのが均衡となることを導いた。しかし,無期限繰り返しゲームではゲームが終了する確定的な期限がないので後退帰納法を適用できず、協調の可能性が生まれる。

このことを説明するため、以下の利得表で表される囚人のジレンマゲームを考える[8]。なお以下では,数学的な説明のために「囚人」を「プレーヤー」という言葉で置き換える。この表は2人のプレーヤー が「協調」か「裏切り」かの戦略を選ぶときの、1回ごとの利得を示す。並んだ数字の左側は の利得、右側は の利得である。なお、「利得」とは得られる利益を意味し、多い方がよい。

協調 裏切り
協調
裏切り

そして次のトリガー戦略を考える。

  • はじめは協調を選択し、相手が一度でも裏切ったらそれ以降は裏切りをとりつづけ、そうでなければ協調する。

お互いにこのトリガー戦略をとっているときに自分がこの戦略から逸脱するインセンティブがなければ、トリガー戦略がナッシュ均衡になることが示される。

最も簡単なケースは、プレーヤーが将来を割り引かず、常に明日のことを今日と同じぐらい大事に思う場合である[9]。ゲームを無限に何度も繰り返すものとして、各プレイヤーが無限回の利得を平均した平均利得を最大化すると想定しよう[10]。互いにトリガー戦略をとると互いに協調しつづけることになるので毎回の利得は2であり平均利得も2である。一方、自分がトリガー戦略から逸脱して裏切った場合、裏切った回は3の利得を手に入れるがその後は相手も裏切るので自分の利得はせいぜい1にしかならない。1回だけ利得3でその後ずっと毎回利得1なので平均利得は1になるが、これはトリガー戦略の平均利得2を下回る。つまりプレイヤーはトリガー戦略から逸脱すると長い目でみて損をする。したがって互いにトリガー戦略から逸脱せず協調しつづけるのがナッシュ均衡になる。これにより協調が生まれる可能性が示される。

ナッシュ均衡を生み出す戦略はトリガー戦略のみに限らない。たとえば最初は協調し以降は前回相手の出した手をそのまま出すしっぺ返し戦略も、逸脱するインセンティブがないので均衡となる[11]。このほか協調を実現する均衡は無数に存在する。また、互いに裏切り続けるのも均衡として残る。このように無数の均衡が存在することはフォーク定理で示される[12]

将来を割り引くケース

[編集]

上記の平均利得を最大化するという設定は、プレイヤーが無限に忍耐強くて将来を割り引かないことを意味しており、現実的とはいえない[13]。プレイヤーが将来を割り引く場合については、次の通りである[14]

プレイヤーは将来の利得を一定の割引因子 で割り引いていくものとし、そうして割り引いた割引利得の総和を最大化するものと想定しよう。お互いトリガー戦略をとると互いに協調しつづけるので、毎回の利得は2であり割引利得の総和は

である。一方、自分がトリガー戦略から逸脱して裏切った場合、裏切った回で利得3をとるが、その後の利得はせいぜい1であるので、割引利得の総和は

である。すなわち, であれば となるので,裏切っても割引利得の総和が増えず、裏切るインセンティブがないので、トリガー戦略はナッシュ均衡になる。すなわち割引因子が十分に高い場合に協調が生まれる可能性がある。

ゲームが終わるかもしれないケース

[編集]

ここまではゲームを永久につづける無限(infinitely)繰り返しゲームを考えたが、これは現実的とはいえないので、その代わりに無期限(indefinitely)繰り返しゲームを考える[13]。無期限繰り返しゲームとは、ゲームが確定的に終わる期限はないが、ゲームが確率的に終わる可能性を想定する。ゲームの終わる確率が十分に小さければトリガー戦略がナッシュ均衡になり、協調の可能性が示される。

不完全観測のケース

[編集]

ここまでは相手の行動を完全に観測できると想定した。現実には「相手に協調してもらったのに裏切られたと誤解する」「裏切られたのに気付かない」というように、他人の行動を不完全にしか観測できないことが多い。このような不完全観測のもとでの無期限繰り返し囚人のジレンマの理論は近年大きく発展している[15]

不完全観測のケースでは、相手の他のプレイヤーの行動を不完全ながら表すシグナルを観察できるものとし、誰もが観察できるシグナルがある場合を公的不完全観測、各人自分しか見られないシグナルを観察する場合を私的不完全観測という[16]

公的不完全観測のケースは比較的分析が容易である[17]。完全観測下のトリガー戦略に似た戦略で協調が生まれる[18]。フォーク定理は1994年にきわめて緩い条件のもとで証明された[19]

一方、私的不完全観測のケースは分析が困難で、いまだ研究途上にある[17]。私的不完全観測では協調を生み出す戦略を見つけること自体が難問で、長い間ゲーム理論の未解決問題として有名であった[20]。この難問に初めて答えが出たのは1997年のことで、きわめて高い精度で人の行動を私的観測できる場合の囚人のジレンマで協調を生み出す戦略が見つかった[20]。また、各期の終わりに集まってコミュニケーションをとれる場合に限っていえば、1998年に一定の緩い条件のもとでフォーク定理が証明された[21]。コミュニケーションを取れない場合については、相手が今までみてきたことを全く気にする必要のないような特殊な均衡をつくる信念不問アプローチが多くの成果を挙げている[21]。2002年には信念不問アプローチにより囚人のジレンマの均衡を簡単につくる方法が発見され、本格研究が進展し始めた[21]。そして2012年、ついに私的不完全観測下のフォーク定理がかなり緩い条件のもとで証明された[22]

現実における囚人のジレンマ

[編集]

企業の値下げ競争、公共財の供給、環境問題共有資源の管理、自由貿易軍縮のための国際協力など、現実社会における事象にも囚人のジレンマを使って説明できるものは多くある[2]

それどころか、囚人のジレンマはあらゆる商談についてまわる[23]。商品交換の機会は典型的な1回限りの囚人のジレンマの状況を含む[24]。取引によって互いに利益を得ることができるが、取引相手を騙すことで自分の利益を増やすことができるからである。具体的には、買い手が期日までに代金を支払わない、売り手が商品を引き渡さない、不良品を売りつける、といった裏切りである。取引が実現するには裏切りをコントロールする仕組みが必要だが、その仕組みは取引の繰り返しによっても確保される。取引相手が裏切ったら将来の取引をやめるという脅しをかけあうことで裏切りを阻止するのである。

アクセルロッドに対する批判

[編集]

政治学者アクセルロッドは、無期限繰り返し囚人のジレンマの競技会を企画し、各分野の社会科学者からコンピュータ・プログラムを募って対戦させた。その結果、しっぺ返し戦略が優勝した。さらにアクセルロッドが参加プログラムについて進化シミュレーションを走らせたところ、生き残った戦略のなかでしっぺ返し戦略の数が最大であった。アクセルロッドはこれらの結果にもとづいて、しっぺ返し戦略は善良・報復・寛容・明快を兼ね備えており人間の協力全般にとって適切なパラダイムである、と主張した。この主張を鵜呑みにする社会科学者は少なくない[25]

アクセルロッドの研究は大きな反響を呼び、これ以降、進化生物学、社会学、政治学、コンピュータ科学などにおいて、さまざまな戦略を戦わせて、どの戦略が生き残るかをみるコンピュータ・シミュレーションが行われるようになった。このようなアクセルロッド流シミュレーション研究は、均衡の存在を数学で証明する本来のゲーム理論とほとんど関係がない[26]

アクセルロッドの研究はゲーム理論研究者の間で評判がよくなかった[26]ケン・ビンモアらゲーム理論研究者はアクセルロッドを次のように批判する。

  • アクセルロッドの研究のせいで、かなりトンデモない(astonishing)主張が広まってしまった。しっぺ返しはあらゆるシミュレーション環境で最適なのだとか、ひどいのになると、しっぺ返しは人類の複雑な社会関係における協力の基礎であり生物の社会的協力の進化を全て説明できるのだとかいう主張である。[27]
  • アクセルロッドは、トーナメントの結果から長期的人間関係について一般的な教訓を導いているが、そのような一般化が可能であるという理論的根拠を示していない。根拠のない一般化は危険である[28]
  • アクセルロッドはうっかり有限繰り返し型の囚人のジレンマの進化シミュレーションを走らせてしまった。有限繰り返し囚人のジレンマは必ず裏切りあいの結果になるので、シミュレーションを走らせる必要はない。勝つ戦略は決して協力しない。[29]
  • アクセルロッドの得た結果はそのシミュレーション環境に依存している。アクセルロッドのシミュレーションで生き残った戦略は6つあり、そのうちしっぺ返し戦略の割合は1/6を少し超える程度にすぎない。戦略の初期数を変えると、生き残るしっぺ返し戦略の数は最大にならない[30]
  • アクセルロッドがしっぺ返し戦略に見出したという善良・報復・寛容・明快の利点なるものは、一つ一つ検討してみると、どれも妥当なものではない[30]
  • 無期限囚人のジレンマで協力の可能性がありうることは、アクセルロッドの研究の何十年もまえにフォーク定理で証明されている。ゲーム理論を全く知らなかったアクセルロッドはフォーク定理の一部を発見したにすぎない。[31]

アクセルロッドはゲーム理論からの批判を意図的に無視し続けているという[31]

なお、ゲーム理論においてアクセルロッドの業績が全否定されているわけではない。ビンモアによると、アクセルロッドの貢献はただ一点。フォーク定理が存在を証明する無数の均衡の中から特定の均衡を選ぶことが重要であると気づかせてくれた点にある。進化ゲームによる均衡選択は今やゲーム理論の均衡選択問題で標準的なアプローチになっている。アクセルロッドはその先駆者である、という[31]

代表的な戦略

[編集]

以下にアクセルロッドの競技会に参加した戦略の例を記す[32]

しっぺ返し戦略 (Tit For Tat)
初回は協調を選択し、2回目以降は前回に相手が出した手と同じ手を出す。
アクセルロッドが呼びかけて開催された戦略をリーグ戦方式で対戦させる選手権では2回優勝しているが、2004年の選手権では主人と奴隷戦略に敗れている。
逆しっぺ返し戦略 (Reverse Tit For Tat)
初回は裏切りを選択し、2回目以降は前回に相手が出した手と同じ手を出す。
堪忍袋戦略 (Tit-For-Two-Tats)
初回は協調を選択し、相手が2回連続で裏切りを選んだとき、次回に裏切りを出す。
フリードマン戦略 (Friedman)
初回は協調を選択し、相手が1回でも裏切りを選んだら、以後は最後まで裏切りを出す。
ヨッス戦略 (Joss)
初回は協調を選択し、2回目以降は相手が前回に裏切りを選んでいたら裏切りを出す。前回に協調を出していたら、90%の確率で協調を、10%の確率で裏切りを出す。
テュロック戦略 (Tullock)
最初の10回は協調を選択する。以降は、最初の10回の間に相手が協調を選んだ頻度より10%低い確率で協調を出す。
デービス戦略 (Davis)
最初の10回は協調を選択する。その間、相手が1回でも裏切りを出していれば、以降は裏切りを出す。
でたらめ戦略 (Random)
毎回、協調を出すか裏切りを出すか無作為に決める。
悪人戦略 (All-D)
常に裏切りを出す。
善人戦略 (All-C)
常に協調を出す。

関連する概念

[編集]

一方向の囚人のジレンマ

[編集]

囚人のジレンマの標準的なゲームでは二人のプレイヤーが同時に行動する。これに対して、プレイヤーの間で行動のタイミングがずれるゲームは一般に信頼ゲームと呼ばれるが、一方向の囚人のジレンマとも呼ばれる[33]。一方向の囚人のジレンマは、同時行動の囚人のジレンマと同じように、一回限りでは協力が成立しないが、無期限に繰り返すと協力が成立し得る。

社会的ジレンマ

[編集]

社会学では囚人のジレンマを3人以上の集団に拡大したものを社会的ジレンマと呼ぶことがある[34]。この意味での社会的ジレンマは、社会において(1)各人が協力か非協力かを選ぶ、(2)各人にとっては協力よりも非協力を選ぶほうが望ましい結果を得る、(3)全員が非協力を選ぶと全員が協力を選んだ場合より誰にとっても望ましくない結果におちいる、と定義される[35]

社会学では、社会的ジレンマを多人数囚人のジレンマに限るのは社会的ジレンマの定義として狭すぎるという意見がある[36]。社会的ジレンマの定義を拡張し、社会的ジレンマを全てのナッシュ均衡がパレート非効率であるゲームと定義する[37]とか、さらにはナッシュ均衡がパレート効率である多人数チキンゲームを社会的ジレンマに含める[38]といったことがある。

直接互恵

[編集]

直接互恵は、トリヴァースが提唱した進化生物学の概念であり、個体間の協力が進化するメカニズムの一つである[39]。直接互恵では、2つの個体が繰り返し出会い、出会うたびに協力か裏切りを選ぶ。自分が今回協力すれば相手も次回協力してくれるかもしれないので協力は有利かもしれない。この直接互恵は、ゲーム理論の繰り返し囚人のジレンマに相当する。

アクセルロッドが行った囚人のジレンマのコンピュータ・トーナメントでは単純なしっぺ返し戦略が優勝したが、しっぺ返し戦略の弱点はすぐに見つかった。「震える手」や「曖昧な心」による誤作動があると、しっぺ返し戦略の成績は悪化する。単純なしっぺ返し戦略では間違えて裏切ると報復合戦に陥って間違いを修復できないからである。そこで、しっぺ返し戦略に代わって「寛容なしっぺ返し」戦略が台頭する。これは相手が協力するときは常に協力するが相手が裏切っても時々協力する戦略である。

次いで、さらに単純な「勝てばそのまま負ければかえる」戦略が台頭する。これは、うまくやっている時は手を替えないが、さもなければ替えるという戦略である。「勝てばそのまま負ければかえる」戦略は、成績の計測次第で「しっぺ返し」や「寛容なしっぺ返し」より強い。しっぺ返し戦略は裏切者の多い社会において協力を促進するが、一旦協力が確立されると「勝てばそのまま負ければかえる」戦略のほうがもっと協力を維持できる。

協力を促す戦略は無数にあるが、その一般法則は次の通りである。同じ2つの個体が再び出会う確率wが、協力行動の費用 c と利益 b の比率を上回る場合(w > c / b)に限り、直接互恵は協力の進化を促す。

脚注

[編集]
  1. ^ 渡辺 (2008, pp. 25–27)。
  2. ^ a b 岡田 (2008, p. 87、pp.102–103)。
  3. ^ 岡田 (2008, p. 88)。
  4. ^ Osborne & Rubinstein (1994, p. 30)
  5. ^ 岡田 (2008, p. 102)。
  6. ^ 岡田 (2008, pp. 87–88)。量刑などの細かい設定は異なる。
  7. ^ 渡辺 (2008, pp. 296–301)。
  8. ^ 利得表の数値はビンモア (2015, p. 98)図7による。
  9. ^ ビンモア (2015, p. 16)。
  10. ^ ビンモア (2015, pp. 121–123)。またはBinmore (2004)、7. Folk theorem。
  11. ^ 岡田 (2008, pp. 144–147)。
  12. ^ 岡田 (2008, pp. 147–151)。
  13. ^ a b ビンモア (2015, p. 124)。またはBinmore (2004)の"What can go wrong?"の節。
  14. ^ 岡田 (2008, pp. 135–146)。
  15. ^ 神取 (2015, p. 55)。
  16. ^ 神取 (2015, p. 58)。
  17. ^ a b 神取 (2015, p. 59)。
  18. ^ 神取 (2015, p. 61)。
  19. ^ 神取 (2015, p. 69)。
  20. ^ a b 神取 (2015, p. 72)。
  21. ^ a b c 神取 (2015, p. 75)。
  22. ^ 神取 (2015, pp. 78–79)
  23. ^ シグムンド (1996, p. 384)。
  24. ^ 青木 (2003, pp. 6770)。以下この段落はこれによる。
  25. ^ この段落はビンモア (2015, p. 119)およびBinmore (2004)の"Axelrod’s Olympiad"を参照した。アクセルロッド本人の著書はアクセルロッド (1998)(原著1984年)である。
  26. ^ a b 神取 (2015, p. 30)。
  27. ^ Binmore (1998)で引用される J. Martinez-Coll and J. Hirshleifer (1991)"The limits of reciprocity"Rationality and Society 3, p35-64。
  28. ^ 神取 (2015, pp. 30–31)。著名なゲーム理論研究者「M教授」の意見を神取が解釈したもの。
  29. ^ Binmore (1998)で紹介される J. Nachbar (1992) "Evolution in the finitely repeated Prisoners' Dilemma," Journal of Economic Behavior and Organization 19, p307-326。
  30. ^ a b ビンモア (2015, pp. 119–120)およびBinmore (2004)の"Axelrod’s Olympiad"。
  31. ^ a b c Binmore (1998)。ケン・ビンモア. 「アクセルロッド『対立と協調の科学』書評:「しっぺ返し」はそんなにすごいものではありません」. ELSE, Economics Department, University College London. (1998, JASSS vol 1, no 1.).
  32. ^ 光辻克馬 (2016年9月16日). “囚人のジレンマ選手権モデル”. 構造計画研究所. 2017年5月23日閲覧。
  33. ^ グライフ (2009, pp. 354–361)
  34. ^ 山岸 (2000, pp. 48–49)。
  35. ^ 山岸 (2000, pp. 17–18)。
  36. ^ 武藤 (2005)
  37. ^ 武藤 (2005)で紹介される Raub,W.,(1988) "problematic Social Situation and the Large Number of Dilemma: A Game-theoretical Analysis," Journal of Mathematical Sociology 13(4), pp311-357や、永田えりこ(1988)「自由と効率」『方法と理論』3(1),pp43-56。
  38. ^ 武藤 (2005)で紹介される Taylor,M.(1987)Possibility of Cooperation, Cambridge University Pressや、木村邦博(2002)『大集団のジレンマ』ミネルヴァ書房。
  39. ^ Nowak (2006)の Direct Reciprocity 。以下この節はこれによる。

参考文献

[編集]
  • A.ラパポート, A.M.チャマー 著、廣松毅, 平山朝治, 田中辰雄 訳『囚人のジレンマ―紛争と協力に関する心理学的研究』啓明社、1983年1月。ISBN 978-4906143078 
  • 青木昌彦 著、滝沢弘和・谷口和弘 訳『比較制度分析に向けて』(新装版)NTT出版、2003年10月。ISBN 978-4-7571-2119-5https://books.google.co.jp/books?id=PxoVjeoohuoC 
  • アクセルロッド, ロバート 著、松田裕之 訳『つきあい方の科学――バクテリアから国際関係まで』ミネルヴァ書房〈Minerva21世紀ライブラリー〉、1998年5月。ISBN 4-623-02923-9 

関連項目

[編集]

外部リンク

[編集]