スポンサーサイト
上記の広告は1ヶ月以上更新のないブログに表示されています。
新しい記事を書く事で広告が消せます。
【--/--/-- --:-- 】
| スポンサー広告 | コメント(-) | トラックバック(-) |
囚人のジレンマの作り方

「囚人のジレンマ」については聞いたことがあるだろう.ゲーム理論ではもっとも有名なゲームだ (実際はあまり「ゲーム的状況」になっていないのだが).このブログでも「仲介者による囚人のジレンマ解決法」という記事であつかったことがある.

最近,自分で作った演習問題 (正誤問題) を見ていてふと気づいたことがある.

「ナッシュ均衡から同時に二人が離れる (戦略を変える) ことによって,その二人の利得が両方とも改善されることはない」というステートメントの真偽を尋ねる問題だ.正解は「偽」で,囚人のジレンマを反例としてあげればよい.

囚人のジレンマを反例としてあげてくれればその問題の正解にはなる.その問題の場合ほかにももっと簡単な反例はあるが,問題によっては囚人のジレンマくらいしか思いつかないものもあるだろう.そういう問題ではしばしば「囚人のジレンマ」と答えるだけでは不十分で,出題者は利得行列を要求することが多い.すると「囚人のジレンマの利得は暗記しないといけないのか? あの数字はどうやって思いつくんだ? 手品じゃないんだから種明かしくらいして欲しい」という学生が現れるかもしれない.「ゲーム理論家は賢いからそんな数字はすぐ思いつく.ゲーム理論をマスターできるような学生にとってもそんなことは十分簡単なはずだから,その数字をどうやって思いついたかなんてことはどのテキストにも載ってないよ」と突き放せばいいのかもしれない.じっさい,作り方なんて載せてるテキストを見た記憶がない.だが,そうすると本気で囚人のジレンマの利得表を丸暗記しようとする学生が出て来るかもしれない.それは教育的にはあまり望ましい状況とは言えないので,以下に作り方を解説してみる.

リマーク.こういう天から突然与えられたような例は数学や経済理論をやっているとしばしば遭遇する.たとえば社会選択では多数決で選択肢 a が b に勝ち,b が c に勝ち,c が a に勝つようなサイクルを与えるような選好の組が突然出て来る (たとえば投票者 1 は abc の順に選好,2 は bca の順,3 は cab の順).その作り方はまず説明されない.

簡単なので説明しておこう.要するに a→b→c→a のサイクルを最初に考えて,1の選好はこのサイクルのc→a 部分をぶった切ったもの,2の選好は a→b 部分をぶった切ったもの,3の選好はb→c部分をぶった切ったものとすればいい.図式は三原麗珠のアローの定理解説ビデオの 2:59 あたりからの解説にある.(同ビデオのスライドの pdf は香川大学学術情報リポジトリにある.)

まず,(もっとも簡単な) 囚人のジレンマは2人ゲームで (プレーヤーは Player 1, Player 2 とする),プレーヤーはそれぞれ戦略を2個持つことくらいは覚えておこう (Player 1 の戦略は U, D で,Player 2 の戦略は L, R としておく).そうすると戦略の組は4つしかない.したがって利得表を埋めるための数字としてはたとえば 0, 1, 2, 3 の4個を用意しておけば十分である.

詳細.まず,Player 1 が順序付けすべき対象は,4つの戦略ペアだけである.混合戦略を考えないという前提では,利得の意味するものはその大小関係にすぎない.したがって(1, 2, 2.1, 2.101) なんていう4つの数字を (0, 1, 2, 3) と言い換えたところで問題はない.同様に Player 2 の利得を表すにも 4 つの数字で十分だ.読者は 「Player 2 は Player 1 の 10 倍感じる」ということを表現しようとしてPlayer 2 の利得に使う数字を (0, 10, 20, 30) としたいかもしれないが,これも (0, 1, 2, 3) と言い換えられる.つまり非協力ゲーム理論では通常は「Player 2 は Player 1 の 10 倍感じる」なんて個人間比較は意味がないものとされる.じっさい非協力ゲーム理論のまともな解 (均衡概念) をみれば分かるように,異なる戦略ペアにたいする特定のプレーヤの利得の比較はするが,異なるプレーヤー同士の利得は比較しない.(均衡の定義で左辺に i の利得が,右辺に j の利得があるような式は現れないはずだ.)

あとは囚人のジレンマの (i) ストーリーあるいは (ii) 特徴のいずれかを覚えておけばよい.

囚人のジレンマの作り方 1

囚人のジレンマのストーリーを覚えておく.そうすると 4 つある戦略ペアをどういう順番でそれぞれの囚人が順序づけるかは分かるはずだ.利得の低い方から 0, 1, 2, 3 の値を当てはめればできあがり.

囚人のジレンマの作り方 2

この作り方では 0, 1, 2, 3 から利得を当てはまる必要はない.囚人のジレンマの特徴として以下を覚えておく (最後2つの特徴は本質的ではないので,作り方 3 では外す):

  • 各プレーヤーは (強い) 支配戦略を持つ.
  • (均衡である) 支配戦略の組に対応する利得ペアよりも両者にとって望ましい利得ペアがある.後者の利得ペアに対応する戦略ペアはとうぜんナッシュ均衡ではない.
  • 均衡での利得ペアは (u, u) のように両プレーヤーの利得が等しいものになっている.また前項で言う,均衡におけるものより望ましい利得ペアは (u', u') のように両プレーヤーの利得が等しいものになっている.
  • 利得ペア (u, u) は利得表の右下,(u', u') は左上に現れる.

2.1. 均衡における利得ペア (u, u) を適当に決め,u' = u + 1 とする.仮に (u, u) = (1, 1) とすると,(u', u')=(2, 2) になる.

2.2. この段階で利得表は以下までできている.

L R
U (2, 2) (?, ?)
D (?, ?) (1, 1)

あとは,D と R が支配戦略になるように表を埋めれば以下のようになる.ここでは戦略を切り替えたときの利得の差が 1 になるように揃えた.

L R
U (2, 2) (1-1, 2+1)
D (2+1, 1-1) (1, 1)

つまり,

L R
U (2, 2) (0, 3)
D (3, 0) (1, 1)

補足2.1. もし利得を 0, 1, 2, 3 から選ぶならば, (u, u) = (1, 1),そして (u', u') = (2, 2) となる.

  • (u, u)=(0, 0) にはならない.もし (0, 0) であれば,(可能な利得が 0, 1, 2, 3 と,すべて 0 以上であるため),D や R が支配戦略であることに反する.
  • 一方,(u', u')=(3, 3) にはならない.もし (3, 3) であれば,(可能な利得が 0, 1, 2, 3 と,すべて 3 以下であるため) (3, 3) に対応する戦略ペアがナッシュ均衡になってしまう.
  • 以上より,0< u < u' < 3 であるから,u = 1, u' = 2 となる.

補足 2.2. 利得ペア (u, u)=(1, 1) を利得表の右下にすれば,利得ペア (u', u') = (2, 2) の位置は左上になる.

もし (u', u') = (2, 2) を以下の図のように右上に持って来ると,D が支配戦略であることに反する.

L R
U (?, ?) (2, 2)
D (?, ?) (1, 1)

同様に, (u', u') = (2, 2) を左下に持って来ると,R が支配戦略であることに反す.

囚人のジレンマの作り方 3

「囚人のジレンマの作り方 2」で挙げた囚人のジレンマの特徴のうち,最初の2つを使う.各プレーヤーの利得には 0, 1, 2, 3 の数をすべて使うことにする.

3.1. Player 1 の利得を以下のように割り当てる.この割り当ては覚えておいた方がいい (補足 3.2).

L R
U (0, ?) (2, ?)
D (1, ?) (3, ?)

3.2. D が支配戦略になっていることに注意すると L が支配戦略になることが分かる.(詳細.もし,R が支配戦略ならば (D, R) が支配戦略の組となるが,Player 1 の利得が 3 なので,これより改善できないことになる.)

3.3. Player 2 の (D, L) における利得は 0 あるいは 3 にはならないことに注意する.(詳細.この利得が 0 ならば,L は支配戦略にならない.この利得が 3 ならば, (D, L) が支配戦略の組となるが,Player 2 の利得が 3 なので,これより改善できないことになる.)

もし Player 2 の(D, L) における利得が 1 ならば,利得表は以下の通りに決まり,これは囚人のジレンマになる.(均衡を右下に持って来たければ,L の列と R の列を入れ替えればよい.シンメトリックな利得行列が得られる.)

L R
U (0, 3) (2, 2)
D (1, 1) (3, 0)

補足 3.1. 3.3でもし Player 2 の(D, L) における利得が 2 ならば,利得表は以下のようになり (ただし (x,y)=(0, 1) or (1, 0)), 均衡 (D, L) から両者が改善することはできない.

L R
U (0, 3) (2, x)
D (1, 2) (3, y)

補足 3.2. 3.1で Player 1 の利得を以下のように割り当てると失敗する.

L R
U (0, ?) (1, ?)
D (2, ?) (3, ?)

補足 3.3. 3.1で Player 1 の利得を以下のように割り当ててもよい.最後に得られる利得行列はシンメトリックになる.

L R
U (1, ?) (3, ?)
D (0, ?) (2, ?)

あるいは「縦書き」に数字を増やして,

L R
U (2, ?) (0, ?)
D (3, ?) (1, ?)

(HRM からの寄稿)

スポンサーサイト
【2009/04/27 07:28 】
| 社会科学 | コメント(4) | トラックバック(0) |
| ホーム |
上記広告は1ヶ月以上更新のないブログに表示されています。新しい記事を書くことで広告を消せます。