チベスナノート(移転しました)

新ブログに移転しました  https://chibesuna-diary.hatenablog.com/   本ブログは更新停止しております

岡田章『ゲーム理論入門』4章までの個人的まとめ

はしがき

ゲーム理論とは、相互作用する主体を扱う数学的理論である。そのため、非常に普遍的であり、あらゆる学問の共通言語になりつつある。
またゲーム理論を学ぶことで、他者理解によって利害の対立を超え協力関係を築く理性と感性(ゲームマインド)を育てることが期待される。


第1章ゲーム理論とは何だろうか

社会には、次の四つの特徴を持つ勝負事や事象が多くある。
1,プレーヤーの存在
2,プレイヤーは目標に向け動く
3,プレイヤー間は相互作用を持つ
4,ルールがある

これを数学的にモデル化したものをゲームと呼び、これを扱うのがゲーム理論である。

ゲーム理論には「どう行動するのが合理的か」と考える模範的理論の方法と「実際にどう動くか」を考える技術的理論の方法がある。これらは二つの視点として共に大切である。

ゲーム理論ノイマンモルゲンシュタインが作り、ナッシュがさらに発展させた。ノイマンとモルゲンシュタインの2人は経済学に数学の考え方を取り入れた点で偉大である。また、ゲーム理論は多くの自然科学と同様にトイモデルから一般的な系へと考察の幅を広げていくという形式をとる。

ゲーム理論において、人間は合理的(目的を実現しようとする)と理性的(他者の立場に立って考える)というふたつの性質を持つと仮定される。実際の人間は公平性など、これ以外の性質も持つが、今のところこの仮定の下で多くの事象が説明されている。この成功は人間社会のみに限らず、進化論など広範な分野に及ぶ。

ゲーム理論で用いられる、いくつかの用語をまとめておこう。
系の基本的な構成要素を「プレイヤー」と呼び、プレイヤーの大きさ(例:企業や個人など)は考えている系による。プレイヤー同士は時に協力することがある、これを「提携」と呼ぶ。プレイヤーは各「手番」ごとに行動を行い、プレイヤーの行動計画を「戦略」と呼ぶ。ゲーム開始から現在までに行った行動の系列を「履歴」と呼ぶ。ゲーム終了時にはその「結果」がわかる。結果は「選好順序」によって評価される。選好順序を数値化したものを「利得」と呼ぶ。
2人のプレイヤーが存在し、お互い対立するゲームを「ゼロ和ゲーム」、非対立のゲームを「非ゼロ和ゲーム」と呼ぶ。非ゼロ和ゲームでは協力が起こりうる。
プレイヤーが行える行動やゲームの規定のことを「ルール」という。ゲームはプレイヤー全員がルールを完全に把握している「情報完備ゲーム」とそうでない「情報不完備ゲーム」に分けられる。現実の形の多くは、情報不完備ゲームである。
行動の分析の結論は、「」と呼ばれる。

アダムスミスは社会は二つの合理性が混在したゲームであると述べた。即ち経済学においてゲーム理論は非常に有効な手法である。2つの合理性は個人合理性社会合理性であり、これらの対立により我々の社会は混乱に襲われる。


第2章選択と意思決定

プレイヤーの取りうる選択の集合Xは全順序集合である。この順序を選好順序とよび、\rightharpoonupで書く。 u:X \to {\mathbb R}効用関数と呼ぶ。

ここで、選好順序x \rightharpoonup yと実数の大小関係u(x) \leq u(y)が一致するとき、u(x)X序数的効用と呼び、大小関係のみが選択に影響し、その値の大きさは意味を持たない。
結果が確率的に決まる選択対象z \in Zを、リスクを含む選択対象と呼び、これに対して期待効用u(z)はその期待値として定義する。(Zはリスクを含む選択対象の集合)

すなわち、zを確率p_ix_iが起こるというリスクを含む確率対象とするとき、u(Z)=\sum_{i}p_iu(x_i)である。
また、X \cup Zも順序が一意に決まり、その順序はu(X)の大小関係に一致すると仮定する。この仮定を期待効用仮説とよぶ。これはXが全順序集合であっても、u(x)が一般の序数的効用では満たされない。Xに独立性と連続性を更に課すと、期待効用仮説が成り立つu(x)が定数倍を除きただ1つ存在する。このu(x)ノイマンモルゲンシュタイン効用関数という。(???)
u(x)が上に凸か下に凸かによって、プレイヤーのリスクへの考えがわかる。上に凸のとき、そのプレイヤーはリスク回避型であり、下に凸の時リスク愛好型である。
リスクを含む選択対象では、確率が客観的に定まっていない、もしくは分からない場合も多い。これらに対し、プレイヤーは主観的に確率を推測し、それに基づいて期待効用を最大化しようとすると考えられる。これをベイジアン仮説と呼ぶ。
確率については省略。


第3章戦略ゲーム

ゲームには様々なものが考えられ、それぞれのプレイヤーの行動によってその個々の利得が定まる。これらの関係をとらえるには利得表を用いるのが便利である。
また、プレイヤーのとりうる行動には複数の戦略を確立的に混ぜる「混合戦略」がある。


第4章ナッシュ均衡

ほかのプレイヤーのなんらかの行動aに対して、利得を最大化させる行動を最適応答と呼ぶ。ここで、それぞれのプレイヤーの行動が最適応答であるとき、そのような行動の組をナッシュ均衡と呼ぶ。
キチンと定義する。各プレイヤーの利得をf_i({\bf x})とする。ここで、{\bf x}は各プレイヤーがとった行動の組である。行動の組
{\bf s}=(s_1,s_2,\cdots,s_n)ナッシュ均衡点であるとは、{\bf s}からプレイヤーis_iを任意のx_iに変えたものを{\bf s}→x_iとすると、これとの間に
f_i({\bf s}) \geq f({\bf s}→x_i)
が全てのiについて成り立つことである。
つまり、プレイヤーiだけが行動を変化させても利得が増えない状態を言う。
混合戦略を認めると、ナッシュ均衡点は必ず存在する。これをナッシュの定理という。
ナッシュ均衡点が複数あるとき、どの点に落ち着くかは微妙な問題である。
あるプレイヤーiの行動a_iが、iの取りうる他の行動b_iより必ず高い利得を与えるとき、a_ib_iに対して優位と呼ぶ。またこのとき、ある戦略a_iiの取りうる他の全ての行動に対して優位な時、a_ii支配戦略と呼ぶ。支配戦略は(存在すれば)必ず最適応答である。全プレイヤーが支配戦略をとる時、それはナッシュ均衡点である。この状態を支配戦略均衡と呼ぶ。
プレイヤーが自身の利得の最低保証(マックスミニ利得と呼ぶ)を最大化しようとする戦略をマックスミニ戦略と呼ぶ。ゼロ和2人ゲームにおいて、2人ともマックスミニ戦略をとるとき、これがナッシュ均衡である必要十分条件は2人のマックスミニ利得が一致することである。
混合戦略を認めるとき、2人のマックスミニ利得は一致する。これはマックスミニ定理と呼ぶ。

 

感想

私はダメな物理屋(学部生ごときがこう自称するのは毎回はばかられるのですが…)なので、過度に数学的すぎると理解できない特性があるのですが、あまりに数学的でないのも理解できないのだなと思いました。面倒な生き物です。記事の中ではなるべく「数学らしく」再構築しましたが、それでもやはり理論の流れが見えずらいです。

物理屋のためのx(xは任意の学問)」が求められる…

内容はまあそうだよね、という感じですが、数学とかはまあそうだよねから出発したのに気づいたらわけわかんないところにいたりするので油断しないようにします。