GTOとゲーム理論

GTOではゲーム理論由来の用語や概念が数多く出てきます。ここでは、説明する上で必要な最低限の知識をカバーできるように解説していきます。

ゲーム理論とは

ゲーム理論とは複数人の間で行われる意思決定を数学的モデルを用いて問題として分析するもので、数学者であるフォン・ノイマンと経済学者のオスカー・モルゲンシュテルンによって生み出されました。ポーカーはゲーム理論の上では 非協力・展開型・不完全情報のモデル だと分類できます。

モデルの種類意味
非協力プレイヤーの行動の選択に利得が発生し、そのプレイヤー自身への利益になったり、他のプレイヤーにとっての損失になったりする。こうした背景から、プレイヤー間で合意を形成できない。
展開型プレイヤーがターン制のように順番に行動を選択し、自分の行動の際には相手プレイヤーが取った行動を知ることができる。ゲームツリーを構築して経路ごとの利得を比較できる。
不完全情報プレイヤーに情報がすべて開示されない。未来の分岐があるとき、自分がどの意思決定点にいるか識別できない。

ゲームツリーと利得

ある行動を選択するときにどれくらいの利益があるか、どれくらいの損失を被るかを数値として評価するとき、利得 を比べると表現します。ポーカーのような非協力・展開型のゲームではプレイングの分岐を木構造で表現し、それぞれの利得を後ろから評価していく (=バックワードインダクション) と導き出すことができます。この時に用いる行動の選択によって枝分かれする未来を木構造で表現したものを ゲームツリー と呼びます。

6-max 有効スタック 100BB、プリフロップでのUTGからの AT での2.5BBオープンはどれくらいの価値があるでしょうか?こうした疑問もゲームツリーの分岐を辿っていくとそれぞれの経路での最終利得がわかり、比較していくとプリフロップ時点での期待値も導き出せるわけです。

戦略とは

行動を一定の指針に基づいてアルゴリズムのように選択すると決めているとき、それをゲーム理論では 戦略 と呼びます。戦略はゲームツリーの経路であり、そのうち「こういう場合はこうする」と予め決めているものを指します。

相手の戦略がわかっているとき、「相手が選択Aをとったら自分は選択Bをとる」と決めていることも戦略です (ポーカーではとくにエクスプロイト戦略がこの動きになります) し、「プリフロップではUTGからATで2.5BBでオープンする」と決めていることも戦略です。また、乱数によって違う選択をとるものも戦略です。

純粋戦略

戦略の中でも、100%の頻度で (=常に) 同じ選択をとる戦略を 純粋戦略 と呼びます。ポーカーで純粋戦略が出てくるのはトーナメントの中終盤などに起こる「ショートスタックでのプッシュオアフォールド」の状況です。有効スタックがお互いに6BBといった状況では、どちらかがオールインして、その相手がコールするだけです。どのハンドでオールインするかを考えた時、ハンドは「絶対にオールインする」か「絶対にフォールドする」かのどちらかです。

混合戦略

異なる複数種の行動を頻度によって使い分けるような戦略を 混合戦略 と呼びます。ポーカーでは色々なシチュエーションで混合戦略が出てきます。

アンノウンを相手している 6-max 有効スタック 100BB、プリフロップでのUTGからの AA での2.5BBオープンは100%の頻度で行うべきだと思います。これは純粋戦略です。

では、KT ではどうでしょう?GTO Wizardが提示した均衡解の1つでは、約 14\frac14 の頻度でオープンし、残りの約 34\frac34 の頻度でフォールドすることになります。これはフォールドの割合が多いからと100%の頻度でフォールドするようなプレイをしてはいけないのです。なぜならバランスの取れた頻度でのプレイによって戦略のバランスを取り、相手からエクスプロイトされないようにしているからです。じゃんけんでグー・チョキ・パーをそれぞれ 13\frac13 の頻度で出すのはバランスの取れた戦略ですが、これを偏らせてしまうとエクスプロイト戦略が生まれてしまうのは直感に近いと思います。これと同じ理由です。

戦略の無差別と均衡

どんな戦略をとっても利得が変わらないとき、それは「無差別になっている」と表現します。また、このように相手の戦略が無差別になる戦略を 均衡戦略 と呼びます。GTOの目指すところは均衡戦略でのプレイを認識することです。

均衡戦略を相手にすると、どんな戦略をとっても利得が変わりません。これは カウンターとなる対抗戦略が存在しない ことを意味します。均衡戦略は次のような状況を作り出します。

  • ナッツを含むこちらのハンドレンジでの均衡戦略をとっているベットに対して、相手は何もできずにチップを失う。
  • 相手のブラフ頻度が無差別になる均衡戦略をとることで、相手のブラフ頻度に関係なくブラフに対抗できる。
  • 相手の戦略が均衡戦略からどのようにずれているのかを測ることで、こちらも逆方向にずらすことでエクスプロイトできる。

語弊を恐れずに言ってしまえば、均衡戦略は各状況における正解です。均衡戦略でないあらゆる戦略には必ずカウンター戦略が存在し、エクスプロイトする余地があります。均衡戦略は最強の戦略でもなんでもありません。しかし、均衡戦略がどのようなものになるかを正しく認識できれば、均衡戦略をとっていない相手プレイヤーからどのようにエクスプロイトするべきか導き出すことができます。

ソルバーの利用

戦略の評価にはゲームツリーを構築し、経路ごとの利得を後ろから比較していくことで可能なのでした。しかし、ポーカーの行動の選択肢はアクションの種類 (コール・レイズ・フォールドなど) に加えてベットサイズも細かく刻むことができ、手元にある2枚のカードやボードのカードの組み合わせなどを考えると膨大です。こうした組み合わせの数や行動分岐の数によって形作られるゲームツリーのサイズが大きければ大きいほど、より大きな計算リソースが必要になります。人間がコンピュータなしで自力で計算するのはとても不可能です。

GTO Wizard や Deepsolver、PioSOLVERなどのツールはこの計算を行うアプリケーションです。計算結果は均衡戦略を知るための手がかりとして有用ですが、それ以上に「なぜその選択になるのか」「なぜその頻度なのか」「別の選択をとるとどうなるのか」といった分析を行うと理解度が深まり、類似する他のシチュエーションに応用できるようになります。このウェブサイトが目指すのはこうした分析を行うための必要知識を網羅することです。