モンテカルロ木探索について ~奇跡のワリコミが奇跡を起こしたワケ～

こんにちは。

キャッチーな（？）タイトルを考えてみましたが、そんな大それた内容でもないですが・・・。

前の記事に書いた通り、電通大）伊藤穀志先生の発表を聞いて、これまでの囲碁プログラムないしAlphaGoが導入しているモンテカルロ木探索なる技術を、AlphaGo VS イ・セドルの第４局をネタに可視化してみようかと思います。

少し長いですが、がんばってね！

内容に間違いあれば、ぜひご指摘ください。

■モンテカルロ法とは？

乱数を用いたシミュレーションを何度も行うことにより、近似解を求める計算手法です。

例　円周率（π）を計算する

図１

・半径１の正方形（面積は４）に内接する半径１の円（面積はπ）を描きます。

・この正方形の中にぶわ～っとランダムに点を打ちます。図１は１０００個。

・円の中に入っている点の数を数えます。図１は７８６個。

・πの値は以下の数式で計算できます。

　π＝４×（７８６／１０００）＝３．１４４

オウ、なんかそれっぽい数字であるよ。

これは試行回数を多くすれば、精度があがります。（大数の法則）

参考リンク

■モンテカルロ法のゲームへの応用

図２

ある局面を起点（図２の０）として、いくつかの候補手（＊）に対してモンテカルロ法を使って終局までプレイアウトします。

＊モンテカルロ法ではない他のテクニックを使って、囲碁っぽい手を集中して考えるようになってるみたいです。

　どう見てもありえなさそうな手を考えるのは無駄だもんね。

図２を見ると、１－３が一番よさそうで、次点で１－２ですね。

ただ、試行回数が１０回ずつなので、精度がいまいち。

では、１－１から１－４まで平等に１００回ずつ試行してみるかと言うと、そうではなく・・・

図３

１－３の試行回数を増やしてみたら、図２よりちょっと勝率が落ちました。

でも、今のところまだ１－３が最有力候補。

さて、でもこれだけじゃまだなんとも言えないよね。

図４

１－２をもうちょい試してみたら、１－３より良くなった！

しかし、びみょーなところである・・・。もっとよく考えてみよう。

図５

コンピュータも当然リソースは有限なので、うまーく考える必要があります。

ここまでが、モンテカルロ木探索のざっくりイメージ。

■モンテカルロ法の強み、弱み

図１を用いて説明した通り、モンテカルロ法は確率的手法です。

したがって、「ああ打っても１局、こう打っても１局」というような布石～中盤始めくらいの段階では、モンテカルロ法は強みを発揮します。勝率６０％と５９％の手があったとして、仮に５９％の方を選んだとしても、有利は有利ですよね。

逆に、死活や攻め合いなど、分岐がたくさんあっても正しい手順が１つだけ（一本道）というのが苦手です。

人間なら、動物的な嗅覚で読みのルートを絞り、脳のリソースを集中投下しますが、コンピューターはどれだけ効率的な技術を用いても、いくつもの候補手をフラットに探索かけざるを得ない仕様になっていますから。

これ、良くあるコンピューターイメージの「計算ができるヨセや読み合いが強い」「感性や大局観が求められる布石は苦手」とは逆なので、ここを腑に落とすのは重要です。

■盤面をプロットして可視化する

さて、ようやっと本題に入ります。

図３～５のイメージに、AlphaGo VS イ・セドル　第４局の盤面図をプロットします。

まずは図６～図９まで。

図６（黒７７）

図７（白７８　候補手１）

図８（白７８　候補手２）

図９（白７８　実戦）

図１０（プロットその１）　注：勝率はてきとうです

AlphaGo：（どの進行でもワイが良さそうやけど、図８ルートが一番やばそうやな・・・）

　　　　　　（図７もちょい気持ち悪いわ・・・一応考えておくか・・・）

　　　　　　（図９はないな。考えるのも無駄やし、ポイーや）

図１１（プロットその２）　注：勝率はてきとうです

AlphaGo：（あれ、図９打ってきたんか・・・考えてへんかったで）

　　　　　　（まあええわ、これでなんとかなってるやろ。パシー）

さて、ここから図１２，１４、１６。

図１２（白８２　実戦）

図１３（プロット３）　注：勝率はてきとうです

AlphaGo：（あれ、？けったいなとこに切ってきたわ。）

　　　　　　（あれ？あれ・・・？）

図１４（黒８３～白８８　実戦）

図１５（プロット４）　注：勝率はてきとうです

AlphaGo：（ほ、ほげー）

図１６（黒７９変化図　黒最善、かつ唯一と思われる進行）

図１７（プロット５　完）　注：勝率はてきとうです

AlphaGo：（わかるかボケ！２０手先まで１本のルートしかないって無理やんけ）

とまぁ、こんな感じだったんじゃないのかな～。

対コンピューターに対して、こういう展開に持ち込むことは、至難ではあるけど、不可能ではない。

イ・セドルの棋風というのは、こういう展開に滅法強いはずなので、きちんと認識できていたら、相性は悪くないような気もしてきます。

やはり、事前に囲碁プログラムに強いセコンドをつけておくべきだったか・・・。

風の噂で、対AlphaGoで中国でも動きが見えてきているようなので、しばらく静観でしょうかね。