アルファゼロとエルモの戦績を見ていてひとつの傾向に気がついた。
100局がこの順番で行われたのであれば、エルモは後になればなるほど強くなっている。
前半50局と後半50局とでは大きく勝率が違うことはすでにこのブログに書いているが、もっと細かく区切ったらどうなるのかをやってみた。
それは、二つ、三つ、四つ、五つの4通りで、アルファゼロから見た勝率。
二つ 98%、82%
三つ 97%、94%、79%
四つ 100%、96%、84%、80%
五つ 100%、95%、100%、80%、75%
という結果。
明らかにアルファゼロの勝率は後になるほど低くなっている。
ということはつまり、もしかするとデープラーニングのAI同士の比較では、アルファゼロはハードの性能が桁外れなので時間はかからないが回数は必要。
同じ回数なら、エルモの方が学習能力が高い。
ということになるんじゃあるまいか、そう思う。
ということなら、もう100局対戦していたなら、エルモはアルファゼロと互角の戦績を残していたのかもしれない。