進展は基本的にない
敢えて言うなら
AlphaZero人工知能プログラミング実践入門
の内容をマインドマップに入力して理解しようとしている段階
実際にプログラミング サンプルを動かして
実感していくと進展があると思うが
ここ1か月ほど 毎日残業で
プログラミングする気力が無い ←言い訳だが
まあ、仕事も山を越しつつあるので
冬に向かってプログラミングを再開したい
AIというか機械学習の利点というと
従来 ゲームプログラミングでは
先読みの深さが強さの指標だったが
機械学習では
浅い局面でもある程度正しい評価 正しい差し手を示すことができるという直感と
先読みでも学習により正確に探索できる モンテカルロ木探索
自己対戦による経験
によりある局面に対する最善手を導き出す
「直感」
・従来の探索方法 例 アルファベータ法では
直感は無い 代わりに 一度読んだ局面の値または最善手はハッシュに記録しておいて
次に同一局面になった場合は先読みせずその値、差し手を利用する
「先読み方法」
・先読み方法自体は モンテカルロ木探索に代わる
有望な手をより深く調べる アルファベータ法では 評価値による閾値で不要な手はそれ以上読まない
が基本 浅い深さから 一定の深さまで均一に先読みしていく
「経験」
・自己対戦による経験が先読みには影響しない
評価値が自動的に更新される仕組みではないので(そういう評価関数を作っていれば別だが)
何度やっても同じ結果になる 同じ手順で負ければ 次も同じ手順になる
ランダム要素があれば変わるかもしれないが。