最近(2023年5月23日)、KataGoの新しいバージョンがリリースされました。
https://github.com/lightvector/KataGo/releases/tag/v1.13.0
policyOptimismというパラメータを使用することで、既存のものよりも少し強くなったみたいです。
現在KataGoの分散トレーニングでは18ブロックのs583が最強ということになっていますが、これと比較してどれくらい強いのかを以下に示します。(discordに投稿されたものです)
583.gz = kata1-b18c384nbt-s5832081920-d3223508649.bin.gz
cv13.gz = b18c384nbt-optimisticv13-s5971M.bin.gz
一手あたりの訪問数=1000, コミ6.5目
250ゲーム (cv13.gz policyOptimism=1) vs (583.gz policyOptimism=0)
cv13.gzから見て、145勝104敗 勝率58.23% +57.73 ELO +-44.43 (ダブルパスゲーム=1)
430ゲーム (cv13.gz policyOptimism=0) vs (583.gz policyOptimism=0)
583.gzから見て、237勝191敗 勝率55.37% +37.47 ELO +-33.65 (ダブルパスゲーム=2)
200ゲーム (cv13.gz policyOptimism=1) vs (cv13.gz policyOptimism=0)
(cv13.gz policyOptimism=1)から見て、123勝77敗 勝率61.50% +81.37 ELO +-50.31
600ゲーム (cv13.gz policyOptimism=1 rootPolicyOptimism=1) vs (583.gz policyOptimism=0)
cv13.gzから見て、333勝266敗 勝率55.59% +39.03ELO +-28.52
policyOptimism無しだとs583のほうが強いですが、policyOptimismを有効にすると逆にcv13のほうが強いです。
policyOptimismが棋力アップに有効であることが見て取れます。