おおぶ将棋クラブで運営している棋戦で工夫している点について、数回の記事に分けて記しています。今回はレーティング戦で採用しているレーティングの計算方式についてです。

平手対戦の棋力評価手法については、チェスのランキングづけに開発されたレーティングと呼ばれる数値指標が有名です。段・級位が *絶対評価的* な意味合いがあるのに対し、レーティングは対局場の参加者の平均棋力を一定値(典型的には1500)に定め、棋力の大小とレーティング値の大小を「勝利確率」という概念で対応づける、数学理論的な裏付けの上に構成された優れた *相対評価* の指標です。これは対局場内の仲間内での相対評価ですから、仲間の外、つまり対局場が違えばレーティング値が変わることはあたりまえで、レーティング値の絶対値には意味がありません。あくまで仲間内の他者との値の*差*がどのていどか?という指標です。相手とのレート差が分かれば、どの程度の勝利確率が期待できるかが計算できるようになってます

将棋の世界では、将棋倶楽部24など古くからあるネット対局場で採用されている、イロレーティングの計算方法を簡略化した手法がよく使われていますが、これにはさまざまな問題点のあることが指摘されています。日本アマチュア将棋連盟(通称アマ連)の採用しているレーティング計算はイロレーティングの簡略式に対して一部改造したもので、ネット対局場・81道場の方式は簡略化しないフルセットのイロレーティングの計算式をベースに非対称レーティングを導入した方式が用いられてます。しかしこれについても不十分であるとの指摘もあります。

いったい、どうして幾つも計算式が乱立するような事態になっているのでしょうか?
その原因は、ほんらい *相対評価* の指標であるレーティングを、将棋界で伝統的に用いられてきた *絶対評価的* な意味合いである段・級制に無理やり関連付けしようとしている点にある、と私は考えています。そして相対評価として割り切った適用をするにしても、イロレーティングは現実の対局場では避けられない複雑な要素
 a.初期値の与え方の不適切、
 b.対局相手の棋力の偏り、
 c.トップ層・ボトム層の数値の発散がある
 d.現実の対局数は有限(理想より少ない場合が多い)、
 e.対局のブランク期間があっても考慮されない、 
などを無視することで得られる理想化したモデルのため、実際の運用には向かない面があります。

じつは *相対評価* 指標としての役割に特化すれば、上記 a.~e.の欠点を改善する計算手法はすでに開発されていて、その発案者の名前をとって名付けられた グリコレーティング(Glicko rating)、さらにその改良版のグリコ2レーティング (Glicko-2 rating) があります。一般の対戦オンラインゲームでは広く活用されているようです。

グリコレーティングではレーティング値だけでなく、レーティング偏差 RD という概念が組み込まれています。RD はレーティング値の不確かさの指標で、例えば レーティング 1500, RD 50 という場合、真のレーティングは 68%の確率で1500±50の範囲にあり、95の確率で1500±100の範囲にあることを意味します。
RD の計算式には対局数のほか、対局と対局のブランク期間によって変化する仕組みがあり、対局数が少ないほど、またブランク期間が長いほど、RD(不確かさ)が大きくなる仕掛けになっています。イロレーティングでは棋力の不明な新入会員の初期レーティング値が真値と大きく異なると、対局相手のレーティング値も大きく変動し、対局相手のレーティング値は対局を重ねてもなかなか元に戻らず、参加者全体のレーティング値の信頼性が低下します。グリコレーティングでは信頼性の低いほうのレーティング値の変動幅を大きく制御するいっぽう、実績ある信頼性の高い相手のレーティング値の変動幅は小さく抑えられるため、イロレーティングよりも少ない対局数で、新規参入者のレーティング値が収束する利点があり、現実の対局場の実態をうまく反映することができます。

おおぶ将棋クラブでは、立ち上げ初年度はイロレーティングを採用していましたが、レーティング値と段級位との対応がわるく信頼性改善の見通しが得られなかったため、2020年度からグリコレーティングに変更しました。これにより、平手戦での棋力をより正確に反映できるよう改善しています。

関連記事
少ない会員数でも楽しめる対局運営について考えたこと2