これまでの解析では,得点と失点という各プレイから出力された結果をもとに勝率を説明しようと試みてきました.
次に今回からはその前段階であるプレイそのものから勝率を説明する方法を考えてみたいと思います.
ということで今回もいつもの通りデータの選別から行います.
やはり対象は143試合制の2015-2018の4シーズンのべ48チームを対象とします.
そしてこの48チームの以下の成績を取り出しました.
①勝率
②打撃(単打,二塁打,三塁打,本塁打,四球,故意四球,死球,犠打,犠飛,盗塁,打率,出塁率,長打率,OPS,IsoD,IsoP,wOBA)
③守備=UZR(※出典はdeltaより)
④投手(被本塁打,与四球,奪三振,自責点,防御率)
ということで計23種の成績を取り出してみました.なおwOBAはtheBOOKの係数を用いて算出しています.
ご覧のように投手成績の扱いが非常に難しくなっています.UZRを含み入れている以上失点やあるいはt-RAなどの打球管理を含むsabr指標は多重共線性を回避することができません.したがってここでは古典的なFIPらしく野手の守備から独立した3つの成績+自責点とかなり簡略化しました.
こちらが生データになります.気になる方は頑張って拡大して読んでみてください.
そしてこれらの成績のお互いの相関係数を一挙に求めます.
これもまたでっかいですね…ほんとに申し訳ない.
生データをそのまま解析に乗せたのでPAやAB,IPが入り込んでいますが当然こんなものは関係ないのでここからの解析ではポイしてます.
さて,ここから一体どの要素が勝率に影響を及ぼしているのか?をついに求めていきます.
今回は変数増加法による多変量解析を行いました.
すなわち,勝率との間の相関係数の高いものから順に回帰分析に組み入れていき,十分強く影響しているもののみを採用して回帰式を作成しましょうということになります.
今回は偏回帰係数のt値^2<2.00,またはp値>0.05のどちらかを十分強く影響していないと判断する基準に設定しました.
相関係数の高いものから順に,多重共線性に注意しながら要素を並べていくと①wOBA,②UZR,③K,④SB,⑤xHR,⑥xBB...となります.
これを順に回帰分析に乗せていきます.
①wOBA,UZR,K,SB
SBのp値が有意水準に達していません.SBは棄却しましょう.
②wOBA,UZR,K,xHR,xBB,SH
xHR,SHが有意水準に達していませんので棄却します.
③wOBA,UZR,K,xBB
これですべての要素が有意に勝率に影響していると考えられるかたちになりました.
しかしここにみられる偏回帰係数はそのまま比較することはもちろんできませんから,標準偏回帰係数を求めます.
まあ勝率と成績をそれぞれ標準化して回帰分析をやり直すだけなのでその過程は割愛します.
・標準化後の回帰分析
ということで,回帰分析の補正決定係数ならびに各要素の標準偏回帰係数をもとに勝率を各要素に分解してみると,
こんな感じの形になりました.
打撃が4割を占めていたり,投手と野手が3:5(6:11)の関係であったり,与四球よりも奪三振の方がわずかに大きかったりと意外な部分が数多く見られたのではないのでしょうか?
ちなみに私自身はこの4要素のみで補正決定係数が0.85もあったことが1番の驚きでしたけどもね.
なお上記の回帰式を用いて過去4シーズンのべ48チームの予測勝率を求め,実際の勝率との関係を確認してみました.
(X軸:回帰式より求めた予測勝率 / Y軸:実際の勝率)
ということでこの式は勝率を86.4%の精度で予測できるかも,という結果が得られました.
しかしながらシーズン途中ではUZRの値が大きく変動しますから(これは指標の特性上仕方がない),シーズン序盤の成績から今後のシーズン展望を予測する,という使い方は難しいかと思います.
ということで今回は各種プレイを表す成績・指標から勝率を分解してみました.
これからはセパ両リーグに分けて同じ解析を行い,リーグ間での野球の違いがないかどうかを検証してみたいと思います.







