ずーと、ブログのほう、サボっていた。というか、何やら、本業のほうが忙しくなってきて、ブログを書く暇がなかった。というのも言い訳がましいが、本当です。まだ、この状態が続くのだが、なるべくブログもがんばるつもりだ。

 競馬予測と統計のいよいよ本論に入っていく。

 今回の競馬予測では、「重回帰分析」という手法を使う。

 まずは、この「重回帰分析」について説明しよう。"重"の付かない回帰分析の計算の本質は、「最小二乗法」の計算と等しい。正確に言えば、メインの答えは、「最小二乗法」であるが、「回帰分析」はこれに統計的な知見を付与している。

 「最小二乗法」は、高校や大学における実験レポートをまとめるときに利用された方も多いと思うが、改めて、その計算方法を、競馬予測になぞって、説明したいと思う。

 次回に続く。

 今回から競馬予測と統計に関して議論するわけであるが、その本質は、人間の行う競馬予想の多くと符合する。多くの場合、競馬新聞等で仕入れてくる過去の戦績を元にして予想するわけであるが、競馬予測も全く同じである。但し、これらの過去の戦績等の情報を数値化し(正確にいえば数理モデル化・これについてはまた説明する)、統計的処理(重回帰分析)を行っているわけである。どちらも、過去の経験則にのっとり、未来のレースの行方を予測しているのである。その意味で、競馬予測と統計の関係は、わりと馴染みやすい話題となる。
 まずは、笑い話級の小生の失敗談をご披露する。
 まだ、競馬予測を初めて間もないころ、予測手法として、重回帰分析を利用することも決めていないころ、もう5年以上も前の話である。 まずは、手始めに、馬という動物の特性を調べる目的で、一日の中でどのあたりが調子が良いかあるいは悪いかを統計的に分析した。すると、驚くべきことに、はっきりとその特性が示され、午前中10時台はあまり良くなく、徐々に調子が良くなり、午後4時~5時ごろ最高潮に達し、午後5時を過ぎるとガクンと調子が下がる。この特性があまりにもはっきりでたもので、インターネットで、馬の動物としての特性でそのような事実があるか、必死で探索したものである。競馬ファンの読者は、このへんで既に事情は呑み込めたと思う。これは、一般に一日のレース編成が、未勝利戦→新馬戦→未勝利戦→500万下→1000万下→1600万下→重賞→500万下となっているのが、真の理由である。実は、競馬予測を始めた当初は、小生、殆ど競馬については知らなかったのである。無論、現在の馬ツモ競馬予測には、このようなトンデモナイ誤解は内在していない。
 実は、これは笑い話であるが、統計処理を行う上での難しさを物語る格好の題材である。
 統計処理の場合、母集団の数(この場合過去のレース戦績)が多くなればなるほど、そこから得られる統計的数値は、信用できる値となる(数学的には大数の法則 とか中心極限定理 ・機会があったら説明する予定)。しかし、今の笑い話を考えてみよう。もし仮に、上記笑い話の馬の時間特性を競馬予測システムに内在させていたと仮定しよう。それで10年~20年、安定した予測実績を出していたとしても、今年からガタガタの予測に陥る可能性がある。何故ならば、今年から、メインレースが11Rでない場合が多くなってきたからである。すなわち、長年の過去実績が、そのまま、システムの信頼性につながらないのである。
 上記の笑い話の例は、あまりにもハッキリした間違えであるが、難しい場合もたくさんある。
 例えば、「馬Aが中山と相性が良い」と「過去の戦績」から判断する場合がある。しかし、それが本当か?もしかすると、「馬Aが中山で走ったレースは全て馬場が不良であった」ならば、不良馬場に馬Aが強いのかもしれない。
 次回に続く。

馬ツモ競馬予測サービス

 今回から競馬予測システムの根幹をなす、データマイニングに関して議論をしたい。
 データマイニング を一言でいえば、「多量のデータから何らかの知識を取り出す技術」ということになるのだが、競馬予測の場合、多量の過去のレース戦績から「次のレースの着順」という知識を取り出すことに他ならない。
 データマイニング自体は、バイオ・ネット検索・金融系テクニカル分析・流通系消費分析等、様々な場面で応用されている。多量のデータを扱うことから、確率統計学ともなじみが深く、本格的な確率競馬とも関連してくる。
 馬ツモ競馬予測システムでは、重回帰分析 という手法を利用して予測を行っている。重回帰分析についてもおいおい説明するが、この手法自体も統計学と大きく関連していることを述べたい。
 まずは、統計と競馬予測に関して議論をしたい。
 次回に続く。

馬ツモ競馬予測システム