○○さんはデータに弱いね
その一言から始めたデータベース作成
最初に買ったAccessの本の題材が教職員名簿や在庫管理
どうも自分事と思えなく競馬を題材にしました
競馬用でもいいのですが、データに強くなりたいって人の参考になれば
考え方としてはシンプルです
1.どんなことに情報を使いたいか
→わたしの場合は、競馬で的中し不労所得でウハウハ
2.そのためにどんな情報が必要か
言うは易し
まず1が明確でないとどんなデータベース(2)を作っても仕方ない
かくいうわたしも何度となくデータベースを作りなおしました
集められるデータは片っ端から集める、これが理想的なのですが、データ量が多くなると計算にも時間がかかりますし、Excelの場合は計算式の保存に多くの時間がかかります
例えばわたしが作ったExcelのデータベースに関数で予想用の計算式を作ると、計算式の保存だけで20-30分くらいかかっていました。過去形なのは、現在は計算式を保存させないようにしているためです
おそらく仕事でデータを扱っている方は、すでに膨大なデータがあるでしょう
そのデータから課題を見つける。課題さえ見つければ解決は目の前
課題とはデータの偏りだと思うのですが、それを見つけるのにみんな悩むのだと思います
結論から言えば『手当たり次第に計算してみる』
でも時間は有限ですからね。本当の意味で手当たり次第にはできない。というか、ものすごく時間がかかる
そこで推測が必要になります
『こういう課題があるはず』
ならば、こういったデータの偏りがあるはず。それを確認しよう
こうすればいいよという正解がないんです
正解があれば、そのデータ分析は必要ない(仕事にもならない)
まだ誰も見つけていない、あるいはほとんどの人が知らない切り口があるから意味があると思います
次回からデータベースの作り方について説明しますが、今回はわたしが歩んできたデータベースづくりや競馬予想の道のりをご紹介します
笑わないでくださいね。正直に歩みをご紹介するだけですから
1. 小さなデータベースを作り、傾向をみた
馬柱の情報を手入力しデータベースを作成。最初1500~2000もあればじゅうぶんかと思ったのです。レース数でいうと100レースから200レースくらい。少ないデータの中で、例えば前走新馬戦で1番人気に支持された場合に次走のOPクラスでの成績を数値化しました。これを各前走の条件別にリスト化しVLOOKUP関数で引っ張ってくるという作業をしていました。リストは前走の人気と着差、この2つだけ。同じ期間で集計すると未勝利戦が圧倒的に多く、上位クラスのレース数が少なかったため、上位クラスのレースは集計期間を長くとりました
データ数を徐々に増やした結果、1年目の回収率は90%前後。これでは意味がない。なにより手入力は時間がかかり、ミスも起こる
2. データ収集に関数を使うようになる
webで掲載されている馬柱のページをctr+Aで全選択しコピー、これをExcelに貼り付けて、関数で必要なデータだけ引っこ抜く。ただし、ここで課題がでる。Excelのセルの位置が同じ条件だけに使えるシンプルな関数だったものだから、新馬戦や3日間開催、レースの前後や馬体重発表の後などは位置がずれ都度修正が必要だった
ともあれ、データ数は5万(Excelの5万行)程度集まり、データベースとしては優秀。このころはCOUNIFSで人気×着差が主流でした
3. データ収集に複雑な関数を使うようになる
webページをコピペするだけで済むように改良。今現在は1日のレース予想に使う時間が36レースとして10分強。初期は1レースに3分位かけていたから、そう考えれば業務生産性はたいしたもの。データ量はJRA・地方とも20万弱かな
ここからは、データベースを作った先のお話
4. 血統・脚質・騎手を馬券購入判断に加える
回収率100%を超すために手を出しました。そして3年くらい、もっとかな?このデータを予想の重要な要素として使いました。的中率は100%を超えない。そう、みんなこういったデータを使いますから
5. 前走の人気や着差を疑うようになる
この2つは今回の人気と直結してしまうので、妙味は少ないんです。そこで、みんなが気にしないことは何かないか必死に考えました。その結果、レースのペースを調べることに。馬柱では前走のタイムとは別に上がり3Fが出ています。例えば2000mの全体タイムから上がり3Fを引くと、1400mの通過タイムが分かります。これをならしていって、全頭が前走同じ条件だったらという予想にしました。競馬場やそのこーすによって前半飛ばした方がよいか、末脚重視か変わりますから
6. 前走の走破タイムを重視するように
前走このタイムで、今回の条件での最高着順をだしてみました。まぁ、前走海外や地方競馬でもなければ、ローテーションって決まってきますからね
面白いアイディアではありました。穴狙いならなお。事実、地方競馬ではプラス収支に
7. 地方競馬をやめる
このブログで書いたかなぁ。川崎で大きくプラスになった次週の大井競馬で惨敗。よくよく調べると大井競馬の砂の入れ替えが影響していました。走破タイムが全く変わった。入れ替え前のデータが全く使い物にならなくなった
まぁ、いまはJRA一本でやっています。そろそろ地方も復帰しようかな
データベースを作った先のことはみなさんにお任せします。わたしがやっているデータベースの作り方を次回からご紹介
このブログはスマホでの閲覧が多いので、画像の添付はしません。計算式だけを載せるつもりです。Excelがないかたは、ごめんよ