今日は、統計の基礎についてです。
結局、自己回帰モデルを勉強していこうとすると、避けられないいくつかの計算式や概念にぶつかってしまうので、だったら一からそれを新たに学んでいく方が、結局効率がいいと判断したためです。
とりあえず、今日のところは、「期待値」、「分散」、「サンプルサイズ」の3つの基本用語についての概念についてです。
■期待値について
期待値とは、「確率変数の実現値を, 確率の重みで平均した値」(wikiより引用)
まるでわかりませんね。
例として、下記の最高気温のデータがあるとします。
データA(月曜日:20℃、火曜日:21℃、水曜日:20℃、木曜日:22℃、金曜日:20℃)
では、土曜日の最高気温の期待値は?といったような場合です。
20℃の確率が60%、21℃の確率が20%、22℃の確率が20%ですね。
(20×60%)+(21×20%)+(22×20%)=12+4.2+4.4=20.6℃
よって、20.6℃が期待値となります。
ここから考えると、明日の土曜日は、20.6℃になるのではないか?という期待値です。
これらの5個のデータの代表的な数値のことを期待値と呼んでいるとも言えますね。
■分散について
分散とは、「確率変数の分布が期待値からどれだけ散らばっているかを示す値」(wikiより引用)
データがどれだけ散らばっているのか?を示すようですね。
例として、下記の最高気温データがあるとします。
データB(月曜日:30℃、火曜日:11℃、水曜日:30℃、木曜日:12℃、金曜日:20℃)
では、これも同様に期待値を出してみます。
30℃の確率が40%、11℃の確率が20%、12℃の確率が20%、20℃の確率が20%ですね。
(30×40%)+(11×20%)+(12×20%)+(20×20%)=12+2.2+2.4+4=20.6℃
よって、20.6℃が期待値となります。
先程のデータAと同じ期待値ですね。
さて、データAもBも同じ期待値ですが、明日土曜日の気温が20.6℃に近い気温になるのは、どちらのデータだと直感的に思いますか?
Aのデータに比べると、Bのデータの内容は、かなり変動幅が広いですね。風邪ひいちゃいそうですね。
Aのデータのように、期待値からそれぞれのデータの数値が離れていないことを、「分散が小さい」と言い
Bのデータのように、期待値からそれぞれのデータの数値が離れていることを、「分散が大きい」と言います。
よって、同じ期待値であっても、分散が小さい場合は、その期待値は信用性が高くなり、その期待値がデータ全体を代表する数値を言えそうです。
逆に分散が大きい場合は、ちょっとその数値がデータ全体を代表する数値とは言えない感じですね。
■サンプルサイズについて
サンプルサイズとは、そのまま「データの数」ですね。
データAもBも、サンプルサイズは、「5」となります。
例えば、データAの期間について、実はたまたま真夏に台風が直撃していた期間かもしれません。
このサンプルサイズが大きい場合は、その期待値がたまたまの偶然の期間であった可能性が低くなり、期待値の信用度が高いといえます。
でも、サンプルサイズが小さい場合は、そのデータを取った期間がたまたま何かあった期間になってしまう可能性もあり、期待値の信用度が低いと言えます。
■まとめ
これらの3つの要素からかんがえると、「サンプルサイズが大きく、分散が小さいほど、その期待値の信用度が高い」ということが出来ます。
■相場的に考える
自己のトレードの成績を見てみることができます。
データC(月曜日:50pips、火曜日:20pips、水曜日:30pips、木曜日:-15pips、金曜日:-20pips)
この時の期待値は、13pipsとなります。大体、毎日13pips勝っているといえます。
この場合の分散は小さいでしょうか?サンプルサイズは十分でしょうか?
例えば、扱っている通貨毎に自己の成績の期待値を見てみると良いかもしれません。
もしも、信用できる程度の期待値がだせるのであれば、それを見て今後の取扱通貨の比重を見直すことができるかもしれませんね。